2010-03-05

Nutch的安装与配置

Nutch的介绍

Nutch是一个开源Java实现的 搜索引擎 。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫.

Nutch的安装

在Apache官方网页下载目前最新版本的 Nutch-1.0 ,大小83M。解压下载的压缩包:
$ tar -zxvf nutch-1.0.tar.gz

环境变量的配置

确保已安装jdk和tomcat,设置环境变量NUTCH_JAVA_HOME:
$ export NUTCH_JAVA_HOME=$JAVA_HOME

抓取前的配置工作

  1. 新建myurl文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。以我抓取我们公司的博客网站为例: http://blog.ossxp.com/

  2. 编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分,把它替换为你想要抓取的域名(地 址),即把:

    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
    修改为:
    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*\.)*ossxp.com/
    
  3. 编辑conf/nutch-site.xml文件,在<configuration></configuration>中加入下面一段:

    <configuration>
        <property>
            <name>http.agent.name</name>
            <value>HD nutch agent</value>
        </property>
        <property>
            <name>http.agent.version</name>
            <value>1.0</value>
        </property>
    </configuration>
    

运行crawl命令抓取网站内容

在当前工作目录中,运行以下命令行:
$ bin/nutch crawl myurl -dir mydir -depth 4 -threads 4
在上述命令的参数中,myurl 就是刚才我们创建的那个文件,存放我们要抓取的网址,dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度, threads指定并发的线程数。

使用tomcat运行查看结果

如果已经抓取成功,则可以在Tomcat上部署了。复制nutch-1.0.war到tomcat目录/webapps 修改修改/webapps/nutch/WEB-INF/classes/nutch-site.xml:
<nutch-conf>
   <property>
      <name>searcher.dir</name>
      <value>mydir目录的地址</value>
   </property>
</nutch-conf>
最后在浏览器中输入: http://localhost:8080/nutch-1.0 就可以查询了。
blog comments powered by Disqus