2010-03-05

Nutch的安装与配置

Nutch的介绍

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫.

Nutch的安装

在Apache官方网页下载目前最新版本的 Nutch-1.0 ,大小83M。解压下载的压缩包:

$ tar -zxvf nutch-1.0.tar.gz

环境变量的配置

确保已安装jdk和tomcat,设置环境变量NUTCH_JAVA_HOME:

$ export NUTCH_JAVA_HOME=$JAVA_HOME

抓取前的配置工作

新建myurl文本文件，文件中写入要抓取网站的顶级网址，即要抓取的起始页。以我抓取我们公司的博客网站为例： http://blog.ossxp.com/

编辑conf/crawl-urlfilter.txt文件，修改MY.DOMAIN.NAME部分，把它替换为你想要抓取的域名（地址），即把:

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
修改为：
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*ossxp.com/

编辑conf/nutch-site.xml文件，在<configuration></configuration>中加入下面一段:

<configuration>
    <property>
        <name>http.agent.name</name>
        <value>HD nutch agent</value>
    </property>
    <property>
        <name>http.agent.version</name>
        <value>1.0</value>
    </property>
</configuration>

运行crawl命令抓取网站内容

在当前工作目录中，运行以下命令行:

$ bin/nutch crawl myurl -dir mydir -depth 4 -threads 4

在上述命令的参数中，myurl 就是刚才我们创建的那个文件,存放我们要抓取的网址,dir指定抓取内容所存放的目录，depth表示以要抓取网站顶级网址为起点的爬行深度， threads指定并发的线程数。

使用tomcat运行查看结果

如果已经抓取成功，则可以在Tomcat上部署了。复制nutch-1.0.war到tomcat目录/webapps 修改修改/webapps/nutch/WEB-INF/classes/nutch-site.xml:

<nutch-conf>
   <property>
      <name>searcher.dir</name>
      <value>mydir目录的地址</value>
   </property>
</nutch-conf>

最后在浏览器中输入: http://localhost:8080/nutch-1.0 就可以查询了。

Go 语言解析 git config	2019-03-17	Comments
二分查找捉虫记	2016-02-29	Comments
做一个有品位的程序员	2015-12-23	Comments

World Hello