Nutch的安装与配置
Nutch的介绍
Nutch是一个开源Java实现的 搜索引擎 。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫.环境变量的配置
确保已安装jdk和tomcat,设置环境变量NUTCH_JAVA_HOME:$ export NUTCH_JAVA_HOME=$JAVA_HOME
抓取前的配置工作
-
新建myurl文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。以我抓取我们公司的博客网站为例: http://blog.ossxp.com/
-
编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分,把它替换为你想要抓取的域名(地 址),即把:
# accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 修改为: # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*ossxp.com/
-
编辑conf/nutch-site.xml文件,在<configuration></configuration>中加入下面一段:
<configuration> <property> <name>http.agent.name</name> <value>HD nutch agent</value> </property> <property> <name>http.agent.version</name> <value>1.0</value> </property> </configuration>
运行crawl命令抓取网站内容
在当前工作目录中,运行以下命令行:$ bin/nutch crawl myurl -dir mydir -depth 4 -threads 4在上述命令的参数中,myurl 就是刚才我们创建的那个文件,存放我们要抓取的网址,dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度, threads指定并发的线程数。
使用tomcat运行查看结果
如果已经抓取成功,则可以在Tomcat上部署了。复制nutch-1.0.war到tomcat目录/webapps 修改修改/webapps/nutch/WEB-INF/classes/nutch-site.xml:<nutch-conf> <property> <name>searcher.dir</name> <value>mydir目录的地址</value> </property> </nutch-conf>最后在浏览器中输入: http://localhost:8080/nutch-1.0 就可以查询了。