Nutch-Hadoop-MongoDB搭建分布式爬虫

作者 : 开心源码 本文共396个字,预计阅读时间需要1分钟 发布时间: 2022-05-11 共68人阅读

千里之行,始于足下.不积跬步,无以致千里


一、实现目标

用Nutch、Hadoop、MongoDB实现一个简单的分布式爬虫,在Hadoop上运行Nutch爬虫抓取网页,存储到MongoDB中。

二、试验环境

CentOS7 Linux x86_64

JDK 1.8.0_161

mongodb 2.6.12-6

hadoop 2.9.1

apache-ant-1.9.4

apache-nutch-2.3.1

三、安装Oracle JDK

可参考《Nutch-MongoDB-ElasticSearch搭建搜索引擎》:https://www.toutiao.com/i6539542640034054663/

四 、安装配置MongoDB

可参考《Nutch-MongoDB-ElasticSearch搭建搜索引擎》:https://www.toutiao.com/i6539542640034054663/

五、安装配置Hadoop

Nutch-Hadoop-MongoDB搭建分布式爬虫

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Nutch-Hadoop-MongoDB搭建分布式爬虫

发表回复