scrapy-redis分布式爬虫

时间:2021-05-12 10:11:19   收藏:0   阅读:11

Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。

一、Scrapy-Redis分布式策略:

二、安装scrapy-redis:

pip3 install scrapy-redis

三、安装Redis数据库

Master端需要安装Redis数据库,可以参照:redis数据库使用

需要注意的是,配置文件redis.conf中需要注释掉bind 127.0.0.1这一行,从而允许Slaver端远程连接。

四、实现Scrapy-Redis分布式爬虫

注:如果仅仅想通过redis数据库来进行去重和保存数据,只需按照上述设置settings.py即可,然后使用命令:scrapy crawl 爬虫名 来执行爬虫,切记不需要通过redis数据库客户端lpush指令了

原文:https://www.cnblogs.com/eliwang/p/14747043.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!