爬虫Scrapy框架-初学

时间：2022-05-27 23:04:06 收藏：0 阅读：19

安装： python -m pip install Scrapy

创建项目：python -m scrapy startproject xxx （不知道为什么必要加python -m 待解决）

进入项目：cd xxx #进入某个文件夹下

创建爬虫：python -m scrapy genspider xxx（爬虫名） xxx.com （爬取域）

# 注意:这个域名是可以随便写的[但是必须要写 ]，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可!

/* 其他

生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)

运行爬虫：scrapy crawl XXX
列出所有爬虫：scrapy list
获得配置信息：scrapy settings [options]

pycharm打开项目

测试的print函数没有显示解决办法：在配置文件settings. py中找到

# Obey robots.txt rules
ROBOTSTXT_OBEY = True → 改成 False

自定义项目启动文件（不用cmd，还可以通过debug此py文件达到调试此scrapy框架的作用）：

1.在项目文件夹下创建名为main.py或者manage.py的py文件：

2.在此py文件下编写代码如下：

from scrapy.cmdline import execute
import sys
import os

# 保证终端执行 "scrapy", "crawl", "Spider.name" 这个命令运行不出现路径问题！（可以不写！）
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "Spider.name"])

原文：https://www.cnblogs.com/Rohmi/p/15354722.html