爬虫Scrapy框架-初学
时间:2022-05-27 23:04:06
收藏:0
阅读:9
安装: python -m pip install Scrapy
创建项目:python -m scrapy startproject xxx (不知道为什么必要加python -m 待解决)
进入项目:cd xxx #进入某个文件夹下
创建爬虫:python -m scrapy genspider xxx(爬虫名) xxx.com (爬取域)
# 注意:这个域名是可以随便写的[但是必须要写 ],等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可!
/* 其他
生成文件:scrapy crawl xxx -o xxx.json (生成某种类型的文件)
运行爬虫:scrapy crawl XXX
列出所有爬虫:scrapy list
获得配置信息:scrapy settings [options]
*/列出所有爬虫:scrapy list
获得配置信息:scrapy settings [options]
pycharm打开项目
测试的print函数没有显示 解决办法: 在配置文件settings. py中找到
# Obey robots.txt rules
ROBOTSTXT_OBEY = True → 改成 False
自定义项目启动文件(不用cmd,还可以通过debug此py文件达到调试此scrapy框架的作用):
1.在项目文件夹下创建名为main.py或者manage.py的py文件:
2.在此py文件下编写代码如下:
from scrapy.cmdline import execute
import sys
import os
# 保证终端执行 "scrapy", "crawl", "Spider.name" 这个命令运行不出现路径问题!(可以不写!)
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "Spider.name"])
原文:https://www.cnblogs.com/Rohmi/p/15354722.html
评论(0)