Scrapy笔记

时间:2019-06-07 10:52:35   收藏:0   阅读:95

scrapy命令

scrapy startproject myStestSpider #(项目名称)
scrapy genspider myStestSpider "domain"
scrapy crawl myStestSpider

不打印Debug信息

scrapy crawl spider1Project -L WARNING

Request类

爬取普通网站,不需要验证码,不需要登入的界面,我们一般用scrapy.Request类直接去爬取信息

FormRequest

Request的重要参数

Request中的主要参数:

# url是要爬取的网址
# callback是回调函数
# method是请求的方式post还是get
# headers是浏览器伪装的头信息
# formdata表单提交的数据(FormRequest类扩展的方法)
# body是网页源代码信息
# cookies是登入某网站后,网站在你电脑上保留的信息
# meta要携带或者传递的信息 自定义,向response传递数据
# encoding是编码方式
# priority用来设置访问网站的优先级
# dont_filter是否允许重复爬取网站
# errback(callback) 在发生错误的时候执行的函数。

Response的重要参数

Response只是一个基类,根据响应内容的不同有如下子类:

TextResponse
HtmlResponse
XmlResponse

原文:https://www.cnblogs.com/zh672903/p/10987712.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!