python爬虫

时间：2018-12-26 00:11:28 收藏：0 阅读：165

根据特定的需求，抓取指定的数据

代替浏览器上网

　　网页的特点：

　　　　1、网页都有自己唯一的URL

　　　　2、网页内容都是html结构

　　　　3、使用的都是http或https协议

　　爬虫步骤：

　　　　1、给一个URL

　　　　2、写程序，模拟浏览器访问URL

　　　　3、解析内容，提取数据

　　环境：

　　　　windows环境、linux环境

　　　　python3.6 　　64位

　　使用的工具：

　　　　1、库

　　　　　　urllib \ requests \ bs4

　　　　2、解析网页内容的知识

　　　　　　正则表达式、bs4、xpath、jsonpath

　　　　3、涉及到动态html

　　　　　　selenium+phantomjs、chromeheadless

　　　　4、scrapy框架

　　　　5、scrapy-redis组件

　　　　6、涉及到爬虫-反爬虫-反反爬虫的一些内容

　　　　　　UA、代理、验证码、动态页面等

http协议

原文：https://www.cnblogs.com/yellowhat/p/10176992.html