python爬虫

时间:2018-12-26 00:11:28   收藏:0   阅读:165

根据特定的需求,抓取指定的数据

代替浏览器上网

  网页的特点:

    1、网页都有自己唯一的URL

    2、网页内容都是html结构

    3、使用的都是http或https协议

  爬虫步骤:

    1、给一个URL

    2、写程序,模拟浏览器访问URL

    3、解析内容,提取数据

  环境:

    windows环境、linux环境

    python3.6   64位

  使用的工具:

    1、库

      urllib \ requests \ bs4

    2、解析网页内容的知识

      正则表达式、bs4、xpath、jsonpath

    3、涉及到动态html

      selenium+phantomjs、chromeheadless

    4、scrapy框架

    5、scrapy-redis组件

    6、涉及到爬虫-反爬虫-反反爬虫的一些内容

      UA、代理、验证码、动态页面等

http协议

     

原文:https://www.cnblogs.com/yellowhat/p/10176992.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!