数据分析练习-3.14进度

时间:2020-03-15 10:03:35   收藏:0   阅读:70

今天对行业分类进行了完成,学到了新知识python字符串相似度比较,不难但很实用,可以返回两个字符拆串的相似程度,我也利用了这一点比较和各行业的相似程度,然后分配行业,成果较好。

当然对相似度的比较,少不了原数据,那么我爬取了百度的一个网址,爬取到了内容,这里遇到了一个问题,就是百度会限制代码端,所以我们要伪装一下,具体如下:

 url = https://baike.baidu.com/item/国民经济行业分类/1640176?fr=aladdin
 headers = {User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36,}
 strhtml = requests.get(url, headers=headers)        #Get方式获取网页数据

通过这样的伪装就可以爬取到你想要的数据了,明天我会继续努力,完成最后一部分。

原文:https://www.cnblogs.com/lover995/p/12495421.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!