数据分析练习-3.14进度

时间：2020-03-15 10:03:35 收藏：0 阅读：70

今天对行业分类进行了完成，学到了新知识python字符串相似度比较，不难但很实用，可以返回两个字符拆串的相似程度，我也利用了这一点比较和各行业的相似程度，然后分配行业，成果较好。

当然对相似度的比较，少不了原数据，那么我爬取了百度的一个网址，爬取到了内容，这里遇到了一个问题，就是百度会限制代码端，所以我们要伪装一下，具体如下：

 url = ‘https://baike.baidu.com/item/国民经济行业分类/1640176?fr=aladdin‘
 headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36‘,}
 strhtml = requests.get(url, headers=headers)        #Get方式获取网页数据

通过这样的伪装就可以爬取到你想要的数据了，明天我会继续努力，完成最后一部分。

原文：https://www.cnblogs.com/lover995/p/12495421.html