爬虫自学难度大,相对于人工智能、数据分析、深度学习来讲,Python爬虫还是比较简单的。想要从事爬虫工作,需要掌握以下知识:
一般获取数据的过程都是按照 发送请求-获得页面反馈-解析并且存储数据 这三个流程来实现的。这个过程其实就是模拟了一个人工浏览网页的过程。
Python中爬虫相关的包很多:urllib、requests、bs4、scrapy、pyspider 等,我们可以按照requests负责连接网站,返回网页,Xpath 用于解析网页,便于抽取数据。