作者:aishuren,发布日期:2020-03-16
阅读:546;评论:0

《用 Python 写网络爬虫》内容简介
作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。
《用Python写网络爬虫》作为使用 Python 来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用 AJAX URL 和 Firebug 扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理 cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用 Scrapy 创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。
《用Python写网络爬虫》介绍了如下内容:通过跟踪链接来爬取网站;使用 lxml 从页面中抽取数据;构建线程爬虫来并行爬取页面;将下载的内容进行缓存,以降低带宽消耗;解析依赖于 JavaScript 的网站;与表单和会话进行交互;解决受保护页面的验证码问题;对 AJAX 调用进行逆向工程;使用 Scrapy 创建高级爬虫。
本书读者对象,本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。
《用 Python 写网络爬虫》作者简介
理查德・劳森(Richard Lawson)来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过 50 个国家的业务提供远程工作。他精通于世界语,可以使用汉语和韩语对话,并且积极投身于开源软件。他目前在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。
《用 Python 写网络爬虫》百度网盘下载
资源下载 |
资源格式:PDF/EPUB/MOBI/AZW3 | 资源大小:11.73M |
声明:本站所有资源均来自网络,如有【版权】或【链接失效】等问题,请留言告知! | ||
下载地址:百度网盘 |
手捧纸书随心阅,身入识海任意游
本站资源均源于网络,因版权问题不提供直接下载,可以添加微信代找书,尊重版权,试阅之后,购买正版。