![玩转Python网络爬虫](https://file.mhuoba.com/shop/3/100021/picture/book/20200819/10/20200819101107630.jpg)
出版社: 清华大学
原售价: 69.00
折扣价: 49.00
折扣购买: 玩转Python网络爬虫
ISBN: 9787302503286
黄永祥,信息管理与信息系统专业学士,曾从事过系统开发和自动化开发,精通B/S和C/S自动化测试技术,多年网络爬虫开发经验,对反爬虫机制有独到的见解,精通Flask、Django等Web框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司,担任Python开发工程师,目前就职于广东数据集成有限公司。热爱分享和新技术的探索,在CSDN上发表多篇Python技术文章。
"本书站在初学者的角度,从原理到实践,深入、系统地阐述了使用Python 3开发网络爬虫的核心技术,全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。 基础篇 主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。 网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析。 数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识。 数据清洗主要介绍字符串操作、正则表达式和Beautiful Soup的使用。 数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。 实战篇 深入讲解了分布式爬虫、爬虫软件的开发与应用、12306抢票程序和微博爬取,所举实例均来自于编者的开发实践,可帮助读者快速提升技能,开发自己的实际项目。 爬虫框架篇 主要讲述Scrapy的原理和特性,通过爬取QQ音乐实例,介绍Scrapy在网络爬虫中的应用技巧。本部分内容可使读者深入地了解Scrapy的使用,并举一反三,编写出复杂的网络爬虫程序。 本书既介绍编写网络爬虫的各种技术,又注重以网络爬虫和网站分析的思想为出发点,培养读者编写网络爬虫的逻辑思维,使读者能够针对不同的网站制定出不同的爬虫方案;此外,还介绍了反爬虫机制和相应的解决方案,是读者入职爬虫工程师的极佳实践。 本书所有程序代码均在Python 3.5环境下测试通过,读者可从网络上下载本书所有实例源代码。 "