大数据爬虫技术(21世纪技能创新型人才培养系列教材)/大数据系列

大数据爬虫技术(21世纪技能创新型人才培养系列教材)/大数据系列
作者: 编者:黄源//李兵川//尹光辉|责编:苏昌盛//郭会娟
出版社: 中国人民大学
原售价: 49.00
折扣价: 34.30
折扣购买: 大数据爬虫技术(21世纪技能创新型人才培养系列教材)/大数据系列
ISBN: 9787300318851

作者简介

黄源,重庆航天职业技术学院大数据技术与应用专业负责人,教授, 主要讲授“大数据导论”“大数据分析”“数据可视化”等专业核心课程;主编的教材有《数据清洗》《大数据分析》《Linux操作系统应用》《计算机网络基础》等,具有丰富的专业课程教学经验和教材编写经验。曾主持重庆市教委重大课题。

内容简介

1.1 爬虫简介
网络爬虫(Web Spider)又称为“网络机器人”“网络蜘蛛”,是一种通过既定规则,能够自动提取网页信息的程序。爬虫的目的在于将目标网页数据下载至本地,以便于进行后续的数据分析。爬虫技术的兴起源于海量网络数据的可用性,通过爬虫技术使我们能够较为容易地获取网络数据,并通过对数据的分析得出有价值的结论。
网络爬虫在信息搜索和数据挖掘过程中扮演着重要的角色,对爬虫的研究开始于20世纪,目前爬虫技术已趋于成熟。网络爬虫技术最早应用于搜索引擎领域,是搜索引擎获取数据来源的支撑性技术之一。随着数据资源的爆炸式增长,网络爬虫的应用场景和商业模式变得更加广泛和多样,较为常见的有新闻平台的内容汇聚和生成、电子商务平台的价格对比功能、基于气象数据的天气预报应用,等等。一个出色的网络爬虫工具能够处理大量的数据,大大节省了人类在该类工作上所花费的时间。网络爬虫通过自动提取网页的方式完成下载网页的工作,实现大规模数据的下载,省去诸多人工烦琐的工作。
1.1.1 爬虫运行机制
网络爬虫是一种数据收集的方式,广泛用于搜索引擎、市场分析等领域。
网络爬虫运行机制如下:爬虫从一个或若干个种子页面开始,获得种子页面上的链接,并根据需求来追踪其中的一些链接,达到遍历所有网页的目的。在抓取网页的过程中,一方面提取需要的数据信息,另一方面从当前页面上抽取新的网页地址放入待处理队列,直到满足系统一定的停止条件,具体运行机制如图1 - 1 所示。