大数据爬虫技术(21世纪技能创新型人才培养系列教材)/大数据系列-其他类别-其他类别-搜书网-全品类搜书网站-正版纸质书籍折扣信息大全

作者： 编者:黄源//李兵川//尹光辉|责编:苏昌盛//郭会娟
出版社： 中国人民大学
原售价: 49.00
折扣价: 34.30
折扣购买: 大数据爬虫技术(21世纪技能创新型人才培养系列教材)/大数据系列
ISBN： 9787300318851

作者简介

黄源，重庆航天职业技术学院大数据技术与应用专业负责人，教授, 主要讲授“大数据导论”“大数据分析”“数据可视化”等专业核心课程；主编的教材有《数据清洗》《大数据分析》《Linux操作系统应用》《计算机网络基础》等，具有丰富的专业课程教学经验和教材编写经验。曾主持重庆市教委重大课题。

内容简介

1.1　爬虫简介
网络爬虫（Web Spider）又称为“网络机器人”“网络蜘蛛”，是一种通过既定规则，能够自动提取网页信息的程序。爬虫的目的在于将目标网页数据下载至本地，以便于进行后续的数据分析。爬虫技术的兴起源于海量网络数据的可用性，通过爬虫技术使我们能够较为容易地获取网络数据，并通过对数据的分析得出有价值的结论。
网络爬虫在信息搜索和数据挖掘过程中扮演着重要的角色，对爬虫的研究开始于20世纪，目前爬虫技术已趋于成熟。网络爬虫技术最早应用于搜索引擎领域，是搜索引擎获取数据来源的支撑性技术之一。随着数据资源的爆炸式增长，网络爬虫的应用场景和商业模式变得更加广泛和多样，较为常见的有新闻平台的内容汇聚和生成、电子商务平台的价格对比功能、基于气象数据的天气预报应用，等等。一个出色的网络爬虫工具能够处理大量的数据，大大节省了人类在该类工作上所花费的时间。网络爬虫通过自动提取网页的方式完成下载网页的工作，实现大规模数据的下载，省去诸多人工烦琐的工作。
1.1.1　爬虫运行机制
网络爬虫是一种数据收集的方式，广泛用于搜索引擎、市场分析等领域。
网络爬虫运行机制如下：爬虫从一个或若干个种子页面开始，获得种子页面上的链接，并根据需求来追踪其中的一些链接，达到遍历所有网页的目的。在抓取网页的过程中，一方面提取需要的数据信息，另一方面从当前页面上抽取新的网页地址放入待处理队列，直到满足系统一定的停止条件，具体运行机制如图1 - 1 所示。

作者简介

内容简介

猜你喜欢