
出版社: 中国青年
原售价: 79.80
折扣价: 50.30
折扣购买: Python文本数据分析与挖掘
ISBN: 9787515362946
1975年毕业于东京大学工学部电子工学专业。1977年完成工学专业课程硕士课程。1978年进入斯坦福大学电气工学专业,1984年退出博士课程,进入日本艾比?艾姆东京基础研究所工作。2000年加入到东邦大学理学部情报科学科,任东邦大学理学部情报科学科教授。
首先,我们要弄清楚三个问题:文本挖掘是干什么的?其内容是什么?在什么场合会用到文本挖掘?文本挖掘就是通过分析文本,把其中的信息压缩后提取出来的一种技术。需要准备的工具有两个:能把语言特征提取出来的自然语言处理技术和能从特征中把信息提取出来的统计处理技术。文本挖掘技术在问卷调查的意见分析、评价分析、话题的关联性分析和文书检索、分类等领域都得到了广泛的应用。 文本挖掘是指从文本数据中把信息挖掘出来,如同从大量沙土中找出被掩埋的宝贵钻石,文本挖掘是从大量文本数据中找出被掩埋的“有意义的信息”。 通过使用自然语言处理技术和统计学工具,从大量的文本数据中提取出压缩后有意义的信息。在这里,我们分别使用“文本数据”和“信息”这两个词。先说文本数据,比如各种各样的文件、在社交平台上发布的信息、关于产品或服务的问卷调查结果,这些数据的产生都有原本的目的。也就是说,我们是为了写文件、为了在社交平台上发布信息、为了评价产品或服务等目的,才去写作各种文本,而这些文本就是我们输入的“数据”。文本挖掘,就是从这些数据入手,比如从社交平台中提取出最近的流行趋势,从问卷调查中提取出对某种商品或服务的整体评价和出现的问题(图1-1)。而上面说的从社交平台上提取的流行趋势、通过问卷得到的评价和问题,和原来的文本数据相比,被大幅度地压缩了。我们把压缩后得到的东西称为“信息”。 一个以大数据与人工智能技术为核心的新的工业革命时代已经来临,大数据在企业决策中扮演着越来越重要的角色,数据经过高效的智能数据分析与挖掘等人工智能技术处理后,可以产生巨大价值,创造智能,方便生活。现在“统计分析和数据挖掘”已跻身最受欢迎的求职技能行列,数据分析师的薪酬待遇也远远超过平均薪资水平。这本书是写给此方向的初学者,书中用简单明快的例子演示应用效果,并配有视频展示,下载资料包即可获取视频和二维码,不会让你感觉枯燥摸不到头脑。