SPSS Modeler数据挖掘方法及应用(第3版)/数据科学与大数据技术系列
作者简介
薛薇,工学硕士,经济学博士,中国人民大学应用统计学科研究中心副主任,中国人民大学统计学院副教授。主要研究领域:机器学习和文本挖掘、复杂网络建模等。关注统计和数据挖掘算法及软件应用。涉足企业客户终身价值测算,基于文本挖掘的热点事件主题提取和分类,金融、贸易等复杂网络动态建模等方面。主要代表性教材:《SPSS统计分析方法及应用》、《R语言数据挖掘方法及应用》、《R语言:大数据分析中的统计方法及应用》、《SPSS Modeler数据挖掘方法及应用》等。
内容简介
前 言 数据挖掘和机器学习的理论和软件,是大数据分析背景下数据分析实践者所**的。SPSS Modeler是当下数据挖掘和机器学习的主流商业软件,其友好的用户操作界面、丰富的数据挖掘和机器学习算法、**的计算能力,是面向领域*终用户落地数据挖掘实践的理想工具。 在保持《SPSS Modeler数据挖掘方法及应用(第2版)》通俗易懂、理论和应用实践相结合的原有风格基础上,第3版在章节安排和内容上进行了较大调整,说明如下。 **,采用SPSS Modeler 18中文版进行讲解。 中文版本排除了**读者软件操作中的语言困难,便于将精力集中在方法理论理解和应用上。 第二,在章节安排上进行了调整。 首先,基于应用场景广泛性的考虑,压缩了第2版的部分内容,如2.3节、4.7节等;其次,第3版略去了软件版本升级中未保留下来的模块的相关章节内容,如9.3节等;再次,依据数据挖掘方法论的业务理解、数据理解、数据准备、建立模型、方案评估、方案实施,将第2版的第3、4章进行了重排,构成了第3章SPSS Modeler的数据理解和第4章SPSS Modeler的数据准备相关内容;*后,Logistic回归分析和判别分析等现代统计方法在数据挖掘和机器学习中日渐普及,为突出方法的重要性,将第2版8.1节和8.2节独立成章。 第三,增加了一些重要的建模策略和方法,极大丰富了教材内容。 例如,增加了实现数据降维的因子分析,并将相关数据精简的内容独立成章;增加了对Bagging建模策略的说明;增加了数据挖掘中广泛使用的支持向量机的相关章节;增加了以概率统计为核心,且在数据挖掘和机器学习中**行之有效的朴素贝叶斯分类方法、贝叶斯网络等相关内容。 总之,突出算法基本思路、软件操作使用和结果解读是本书的重要特征。读者学习和掌握SPSS Modeler软件应体现三个层面:首先是软件操作层面,通过实际操作快速掌握软件的使用方法和处理步骤;其次是结果分析层面,通过案例演示明晰软件输出结果的含义;*后是方法论层面,通过对算法基本思路的了解提高方法的应用水平。 因本书重点介绍主流的数据挖掘和机器学习算法,并没有对其中涉及的统计方法做详细讨论,如有需要,读者可参考电子工业出版社出版的《SPSS统计分析方法及应用》等书籍。本书适合从事数据分析的各应用领域的读者,尤其是从事商业分析、经济管理、社会研究、人文教育等行业的相关人员阅读;同时,也可作为高等院校数据科学和大数据应用、统计学、管理和财经类等专业本科生和研究生的数据挖掘和机器学习课程教材。 编著者 一、采用SPSS Modeler 18中文版进行讲解,通俗易懂、理论和应用实践相结合。 二、突出算法基本思路、软件操作使用和结果解读是本书的重要特征。 三、在章节安排上进行了调整。首先,基于应用场景广泛性的考虑,压缩了第2版的部分内容,如2.3节、4.7节等;其次,第3版略去了软件版本升级中未保留下来的模块的相关章节内容,如9.3节等;再次,依据数据挖掘方法论的业务理解、数据理解、数据准备、建立模型、方案评估、方案实施,将第2版的第3、4章进行了重排,构成了第3章SPSS Modeler的数据理解和第4章SPSS Modeler的数据准备相关内容;*后,Logistic回归分析和判别分析等现代统计方法在数据挖掘和机器学习中日渐普及,为突出方法的重要性,将第2版8.1节和8.2节独立成章。 四、增加了一些重要的建模策略和方法,极大丰富了教材内容。