R数据挖掘实战
作者简介
[意]安德烈亚·奇里洛(Andrea Cirillo):目前就职于意大利联合圣保罗银行(Intesa Sanpaolo Banking Group),担任审计量化分析师一职。在此之前,他曾在德勤会计师事务所(Deloitte Touche Tohmatsu)从事财务和外部审计相关工作,以及在 FNM(一家意大利上市公司)从事内部审计相关工作。他目前的主要工作职责涉及信用风险管理模型的评估及改进—主要围绕巴塞尔协议Ⅲ这一领域。他与弗朗西丝卡(Francesca)结婚,并共同养育四个子女,他们的名字名别是:托马索(Tommaso)、吉安娜(Gianna)、扎卡里亚(Zaccaria)和菲利波(Filippo)。安德里亚(Andrea)曾编写并供稿一些有用的 R语言软件包,包括 updateR、ramazon 和 paletteR,此外,他会定期地分享一些关于 R 语言编程的深刻见解和教程。他的研究工作主要聚焦于通过建模定制算法以及开发交互式应用程序,实现 R 语言在风险管理和欺诈检测领域中的应用。
内容简介
通过本书的学习,读者能够: ·掌握数据挖掘的相关软件包,如dplyr、ggplot2等。 ·学会如何通过数据挖掘标准流程(CRISP-DM)来有效地组织数据挖掘项目。 ·对数据执行数据清理和数据验证操作—为数据挖掘活动准备数据。 ·以数值方式和图形方式分别执行探索性数据分析。 ·开发简单线性回归模型、多元线性回归模型以及逻辑回归模型。 ·应用基本的集成学习技术整合不同数据挖掘模型的结果。 ·对非结构化的PDF文件和文本数据执行文本挖掘及分析。 ·编制有效传达数据分析目标、方法和洞察的报告。