大数据分析--基于R语言/大数据系列丛书
作者简介
内容简介
第3章 Chapter 3在R中加载及处理数据 学习成果 通过本章的学习,您将能够: 将不同类型的数据存储为向量(vector)、矩阵 (matrixe)和列表(list); 从csv文件、电子表格(spreadsheet)、Web、 JASON文档和XML中加载数据; 处理缺失及无效的数据; 在数据上运行R函数(sum()、min()、max()、 rep()、grep()、substr()、strsplit()等); 用R访问数据库,如MySQL、PostgreSQL、 SQLlite和JasperDB; 创建可视化,以加深对数据的理解。 3.1概述 如今,企业应用程序产生了大量的数据。对这些数 据进行分析可以得出有用的见解,从而帮助决策者做出 更好和更快的决策。本章将介绍R支持的不同的数据类 型,如数字、文本、逻辑值、日期等。同时介绍各种R对 象,如向量、矩阵、列表、数据集等,以及如何使用R函 数sum()、min()、max()、rep()和字符串函数substr ()、grep()、strclip()等操作数据。探讨将csv (comma separated values)文件、电子表格、XML文档 、JASON(JavaScript Object Notation)文档、Web数 据等导入R,以及R与MySQL、PostGreSQL、SQLite等数 据库的连接方式。数据分析中存在很多挑战,例如数据 并不总是同质的,即数据的来源不同,并且格式也不同。 在保证数据质量的同时会带来若干挑战,利益相关者也 会从各种角度观察数据,并且会产生不同的需求。 3.2分析数据处理的挑战 分析数据处理是商业智能的一部分,包括关系数据 库、数据仓库、数据挖掘和报告挖掘,这是一种计算机 处理技术,可以处理不同类型的业务,如销售、预算、 财务报告、管理报告等,以上这些处理技术都需要大数 据技术的支持。 商业分析结合了大数据技术,在商业数据分析过程 中出现了不同的挑战。然而,这些挑战大多与数据有关, 它们在项目的早期阶段就出现了。 3.2.1数据格式 数据是商业分析的主要元素。商业分析使用数据集 (sets of data)存储大量的数据。对研究人员或开发者 而言,选择数据格式是分析数据处理中的首要挑战。分 析数据处理需要一个完整的数据集,在没有数据集的情 况下,开发人员会在进一步的处理中遇到问题。 R是一种文档健全的编程语言,它将数据存储成对象 的形式。R有一个非常简单的语法,有助于处理任何类型 的数据。R具有许多软件包和功能,如可以处理数据格式 类型不同的开放数据库的连接(ODBC),ODBC支持CSV、 MS Excel、SQL等数据格式。 大数据分析——基于R语言第3章在R中加载及处理