Python数据整理/数据科学与工程技术丛书
作者简介
Tirthajyoti Sarkar博士是半导体技术领域的高级工程师,他将前沿的数据科学与机器学习技术应用于设计自动化和预测分析,并定期撰写关于Python编程和数据科学主题的文章。 他拥有伊利诺伊大学的博士学位和斯坦福大学与麻省理工学院的人工智能和机器学习的证书。 Shubhadeep Roychowdhury 是一家总部在巴黎的网络安全初创公司的高级软件工程师,目前致力于应用先进的计算机视觉、数据工程算法和工具开发尖端产品。他经常撰写Python算法实现和类似主题的文章。他拥有西孟加拉邦科技大学的计算机科学硕士学位和斯坦福大学的机器学习证书。
内容简介
为了使数据有用且有意义,必须对其进行整理和提炼。本书将向你揭示这些过程背后的核心思想,并让你掌握该领域中流行的工具和技术的相关知识。 本书以Python为基础,重点关注数据结构,然后深入到数据整理的基本工具,如Numpy和pandas库。你将深入了解为什么应该远离基于其他语言实现的传统数据清理方式,而利用Python中特定的预建例程。 Python提示和技巧的组合将演示如何使用相同的Python后端从各种数据源(包括互联网、大型数据库和Excel财务表)提取和转换数据。为了帮你应对更具挑战性的场景,本书将向你介绍如何处理缺失数据或错误数据,并根据下游分析工具要求重新格式化数据。本书将通过现实世界的例子和数据集进一步帮助你掌握相关概念。 通过本书的学习,你将有信心对各种不同的数据源进行高效的提取、清理、转换并格式化数据。 通过阅读本书,你将学到: ?使用与操作复杂和简单的数据结构。 ?在运行时充分利用DataFrame和Numpy数组。 ?使用BeautifulSoup4和html5lib执行网络抓取。 ?使用正则表达式(RegEX)执行高级字符串搜索和操作。 ?通过pandas处理异常值与执行数据填充。 ?描述性统计和绘图技术的使用。 ?基于数据生成技术的数据整理和建模。