30秒探索数据大爆炸

出版时间 2023-02-28T00:00 地球科学 98664

作者： [英]利伯蒂·维特尔特（Liberty Vittert）
出版社： 华中科技大学
原售价: 88.00
折扣价: 52.20
折扣购买: 30秒探索数据大爆炸
ISBN： 9787568086103

作者简介

利伯蒂·维特尔特（Liberty Vittert），现为圣路易斯华盛顿大学奥林商学院数据科学实践教授。她经常为众多新闻机构撰稿，并且在福克斯商业频道（Fox Business）开设了一个名为“统计学家生活指南”（A Statistician’s Guide to Life）的每周专栏。作为英国皇家统计学会大使、英国广播公司杰出女性专家和国际统计学会当选会士，利伯蒂不遗余力地向公众传播统计学与统计数据。同时，她也是《哈佛数据科学评论》副主编，以及联合国难民署美国委员会成员。

内容简介

数据收集现代计算技术的发展使我们一时间获取了大量信息，因此，数据科学这一学科应运而生。从前，收集和分析数据仅限于手工操作，而现代技术的进步意味着我们生活中方方面面的信息都会被收集起来：从购买日用品到使用智能手表记录每一次运动。现在收集到的海量数据将使我们的生活发生翻天覆地的变化。许多公司如雨后春笋般出现，它们收集的数据之多超乎想象。仅以脸书（Facebook）和谷歌为例，它们收集了大量的个人信息，也就是说，它们对我们知之甚多，甚至掌握着某些连我们最亲密的朋友和家人都不得而知的信息。每一次，只要我们点击谷歌上的链接或是在脸书上给某个帖子点赞，相关数据就会被收集起来，而后这些公司对我们的了解便增加一分。在将这些信息与它们收集到的与我们有相同特点的人的信息结合后，它们就可以有针对性地向我们投放广告，并预测我们无论如何都料想不到的事情，比如我们的政治忠诚度。数据可视化如何实现 “90%的政客都会撒谎”，这句话从何而来？更重要的是，这是事实吗？在日常生活中，我们可以看到形形色色的数据概括：饼状图会告诉我们美国人最喜欢的巧克力棒是什么，新闻报道会告知我们一生中罹患癌症的概率有多大。所有这些概括都来自或基于收集到的信息，但它们似乎总是相互矛盾。为什么会这样呢？因为数据并不简单，概括也不简单。我可以这样概括，你可以那样概括，但孰对孰错呢？这就是问题的症结所在：我们很可能会被自己所看到的数据概括“牵着鼻子走”。即便数据概括是正确的，也可能无法合理地、精准地反映其所代表的数据。例如，你知道在20岁及以上的女性中，青少年怀孕现象将会大幅减少吗？从技术层面上来说，确实如此，但就事实而言，这一数据概括毫无用处。所以，今后再看到数据概括时，你不妨思考一下它是否被曲解，然后再相应地考虑其结果。从数据中学习收集数据确实大有裨益，但是在我们收集到数据之后，除了进行概括，还可以做些什么呢？有了模型，我们就能采用比以往更复杂、更有效的方式从数据中获取信息。有了模型，数据科学家就能行之有效地用一条或多条数据预测他们感兴趣的结果（这便又增添了一条数据）。例如，年龄和性别数据可用于预测一个人在未来5年内是否会患上关节炎。在掌握一些人是否患有关节炎的数据后，我们可以用他们的年龄与性别信息建模，这一模型可以帮助我们预测其他人是否会患关节炎。除了预测新数据以外，数据还可以用于确定某一特定结果的原因。这一过程被称作“因果推断”，它通常用于研究疾病，比如，通过分析DNA（脱氧核糖核酸）来确定病因。然而，尽管在上述两例中，预测关节炎病例都是最终目的，但它们所代表的建模问题却有着细微的不同，甚至有着截然不同的建模过程。根据与特定项目相关的数据与目标选择最佳模型是所有数据科学家必备的主要技能之一。机器学习机器学习的理念是让计算机在无须人工辅助的前提下，学会以一种自动化的方式不断学习与提升。算法可以在系统中运行并自动做出决策，这通常有助于加快决策过程，减少人为错误。在这个系统中，机器学习算法利用接收到的数据预测未来，帮助系统在不同的选项之间运行、选择。随后，算法根据从接收到的信息中学到的内容进行自我更新，确保未来继续做出最佳决策。声田（Spotify）是机器学习在日常生活中得到运用的一个实例。这款音乐软件拥有数百万用户，能够根据用户听过的歌曲得知他们喜欢哪种类型的音乐。声田对刚开始使用这款软件的新用户知之甚少，因此只能随机推荐歌曲。但用户一旦开始听歌，算法就会不断了解他们的音乐偏好以及他们与其他用户的偏好之间的联系。用户听过的歌曲越多，算法就越准确，为他们推荐的歌曲也会更加精准。神经网络与深度学习神经网络是最常见的机器学习方法之一，最初它是科学家从人脑中得到启发提出的。与人脑一样，神经网络由相互连接的（人造）神经元组成，这些神经元能够解释图像以及其他类型的数据。神经网络在日常生活中起到了很大作用，能够识别智能手机照片中的人脸，还能读取信封上的地址，确保它们能够送达正确的地址。深度学习是一组基于神经网络展开的机器学习方法的统称，其中有着大量的相互连接的人造神经元层。深度学习的用途之一是分析和回应信息，这些信息可能是以文本的形式（例如智能客服机器人）出现的，也可能是以语音的形式（例如亚马逊语音助手Alexa和苹果智能语音助手Siri）出现的。然而，深度学习最大的用途是图像处理。深度学习可用于分析无人驾驶汽车捕捉的图像，解释结果，并建议汽车根据需要调整行驶路线。目前，深度学习也开始被应用于医学领域，用以分析利用磁共振成像（MRI）或X射线等技术形成的图像，成了识别肿瘤病变等的有效方法。抽样 “垃圾进，垃圾出”：数据科学家都知道，数据质量决定结果质量，因此大多数数据科学家都明白要密切关注测量值的收集。当数据分析师掌握了整个总体的数据（比如奈飞会记录其订阅用户的观影习惯）时，他们只需通过计算数字便可得出论。但掌握整个总体的数据其实是不切实际的。在医疗诈骗犯罪调查中，“完整的总体”是数以万亿计的医疗索赔记录，但律师可能会让数据科学家有策略地选择记录中的一个子集，并从中得出结论。其他时候，如在政治民调中，只有样本可供使用。如果样本是随机选择而得，此时就需要统计学理论来告诉我们，从样本到对总体的概括有多大的可信度。数据科学家越来越依赖所谓的“非概率抽样”，即非随机地选择样本。因此，使用推特（Twitter）数据来跟踪某位候选人或某个品牌的人气并非选择了一个具有代表性的随机样本，但这一方法仍有其意义。算法偏差人类在执行同一项任务时会有不同的表现，算法正是通过处理这些不同的例子来学习如何做出决策的。量刑算法的训练基于成千上万条法官所做出的历史性判决与有关罪犯及其罪行的信息。有些法官对某类人的判决更为严厉，如果这些法官被当作这些训练数据的来源，那么他们的偏见就会被复制到模型之中。2018年，麻省理工学院媒体实验室（MIT Media Lab）称，美国微软公司及美国IBM公司（International Business Machines Corporation，国际商业机器公司）所开发的面部识别系统在识别女性面孔时效果欠佳，在识别肤色较深的女性时频频出错。由于英美警察已经开始测试用于预防犯罪的自动面部识别系统，此类系统若是不够精确，总是发出虚假警报，公民自由将大大受限。2018年，亚马逊停用了简历自动筛选工具，因为该工具持有性别偏见。其系统的运行以此前应聘成功者的数据为基础，而由于技术行业从业人员中男女比例失衡，这些应聘成功者大多为男性。因此，求职申请中若是含有更可能出现在女性简历中的字眼（如“女足”），应聘者就会处于劣势。通过学习，该算法将男性简历等同于成功，而将女性简历等同于失败。气候变化要对气候趋势进行预测，我们首先要收集和处理大量数据（如历年全球平均气温）。刻画全球平均气温变化情况的函数是多变量函数。大气中的温室气体以高于平均水平的速度增加，捕获高于平均水平的热量，这会阻碍热量的及时发散。海平面上升、沥青铺设面积增加、冰量减少等因素也会降低散热速度。在理想状态下，如果吸热速度等于散热速度，那么全球平均气温将保持不变，而散热延迟破坏了这种平衡。尽管不平衡的状态只是暂时存在，但在这段时间内，热量会持续存留。此外，平衡恢复之后，温度并非回到之前的水平，而是进入新常态。我们可能会进入不同的新常态：有些会令人轻微不适，有些则可致命。为了知道我们可能会进入哪种新常态，我们必须收集足量的数据来避免会误导预测的小幅波动。研究人员正在收集全球气温、海冰厚度等数据，这些数据共同体现了温室气体水平的危险极限。治愈癌症基础科学发现有助于解释癌症机制，催生了靶向治疗和对患者预后的研究，让我们更加了解成功的疗法，使我们离治愈癌症又近了一步。数据科学让我们能够检验介入治疗的价值。具体来说，统计思维在随机试验中发挥了基础作用。1954年，美国国家癌症研究所（National Cancer Institute）首次采用随机试验测试治疗急性白血病的方法。早在40年前，癌症研究就已经开始依赖现今数据科学中的内容了，如研究设计、数据分析和数据库管理等。如今，分子生物学技术为每位患者都提供了成千上万种检测手段，能够检测癌细胞中的突变、染色体结构变化、基因表达异常、表观遗传变异和免疫应答等。这一技术的主要目的是利用这些信息提高诊断水平，定制治疗方法。分子生物学技术带来了庞大而复杂的数据集，丰富的统计知识和高超的计算技巧有助于高效处理这些数据集，并避免偶然事件的干扰。流行病学流行病学是收集数据，研究疾病的人群分布、模式和成因等的科学。这门科学融合了多个学科（如统计学、社会科学、生物学和工程学）来进行相关运算，以防控传染病和非传染病在人群中的传播。流行病学影响公共卫生，并为当前的预防性手段（如疫苗接种）、非预防性手段（如糖尿病筛查）以及今后会采用的一些方法（如基于微生物组的诊断方式）提供依据。流行病学证据推动政府制定健康政策和指导方针（如儿童疫苗接种），以保护公民健康。该领域因遏制流行病和传染病暴发而闻名。1854年，约翰·斯诺博士首次定义了流行病学的概念，当时，他查明了伦敦的霍乱病例起源于一处被污染的水源。此外，2013年，西非出现了由埃博拉病毒引起的死亡病例，随着疾病不断蔓延，人们开始调查埃博拉病毒如何以及为何传播得如此迅速。这项调查为该地区的卫生防疫计划提供了信息支撑，控制了病毒的传播。相关运算，以防控传染病和非传染病在人群中的传播。流行病学影响公共卫生，并为当前的预防性手段（如疫苗接种）、非预防性手段（如糖尿病筛查）以及今后会采用的一些方法（如基于微生物组的诊断方式）提供依据。流行病学证据推动政府制定健康政策和指导方针（如儿童疫苗接种），以保护公民健康。该领域因遏制流行病和传染病暴发而闻名。1854年，约翰·斯诺博士首次定义了流行病学的概念，当时，他查明了伦敦的霍乱病例起源于一处被污染的水源。此外，2013年，西非出现了由埃博拉病毒引起的死亡病例，随着疾病不断蔓延，人们开始调查埃博拉病毒如何以及为何传播得如此迅速。这项调查为该地区的卫生防疫计划提供了信息支撑，控制了病毒的传播。 ★大数据，不仅改变了人们生活的方方面面，更被上升为国家战略，让孩子了解何为数据科学，如何利用数据科学已经刻不容缓，最前沿的科学普及不可不知！ ★本书主编为数据科学的资深观察家和实践者，在本书中分享了数据收集、分析的实用方法及其局限性，着重介绍了数据大爆炸对科学、社会、商业、娱乐、未来的影响，最前线的一手分析，不可不看！ ★本书以大众耳熟能详的知名人物为线索，增加阅读趣味。内有数据科学领域知名人物的传记和重要贡献，了解科学家的奇闻轶事，让阅读更有趣，让记忆更深刻。 ★本书体例新颖，层次清晰，让阅读更轻松。每个主题，都分为3秒击破概念，30秒探简明解析，3分钟认知拓展，可充分利用碎片化时间一览概念，也可沉浸式阅读深入研究探索。 ★图书为全彩印刷，图文结合，文字简略凝练，信息量大，图片炫酷、有创意，激发孩子好奇心和求知欲，让孩子主动思考，培养孩子的科学思维！在这个节奏越来越快的世界里，科学家是最受瞩目的明星，期待遇见热爱科学的你！

作者简介

内容简介

猜你喜欢