零基础实践深度学习(第二版)
作者简介
内容简介
第3章计算机视觉 3.1卷积神经网络基础 3.1.1概述 计算机视觉作为一门让机器学会如何去“看”的学科 ,具体地说,就是让机器去识别摄像机拍摄的图片或视频中 的物体,检测出物体所在的位置,并对目标物体进行跟踪, 从而理解并描述出图片或视频里的场景和故事,以此来模拟 人脑视觉系统。因此,计算机视觉也通常被叫作机器视觉, 其目的是建立能够从图像或者视频中“感知”信息的人工系 统。 计算机视觉技术经过几十年的发展,已经在交通(车牌 识别、道路违章抓拍)、安防(人脸闸机、小区监控)、金融 (刷脸支付、柜台的自动票据识别)、医疗(医疗影像诊断) 、工业生产(产品缺陷自动检测)等多个领域应用,影响或 正在改变人们的日常生活和工业生产方式。未来,随着技术 的不断演进,必将涌现出更多的产品和应用,为我们的生活 创造更大的便利和更多的机会,如图3.1所示。 ■ 图3.1计算机视觉技术在各领域的应用 飞桨为计算机视觉任务提供了丰富的API,并通过底层 优化和加速保证了这些API的性能。同时,飞桨还提供了丰 富的模型库,覆盖图像分类、检测、分割、文字识别和视频 理解等多个领域。用户可以直接使用这些API组建模型,也 可以在飞桨提供的模型库基础上进行二次研发。 由于篇幅所限,本章将重点介绍计算机视觉的经典模 型(卷积神经网络)和图像分类任务,而在第4章介绍目标检 测。本章主要涵盖如下内容。 (1) 卷积神经网络。卷积神经网络(Convolutional Neural Network,CNN)是计算机视觉技术最经典的模型结 构。本教程主要介绍卷积神经网络的常用模块,包括卷积、 池化、激活函数、批归一化、暂退法等。 (2) 图像分类。介绍图像分类算法的经典模型结构, 包括LeNet、AlexNet、VGG、GoogLeNet、ResNet,并通过 眼疾筛查示例展示模型和算法的应用。 计算机视觉的发展历程要从生物视觉讲起。对于生物 视觉的起源,目前学术界尚没有形成定论。有研究者认为最 早的生物视觉形成于距今约7亿年前的水母之中,也有研究 者认为生物视觉产生于距今约5亿年前寒武纪。 经过几亿年的演化,目前人类的视觉系统已经具备非 常高的复杂度和强大的功能,人脑中神经元数目达到1000 亿个,这些神经元通过突触互相连接,这样庞大的视觉神经 网络使我们可以很轻松地观察周围的世界,如图3.2所示。 ■ 图3.2人类视觉感知 对人类来说,识别猫和狗是件非常容易的事。但对计 算机来说,即使是一个精通编程的高手,也很难轻松写出具 有通用性的程序(比如: 假设程序认为体型大的是狗,体 型小的是猫,但由于拍摄角度不同,可能一张图片上猫占据 的像素比狗还多)。那么,如何让计算机能像人一样看懂周 围的世界呢?研究者尝试着从不同的角度去解决这个问题, "本书从人工智能、机器学习和深度学习三者的关系开始,以深度学习在计算机视觉、自然语言处理和推荐系统的应用实践为主线,逐步剖析模型原理和代码实现。书中的内容深入浅出,通过原理与代码结合、产业实践和作业结合的方式,帮助读者更好地掌握深度学习的理论知识和深度学习开源框架的使用方法。为了让更多的读者从中受益,快速应对复杂多变的AI应用,书中还 介绍了各种模型资源和辅助工具,旨在帮助读者在人工智能的战场上和“AI大师”一样无往不利。 人工智能是一门跨学科的技术,本书既可作为深度学习的入门读物,又可作为人工智能或相关学科本科生和研究生的教材,还可供AI爱好者和从业者使用。 "