MATLAB图像、音频和视频处理基础：模式识别应用

出版时间 2022-09-01T00:00 MATLAB 30686

作者： (印)兰詹·帕雷克|责编:文怡|译者:章毓晋
出版社： 清华大学
原售价: 89.00
折扣价: 67.64
折扣购买: MATLAB图像、音频和视频处理基础：模式识别应用
ISBN： 9787302605645

作者简介

"作者简介兰詹·帕雷克（Ranjan Parekh），工程学博士，印度贾达夫普尔大学（加尔各答）教育技术学院教授，在研究生阶段讲授与图形和多媒体相关的课程。研究兴趣包括多媒体信息处理、模式识别和计算机视觉等。著有《多媒体原理》《MATLAB 图形学基础》《MATLAB图像、音频和视频处理基础：模式识别应用》等图书，发表多篇学术文章。译者简介章毓晋（ZHANG Yu-Jin），比利时列日大学应用科学博士，荷兰德尔夫特大学博士后及研究人员。清华大学教学科研系列长聘教授，博士生导师。2003年学术休假期间同时被聘为新加坡南洋理工大学访问教授。在清华大学，先后开设并讲授10多门本科生和研究生课程。在南洋理工大学，开设并讲授过研究生课程：“现代图像分析（英语）”。已出版50多部中英文图书，发表500多篇学术文章。现为中国图象图形学学名誉监事长，中国图象图形学学会会士，国际光学工程协会（SPIE）会士（因在图像工程方面的成就）。 "

内容简介

第3章视频处理 3.1引言视频是图像和音频的组合，因此一般而言，只要对图像和音频有效的理论和应用，通常也对视频有效。视频由一组称为帧的静止图像组成，这些图像以称为帧率的特定速度一个接一个地显示给用户，以每秒帧数为单位，缩写为fps。如果以足够快的速度显示，人眼无法将单幅图像区分为单独的实体，而是将连续图像合并在一起，从而产生活动图像的错觉，这种现象称为视觉暂留（PoV）。已经观察到帧率应该在25~30fps ，以便让人眼感知没有间隙或抖动的平滑运动。添加音频并与图像的活动同步可以创建完整的视频序列。因此，一个视频文件是由多个图像帧和一个或多个音轨组成。同时处理如此多信息的一个缺点是文件大小增加，需要大量处理资源来处置它们。例如，一个一分钟的视频文件由30帧组成，每帧大小为640×480像素，并使用24位彩色信息，则占用的空间超过1582MB。以44100Hz 采样的音频每分钟为文件增加10MB。此外，播放视频文件需要大约30MB/s的带宽。因此，压缩方案对于视频处理如此大的开销非常重要。为了创建数字视频，我们首先需要将视觉和音频信息以电信号的形式记录在磁带或磁盘上。用于指定这种表示形式的术语是运动视频，以将其与电影院中使用的另一种称为运动图片的表示形式区分开，后者在电影院中使用光化学过程将视频帧记录到赛璐珞胶片上。电子信号形式的运动视频由模拟摄像机生成并存储在磁带（如录像带）中，然后使用录像带播放器（VCP）进行播放。电视传输也是运动视频显示的流行示例。早期的模拟摄像机使用称为阴极射线管（CRT）的真空管来生成这些信号，然后可以将这些信号馈送到监视器以显示视频，而音频则使用麦克风单独录制并馈送到扬声器以生成声音。单色或灰度视频需要来自摄像机的单个强度信号作为视觉信息以及一两个音频信号，具体取决于播放的声音是单声道还是立体声。为了在CRT监视器屏幕上显示图像，来自阴极的电子束被激活并聚焦在涂有荧光粉的屏幕上发光。磷光体是一种化学物质，当它与电子等带电粒子接触时会发出光芒。为了在屏幕上生成图像，电子束从屏幕的左上角开始，从左到右依次扫描第一行荧光点。在每条水平线的末尾，光束对角移动到下一行的开头并开始跟踪操作。在右下角，光束对角移动到左上角的起点，并再次重复该操作。这个过程称为光栅扫描，通常每秒需完成大约60次以获得屏幕上稳定的画面，这称为显示器的刷新率，屏幕上产生的每幅图像称为一帧。支持60帧/秒的监视器会产生不闪烁的图像，称为逐行扫描监视器。另 "本书采用程序实现的实际操作方法，介绍多媒体处理的概念和原理及其在模式识别中的应用，包括使用数据分析和可视化工具MATLAB读取、修改和写入图像、音频和视频文件的工具和技术。主要特点：（1）涵盖图像、音频和视频处理的基本概念。（2）演示如何使用MATLAB解决媒体处理问题。（3）讨论图像处理工具箱、音频系统工具箱和计算机视觉工具箱的重要功能。（4）提供特定问题的MATLAB代码作为答案。（5）展示使用Simulink进行音频和视频处理。（6）覆盖时空域和频域中的处理技术。本书是本科高年级生和研究生学习图像处理、语音和语言处理、信号处理、视频目标检测和跟踪以及相关多媒体技术课程的完美伴侣，重点是使用编程结构和技能开发的实际实现。本书还适合模式识别、计算机视觉和基于内容检索领域的研究人员，以及学习多媒体处理、统计分析和数据可视化的MATLAB课程的学生。"

作者简介

内容简介

猜你喜欢