MATLAB图像、音频和视频处理基础:模式识别应用
作者简介
"作者简介 兰詹·帕雷克(Ranjan Parekh),工程学博士,印度贾达夫普尔大学(加尔各答)教育技术学院教授,在研究生阶段讲授与图形和多媒体相关的课程。研究兴趣包括多媒体信息处理、模式识别和计算机视觉等。著有《多媒体原理》《MATLAB 图形学基础》《MATLAB图像、音频和视频处理基础:模式识别应用》等图书,发表多篇学术文章。 译者简介 章毓晋(ZHANG Yu-Jin),比利时列日大学应用科学博士,荷兰德尔夫特大学博士后及研究人员。清华大学教学科研系列长聘教授,博士生导师。2003年学术休假期间同时被聘为新加坡南洋理工大学访问教授。 在清华大学,先后开设并讲授10多门本科生和研究生课程。在南洋理工大学,开设并讲授过研究生课程:“现代图像分析(英语)”。已出版50多部中英文图书,发表500多篇学术文章。 现为中国图象图形学学名誉监事长,中国图象图形学学会会士,国际光学工程协会(SPIE)会士(因在图像工程方面的成就)。 "
内容简介
第3章视频处理 3.1引言 视频是图像和音频的组合,因此一般而言 ,只要对图像和音频有效的理论和应用,通常也 对视频有效。视频由一组称为帧的静止图像组成 ,这些图像以称为帧率的特定速度一个接一个地 显示给用户,以每秒帧数为单位,缩写为fps。 如果以足够快的速度显示,人眼无法将单幅图像 区分为单独的实体,而是将连续图像合并在一起 ,从而产生活动图像的错觉,这种现象称为视觉 暂留(PoV)。已经观察到帧率应该在25~30fps ,以便让人眼感知没有间隙或抖动的平滑运动。 添加音频并与图像的活动同步可以创建完整的视 频序列。因此,一个视频文件是由多个图像帧和 一个或多个音轨组成。同时处理如此多信息的一 个缺点是文件大小增加,需要大量处理资源来处 置它们。例如,一个一分钟的视频文件由30帧组 成,每帧大小为640×480像素,并使用24位彩 色信息,则占用的空间超过1582MB。以44100Hz 采样的音频每分钟为文件增加10MB。此外,播 放视频文件需要大约30MB/s的带宽。因此,压 缩方案对于视频处理如此大的开销非常重要。 为了创建数字视频,我们首先需要将视觉 和音频信息以电信号的形式记录在磁带或磁盘上 。用于指定这种表示形式的术语是运动视频,以 将其与电影院中使用的另一种称为运动图片的表 示形式区分开,后者在电影院中使用光化学过程 将视频帧记录到赛璐珞胶片上。电子信号形式的 运动视频由模拟摄像机生成并存储在磁带(如录 像带)中,然后使用录像带播放器(VCP)进行 播放。电视传输也是运动视频显示的流行示例。 早期的模拟摄像机使用称为阴极射线管(CRT) 的真空管来生成这些信号,然后可以将这些信号 馈送到监视器以显示视频,而音频则使用麦克风 单独录制并馈送到扬声器以生成声音。单色或灰 度视频需要来自摄像机的单个强度信号作为视觉 信息以及一两个音频信号,具体取决于播放的声 音是单声道还是立体声。为了在CRT监视器屏幕 上显示图像,来自阴极的电子束被激活并聚焦在 涂有荧光粉的屏幕上发光。磷光体是一种化学物 质,当它与电子等带电粒子接触时会发出光芒。 为了在屏幕上生成图像,电子束从屏幕的左上角 开始,从左到右依次扫描第一行荧光点。在每条 水平线的末尾,光束对角移动到下一行的开头并 开始跟踪操作。在右下角,光束对角移动到左上 角的起点,并再次重复该操作。这个过程称为光 栅扫描,通常每秒需完成大约60次以获得屏幕上 稳定的画面,这称为显示器的刷新率,屏幕上产 生的每幅图像称为一帧。支持60帧/秒的监视器 会产生不闪烁的图像,称为逐行扫描监视器。另 "本书采用程序实现的实际操作方法,介绍多媒体处理的概念和原理及其在模式识别中的应用,包括使用数据分析和可视化工具MATLAB读取、修改和写入图像、音频和视频文件的工具和技术。 主要特点: (1)涵盖图像、音频和视频处理的基本概念。 (2)演示如何使用MATLAB解决媒体处理问题。 (3)讨论图像处理工具箱、音频系统工具箱和计算机视觉工具箱的重要功能。 (4)提供特定问题的MATLAB代码作为答案。 (5)展示使用Simulink进行音频和视频处理。 (6)覆盖时空域和频域中的处理技术。 本书是本科高年级生和研究生学习图像处理、语音和语言处理、信号处理、视频目标检测和跟踪以及相关多媒体技术课程的完美伴侣,重点是使用编程结构和技能开发的实际实现。本书还适合模式识别、计算机视觉和基于内容检索领域的研究人员,以及学习多媒体处理、统计分析和数据可视化的MATLAB课程的学生。"