
出版社: 科学
原售价: 108.00
折扣价: 85.40
折扣购买: 单幅图像超分辨率重构技术
ISBN: 9787030685940
第1章 绪论
1.1 研究背景及意义
随着计算机技术的快速发展和相关应用的不断拓展,数字图像在社会各个领域(包括工业、农业、医学以及军事等)的应用越来越广泛。高分辨率(high resolution,HR)图像在这些数字图像应用领域中能提供比低分辨率(low resolution,LR)图像更多的细节信息。例如,在虚拟现实(virtual reality,VR)中往往需要用计算机设备将同一个场景的多幅图像融合在一起形成模拟复杂现实场景的图像。为了使结果图像更符合人眼视觉系统,有必要充分挖掘每一幅输入图像所包含的信息。在医学影像(medical image,MI)中,成像设备的固有缺陷导致所获得的图像不可避免地受到各类噪声的污染,再加上光照、散焦等因素的影响,使得医学影像中的细微结构难以辨认。怎么从这些低分辨率图像中恢复出结构清晰、细节信息丰富的高分辨率图像是关乎人们生命安全的重要科研课题。智能犯罪监控(intelligent crime monitoring,ICM)由于受摄像机自身分辨率、光照、视角、相机运动等因素的影响,直接捕获的图像可能出现模糊、旋转与偏移等现象,导致目标对象的特征无法识别,严重影响案件侦查工作。随着大气遥感(atmospheric remote sensing,ARS)技术的不断发展,气象雷达成为预测降雨、监测台风和风暴等气象灾害的有效手段。当气象雷达的波长与照射物表面粗糙程度相当时极易使雷达图像出现各种斑点噪声,影响气象预测精度。从这些受噪声污染的图像中正确恢复出原始高分辨率图像对准确进行大气预测有着重要的现实意义。另外,图像超分辨率重构(super-resolution reconstruction,SR)技术在军事中也有十分广泛的应用。例如,无人侦察机获取的数字图像在传输过程中受诸多不良因素的影响容易出现严重失真,导致目标难以识别从而影响作战指挥员的正确判断。在通过雷达探测目标时,雷达波的反射效应也很容易暴露己方目标。现在出现了一种称为全方位光电感知系统(all-around photoelectric sensing system,AAPSS)的目标探测系统,它根据光学成像原理追踪目标而不反射任何雷达波,美国第五代战斗机F35使用的光电分布式孔径系统(electro-optical distributed aperture system,EODAS)就是其中一种。从光电传感器捕获的数字信号准确地形成高质量数字图像是这种系统正常工作的关键,SR及相关技术在这一过程中扮演着极其重要的角色。上述诸多领域广泛的应用需求使研究增强图像分辨率水平的方法显得十分必要,同时也是数字图像超分辨率技术一直处于图像处理领域的研究热点并长期备受关注的重要原因之一。
图像超分辨率处理技术的目的是,通过一幅或一系列LR图像恢复出一幅HR图像。根据输入图像的数量可以将超分辨率算法分为单幅图像超分辨率算法和多幅图像超分辨率算法,但传统多幅图像超分辨率算法都将超分辨率重构转换成多幅LR图像序列之间的对齐与校准操作,而在多幅模糊、受噪声污染的LR图像之间进行精确的对齐操作本身就是非常困难的,并且在许多实际应用中很难获得充足的LR图像序列。因此,多幅图像的SR处理没有太大的实际意义。相对而言,单幅图像的SR处理技术是一个具有广泛应用的研究热点,也更具有实用价值,对这项技术的深入研究具有重大理论和实际意义。因为单幅图像情况下提供的有效数据较少,所以单幅图像SR处理比多幅图像的SR处理更具有挑战性,还有很多亟待解决的重要问题值得深入研究。
1.2 研究现状与发展趋势
1.2.1 国内外研究现状
随着图像处理技术的不断发展,许多应用领域都要求高质量的数字图像并对其进行后续处理。传感器的固有缺陷、散焦、大气条件以及各种类型的噪声等严重影响了数字图像的质量。图像分辨率是图像质量的重要评判准则,它通常由图像采集设备决定,但在许多实际应用中,昂贵的高精度传感器和其他硬件设备也可能是重要限制因素。为了打破成像系统固有分辨率的限制,从软件角度提高数字图像SR的技术应运而生。
目前,图像超分辨率算法主要有三类:基于传统插值理论的方法、基于模型/重构的方法和基于机器学习的方法。传统的插值方法基于最简单的平滑先验假设,将数字图像信号看成连续的、带宽受限的平滑信号进行处理。但这种假设通常是不成立的,因为自然图像往往表现出大量的不连续性特征,如边缘、角点、脊梁等,传统插值算法在平滑先验假设下极易丢失这些高频细节。基于重构的方法为超分辨率重构问题强加了一个约束条件,该约束条件要求恢复的高分辨率图像在经过模糊核下采样后尽可能地接近原始低分辨率图像。但是自然图像的模糊核函数是随机的,加上噪声的影响,这类方法恢复出的高分辨率图像只能在一定程度上增强人眼视觉效果,对较大采样因子效果很差。基于机器学习的方法通过构建LR/HR图像块对(patch pairs)组成的词典,为超分辨率处理提供了更多的先验知识。这类方法通常能够在产生较好视觉效果的同时,使恢复的高分辨率图像尽可能接近原始图像。不过,这类方法一般要求构建一个外部词典,该外部词典由大量的LR/HR图像块对组成,存在算法效率问题与训练数据和测试数据之间的兼容性问题。接下来,本书将对这三类方法的国内外现状进行分析。
1.基于传统插值理论的超分辨率重构
插值技术的发展大致经历了三个阶段:20世纪前的很长一段时间内,主要工作都集中在对传统多项式插值技术的研究方面;20世纪晚期到21世纪初开始出现一些面向图像边缘的插值技术;直到近年来,才开始出现以机器学习为理论基础的图像插值算法。当然,插值技术的这些研究工作并没有严格的时间界限,这样从时间上进行划分主要是根据某种技术在某个时期内处于研究热点。
(1)传统多项式插值:关于多项式插值技术的应用,最早可以追溯到古巴比伦和古希腊时期,人们为预测天文事件而构建星历表的实践。当时的人们根据星历表进行线性预测,实际上是一种简单的一阶线性预测。虽然在塞琉古时期(Seleucid Period,公元前最后三个世纪)出现了一些更为复杂的插值算法,但这些方法的具体公式已经无章可循。在中世纪早期的古印度和古中国,同样是用于对天文事件的预测,但此时已经发展为更复杂的二阶插值。随后,从科技革命到信息通信时代,插值方法经历了牛顿插值、密切多项式插值和样条插值等阶段,从简单到复杂发展为更复杂、更精确的估值技术。这些插值算法本质上来说都属于多项式插值算法,文献[1]对多项式插值技术演变历程的相关内容进行了详尽而深入的调研,全面地呈现了插值理论的发展进程。但是,传统多项式插值技术最初并不是为数字图像处理而开发的,这类技术在数据本身具有连续性的领域中具有更为广泛的应用。
(2)面向边缘的插值:计算机视觉领域的研究结果表明,人眼视觉系统对图像的边缘、角点、纹理等非线性结构更为敏感,所以人们专门针对这些非线性结构设计了一些插值算法,在保留插值技术高效性的同时提高超分辨率处理的效果[2-3]。这类算法主要包括边缘方向融合(fusion of edge orientations,FEO)、边缘导向插值(edge-directed interpolation,EDI)、新边缘导向插值(new edge-directed interpolation,NEDI)、软决策插值(soft-decision adaptive interpolation,SAI)及双边软决策插值(bilateral soft-decision adaptive interpolation,BSAI)等。与传统多项式插值最开始并非针对图像插值甚至是图像数据处理不同的是,面向边缘的图像插值技术是将插值技术有针对性地应用于图像SR处理的最初尝试。关于这一类技术的具体研究与发展情况,可参阅文献[3]。
(3)基于机器学习的插值:通过学习自然图像中非线性模式或其他吸引人眼视觉系统的信息来指导插值,是近年来兴起的一类新的插值技术。Jaiswal等[4]利用尺度变化时的误差反馈机制来指导图像插值,即假设LR图像下采样时得到的误差就是HR图像下采样时得到的误差。Wei和Ma[5]利用LR图像中的对比度信息来指导插值,在超分辨率效果上也取得了一定的提升。Wang等[6]结合了面向边缘与机器学习方法,通过一种自适应的自插值算法通过LR图像来估计HR图像的梯度分布情况,然后利用基于重构的超分辨率方法计算HR输出图像。上述几种算法虽然尝试结合插值算法和机器学习算法各自的特征进行超分辨率处理,但并没有让插值技术的高效性和机器学习算法精确预测非线性结构的能力有效地融合在一起,无论是在超分辨率效果上还是时间效率上都没有取得实质进展。从理论上来讲,基于机器学习的插值技术是最有发展前景的一类图像SR方法,因为机器学习方法能够取得较好的SR效果,而插值技术具有很高的处理效率,然而这方面的相关研究工作还处于起步阶段,仍然存在诸多亟待解决的问题。
2.基于模型/重构的超分辨率重构
真正意义上的图像超分辨率重构实际上是在Harris[7]和Goodman[8]提出的单幅图像超分辨率重构问题基础上形成的,而基于重构的超分辨率技术最早可以追溯到Tsai和Huang[9]提出多帧图像超分辨率重构,这也是首次综合运用时空信息进行超分辨率重构的研究。随后,Stark和Oskoui[10]首先从集合论的角度提出了凸投影集(projection onto convex sets,POCS)算法,该算法后来成为一种非常典型的基于重构的超分辨率处理算法。Irani和Peleg[11]提出了一种非常具有代表性的重构方法:迭代反向投影(iterate back the projection,IBP)算法,通过反复迭代消除重构误差以提高超分辨率重构的精度。
几乎在同一时期,基于模型的方法也逐渐吸引了人们的注意力,其典型代表有基于概率模型(probabilistic model,PM)的方法、基于全变分(total variation,TV)模型的方法,以及基于偏微分方程(partial differential equations,PDE)的方法。基于概率模型的方法主要包括最大似然估计(maximum-likelihood estimation,MLE)算法[12]和最大后验(maximum a posteriori,MAP)估计算法[13]。基于全变分的方法由于其良好的处理效果曾一度在图像SR处理领域占据了非常重要的位置[14-19]。偏微分方程方法也是一种典型的基于模型的超分辨率技术,它通过添加时间变量的方式将多幅图像的超分辨率技术转换为单幅图像的超分辨率技术。
无论是基于重构还是基于模型的超分辨率处理方法,都没有满足人们对图像分辨率提升的期望。这些方法虽然相对于原始的单幅图像超分辨率方法取得了一定成效,但同时也因为一些附加操作而降低了时间效率,而且这些附加操作对提高超分辨率处理效果的作用并不大。比如,在进行多帧图像SR处理时,首先需要进行多幅图像间的亚像素校准操作,但是在多幅退化的LR图像上进行这样的校准操作往往是不准确的。另外,基于重构的超分辨率方法本身还存在一些固有限制,导致其对缩放因子极其敏感[20]。因此,研究者们在近年来提出了一些混合方法,期望结合不同重构算法之间的优点更好地进行超分辨率重构[21-23]。
3.基于机器学习的超分辨率重构
基于机器学习的单幅图像超分辨率重构方法到目前为止大致经历了四个发展阶段:样本学习、邻域嵌入、稀疏表达和深度学习。这四个阶段在时间上的界限并不十分明显,存在较多交叉,但它们代表了图像超分辨率处理领域中机器学习方法的四个不同研究方向。
利用机器学习的思想来处理单幅图像的超分辨率问题最早体现在Freeman等[24]提出的样本学习方法中,该算法利用一个通过置信传播算