![干扰对抗环境中的动态博弈理论--设计与分析](https://file.mhuoba.com/shop/3/100021/picture/book/20211007/12/20211007120036689.jpg)
出版社: 科学
原售价: 128.00
折扣价: 101.20
折扣购买: 干扰对抗环境中的动态博弈理论--设计与分析
ISBN: 9787030681003
第1章 动态博弈理论概述
1.1 研究背景与研究意义
随着网络通信技术、自动控制技术,以及计算机技术在近十年的迅速发展衍生了一种新型的复杂控制系统,包括网络化控制系统(networked control system,NCS)[1]、信息物理系统(cyber-physical system,CPS)[2,3],物联网(internetof things,IoT)等。现有复杂控制系统信号经过网络传输后实现对被控对象的控制,呈现大规模、分布式特性,易受多源干扰和恶意攻击影响。控制系统可以看作是对多个智能设备的设计问题,可以借助博弈论方法研究控制系统的相互作用。博弈论研究的是决策者间的相互作用过程,即某个参与者的行为决策过程受到其他参与者的影响[4]。控制系统中常见的一种博弈方式为零和博弈,也称作minimax 博弈,即系统中一方是有利因素,一方是不利因素。在控制系统中,一方为控制器,另一方为敌对环境,即扰动。控制器以优化特定的系统性能为目标,而恶意环境以破坏达到该性能为目标。在控制系统安全研究领域也可以将系统建模为零和博弈问题。通过设计安全措施来抵御试图入侵系统并破坏系统性能的恶意攻击。在分布式和网络化控制系统,如电网系统、交通网络、多智能体系统中存在多个决策者,且不存在可以得到全局信息或具有参与者和环境全部权限的参与者,由此将系统构建为非合作博弈模型。例如,在典型的智能电网控制中,分布式的网络中的决策者根据不断变化的需求和环境条件做出相应消耗或存储能源的决策。大规模复杂控制系统易受到多源干扰和恶意攻击等极端环境影响,研究控制系统中干扰对抗环境对动态博弈性能的影响是亟待解决的关键科学问题。
近几十年来,博弈论已经广泛应用于社会学、经济学、军事国防、通信工程等多个领域当中,已经成为最为活跃的研究领域之一。博弈论起源于一套用于建模自私决策者交互的工具。一个博弈由以下四个要素构成。
①参与者或代理:这些是决策者,如证券交易市场中的交易者或者能够做出决定的智能体。
②策略或操作集:这些是每个参与者可以用的操作,如交易员可以购买/出售哪些金融产品、金额和时间或者智能体能够选择的行为。
③效用或成本函数:一种量化每个参与者的目标是否已实现以及达到何种程度的度量。这通常是用关于行为的代价函数表征。
④均衡概念:参与者i旨在最小化其成本函数Ji 。该函数既取决于其自己的行为,又取决于所有其他参与者的行为。因此,有必要定义什么是博弈的表征结果。其中,最著名的就是纳什均衡,即没有任何代理人能够通过单方面改变其行动来降低其成本。
在多智能体的博弈问题中,每个智能体都是把自身利益放在首要位置的自私个体,都会通过优化自身的成本函数以最大化自身的利益,但是由于多智能体之间存在攻防关系或者资源平衡等因素的限制,不同智能体之间的代价函数相互关联,存在耦合关系。博弈论中的纳什均衡理论为解决此类问题提供了很好的方法。事实上博弈论的一个重要的贡献就是为研究智能体之间的各种冲突和耦合以及带来的影响提供理论支撑,实现对这类问题的有效分析和预测,进而设计出能够达到均衡的算法。
另外,在实际的工程问题中,由于能量或者信号功率的限制,博弈中的参与者可能无法获得其余所有参与者的信息,只能得到附近邻居的信息。在此情况下,每个参与者可视为一个节点,参与者之间的信息交互关系可视为边,进而参与者通过信息拓扑图进行博弈。为获得所有参与者的信息,参与者i 可以通过信息拓扑图对其余参与者的信息进行估计。
值得注意的是,关于多智能体博弈的研究,已有的大多数研究都是在没有考虑干扰的情况下进行的。但是在博弈的过程中,每个参与者都不可避免地受到干扰的影响,如传感器噪声、通信延迟和丢包、外源扰动等。另外,参与者的模型可能存在不确定性,这些都可视为干扰。受未知干扰影响的博弈系统会出现在许多情况下,如光信噪比(optical signal noise ratio,OSNR)的功率控制、智能电网管理和网络控制系统。在理想情况下,即扰动不存在时,博弈的结果可以准确求解。但是在干扰存在的情况下,由于扰动会参与到博弈的过程中,博弈的结果将很难求解。显然,直接忽略干扰的影响是不合理的,因为干扰会影响博弈的最终结果,在实际的控制系统中,通常需要考虑干扰的影响,否则,控制系统可能会不稳定。为实现对干扰的抑制,通常有如下三种控制方法。
①自适应控制方法:控制器增益随着干扰的变化而改变。这种方法已经成功应用于很多领域,如轮船在波浪中行驶。但是自适应方法通常会增加非线性系统的复杂性。但是,干扰的变化会影响整个闭环系统,进而影响整个系统的稳定性。
②前馈控制方法:干扰在进入控制回路前被测量并补偿,这种方法已经成功应用于飞机对湍流的测量,但是需要确保干扰测量的准确性和实时性。
③鲁棒控制方法:一个固定的控制器需要实现对给定的一系列干扰模型的期望控制效果。鲁棒控制的目的是系统的控制性能在不确定集中所有不确定性条件下仍能满足。其局限在于,所有的不确定均被视为同等的可能性,并且在可能事件和不太可能发生的事件之间没有任何区别。所以鲁棒控制方法具有较大的保守性。
如何对具有博弈行为的被控对象进行调控研究是非常有意义的问题。现实社会管理中因忽视对象的自主性和博弈性而导致了某些异化现象。博弈控制系统是研究被控对象具有博弈行为的框架[5,6],这个框架将博弈论与控制论结合为具有层级结构的调控系统,上层为宏观调控变量,下层为相互关联且功能不尽相同的多个主体,每个主体都有自己的追求目标[7]。
在现有的抗干扰方法中,干扰观测器可以实现准确地估计未知干扰,并提供前馈补偿项对未知干扰进行抑制和消除,同时具有良好的动态响应。干扰观测器可以与其他控制方法相结合,如自抗扰控制和滑模控制等。
自抗扰控制将系统受到的所有干扰视为“总扰动”,使用扩张状态观测器对“总扰动”进行观测并在其进入控制回路前进行补偿。因此自抗扰控制不仅能消除未知的外部干扰,也可以处理系统模型自身的不确定性。同时值得注意的是,异常干扰(野值)会对系统造成较大的冲击,甚至造成系统的不稳定。因此,在实际的控制系统中需要考虑野值的影响。
滑模控制不仅克服了系统的不确定性,而且对干扰和非建模动力学具有很强的鲁棒性,并且对非线性系统也具有良好的控制效果。基于滑模控制理论设计的观测器也显示出显著的特征,特别是超扭曲算法。但是,关于超扭曲算法的大多数研究都是在连续时间条件下进行的,而对于离散时间系统的研究则很少。但是,随着计算机和数字通信电路的广泛使用,在许多情况下信号不是连续的,而是离散的,数字信号和连续的系统是不合适的,因此对于离散时间系统的研究具有很重要的工程意义。
现在我们回到理论问题,尽管干扰观测器广泛应用于工程实践,并取得了良好的效果,如机械的精确控制、飞行器的控制系统等,但是,现有的研究对于博弈过程中的干扰关注较少,多数的研究忽略干扰以简化问题,即便考虑干扰,也是已知干扰模型或者干扰随时间递减。这些假设通常与实际不符,因为多数扰动并不能精确建模,如摩擦力、阵风等。同时,干扰的存在对博弈的表征提出了新的挑战。因此考虑干扰下的博弈具有重要的理论和实际意义。
由网络连接的复杂控制系统较原有本地的点对点控制具有减少布线、节约成本、实现信息共享、增加系统灵活性和可靠性、使系统易于扩展和维护等诸多优点。但由于网络的接入,打破了原有控制系统的封闭性,给控制系统带来了很多问题和挑战。控制系统由使用专用网络对信号进行传输,变为使用公共网络进行传输来减少其成本。系统中标准化协议和商业化操作系统的使用,使得控制系统遭受攻击的可能性大大增加。对于控制系统的安全防护就尤为重要,所以在控制系统的设计中要权衡控制系统的实时性、可用性和安全性问题。由于利益驱使,网络攻击者在不断增强自己的攻击手段和攻击技术,对于工业控制系统的攻击事件层出不穷。下面给出几个控制系统遭受攻击的著名案例。
①2010 年,伊朗的布什尔核电站遭受“震网”病毒的攻击。该攻击是通过恶意修改发送给可编程逻辑控制器的控制指令实现的,可使离心机受损,该病毒使核电站推迟发电,严重损害了伊朗的工业设施[8, 9, 10]。
②2015 年9 月1 日,阿里云出现了故障,众多用户运行在阿里云上的系统命令和可执行的文件被删除。然后,阿里云发表声明,称此事件是在查杀功能升级过程中因云盾安骑士服务器组件中的恶意文件触发了故障,导致了部分服务器的一些可执行文件被错误隔离[11]。
③2016 年1 月,俄罗斯发动网络攻击导致乌克兰发生大规模停电。此事件是由恶意攻击软件“黑色能量3”导致的,此软件即为2014 年感染了某些美国关键基础设施运营商的恶意软件一个变种。工业控制系统的安全问题将成工业4.0 下的研究重点。
④ 2018 年 1 月,荷兰三大银行网络系统遭受近一周的分布式拒绝服务(distributed denial-of-service,DDoS)攻击,导致网站和互联网银行服务瘫痪,此外,荷兰税务局也遭受了类似攻击。
网络安全事件增多,严重影响国民生产生活,其安全形势面临严峻挑战。各国已分别采取行动,在工业控制安全领域制定研究计划,并开展相关工作。欧洲信息安全局于2013 年发布了关于网络安全工业控制系统白皮书。美国制定并实施国家监控和数据采集系统,联合橡树岭国家实验室和爱德华国家实验室及各大学进行研究。2010 年,中国国家发改委将控制系统安全问题作为独立领域重点支持。2016 年12月27 日,中央网络安全和信息化领导小组发布《国家网络空间安全战略》,强调“没有网络安全就没有国家安全”。2017 年6 月1 日,《中华人民共和国网络安全法》正式实施,网络安全有法可依、强制执行,网络安全市场空间、产业投入与建设步入持续稳定发展阶段。针对网络安全的研究已迅速在国内外引起热潮[12-15]。
网络技术的广泛应用,打破了原有系统的封闭性,对于系统的攻击事件层出不穷,对于系统安全防护设计变得尤为重要[16]。图1.1 给出了将不同的攻击方式按三维度划分的一种形式[14]:系统知识(system knowledge)、窃听资源(disclosure resources)和介入资源(disruption resources),各种攻击形式已在图1.1 中标出。下面结合图1.1 对不同的攻击形式进行详细介绍。
图1.1 攻击方式的三维度划分
(1)针对物理对象的攻击[16]:直接对控制器、执行器、被控对象或传感器等物理结构的攻击。
(2)欺骗式攻击[15, 17]:提供错误的数据对控制系统进行欺骗,在获取错误的外部信息情况下执行错误的操作,进而影响物理系统。欺骗攻击主要是通过故障检测与隔离系统而对控制系统发起的攻击。在故障检测与隔离系统中,通常会使用滤波算法求出测量信号的估计值,通过比较原信号与测量信号的差与设定阈值来决定是否触发警报。欺骗式攻击是在不触发警报的情况下对控制系统的控制过程或测量过程进行干扰,主要有两种形式。
①错误数据注入攻击(false data injection attack):攻击者通过修改测量值进行攻击,使得真实测量值变为受攻击测量值。
②重放攻击(replay attack)[18]:在攻击者不能依靠自己设计的信号进行攻击而不被检测出来时,只能依靠记录正常工作情况下的信号进行重放,对系统进行欺骗攻击。这种攻击形式需要窃听资源和介入资源,是较为常见的一种攻击方式,目前已有不少研究成果[19-21]。
(3)DoS 攻击[22]:针对通信网络的攻击,影响系统的连接性,由于缺乏连接性导致传感器的测量数据和控制器指令无法到达目的节点。从技术手段上来讲,DoS 攻击包括用户数据报协议(user datagram protocol,UDP)