基于逆强化学习的空战态势评估函数优化方法

来源：知库网

Vol.44，No.8Aug，20191002-064008-0101-06文章编号：（2019）火力与指挥控制FireControl&CommandControl第44卷第8期2019年8月基于逆强化学习的空战态势评估函数优化方法*

李银通1，韩统1，孙楚2，魏政磊1（1.空军工程大学航空工程学院，西安710038；2.解放军94019部队，新疆和田848099）摘要：为提高无人作战飞机（UCAV）自主决策效能，提出基于逆强化学习的空战态势评估函数优化方法。以现有的正例与反例两类空战数据为样本训练一个RBF网络，采用逆强化学习得到不同态势下的态势值，实现了对现有空战数据的知识提取；利用Sigmoid函数的压缩作用，降低了整体态势值，加快了UCAV学习的收敛速度；采用自适应粒子群算法求解优化了态势评估函数中的权重参数，提升了对复杂空战态势的适应能力；仿真结果表明该方法能够优化态势评估函数，提高机动决策的收敛速度，在UCAV自主决策中具有一定现实意义。关键词：态势评估，自主决策，逆强化学习，自适应粒子群算法中图分类号：V279.3（8）：101-106.文献标识码：ADOI：10.3969/j.issn.1002-0640.2019.08.019引用格式：李银通，韩统，孙楚，等.基于逆强化学习的空战态势评估函数优化方法［J］.火力与指挥控制，2019，44AnOptimizationMethodofAirCombatSituationAssessment

FunctionBasedonInverseReinforcementLearning

LIYin-tong1，HANTong1，SUNChu2，WEIZheng-lei1（1.SchoolofAeronauticsEngineering，AirForceEngineeringUniversity，Xi’an710038，China2.Unit94019ofPLA，Hetian848099，China）Abstract：InordertoimprovetheeffectivenessofautonomousdecisionmakingofUnmanned，CombatAerialVehicle（UCAV）anoptimizationmethodofaircombatsituationassessmentfunctionbasedoninversereinforcementlearningisproposed.Firstly，aRBFnetworkistrainedwiththeexistingpositiveandnegativeaircombatdata.Throughinversereinforcementlearning，thesituationvaluesunderdifferentsituationsareobtainedtoextracttheknowledgeoftheexistingaircombatdata.Thentheoverallsituationvalueisreducedbythecompactionofsigmoidfunction，whichspeedsuptheconvergencespeedofUCAVlearning.MeanwhileAdaptiveParticleSwarmOptimizationalgorithmispresentedtooptimizetheweightparametersofthesituationevaluationfunction，whichimprovestheadaptabilitytothecomplexaircombatsituation.Finally，thesimulationresultsshowthatthismethodcanoptimizethesituationevaluationfunctionandimprovetheconvergencespeedofmaneuverdecisionmaking，whichhasacertainpracticalsignificanceinUCAVautonomousdecisionmaking.situationassessment，autonomousdecision-making，inversereinforcementlearning，APSOKeywords：LIYT，HANT，SUNC，etal.AnoptimizationmethodofaircombatsituationCitationformat：assessmentfunctionbasedoninversereinforcementlearning［J］.FireControl&CommandControl，2019，44（8）：101-106.所处态势并预测态势发展［1］，是现代战斗机辅助决策系统的核心，也是UCAV空战决策的重要组成部分［2］，对飞行器的作战使用及性能发挥有重要影响。0引言空战态势评估指基于感知的环境信息，评估当前收稿日期：2018-05-22修回日期：2018-08-26航空科学基金（20175196019）；陕西省自然科学基金资助项目（2017JM6078）*基金项目：作者简介：李银通（1995-），男，河南周口人，硕士研究生。研究方向：无人飞行器作战系统与技术。·101·（总第44-1402）火力与指挥控制2019年第8期空战态势评估本质是建立从感知空战态势信息到态势值的复杂非线性映射关系。空战态势评估中，由UCAV及所携带武器自身性能所决定的客观判断条件易于实现，如武器发射条件、飞行高度、飞行速度等是否满足；但高度、速度、角度、距离态势的权重分配，以及态势评估函数中参数的选取等非客观判断条件不易实现，一般做法是根据对实际空战情况的理解分析建立模型。目前，空战态势评估的常用方法主要有参量法与非参量法［1］。文献［3］提出基于动态威力场的空战态势评估方法，以战斗机的各项性能指标构建势场模型，解决了非参量法对动态环境处理能力不足的问题；文献［4］是典型的参量法，通过Bayes方法分析目标特征的概率分布，以我机平均风险最小或完成任务概率最大为决策准则进行态势评估；文献［5］改进传统的评价指标，利用粗糙集理论建立了多指标综合评价模型。文献［3-5］均要求对实际空战过程有深入理解，并进行精确分析，例如贝叶斯方法中先验概率的选取、基于指标评估方法中的优势函数构造等。以上3种方法过于依赖设计者个人对实际空战情况的片面理解，参数选取缺乏说服力，虽在特定的条件下能够取得较好的决策效果，却难以适应实际中复杂多变的空战态势。本文提出的基于空战样本的态势评估较好地解决了上述问题：逆强化学习可以实现对大量空战样本数据的知识提取，从而逼近从参数信息到态势值的复杂映射关系，回避了态势评估函数中非客观判断条件的复杂设计，解决了传统态势评估函数设计中受人为因素影响过大的弊端。本例以逆强化学习（InverseReinforcementLearning）为基础分析空战样本数据，进而得到态势评估函数，再通过强化学习（ReinforcementLearning）以改进策略，将其应用于UCAV空战态势评估中，可充分发掘空战数据中的态势信息，再通过粒子群算法以及Sigmoid函数处理态势信息，以实现对态势评估函数参数的优化。整体结构如图1所示。图1态势评估函数设计结构1基本模型1.1基本态势评估函数采用逆强化学习方法提取态势评估函数时，若将态势参数信息到态势值的映射关系作为黑箱系统考虑，计算复杂，无法充分利用已有的先验知识，同·102·时结果的可解释性较差。但是，若将已知的信息进行公式化表示，公式化表示过程中只保留难以确定的参数作为未知量，便将对整体态势函数的优化问题简化为对部分参数的优化问题，简化了计算过程。依据文献［6-10］中对空战态势评估的研究成果，将态势评估函数分为角度优势函数、速度优势函数、高度优势函数、距离优势函数以及效能优势函数。对由飞机系统性能确定的固有判断条件，直接给出确定结果。1.1.1角度优势函数设雷达最大搜索方位角为渍R，导弹最大离轴发射角为渍M，不可逃逸区圆锥角为渍K。设计角度优势函数为：（1）1.1.2速度优势函数设vrm为本机最佳空战速度，vr，vb分别为本机、敌机的速度，设计速度优势函数为：当vrm>1.5vb时（2）当vrm≤1.5vb时（3）1.1.3高度优势函数设hrm为本机最佳空战高度，hr，hb分别为本机、敌机飞行高度，设计高度优势函数为：（4）李银通，等：基于逆强化学习的空战态势评估函数优化方法（总第44-1403）1.1.4距离优势函数设雷达最大搜索距离为dR，导弹最大攻击距离为dM，导弹最大不可逃逸距离为dKmax，导弹最小不可逃逸距离为dKmin。设计距离优势函数为：（5）1.1.5效能优势函数空战效能由飞行器及携带武器的性能决定，不需进行估计与优化，令TE表示空战效能优势。（6）当我机导弹满足发射条件时rc=10，当敌机满足导弹发射条件时rc=-10，否则rc=0；当满足条件：h>20000m或h<200m或v>300m/s或v<50m/s时，re=-10；其余条件下re=0。1.2利用Sigmoid函数优化态势评估函数为提升态势评估函数对复杂空战环境的适应能力，本例并非直接将各个态势值的和作为总体态势评估函数，而是利用带权重棕r，茁r的Sigmoid函数对态势评估函数进行优化，均衡了rA，rV，rH，rD之间的差异，使各个态势值保持在一定的范围，避免因单个态势值差异过大而影响整体评估效果。带权重棕r，茁r的Sigmoid函数为：（7）将rA，rV，rH，rD作为Sigmoid函数的自变量输入，可得到参数可调的态势评估函数分别为：（8）（9）（10）（11）其中，棕ri，茁ri，i=1，2，3，4为待优化参数。式（8）~式11）中分子为原态势值，其限制了Sigmoid函数对整体态势值的压缩作用，避免了态势值在接近0时导致态势的累加效应不明显，降低了其对不同态势的区分度。综上，整体态势评估函数可表示为：（12）解出最优棕ri，茁ri，即实现对态势评估函数优化。2空战态势评估函数提取与优化逆强化学习以输出的效用值V（xt）作为输入状态xt的评价指标，所以必须提取从xt到V（xt）的映射关系。本文应用的重点在于计算效用值V（xt），考虑到RBF神经网络非线性逼近能力强，结构简单的特点，故选用它来进行效用值函数的逼近。逆强化学习所用样本为空战中状态序列，输入RBF神经网络后输出估计效用值，并依据误差不断修正网络参数，直到满足条件。采用训练完成的网络计算所有样本的效用值序列，依据时序差分学习的值函数更新规则（13）式中，酌为折扣率，设定为酌=0.9，在各个状态的效用值序列已知时，即可求出所有状态对应的态势值rt。最后计算态势评估函数中的未知参数，使其对状态的评估值与态势值r的误差在允许范围内，即完成了对态势评估函数的优化。对式（13），在逆强化学习中rt未知，导致无法更新效用值序列，因此，无法在单一样本下训练该RBF神经网络。本文设置两类样本：正例样本集与反例样本集。训练完成的RBF网络可以实现：对正例样本集的估计效用值大于对反例样本集的估计效用值。2.1训练样本与评价指标空战样本数据为特定的决策与机动动作序列，若空战中决策进行n步，则样本轨迹S可表示为：其中，xi表示状态，ai表示在状态xi下采取的机动决策动作。正例样本集：击落敌机的决策轨迹，记为S1；反例样本集：被敌机击落的决策轨迹，记为S0。其中，si与si'分别表示一次空战的决策轨迹。由于逆强化学习输入仅为状态序列x，所以忽略样本集中决策轨迹动作，仅记录状态：·103·（（总第44-1404）火力与指挥控制2019年第8期对于决策轨迹状态集S1与S0，记RBF神经网络对其效用值的估计为：其中，表示一次空战决策轨迹中估计效用值的均值。整个决策集的估计效用值均值记为：（14）（15）因此，可以将RBF神经网络对两种训练集估计效用值之差的倒数作为评价指标。设最小可接受效用均值差异为驻Vmin，令，则训练完成的RBF神经网络应满足：对样本集S1与S0逼近其效用值，使其对集合Vs1与Vs0的输出指标满足（16）2.2RBF神经网络的值函数逼近本文逆强化学习方法基于多输入单输出RBF网络，主要完成由状态x到效用值V（x）的映射关系，基本结构如图2所示。图2多输入单输出RBF网络结构输入层到隐层的非线性映射采用高斯函数为基函数，含有q个隐层节点的RBF网络可表示为：（17）其中，x为输入状态变量，ci为第i个基函数的中心，滓i为基函数中心的宽度。设RBF神经网络输出值为y，输出层的线性映射表示为：（18）·104·其中，wi表示各个隐层连接节点的权重。本文仅以输出层的各个连接节点的权重wi为例，推导满足式（16）的RBF神经网络参数更新公式。设RBF神经网络输出估计效用值V（x）t，由式（17）、式（18），样本集S1与S0的平均效用值可表示为：（19）（20）其中，。评价指标。基于梯度下降策略，输出层权重wi的更新方式可表示为：（21）设学习率为浊w，对E求关于wi的负导数，wi的更新公式可表示为：（22）其中，（23）同理可以得到参数茁i与向量ci的更新公式为：（24）（25）其中，浊茁与浊c为对应参数的学习率。（26）（27）当评价指标E满足式（16）时，RBF神经网络训练完成。2.3态势评估函数的优化与参数求解依据式（17）~式（27），可对RBF神经网络进行训练，得到样本的效用值序列，由式（13），可计算每李银通，等：基于逆强化学习的空战态势评估函数优化方法（总第44-1405）个状态瞬时态势值rt，表示为：（28）设样本瞬时态势值序列的集合为：其中，将样本中的状态序列输出作为态势评估函数，同样可以得到每个样本的态势评估值。当由态势评估函数得到的态势评估值与通过逆强化学习方法提取的态势值相差较小时，表明态势评估函数的性能较好；反之，如果两者差异过大，则说明态势评估函数误差过大，需要进行参数更新。综上，态势评估函数的优化问题可表述为：对函数T，修正其中的棕ri，茁ri，使其对S1与S0的输出值满足（29）其中，，与分别表示当前态势评估函数T对S1与S0的态势均值。对于式T=TA+TV+TH+TD+TE的参数优化问题，由于缺乏棕ri，茁ri的先验知识，所以初值设定比较困难。但考虑到该问题维度不高，且目标函数比较简单，故本文采用自适应粒子群算法进行态势评估函数优化问题中的最优参数求解。由于篇幅限制，不再赘述该算法相关原理。3仿真实验3.1态势评估函数的提取仿真本文选择了两组典型的空战机动动作：后置跟踪滚转机动与高速Yo-Yo机动作为样本提取态势评估函数。正例样本为后置滚转机动，反例样本为高速Yo-Yo机动。图3与图4为两组机动中双方的飞行轨迹，红色为我机轨迹，蓝色为敌机轨迹。通过Simulink仿真实现机动动作，仿真运行40s，并以0.036s为时间间隔记录空战时间内对抗双方的状态变量，作为RBF神经网络的输入。逆强化学习的RBF网络选取输入状态变量为，增加qr、qb、Vr的微分项，利于更全面地描述空战态势变化情况；依据输入的状态变量设置11个输入层节点；隐层图3后置跟踪滚转机动轨迹图4高速Yo-Yo机动轨迹设置638个隐层节点；设置1个输出层节点，输出对状态效用的估计值V（xt）。其余参数设置分别为：Emax=0.5，浊w=浊茁=浊c=0.90，径向基函数中心、中心宽度与隐层到输出层的权重均初始化为随机数。训练结果如图5~图7所示。图5正例样本总态势值图6反例样本总态势值图7训练后期两类样本差值训练初期，由于网络参数的随机性，其对正例反例样本的态势值的估计波动较大；训练后期，两类样本估计态势值之差逐渐稳定，此时RBF神经网络对正例样本的态势估计值大于反例样本；最终指标在误差范围内，对两类样本的估计态势值差值稳定在4.035附近，大于（Emax）-1=2，RBF神经网络的训练完成。3.2态势评估函数性能分析由上节中得到的态势值序列，采用自适应粒子群算法求解态势评估函数中的最优参数。态势评估函数中的参数设置为：渍R=65°，渍M=35°，渍K=20毅，vrm=200m/s；hrm=2000m；dR=60km；dM=10km，dKmax=5km，dKmin=1km。自适应粒子群算法参数设置为：min驻r=0.1，c1=c2=2，棕max=0.9，棕min=0.6，粒子数取100，迭代步数取150。得到适应度变化曲线如图8所示。图8粒子适应度曲线各个变量对应最优权重为：棕r1=0.8704、棕r2=·105·（总第44-1406）火力与指挥控制2019年第8期0.5162、棕r3=0.6469、棕r4=0.3020、茁r1=0.2917、茁r2=0.1207、茁r3=0.0491、茁r4=0.3557。结果表明，近距空战最重要的影响因素为角度优势，所占权重最大，其次是速度优势与高度优势，而距离优势的所占权重最小，与近距空战实际相符。将改进后的态势评估函数用于UCAV机动决策与改进前进行对比。这里给出不同仿真条件下态势值随训练次数的变化，以观察态势评估函数对策略收敛速度的影响，结果如图9，图10所示。图9态势评估函数随训图10态势评估函数随训练次数变化曲线1练次数变化曲线2从图9，图10中可以看出：改进后的态势评估函数提升了态势值的收敛速度，两种仿真条件下，改进后态势评估函数均比未改进的提前收敛到最优策略。对态势评估函数的优化过程中使用Sigmoid函数的压缩作用，导致整体态势值的降低，对比双方态势值的差异，如图11所示。图1110次训练中的态势值改进后的态势评估函数，决策系统在10次训练中的态势均值为9.8890，方差为0.1742；而未改进态势评估函数决策系统的态势均值为13.1796，方差为0.3941，方差的降低说明改进后的态势评估函数增强了决策系统的稳定性；总态势值的降低，保证了较好的区分度，并加快了UCAV学习的收敛速度。4结论本文提出的以RBF神经网络为基础的逆强化学习方法，解决了强化学习在UCAV自主决策中的·106·态势评估函数非客观判断条件设计困难的问题；创新性设计了基于Sigmoid函数参数可调的空战态势评估函数；采用自适应粒子群算法，依据逆强化学习的输出结果对原态势函数中的参数进行优化。通过对比，证明该方法能够提升无人机自主决策系统的策略收敛速度与稳定性，克服了传统奖赏函数设计中主观性过强的缺点，较好地提升了其对不同空战态势的适应能力。参考文献：［1］周思羽，吴文海，高丽，等.空战态势评估问题综述［C］//中国系统仿真技术及其应用学术年会，2011.［2］董彦非，郭基联，张恒喜.空战机动决策方法研究［J］.火力与指挥控制，2002，27（2）：75-78.［3］李战武，常一哲，杨海燕，等.基于动态威力场的协同空战态势评估方法研究［J］.系统仿真学报，2015，27（7）：1584-1590.［4］DASS，GREYR，GONSALVESP.SituationassessmentviaBayesianbeliefnetworks［C］//InternationalConferenceonInformationFusion.IEEE，2002：664-671.［5］王礼沅，张恒喜，徐浩军.基于粗糙集的空战效能多指标综合评估模型［J］.航空学报，2008，29（4）：880-885.［6］NARAYANARP，SUDESHKK，GIRIJAG.Situationas-sessmentinaircombat：Afuzzy-bayesianhybridapproach［C］//ProceedingsoftheInternationalConferenceonAerospaceScienceandTechnology，Bangalore，2008.［7］NGAY，RUSSELLSJ.Algorithmsforinversereinforcementlearning［C］//InternationalConferenceonMachineLearning.2000：663-670.［8］史建国，高晓光，李相民.基于离散模糊动态贝叶斯网络的空战态势评估及仿真［J］.系统仿真学报，2006，18（5）：1093-1100.［9］吴文海，周思羽，高丽，等.基于导弹攻击区的超市局空战态势评估改进［J］.系统工程与电子技术，2011，33（12）：2679-2685.［10］顾佼佼，刘卫华，姜文志.基于攻击区和杀伤概率的视距内空战态势评估［J］.系统工程与电子技术，2015，37（6）：1306-1312.［11］荆献勇，宁成达，侯满义，等.一种新的超视距空战目标威胁评估距离指标模型［J］.火力与指挥控制，2017，42（8）：19-23.［12］许建锐，李战武，欧建军，等.基于概率影响图的空战能力评估模型［J］.火力与指挥控制，2017，42（11）：86-90.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文