面向CPS时空规则验证制导的安全强化学习

TP181; 深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法.然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足.针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法.提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证.利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置.此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 19; no. 2; pp. 513 - 527
Main Authors 印婵, 祝义, 王金永, 陈小颖, 郝国生
Format Journal Article
LanguageChinese
Published 江苏师范大学 计算机科学与技术学院,江苏 徐州 221116%徐州工程学院 信息工程学院,江苏 徐州 221018%南京大学 计算机科学与技术系,南京 210023 01.02.2025
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.2312010

Cover

More Information
Summary:TP181; 深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法.然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足.针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法.提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证.利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置.此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全的状态行为策略.通过一个自动驾驶系统中的避障与变道超车实例,证明所提方法的有效性.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.2312010