面向CPS时空规则验证制导的安全强化学习

TP181; 深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法.然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足.针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法.提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证.利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置.此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学与探索 Vol. 19; no. 2; pp. 513 - 527
Main Authors	印婵, 祝义, 王金永, 陈小颖, 郝国生
Format	Journal Article
Language	Chinese
Published	江苏师范大学计算机科学与技术学院,江苏徐州 221116%徐州工程学院信息工程学院,江苏徐州 221018%南京大学计算机科学与技术系,南京 210023 01.02.2025
Subjects	formal method 自动驾驶 process algebra safe reinforcement learning 进程代数 cyber physical system 安全强化学习形式化方法信息物理融合系统 autonomous driving
Online Access	Get full text
ISSN	1673-9418
DOI	10.3778/j.issn.1673-9418.2312010

Cover

More Information
Summary:	TP181; 深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法.然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足.针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法.提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证.利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置.此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全的状态行为策略.通过一个自动驾驶系统中的避障与变道超车实例,证明所提方法的有效性.
ISSN:	1673-9418
DOI:	10.3778/j.issn.1673-9418.2312010