考虑未来运营收益的自动驾驶出租车充放电协同路径规划

现有的出租车调度模型通常只优化实时成本而忽视当前路径规划对未来运营收益的影响,这不利于自动驾驶环境下的连续调度。为此,本文提出一个专注于长期收益的路径规划模型,并利用强化学习将预估的未来运营收益整合到实时调度问题中。模型的具体求解方法是先利用神经网络来拟合车辆的不同时空状态的状态价值函数,再通过双神经网络和经验池的方式加快算法收敛。深圳路网仿真实验表明,所提出的调度模型能够预先精准地调度车队,服务更多乘客,获得更大的运营收益;并且模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid, V2G)技术进行充放电,从而降低车队的能耗成本。相较于其他调度模型,该模型在长期运营中...

Full description

Saved in:
Bibliographic Details
Published in工业工程 Vol. 27; no. 4; pp. 132 - 140
Main Authors 曾伟良, 韩宇, 傅惠
Format Journal Article
LanguageChinese
Published 广东工业大学 01.08.2024
广东工业大学 自动化学院,广东 广州 510006%广东工业大学 机电工程学院,广东 广州 510006
Subjects
Online AccessGet full text
ISSN1007-7375
DOI10.3969/j.issn.1007-7375.230095

Cover

More Information
Summary:现有的出租车调度模型通常只优化实时成本而忽视当前路径规划对未来运营收益的影响,这不利于自动驾驶环境下的连续调度。为此,本文提出一个专注于长期收益的路径规划模型,并利用强化学习将预估的未来运营收益整合到实时调度问题中。模型的具体求解方法是先利用神经网络来拟合车辆的不同时空状态的状态价值函数,再通过双神经网络和经验池的方式加快算法收敛。深圳路网仿真实验表明,所提出的调度模型能够预先精准地调度车队,服务更多乘客,获得更大的运营收益;并且模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid, V2G)技术进行充放电,从而降低车队的能耗成本。相较于其他调度模型,该模型在长期运营中实现乘客匹配服务率增加4%,总收益提高25%,能耗成本节省50%以及乘客等待时间降低20%。
ISSN:1007-7375
DOI:10.3969/j.issn.1007-7375.230095