博文

哈工大高会军团队: 基于强化学习的多速率系统控制器最优化研究

已有 3747 次阅读 2020-6-19 10:41 |个人分类:最新资讯|系统分类:论文交流| 强化学习, 控制器最优化

6月，IJAC发表哈尔滨工业大学高会军教授团队特约稿件：基于强化学习的多速率系统控制器最优化研究，论文第一作者为哈尔滨工业大学李湛副教授。该研究基于强化学习提出一种无模型依赖算法，可用于设计多速率系统的最优控制器 (本文末附全文翻译获取方式)。

全文下载：

http://www.ijac.net/en/article/doi/10.1007/s11633-020-1229-0

https://link.springer.com/article/10.1007/s11633-020-1229-0

众所周知，近乎所有的工业化控制系统均采用了数字化控制，这就凸显了采样系统研究的重要性。在实际的工业生产过程中，普遍存在着传感器信号采样周期不同的情况，这也就是采样系统的多速率特性。而采样系统中部分传统及先进控制方法无法适用于这种多速率系统。早在20世纪50年代就有学者注意到了这个问题，20世纪90年代，研究者提出了一种提升技术，该技术通过将这些系统转化为等效的离散系统来简化多速率问题。此后，该研究课题开始广泛地被控制领域研究者关注。

利用提升方法后，标准控制方法可用来解决等效离散系统的控制问题，进而解决多速率采样系统的控制问题。随着先进控制理论的发展，越来越多关于多速率系统的研究涌现出来。

然而，此前的控制器均是依据系统动力学模型来设计。当系统结构未知或系统参数不确定时，这些控制器就无法满足实际需求。本研究旨在设计一款控制器，可充分利用输入输出数据来优化自身参数，或者直接得到最优控制器参数，我们将这类控制器称为无模型依赖控制器。

强化学习是机器学习的一个重要分支。许多著名研究团队借助强化学习来解决人工智能问题，比如教会机器人玩游戏等。通过与环境进行互动，认知主体可从他们的行动中获得奖励。通过计算奖励得出价值函数，基于价值函数，主体利用强化学习算法来优化策略。1995年，与强化学习核心思想接近的控制理论---自适应动态规划被研究者提出。过去几十年间，这一方法被用于解决控制系统的输出调节问题，还应用于切换系统、非线性系统、滑模控制中解决控制问题。

关于自适应动态规划及强化学习的研究均基于贝尔曼方程展开，研究者们将这两种算法结合在一起解决控制问题。当前，强化学习算法已经应用于解决多种控制器设计问题。仅依靠输入输出数据，强化学习算法就可以优化策略，无需依赖系统参数与结构。一些学者提出基于强化学习的控制结构用以训练直升机的神经网络控制器，相似的方法同样适用于其它类型无人机。其他基于强化学习的控制方法可用在伺服控制系统及交通系统中。

本研究基于强化学习提出一种无模型依赖算法，只需输入输出数据，即可对多速率采样系统的控制器参数进行优化。我们假设状态变量的采样周期不同于传感器信号采样周期。本研究采取了与传统提升方法不同的技术，可将多速率系统转化为另一种等效的离散系统。基于矩阵变换，本研究提出一种算法用以快速设计多速率系统的线性二次型调节器。而后，本研究对行为策略及目标策略进行了定义，并提出一种基于强化学习的离线策略优化算法。利用最小二乘法，本研究将离线策略优化算法改进为无模型依赖强化学习算法，改进后的算法可在不确定环境中优化控制器。最后通过算例验证了提出方法的可用性和有效性。

本文结构如下：

第二部分主要介绍带有状态反馈控制器的多速率系统模型；

第三部分提出一种控制器设计方法及三种控制器优化方法；

第四部分给出工业实例，验证了本研究所提方法的可用性。

Controller Optimization for Multirate Systems Based on Reinforcement Learning

Zhan Li, Sheng-Ri Xue, Xing-Hu Yu, Hui-Jun Gao

摘要：

The goal of this paper is to design a model-free optimal controller for the multirate system based on reinforcement learning. Sampled-data control systems are widely used in the industrial production process and multirate sampling has attracted much attention in the study of the sampled-data control theory. In this paper, we assume the sampling periods for state variables are different from periods for system inputs. Under this condition, we can obtain an equivalent discrete-time system using the lifting technique. Then, we provide an algorithm to solve the linear quadratic regulator (LQR) control problem of multirate systems with the utilization of matrix substitutions. Based on a reinforcement learning method, we use online policy iteration and off-policy algorithms to optimize the controller for multirate systems. By using the least squares method, we convert the off-policy algorithm into a model-free reinforcement learning algorithm, which only requires the input and output data of the system. Finally, we use an example to illustrate the applicability and efficiency of the model-free algorithm above mentioned.

关键词：

Multirate system, reinforcement learning, policy iteration, optimal control, controller optimization.

全文下载：

http://www.ijac.net/en/article/doi/10.1007/s11633-020-1229-0

https://link.springer.com/article/10.1007/s11633-020-1229-0