写在前面

自适应神经网络控制器将自适应控制与神经网络相结合，通过神经网络系统辨识的方法达到自适应控制的目的。

控制器针对系统模型参数未知的被控对象，基于系统的状态变量，通过神经网络辨识被控对象的未知参数，并将被控对象的模型信息提供给自适应反馈控制器。相对于传统的PID控制器，自适应神经网络控制器有更强的鲁棒性。

问题描述

考虑一个含有未知函数的非线性系统，其状态方程可表示为

\left\{ \begin{aligned} \dot x&=f(x)+Pu\\ y&=x \end{aligned} \right.\qquad (1)

其中 $x,y\in\mathbb R^m$ 为系统状态变量和输出变量， $u\in\mathbb R^m$ 为系统的输入变量， $f(x)$ 为未知函数， $P\in\mathbb R^{m\times m}$ 为未知正定常矩阵。

控制目标是使系统输出变量 $y$ 跟踪参考轨迹 $y_d$ 。

自适应神经网络控制器

神经网络反馈自适应控制器的结构如下图所示^[1]。

RBF神经网络

首先定义跟踪误差 $e$

e=y-y_d\qquad (2)

对(2)求导，得

\dot e = P\left(P^{-1}(f(x)-\dot y_d)+u\right)\qquad (3)

考虑 $P^{-1}(f(x)-\dot y_d)$ 未知，需要辨识该部分模型。令 $Z=[x,\dot y_d]$ ，采用RBF神经网络(Radial basis function neural networks)逼近(1)中的未知函数：

W^{*T}S(Z)+\delta(Z)=P^{-1}(f(x)-\dot y_d)\qquad (4)

其中， $S\in\mathbb R^m$ 是高斯基函数， $W^*\in\mathbb R^{m\times m}$ 是理想的常数权值( $\|W\|_F\leq W_{m}$ )， $\delta\in\mathbb R^m$ 是逼近误差( $\|\delta\|\leq \delta_m$ )。通常认为存在理想的权值使得逼近误差 $\delta$ 最小。

定义 $W^*$ 的估计值为 $\hat W$ ，权值估计误差 $\tilde W=\hat W-W^*$ 。将(4)代入(3)得

\dot e=P(W^{*T}S(Z)+\delta(Z)+u)\qquad (5)

构造控制器为

u=-ke-\hat W^TS(Z)\qquad (6)

将(6)代入(5)得

\dot e=P[-ke-\tilde W^TS(Z)+\delta(Z)]\qquad (7)

神经网络训练

为了使权值 $\hat W$ 逼近理想权值 $W^*$ ，需要对 $\hat W$ 进行训练。同样为了确保控制系统全局稳定，基于李雅普诺夫稳定性判据计算 $\hat W$ 的自适应更新律。

将跟踪误差和权值估计误差作为李雅普诺夫函数的自变量，构建函数如下

V=\frac{1}{2}e^TP^{-1}e+\frac{1}{2}\operatorname{tr}(\tilde W^T\Gamma^{-1}\tilde W)\qquad (8)

其中 $\Gamma$ 为正定对称矩阵。对(8)求时间导数可得

\dot V=-ke^Te-S^T(Z)\tilde We+\operatorname{tr}(\tilde W^T\Gamma^{-1}\dot{\tilde W})+\delta(Z)e

由于 $\tilde W=\hat W-W^*$ ，有 $\dot {\hat W}=\dot {\tilde W}$ ，从而有

\dot V=-ke^Te-S^T(Z)\tilde We+\operatorname{tr}(\tilde W^T\Gamma^{-1}\dot {\hat W})+\delta(Z)e

由于

S(Z)\tilde We=\operatorname{tr}(eS^T(Z)\tilde W)

则

\dot V=-ke^Te+\operatorname{tr}(-eS^T(Z)\tilde W+\dot {\hat W}^T\Gamma^{-1}\tilde W)+\delta(Z)e\qquad (9)

自适应律之一

稳定性要求 $\dot V\leq 0$ ，考虑 $-S^T(Z)\tilde We$ 和 $\operatorname{tr}(\tilde W^T\Gamma^{-1}\dot {\hat W})$ 相互抵消时，通过选择系数 $k$ 满足 $k\geq\frac{\delta_m}{\|e\|}$ ，使得下式成立：

\dot V=-ke^Te+\delta(Z)e\leq -k\|e\|^2+\delta^*\|e\|=-(k-\frac{\delta^*}{\|e\|})\|e\|^2\leq 0.

此时神经网络的权值自适应更新律为

\dot {\hat W}=\Gamma S(Z)e\qquad (10)

相应 $\|e\|$ 的收敛半径为 $\delta_m/k$ 。但该方法不能保证权值 $\tilde W=\hat W-W^*$ 的有界性，即无法实现未知上界有界(Unknown Upper Bound, UUB)问题。

自适应律之二

取自适应律^[2]^[3]为

\dot {\hat W}=\Gamma S(Z)e-k_1\Gamma\hat W\qquad (11)

将(11)代入(9)得

\dot V=-ke^Te-k_1\operatorname{tr}(\hat W^T\tilde W)+\delta(Z)e

为了比较真实的矩阵和估计的矩阵值之间的误差，或者说比较真实矩阵和估计矩阵之间的相似性，我们可以采用 Frobenius 范数。根据F范数的性质^[4]^[5]，有

\begin{aligned} 2\operatorname{tr}(\hat W^T\tilde W)&= \|\hat W\|_F^2+\|\tilde W\|_F^2-\|W^*\|_F^2\geq \|\tilde W\|_F^2-W_m^2\\ \operatorname{tr}(\hat W^T\tilde W)&\geq \|\tilde W\|_F^2-\|\tilde W\|\|W^*\|_F\geq \|\tilde W\|_F^2-\|\tilde W\|_FW_m \end{aligned}

则

\begin{aligned} \dot V&\leq -ke^Te-k_1(\|\tilde W\|_F^2-\|\tilde W\|_FW_m)+\delta(Z)e\\ &\leq-\begin{bmatrix}\|e\|&\|\tilde W\|_F\end{bmatrix}\begin{bmatrix}k&0\\ 0&k_1\end{bmatrix}\begin{bmatrix}\|e\|\\ \|\tilde W\|_F\end{bmatrix} +\begin{bmatrix}\delta_m&k_1W_m\end{bmatrix}\begin{bmatrix}\|e\|\\ \|\tilde W\|_F\end{bmatrix} \end{aligned}\qquad (12)

令 $z=\begin{bmatrix}\|e\|&\|\tilde W\|_F\end{bmatrix}^T$ 。则(12)可以表示为

\dot V\leq -z^TQz+hz\leq -\underline \lambda(Q)\|z\|^2+\|h\|\|z\|\qquad (13)

令

\left\{\begin{aligned} \underline R&=\min(\underline \lambda(P^{-1}),\underline \lambda(\Gamma^{-1}))\\ \overline R&=\max(\overline \lambda(P^{-1}),\overline \lambda(\Gamma^{-1})) \end{aligned}\right.

则

\frac{1}{2}\underline R\|z\|^2\leq V\leq \frac{1}{2}\bar R\|z\|^2\qquad (14)

结合(13)、(14)得到

\dot V\leq -\alpha V+\beta \sqrt{V}\qquad (15)

其中

\alpha = \frac{2\underline \lambda(Q)}{\overline R},\quad \beta=\frac{\sqrt{2\|h\|}}{\sqrt{\underline R}}

对(15)积分可得

\sqrt{V(t)}\leq \sqrt{V(0)}e^{-\frac{\alpha}{2}t}+\frac{\beta}{\alpha}(1-e^{-\frac{\alpha}{2}t})

可保证 $\|e\|,\|\tilde W\|_F$ 均最终一致有界^[6]，且

\lim_{t\to\infty} \|e\|\leq \frac{\|h\|\overline R}{\underline \lambda(Q)\sqrt{\underline R \underline \lambda (P^{-1})}}

相比传统的PID控制器，自适应控制器能修正自己的特性以适应对象和扰动的动态特性的变化，因此对模型复杂多变被控对象，自适应神经网络控制算法具有更高的可靠性。

神经网络控制-杨辰光 - HuangTL的文章 - 知乎 https://zhuanlan.zhihu.com/p/346601192 ↩︎
刘金琨. 机器人控制系统的设计与MATLAB仿真. 北京：清华大学出版社，2008. ↩︎
Z. Peng, D. Wang, H. Zhang, and G. Sun, “Distributed neural network control for adaptive synchronization of uncertain dynamical multiagent systems,” IEEE Trans. Neural Networks Learn. Syst., vol. 25, no. 8, pp. 1508–1519, 2014. ↩︎
M. Chen, S. S. Ge, and B. V. E. How, “Robust adaptive neural network control for a class of uncertain MIMO nonlinear systems with input nonlinearities,” IEEE Trans. Neural Networks, vol. 21, no. 5, pp. 796–812, May 2010. ↩︎
StackExchange. Relation between Frobenius norm and trace. https://math.stackexchange.com/questions/1898839/relation-between-frobenius-norm-and-trace ↩︎
H. Khalil, Nonlinear Systems, 3rd ed. Englewood Cliffs, NJ, USA: Prentice-Hall, 2002 ↩︎

star2dust

神经网络自适应反馈控制设计和应用