多智能体一致性(Consensus)中的矩阵理论(Matrix Theory)

写在前面

最近在看一些分布式优化的文章,但是大部分文章都是用的离散时间算法。我之前一直研究的是连续时间一致性(consensus)控制问题,现在想把离散时间控制拾起来。

这篇文章前半部分讲解连续和离散系统的一致性算法,互相做个对比,加深一下印象和理解;后半部分回顾在算法证明中会用到的矩阵理论的基本知识。

下面进入文艺复兴环节,让我们回顾一下最经典的一致性算法和矩阵理论的基本知识吧。

一致性算法

考虑状态xiRmx_i\in\mathbb R^m,图G=(V,E)\mathcal G=(\mathcal V,\mathcal E)和单积分器系统

x˙i=ui,iV.\dot x_i=u_i,\quad i\in\mathcal V.

连续时间

首先,给出连续时间一致性算法:

x˙i=jNiaij(xixj),iV,\dot x_i=-\sum_{j\in\mathcal N_i}a_{ij}(x_i-x_j),\quad i\in\mathcal V,

写成矩阵形式为

x˙=(LIm)x,\dot x=-(L\otimes I_m)x,

其中A=[aij]Rn×nA=[a_{ij}]\in\mathbb R^{n\times n}邻接矩阵(adjacency matrix),如果(j,i)E(j,i)\in\mathcal E,那么aij>0a_{ij}>0,否则aij=0a_{ij}=0L=[lij]Rn×nL=[l_{ij}]\in\mathbb R^{n\times n}拉普拉斯矩阵(Laplacian matrix),满足

lii=j=1,jinaij,lij=aij,ijl_{ii}=\sum_{j=1,j\neq i}^n a_{ij},\qquad l_{ij}=-a_{ij},\,i\neq j。

离散时间

然后,给出离散时间一致性算法:

xi,k+1=jNidijxi,k,iV,x_{i,k+1}=\sum_{j\in\mathcal N_i}d_{ij}x_{i,k},\quad i\in\mathcal V,

写成矩阵形式为

xk+1=(DIm)xk,x_{k+1}=(D\otimes I_m)x_{k},

其中kNk\in N离散时间指数(discrete-time index);D=[dij]Rn×nD=[d_{ij}]\in\mathbb R^{n\times n}行随机矩阵(row-stochastic matrix),满足dii>0d_{ii}> 0对所有iVi\in\mathcal V成立,如果(j,i)E(j,i)\in\mathcal E,那么dij>0d_{ij}>0,否则dij=0d_{ij}=0

Vicsek模型[1]是离散时间一致性算法的特例,该模型中如果(j,i)E(j,i)\in\mathcal E,那么令dij=11+Nid_{ij}=\frac{1}{1+|\mathcal N_i|}Ni|\mathcal N_i|表示智能体ii邻居(neighbor)个数。但是Vicsek模型不一定能保证为双随机矩阵(doubly-stochastic matrix)。已知LL的情况下,令D=eLD=e^{-L}虽然可以得到双随机矩阵,但是无法保证分布式实现。

想要得到满足前面条件的双随机矩阵,一种简单的办法是:如果(j,i)E(j,i)\in\mathcal E,那么令dij=1/gd_{ij}=1/gdii=1jidijd_{ii}=1-\sum_{j\neq i} d_{ij},其中g>ng>n

一致性证明

无论对于连续时间或是离散时间系统,状态xx都可以写成关于ttkk的函数,即

x(t)=(eLtIm)x(0)x(t)=(e^{-Lt}\otimes I_m)x(0),

或者

xk=(DkIm)x0x_k=(D^k\otimes I_m)x_0。

下面需要一致集S={xRnmx1==xn}\mathcal S=\{x\in\mathbb R^{nm}| x_1=\cdots=x_n \}吸引(attractive)的正不变(positive invariant)集,即满足

limteLt=limkDk=1ncT\lim_{t\to\infty} e^{-Lt}=\lim_{k\to\infty}D^k=1_nc^T,

才有limtx(t)=limkxk=(1ncTIm)x(0)\lim_{t\to\infty} x(t)=\lim_{k\to\infty} x_k=(1_nc^T\otimes I_m)x(0)

连续时间

定理1 (Lemma 2.6 [2]):拉普拉斯矩阵LRn×nL\in\mathbb R^{n\times n}对应的eLt,t0e^{-Lt}, \forall t\geq 0是主对角元大于0的行随机矩阵。另外,Rank(L)=n1\operatorname{Rank}(L)=n-1当且仅当LL有单个0特征根。此外,若LL有单个0特征根,且LTL^T关于0特征根的标准化特征向量为cc,即

1nTc=1,LTc=0,1_n^Tc = 1,\quad L^Tc = 0,

那么eLt1ncTe^{-Lt}\to 1_nc^T,当tt\to \infty

证明:由于LL是方阵,将L-L特征分解(谱分解)得到L=PJP1-L=PJP^{-1},其中P=[p1,,pn]Rn×nP=[p_1,\cdots,p_n]\in\mathbb R^{n\times n}J=diag(0,λ2,,λn)J=\operatorname{diag}(0,-\lambda_2,\cdots,-\lambda_n)。不失一般性,我们令p1=1np_1=1_n对应0特征根,而λ2,,λn\lambda_2,\cdots,\lambda_n都大于0。

由矩阵指数的性质[3],易知eLt=PeJtP1e^{-Lt}=Pe^{Jt}P^{-1}。故eLte^{-Lt}有特征根1对应特征向量1n1_n,即eLt1n=1ne^{-Lt}1_n=1_n,因此是行随机矩阵。此外,可以看出eJtdiag(1,0,,0)e^{Jt}\to \operatorname{diag}(1,0,\cdots,0),当tt\to\infty,即

PeJtP1[1np2pn][100000000][cTν2TνnT],Pe^{Jt}P^{-1}\to\begin{bmatrix}1_n &p_2&\cdots&p_n\end{bmatrix}\begin{bmatrix}1&0&\cdots &0\\ 0&0&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&0\\ \end{bmatrix}\begin{bmatrix}c^T\\\nu_2^T\\\vdots\\ \nu_n^T \end{bmatrix},

tt\to\infty。故eLt1ncTe^{-Lt}\to 1_nc^T,当tt\to\infty,又因为eLte^{-Lt}行随机,即eLt1n=1n(cT1n)=1ne^{-Lt}1_n=1_n(c^T1_n)=1_n,故1nTc=11_n^Tc=1

引理1 (Lemma C.2):给定矩阵ARn×nA\in\mathbb R^{n\times n}和特征根λC\lambda \in\mathbb C,假设x,yx,y满足(i)Ax=λxAx=\lambda x,(ii)ATy=λyA^Ty=\lambda y,(iii)xTy=1x^Ty =1。如果λ=ρ(A)>0|\lambda|=\rho(A)>0,其中ρ(A)\rho(A)AA的谱半径,且λ\lambda是唯一具有最大模数(maximum modulus)的特征根,那么limm(λ1A)mxyT\lim_{m\to\infty}(\lambda^{-1}A)^m\to xy^T

ARn×nA\in\mathbb R^{n\times n}可约矩阵(reducible),即要么为全0矩阵,要么存在置换矩阵PRn×nP\in\mathbb R^{n\times n}使得PTAPP^TAP分块上三角阵(block upper triangular form)。 ARn×nA\in\mathbb R^{n\times n}非负矩阵(nonnegative),即所有元素都大于等于0。

命题1 (Lemma C.3):方阵ARn×nA\in\mathbb R^{n\times n}是不可约的当且仅当与矩阵AA对应的有向图Γ(A)\Gamma(A)是强连通的

引理2 (Lemma C.4):如果ARn×nA\in\mathbb R^{n\times n}是非负的不可约(irreducible)矩阵,那么ρ(A)\rho(A)AA的一个特征根,且存在一个非0特征向量x0x\geq 0(即非负)使得Ax=ρ(A)xAx=\rho(A)x

接下来需要证明c0c\geq 0ccLL关于0的左特征向量,即LTc=0L^T c=0。由引理1和引理3可得,cc(eL)T(e^{-L})^T的关于1的特征向量,再由下章的定理1.1,ccLTL^T关于0的特征向量。由引理2可知,c0c\geq 0LL是不可约矩阵可由强连通性保证,下面的引理3证明LL的单个0特征根性质。

一般来说,LL至少一个0特征根,而圆盘定理(Gershgorin's disc theorem)只能确保LL的根都位于右半平面或虚轴上,但无法保证0特征根只有一个。事实上,当图G\mathcal G不连通时,可能有多个0特征根,且0特征根的个数等于图的连通分量个数。

引理3 (Lemma 2.4):给定矩阵ARn×nA\in\mathbb R^{n\times n},其中aii0a_{ii}\leq 0aij0a_{ij}\geq 0ij\forall i\neq j,且j=1naij=0\sum_{j=1}^n a_{ij}=0对任意ii成立,那么AA有至少一个0特征根和相关的特征向量1n1_n,其他非0特征根都位于右半开平面。此外,AA有唯一的0特征根,当且仅当AA对应的有向图Γ(A)\Gamma(A)有一个有向生成树(directed spanning tree)。

离散时间

引理4 (Lemma 2.16):如果一个非负矩阵A=[aij]RnA=[a_{ij}]\in\mathbb R^n满足j=1ndij=μ>0\sum_{j=1}^nd_{ij}=\mu>0,那么μ\muAA关于特征向量1n1_n的一个特征根,且ρ(A)=μ\rho(A)=\mu,其中ρ()\rho(\cdot)表示谱半径。另外,特征根μ\mu代数重数(algebraic multiplicity)为1,当且仅当AA对应的有向图Γ(A)\Gamma(A)有一个有向生成树。此外,如果dii>0,i=1,,nd_{ii}>0,i=1,\cdots,n,(i) 那么λ<μ|\lambda|<\mu对任意λμ\lambda\neq \mu成立,(ii) 如果有向图Γ(A)\Gamma(A)有一个有向生成树,那么μ\mu是唯一具有最大模数的特征根。

证明:矩阵AA行和为μ\mu,即A1n=μ1nA1_n=\mu 1_n。再由非负性和圆盘定理,ρ(A)μ\rho(A)\leq \mu。故μ\muAA关于特征向量1n1_n的一个特征根,且ρ(A)=μ\rho(A)=\mu

(充分性) 若AA对应的有向图Γ(A)\Gamma(A)有一个有向生成树,令B=AμIB=A-\mu I,则BB满足引理3的条件。BB的0根的代数重数为1,自然AAμ\mu根代数重数也为1。

(必要性) (逆否) 若AA对应的有向图Γ(A)\Gamma(A)没有向生成树,令B=AμIB=A-\mu I,则BB有不止一个0根,AAμ\mu根代数重数大于1。

定理2 (Perron-Frobenius theorem):如果ARn×nA\in\mathbb R^{n\times n}非负且不可约,那么 (i) ρ(A)>0\rho(A)>0,(ii) ρ(A)\rho(A)AA的一个特征根,(iii) 存在正向量xx使得Ax=ρ(A)xAx=\rho(A)x,(iv) ρ(A)\rho(A)AA的一个代数重数为1(几何重数也为1)的特征根。

一个行随机矩阵AA不可分解且非周期的(indecomposable and aperiodic, SIA),如果limkAk=1nνT\lim_{k\to \infty}A^k=1_n\nu^T,即极限存在且每一行都相同。

定理3 (Lemma 2.19):给定行随机矩阵ARn×nA\in\mathbb R^{n\times n}。如果AA有代数重数为1的特征根λ=1\lambda=1,且其他特征根满足λ<1|\lambda|<1,那么AA是SIA。特别地,limmAm1nνT\lim_{m\to\infty}A^m\to 1_n\nu^T,其中ATν=νA^T\nu=\nu1nTν=11_n^T\nu=1。此外,ν\nu的每一个元素非负。

证明:SIA和左特征向量可由引理1直接推出。而AAATA^T特征根相同(下章的结论2.1),由引理2可知特征根1对应的特征向量非负。

矩阵理论

主要介绍了特征值、特征向量、特征多项式、代数重数、几何重数以及重要的性质[4][5]

特征值和特征向量

这个定理前面有用到,如果0是LL的一个特征根,那么e0=1e^0=1也是eLe^{-L}的一个特征根,且它们相应的特征向量都为1n1_n,反之也一样。

定义σ(A)\sigma (A)为矩阵AA的特征根集。有几个重要性质:

nn 阶方阵AA是非奇异方阵的充要条件是AA可逆,即可逆方阵就是非奇异方阵。以下命题等价:

  • 一个矩阵非奇异当且仅当它的行列式不为零。
  • 一个矩阵非奇异当且仅当它代表的线性变换是个自同构。
  • 一个矩阵半正定当且仅当它的每个特征值大于或等于零。
  • 一个矩阵正定当且仅当它的每个特征值都大于零。
  • 一个矩阵非奇异当且仅当它的秩为nn(满秩)。

证明:如果λσ(A)λ∈σ(A),则存在一个非零向量xx,使得Ax=λxAx=λx,从而(A+μI)x=Ax+μx=λx+μx=(λ+μ)x(A+μI)x=Ax+μx=λx+μx=(λ+μ)x。于是λ+μσ(A+μI)λ+μ∈σ(A+μI)。反过来,如果λ+μσ(A+μI)λ+μ∈σ(A+μI),则存在非零向量yy,使得Ay+μy=(A+μI)y=(λ+μ)y=λy+μyAy+μy=(A+μI)y=(λ+μ)y=λy+μy。于是Ay=λyAy=λy, 从而λσ(A)λ∈σ(A)

特征多项式

证明:

  1. 多项式次数最高的两项和常数项已经给出,而其他求和项包含非对角因子aij-a_{ij},故次数不会大于n2n-2,因为taijt-a_{ij}tajjt-a_{jj}不是因子。
  2. pA(λ)=0det(λIA)=0(λIA)x=0,x0λσ(A)p_A(λ)=0⇔\operatorname{det}(λI−A)=0⇔(λI−A)x=0,x≠0⇔λ∈σ(A)
  3. 次数为n1n⩾1的多项式至多有nn个不同零点。

pA(t)p_A(t)的零点之和是AAtr(A)\operatorname{tr}(A),而零点之积则是AA行列式det(A)\operatorname{det}(A)

代数重数

λλ的代数重数是特征方程里面有几个根是λλ

矩阵的谱半径(spectral radius)是模最大特征根对应的模数。

上述定理表明,一个奇异的复矩阵总可以稍加平移使之成为非奇异的。

几何重数

证明:由于det(tIAT)=det(tIA)T=det(tIA)\operatorname{det}(tI−A^T)=\operatorname{det}(tI−A)^T=\operatorname{det}(tI−A), 我们有pAT(t)=pA(t)p_{A^T}(t)=p_A(t), 所以有pAT(λ)=0p_A^T(λ)=0 当且仅当 pA(λ)=0p_A(λ)=0。 类似地,det(tˉIA)=det[(tIA)]=det(tIA)\operatorname{det}(\bar tI−A^∗)=\operatorname{det}[(tI−A)^∗]=\overline{\operatorname{det}(tI−A)}, 所以pA(tˉ)=pA(t)p_{A^∗}(\bar t)=\overline {p_A(t)}, 又pA(λˉ)=0p_A^∗(\bar λ)=0当且仅当pA(λ)=0p_A(λ)=0

如果x,yCnx,y∈\mathbb C^n两者都是AMnA∈M^n的与特征值λλ相伴的特征向量,那么xxyy的任何非零的线性组合也是它的与λ\lambda相伴的特征向量 。实际上,与一个给定的λσ(A)λ∈σ(A)相伴的所有特征向量组成的集合与零向量合起来作成Cn\mathbb C^n的一个子空间,该子空间就是AλIA−λI零空间,就是齐次线性方程组(AλI)x=0(A−λI)x=0的解集,由秩的关系知其维数是 nrank(AλI)n−\operatorname{rank}(A−λI)。该空间有个名字就是特征空间,下面给出特征空间的完整定义:

介绍完特征空间,就可以定义几何重数了,特征空间的维数即为几何重数。

可以证明特征值的几何重数小于或者等于它的代数重数的。

即,几何重数=nrank(AλI)k==n-\operatorname{rank}(A-\lambda I)\leq k=代数重数。

一个矩阵可对角化,当且仅当它是无亏的;它有完全不同的特征值,当且仅当它是无损的且是无亏的。考虑以下矩阵的特征值λ=1λ=1, 矩阵[1002]\begin{bmatrix}1&0\\ 0&2\end{bmatrix},代数重数等于它的几何重数且都是 1, 它是无亏的,单位矩阵I2I_2是无亏的且是有损的,矩阵[1101]\begin{bmatrix}1&1\\ 0&1\end{bmatrix},几何重数是1, 代数重数是2,它是有亏的且是无损的。

尽管AAATA^T有相同的特征值,它们与给定特征值相伴的特征空间有可能是不同的。比如,矩阵A=[2304]A=\begin{bmatrix}2&3\\ 0&4\end{bmatrix},那么AA的与特征值2相伴的(一维)特征空间是由[10]\begin{bmatrix}1\\ 0\end{bmatrix}生成的,而ATA^T的与特征值2相伴的特征空间是由[1003/2]\begin{bmatrix}1&0\\ 0&-3/2\end{bmatrix}生成的。

总结

  • λλ的代数重数是特征方程里面有几个根是λλ
  • λλ的几何重数是线性空间Ax=λxAx=λx的维数。
  • 代数重数大于等于几何重数,代数重数如果大于几何重数,那么原因在于这个矩阵的Jordan标准型里面有维数大于1的Jordan块。
  • 强连通\Leftrightarrow有向生成树\Leftrightarrow不可约\Leftrightarrow最大模数特征根代数重数为1\Leftrightarrow相应特征向量非负
  • 如果是行随机(行和为1),则上面条件\LeftrightarrowSIA\Leftrightarrow极限为1nνT1_n\nu^T,其中ν\nu为左特征向量

  1. Vicsek, T., Czirók, A., Ben-Jacob, E., Cohen, I., Shochet, O. (1995). Novel type of phase transition in a system of self-driven particles. Physical review letters, 75(6), 1226. ↩︎

  2. Ren, W., & Beard, R. W. (2008). Distributed consensus in multi-vehicle cooperative control . London: Springer London. ↩︎

  3. 矩阵指数. (2020, September 15). Retrieved from 维基百科, 自由的百科全书: https://zh.wikipedia.org/w/index.php?title=%E7%9F%A9%E9%98%B5%E6%8C%87%E6%95%B0&oldid=61692808 ↩︎

  4. 特征值和特征向量. 小鱼吻水. https://www.cnblogs.com/zhoukui/p/7672972.html ↩︎

  5. 特征多项式、代数重数与几何重数. 小鱼吻水. https://www.cnblogs.com/zhoukui/p/7685318.html ↩︎