【论文笔记】连续时间梯度跟踪算法收敛性分析

写在前面

原论文:Convergence Analysis of a Continuous-Time Distributed Gradient Descent Algorithm

本文是Zhang 2021[1]的笔记,原论文将Qu 2018[2]的梯度跟踪算法扩展到连续时间版本,并对收敛性进行分析。我感觉原文变量定义方式不太主流,可能有些错误的地方,因此证明部分自己又重新推导了一遍。欢迎读者检查本文推导部分,如果发现有错误,请评论告诉我,谢谢!

分布式优化问题

问题描述和假设

问题描述

minxRdf(x)=1ni=1nfi(x)\min_{x\in\mathbb R^d} f(x)=\frac{1}{n}\sum_{i=1}^n f_i(x)

假设1:所有fif_iμ\mu-强凸函数,即fi(x)fi(y)+fi(y)T(xy)+μ2xy2f_i(x)\geq f_i(y)+\nabla f_i(y)^T(x-y)+\frac{\mu}{2}\|x-y\|^2对全部x,yRdx,y\in\mathbb R^d成立;且为LL-光滑,即fi(x)fi(y)Lxy\|\nabla f_i(x)-\nabla f_i(y)\|\leq L\|x-y\|对任意x,yx,y成立。

假设2:图无向连通。

强凸隐含条件:fi(x)fi(y)μxy\|\nabla f_i(x)-\nabla f_i(y)\|\geq \mu\|x-y\|对任意x,yx,y成立。

算法和变量定义

定义xi,siRdx_i,s_i\in\mathbb R^{d},其中sis_i是每一个智能体对1nfi(xi)\frac{1}{n}\nabla f_i(x_i)的估计。令x=[x1T,,xnT]TRnqx=[x_1^T,\cdots,x_n^T]^T\in\mathbb R^{nq}

定义W=β(LId)W=-\beta (L\otimes I_d)。连续时间梯度跟踪算法的更新律如下:

x˙=Wxs,s˙=Ws+2,(1)\begin{aligned} \dot x&=Wx-s,\\ \dot s&=Ws+\nabla^2, \end{aligned}\qquad (1)

其中2:=blkdiag(2f1,,2fn)x˙\nabla^2:=\operatorname{blkdiag}(\nabla^2 f_1,\cdots,\nabla^2f_n)\dot x,初始值为任意xi(0)x_i(0)si(0)=fi(xi(0))s_i(0)=\nabla f_i(x_i(0))。因此isi(t)=ifi(xi(t))\sum_i s_i(t)=\sum_i \nabla f_i(x_i(t))恒成立。(同样的后面的ww也满足此性质。)

可以看出,式(1)直接由Qu 2018中的离散形式推导而来。

为了简化证明,定义w=s=x˙Wxw=-s=\dot x-Wxq=x˙q=\dot x。式(1)简化为

x˙=w+Wx,w˙=Ww2,(2)\begin{aligned} \dot x&=w+Wx,\\ \dot w&=Ww-\nabla^2, \end{aligned}\qquad (2)

x˙=q,q˙=2WqW2x2.(3)\begin{aligned} \dot x&=q,\\ \dot q&=2W q-W^2x-\nabla^2. \end{aligned}\qquad (3)

收敛性分析

理论分析分为以下四步。前三步证明了收敛性,最后一步证明了最优性。(由于我这里向量定义为列向量,原文向量均为行向量,最后计算出来一些系数不太相同。)

速度递减

Q=12q20Q=\frac{1}{2}\|q\|^2\geq 0X=12Wx20X=\frac{1}{2}\|Wx\|^2\geq 0。直觉上看,当xx收敛于一个固定值时,x˙\dot x也就是qq必然收敛于0。利用半正定函数QQXX,以下引理证明了q\|q\|的指数收敛性。

引理1:在假设1、2下,有q2Q(0)+2X(0)eμt\|q\|\leq \sqrt{2Q(0)+2X(0)}e^{-\mu t}

证明:考虑类李雅普诺夫函数V=Q+XV=Q+X。对时间求导得到

V˙=qTq˙+(Wx)TWx˙=2qTWqqTW2xqT2+xTW2q=2qTWqqT2μqTq=2μQ.\begin{aligned} \dot V&=q^T\dot q+(Wx)^TW\dot x\\ &=2q^TWq-q^TW^2x-q^T\nabla^2+x^TW^2q\\ &=2q^TWq-q^T\nabla^2\leq -\mu q^Tq=-2\mu Q. \end{aligned}

因此,Q˙+X˙2μQ\dot Q+\dot X\leq -2\mu Q,即

Q(t)X(t)+X(0)+Q(0)+0t2μQ(r)drX(0)+Q(0)+0t2μQ(r)dr\begin{aligned} Q(t)&\leq -X(t)+X(0)+Q(0)+\int_0^t-2\mu Q(r) dr\\ &\leq X(0)+Q(0)+\int_0^t-2\mu Q(r) dr \end{aligned}

格朗沃尔不等式(Grönwall's inequality)可得

Q(t)(X(0)+Q(0))e2μt,Q(t)\leq (X(0)+Q(0))e^{-2\mu t},

q2Q(0)+2X(0)eμt\|q\|\leq \sqrt{2Q(0)+2X(0)}e^{-\mu t}

格朗沃尔不等式:假设α,β,u\alpha,\beta,u为定义在实数区间I=[a,b]I=[a,b](bb可以为\infty)上的连续实函数,则有

(a) 如果β\beta非负,且uu满足如下积分不等式:

u(t)α(t)+atβ(s)u(s)ds,tI,u(t)\leq \alpha(t)+\int_a^t\beta(s)u(s)ds,\quad t\in I,

​ 那么

u(t)α(t)+atα(s)β(s)exp(stβ(r)dr)ds,tI.u(t)\leq \alpha(t)+\int_a^t \alpha(s)\beta(s)\exp(\int_s^t\beta(r)dr)ds,\quad t\in I.

(b)如果在之前的条件下,α\alpha是一个常数,那么

u(t)αexp(atβ(s)ds),tI.u(t)\leq \alpha\exp(\int_a^t\beta (s)ds),\quad t\in I.

梯度递减

xˉ=1nixi\bar x=\frac{1}{n}\sum_i x_iwˉ=1niwi\bar w=\frac{1}{n}\sum_i w_iˉ2=1ni2fi(xi)x˙i\bar \nabla^2=\frac{1}{n}\sum_i \nabla^2 f_i(x_i)\dot x_i

引理2:在假设1、2下,有wˉ2n(Q(0)+X(0))eμt\|\bar w\|\leq\sqrt{\frac{2}{n}(Q(0)+X(0))}e^{-\mu t}

证明:由式(2)得到,

xˉ˙=wˉwˉ˙=ˉ2\begin{aligned} \dot {\bar x}&=\bar w\\ \dot {\bar w}&=-\bar \nabla ^2 \end{aligned}

Π=1n11TId\Pi=\frac{1}{n}11^T\otimes I_d。由于qˉ=xˉ˙=wˉ=1nifi(xi)\bar q=\dot {\bar x}=\bar w=-\frac{1}{n}\sum_i \nabla f_i(x_i),有

nwˉ2=nqˉ2=Πq2q2.\begin{aligned} n\|\bar w\|^2=n\|\bar q\|^2=\|\Pi q\|^2\leq \|q\|^2. \end{aligned}

wˉ2n(Q(0)+X(0))eμt\|\bar w\|\leq \sqrt{\frac{2}{n}(Q(0)+X(0))}e^{-\mu t}

均值一致

定义误差矩阵δw=wΠw\delta_w=w-\Pi wδx=xΠx\delta_x=x-\Pi x。定义相应的李雅普诺夫函数Δw=12δw2\Delta_w=\frac{1}{2}\|\delta_w\|^2Δx=12δx2\Delta_x=\frac{1}{2}\|\delta_x\|^2

引理3(Olfati-Saber 2004[3]):令图G\mathcal G是无向图,其拉普拉斯矩阵为LL。那么λ2=min1Tδ=0,δ0(δTLδ/δTδ)\lambda_2=\min_{1^T\delta=0,\delta\neq 0}(\delta^TL\delta/\delta^T\delta)LL的第二小特征根。

引理4:在假设1、2下,w,xw,x以指数速率达成一致,即

δwC1(eβλ2t+(1+t)eμt),δxC2((1+t)eβλ2t+(1+t)2eμt),\begin{aligned} \|\delta_w\|&\leq C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}),\\ \|\delta_x\|&\leq C_2((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}), \end{aligned}

其中C1,C2C_1,C_2为正常数。

证明:(1)根据定义,有δ˙w+Πw˙=Wδw2\dot \delta_w+\Pi \dot w=W\delta_w-\nabla^2,和

Δ˙w=δwT(Wδw2)+δwTΠ22βλ2ΔwδwT22βλ2Δw+Lδwq=2βλ2Δw+2LΔwQ(0)+X(0)eμt.\begin{aligned} \dot \Delta_w&=\delta_w^T(W\delta_w-\nabla^2)+\delta_w^T\Pi\nabla^2\\ &\leq -2\beta\lambda_2\Delta_w-\delta_w^T\nabla^2\\ &\leq-2\beta\lambda_2\Delta_w+L\|\delta_w\|\|q\|\\ &=-2\beta\lambda_2\Delta_w+2L\sqrt{\Delta_w}\sqrt{Q(0)+X(0)}e^{-\mu t}. \end{aligned}

δwβλ2δw+L2Q(0)+2X(0)eμt\|\delta_w\|'\leq -\beta\lambda_2\|\delta_w\|+L\sqrt{2Q(0)+2X(0)}e^{-\mu t}

注意到(δw+βλ2δw)eβλ2t=(δweβλ2t)L2Q(0)+2X(0)eβλ2tμt(\|\delta_w\|'+\beta\lambda_2\|\delta_w\|)e^{\beta \lambda_2t}=(\|\delta_w\|e^{\beta\lambda_2 t})'\leq L\sqrt{2Q(0)+2X(0)}e^{\beta\lambda_2t-\mu t},可得

δwC11(eβλ2t+eμt),βλ2μ,δwC12(teμt+eμt),βλ2μ.\begin{aligned} \|\delta_w\|&\leq C_{11}(e^{-\beta\lambda_2 t}+e^{-\mu t}),\quad \beta\lambda_2\neq \mu,\\ \|\delta_w\|&\leq C_{12}(te^{-\mu t}+e^{-\mu t}),\quad \beta\lambda_2\neq \mu.\\ \end{aligned}

C1=max{C11,C12}C_1=\max\{C_{11},C_{12}\},可得

δwC1(eβλ2t+(1+t)eμt).\|\delta_w\|\leq C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}).

(2)根据定义,有δ˙x=w+WδxΠw\dot \delta_x=w+W\delta_x-\Pi w,和

Δ˙x=δxT(w+WδxΠw)2βλ2Δx+δxTδw2βλ2Δx+δw2Δx\begin{aligned} \dot \Delta_x&=\delta_x^T(w+W\delta_x-\Pi w)\\ &\leq -2\beta\lambda_2\Delta_x+\delta_x^T\delta_w\\ &\leq -2\beta\lambda_2\Delta_x+\|\delta_w\|\sqrt{2\Delta_x} \end{aligned}

由前面的结论,可得

δxβλ2δx+C1(eβλ2t+(1+t)eμt).\|\delta_x\|'\leq-\beta\lambda_2\|\delta_x\|+C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}).

同理可得

δxC2((1+t)eβλ2t+(1+t)2eμt).\|\delta_x\|\leq C_2((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}).

最优误差

最优性由最优状态误差给出,该误差指数收敛。

定理1:在假设1、2下,最优状态误差以指数速率收敛

x1xC3((1+t)eβλ2t+(1+t)2eμt),\begin{aligned} \|x-1\otimes x^*\|&\leq C_3((1+t)e^{-\beta\lambda_2t}+(1+t)^2e^{-\mu t}),\\ \end{aligned}

其中C3C_3是正常数。

证明:定义g=ifi(xi)=nwˉg=\sum_i\nabla f_i(x_i)=-n\bar wgˉ=ifi(xˉ)\bar g=\sum_i\nabla f_i(\bar x),有

ggˉ2=i(fi(xi)fi(xˉ))2ifi(xi)fi(xˉ)2iLxixˉ2=Lδx2.\begin{aligned} \|g-\bar g\|^2&=\|\sum_i (\nabla f_i(x_i)-\nabla f_i(\bar x))\|^2\\ &\leq \sum_i\|\nabla f_i(x_i)-\nabla f_i(\bar x)\|^2\\ &\leq \sum_iL\|x_i-\bar x\|^2 = L\|\delta_x\|^2. \end{aligned}

作为结果,我们得到

xxˉ21/μ2f(x)f(xˉ)2=1/μ2f(xˉ)2=1/(nμ)2gˉ21/(nμ)2(ggˉ+g)2\begin{aligned} \|x^*-\bar x\|^2&\leq 1/\mu^2\|\nabla f(x^*)-\nabla f(\bar x)\|^2\\ &=1/\mu^2\|\nabla f(\bar x)\|^2=1/(n\mu)^2\|\bar g\|^2\\ &\leq1/(n\mu)^2(\|g-\bar g\|+\|g\|)^2 \end{aligned}

注意到ggˉ\|g-\bar g\|可用δx\|\delta_x\|表示,g\|g\|可用wˉ\|\bar w\|表示。因此由引理2和引理5得到

x1xδx+1(xxˉ)C3((1+t)eβλ2t+(1+t)2eμt).\begin{aligned} \|x-1\otimes x^*\|&\leq \|\delta_x\|+\|1\otimes (x^*-\bar x)\|\\ &\leq C_3((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}). \end{aligned}


  1. M. Zhang, X. Liu, and J. Liu, “Convergence Analysis of a Continuous-Time Distributed Gradient Descent Algorithm,” IEEE Control Syst. Lett., vol. 5, no. 4, pp. 1339–1344, Nov. 2021. ↩︎

  2. G. Qu and N. Li, “Harnessing smoothness to accelerate distributed optimization,” IEEE Trans. Control Netw. Syst., vol. 5, no. 3, pp. 1245–1260, Sep. 2018. ↩︎

  3. R. Olfati-Saber and R. M. Murray, “Consensus problems in networks of agents with switching topology and time-delays,” IEEE Trans. Autom. Control, vol. 49, no. 9, pp. 1520–1533, Sep. 2004. ↩︎