写在前面
原论文:Convergence Analysis of a Continuous-Time Distributed Gradient Descent Algorithm
本文是Zhang 2021的笔记,原论文将Qu 2018的梯度跟踪算法扩展到连续时间版本,并对收敛性进行分析。我感觉原文变量定义方式不太主流,可能有些错误的地方,因此证明部分自己又重新推导了一遍。欢迎读者检查本文推导部分,如果发现有错误,请评论告诉我,谢谢!
分布式优化问题
问题描述和假设
问题描述
min x ∈ R d f ( x ) = 1 n ∑ i = 1 n f i ( x ) \min_{x\in\mathbb R^d} f(x)=\frac{1}{n}\sum_{i=1}^n f_i(x)
x ∈ R d min f ( x ) = n 1 i = 1 ∑ n f i ( x )
假设1:所有f i f_i f i 是μ \mu μ -强凸函数,即f i ( x ) ≥ f i ( y ) + ∇ f i ( y ) T ( x − y ) + μ 2 ∥ x − y ∥ 2 f_i(x)\geq f_i(y)+\nabla f_i(y)^T(x-y)+\frac{\mu}{2}\|x-y\|^2 f i ( x ) ≥ f i ( y ) + ∇ f i ( y ) T ( x − y ) + 2 μ ∥ x − y ∥ 2 对全部x , y ∈ R d x,y\in\mathbb R^d x , y ∈ R d 成立;且为L L L -光滑,即∥ ∇ f i ( x ) − ∇ f i ( y ) ∥ ≤ L ∥ x − y ∥ \|\nabla f_i(x)-\nabla f_i(y)\|\leq L\|x-y\| ∥ ∇ f i ( x ) − ∇ f i ( y ) ∥ ≤ L ∥ x − y ∥ 对任意x , y x,y x , y 成立。
假设2:图无向连通。
强凸隐含条件:∥ ∇ f i ( x ) − ∇ f i ( y ) ∥ ≥ μ ∥ x − y ∥ \|\nabla f_i(x)-\nabla f_i(y)\|\geq \mu\|x-y\| ∥ ∇ f i ( x ) − ∇ f i ( y ) ∥ ≥ μ ∥ x − y ∥ 对任意x , y x,y x , y 成立。
算法和变量定义
定义x i , s i ∈ R d x_i,s_i\in\mathbb R^{d} x i , s i ∈ R d ,其中s i s_i s i 是每一个智能体对1 n ∇ f i ( x i ) \frac{1}{n}\nabla f_i(x_i) n 1 ∇ f i ( x i ) 的估计。令x = [ x 1 T , ⋯ , x n T ] T ∈ R n q x=[x_1^T,\cdots,x_n^T]^T\in\mathbb R^{nq} x = [ x 1 T , ⋯ , x n T ] T ∈ R n q 。
定义W = − β ( L ⊗ I d ) W=-\beta (L\otimes I_d) W = − β ( L ⊗ I d ) 。连续时间梯度跟踪算法的更新律如下:
x ˙ = W x − s , s ˙ = W s + ∇ 2 , ( 1 ) \begin{aligned}
\dot x&=Wx-s,\\
\dot s&=Ws+\nabla^2,
\end{aligned}\qquad (1)
x ˙ s ˙ = W x − s , = W s + ∇ 2 , ( 1 )
其中∇ 2 : = blkdiag ( ∇ 2 f 1 , ⋯ , ∇ 2 f n ) x ˙ \nabla^2:=\operatorname{blkdiag}(\nabla^2 f_1,\cdots,\nabla^2f_n)\dot x ∇ 2 : = b l k d i a g ( ∇ 2 f 1 , ⋯ , ∇ 2 f n ) x ˙ ,初始值为任意x i ( 0 ) x_i(0) x i ( 0 ) 和s i ( 0 ) = ∇ f i ( x i ( 0 ) ) s_i(0)=\nabla f_i(x_i(0)) s i ( 0 ) = ∇ f i ( x i ( 0 ) ) 。因此∑ i s i ( t ) = ∑ i ∇ f i ( x i ( t ) ) \sum_i s_i(t)=\sum_i \nabla f_i(x_i(t)) ∑ i s i ( t ) = ∑ i ∇ f i ( x i ( t ) ) 恒成立。(同样的后面的w w w 也满足此性质。)
可以看出,式(1)直接由Qu 2018中的离散形式推导而来。
为了简化证明,定义w = − s = x ˙ − W x w=-s=\dot x-Wx w = − s = x ˙ − W x 和q = x ˙ q=\dot x q = x ˙ 。式(1)简化为
x ˙ = w + W x , w ˙ = W w − ∇ 2 , ( 2 ) \begin{aligned}
\dot x&=w+Wx,\\
\dot w&=Ww-\nabla^2,
\end{aligned}\qquad (2)
x ˙ w ˙ = w + W x , = W w − ∇ 2 , ( 2 )
和
x ˙ = q , q ˙ = 2 W q − W 2 x − ∇ 2 . ( 3 ) \begin{aligned}
\dot x&=q,\\
\dot q&=2W q-W^2x-\nabla^2.
\end{aligned}\qquad (3)
x ˙ q ˙ = q , = 2 W q − W 2 x − ∇ 2 . ( 3 )
收敛性分析
理论分析分为以下四步。前三步证明了收敛性,最后一步证明了最优性。(由于我这里向量定义为列向量,原文向量均为行向量,最后计算出来一些系数不太相同。)
速度递减
令Q = 1 2 ∥ q ∥ 2 ≥ 0 Q=\frac{1}{2}\|q\|^2\geq 0 Q = 2 1 ∥ q ∥ 2 ≥ 0 ,X = 1 2 ∥ W x ∥ 2 ≥ 0 X=\frac{1}{2}\|Wx\|^2\geq 0 X = 2 1 ∥ W x ∥ 2 ≥ 0 。直觉上看,当x x x 收敛于一个固定值时,x ˙ \dot x x ˙ 也就是q q q 必然收敛于0。利用半正定函数Q Q Q 和X X X ,以下引理证明了∥ q ∥ \|q\| ∥ q ∥ 的指数收敛性。
引理1:在假设1、2下,有∥ q ∥ ≤ 2 Q ( 0 ) + 2 X ( 0 ) e − μ t \|q\|\leq \sqrt{2Q(0)+2X(0)}e^{-\mu t} ∥ q ∥ ≤ 2 Q ( 0 ) + 2 X ( 0 ) e − μ t 。
证明:考虑类李雅普诺夫函数V = Q + X V=Q+X V = Q + X 。对时间求导得到
V ˙ = q T q ˙ + ( W x ) T W x ˙ = 2 q T W q − q T W 2 x − q T ∇ 2 + x T W 2 q = 2 q T W q − q T ∇ 2 ≤ − μ q T q = − 2 μ Q . \begin{aligned}
\dot V&=q^T\dot q+(Wx)^TW\dot x\\
&=2q^TWq-q^TW^2x-q^T\nabla^2+x^TW^2q\\
&=2q^TWq-q^T\nabla^2\leq -\mu q^Tq=-2\mu Q.
\end{aligned}
V ˙ = q T q ˙ + ( W x ) T W x ˙ = 2 q T W q − q T W 2 x − q T ∇ 2 + x T W 2 q = 2 q T W q − q T ∇ 2 ≤ − μ q T q = − 2 μ Q .
因此,Q ˙ + X ˙ ≤ − 2 μ Q \dot Q+\dot X\leq -2\mu Q Q ˙ + X ˙ ≤ − 2 μ Q ,即
Q ( t ) ≤ − X ( t ) + X ( 0 ) + Q ( 0 ) + ∫ 0 t − 2 μ Q ( r ) d r ≤ X ( 0 ) + Q ( 0 ) + ∫ 0 t − 2 μ Q ( r ) d r \begin{aligned}
Q(t)&\leq -X(t)+X(0)+Q(0)+\int_0^t-2\mu Q(r) dr\\
&\leq X(0)+Q(0)+\int_0^t-2\mu Q(r) dr
\end{aligned}
Q ( t ) ≤ − X ( t ) + X ( 0 ) + Q ( 0 ) + ∫ 0 t − 2 μ Q ( r ) d r ≤ X ( 0 ) + Q ( 0 ) + ∫ 0 t − 2 μ Q ( r ) d r
由格朗沃尔不等式 (Grönwall's inequality)可得
Q ( t ) ≤ ( X ( 0 ) + Q ( 0 ) ) e − 2 μ t , Q(t)\leq (X(0)+Q(0))e^{-2\mu t},
Q ( t ) ≤ ( X ( 0 ) + Q ( 0 ) ) e − 2 μ t ,
即∥ q ∥ ≤ 2 Q ( 0 ) + 2 X ( 0 ) e − μ t \|q\|\leq \sqrt{2Q(0)+2X(0)}e^{-\mu t} ∥ q ∥ ≤ 2 Q ( 0 ) + 2 X ( 0 ) e − μ t 。
格朗沃尔不等式:假设α , β , u \alpha,\beta,u α , β , u 为定义在实数区间I = [ a , b ] I=[a,b] I = [ a , b ] (b b b 可以为∞ \infty ∞ )上的连续实函数,则有
(a) 如果β \beta β 非负,且u u u 满足如下积分不等式:
u ( t ) ≤ α ( t ) + ∫ a t β ( s ) u ( s ) d s , t ∈ I , u(t)\leq \alpha(t)+\int_a^t\beta(s)u(s)ds,\quad t\in I,
u ( t ) ≤ α ( t ) + ∫ a t β ( s ) u ( s ) d s , t ∈ I ,
那么
u ( t ) ≤ α ( t ) + ∫ a t α ( s ) β ( s ) exp ( ∫ s t β ( r ) d r ) d s , t ∈ I . u(t)\leq \alpha(t)+\int_a^t \alpha(s)\beta(s)\exp(\int_s^t\beta(r)dr)ds,\quad t\in I.
u ( t ) ≤ α ( t ) + ∫ a t α ( s ) β ( s ) exp ( ∫ s t β ( r ) d r ) d s , t ∈ I .
(b)如果在之前的条件下,α \alpha α 是一个常数,那么
u ( t ) ≤ α exp ( ∫ a t β ( s ) d s ) , t ∈ I . u(t)\leq \alpha\exp(\int_a^t\beta (s)ds),\quad t\in I.
u ( t ) ≤ α exp ( ∫ a t β ( s ) d s ) , t ∈ I .
梯度递减
令x ˉ = 1 n ∑ i x i \bar x=\frac{1}{n}\sum_i x_i x ˉ = n 1 ∑ i x i ,w ˉ = 1 n ∑ i w i \bar w=\frac{1}{n}\sum_i w_i w ˉ = n 1 ∑ i w i 和∇ ˉ 2 = 1 n ∑ i ∇ 2 f i ( x i ) x ˙ i \bar \nabla^2=\frac{1}{n}\sum_i \nabla^2 f_i(x_i)\dot x_i ∇ ˉ 2 = n 1 ∑ i ∇ 2 f i ( x i ) x ˙ i 。
引理2:在假设1、2下,有∥ w ˉ ∥ ≤ 2 n ( Q ( 0 ) + X ( 0 ) ) e − μ t \|\bar w\|\leq\sqrt{\frac{2}{n}(Q(0)+X(0))}e^{-\mu t} ∥ w ˉ ∥ ≤ n 2 ( Q ( 0 ) + X ( 0 ) ) e − μ t 。
证明:由式(2)得到,
x ˉ ˙ = w ˉ w ˉ ˙ = − ∇ ˉ 2 \begin{aligned}
\dot {\bar x}&=\bar w\\
\dot {\bar w}&=-\bar \nabla ^2
\end{aligned}
x ˉ ˙ w ˉ ˙ = w ˉ = − ∇ ˉ 2
令Π = 1 n 1 1 T ⊗ I d \Pi=\frac{1}{n}11^T\otimes I_d Π = n 1 1 1 T ⊗ I d 。由于q ˉ = x ˉ ˙ = w ˉ = − 1 n ∑ i ∇ f i ( x i ) \bar q=\dot {\bar x}=\bar w=-\frac{1}{n}\sum_i \nabla f_i(x_i) q ˉ = x ˉ ˙ = w ˉ = − n 1 ∑ i ∇ f i ( x i ) ,有
n ∥ w ˉ ∥ 2 = n ∥ q ˉ ∥ 2 = ∥ Π q ∥ 2 ≤ ∥ q ∥ 2 . \begin{aligned}
n\|\bar w\|^2=n\|\bar q\|^2=\|\Pi q\|^2\leq \|q\|^2.
\end{aligned}
n ∥ w ˉ ∥ 2 = n ∥ q ˉ ∥ 2 = ∥ Π q ∥ 2 ≤ ∥ q ∥ 2 .
故∥ w ˉ ∥ ≤ 2 n ( Q ( 0 ) + X ( 0 ) ) e − μ t \|\bar w\|\leq \sqrt{\frac{2}{n}(Q(0)+X(0))}e^{-\mu t} ∥ w ˉ ∥ ≤ n 2 ( Q ( 0 ) + X ( 0 ) ) e − μ t 。
均值一致
定义误差矩阵δ w = w − Π w \delta_w=w-\Pi w δ w = w − Π w 和δ x = x − Π x \delta_x=x-\Pi x δ x = x − Π x 。定义相应的李雅普诺夫函数Δ w = 1 2 ∥ δ w ∥ 2 \Delta_w=\frac{1}{2}\|\delta_w\|^2 Δ w = 2 1 ∥ δ w ∥ 2 和Δ x = 1 2 ∥ δ x ∥ 2 \Delta_x=\frac{1}{2}\|\delta_x\|^2 Δ x = 2 1 ∥ δ x ∥ 2 。
引理3(Olfati-Saber 2004):令图G \mathcal G G 是无向图,其拉普拉斯矩阵为L L L 。那么λ 2 = min 1 T δ = 0 , δ ≠ 0 ( δ T L δ / δ T δ ) \lambda_2=\min_{1^T\delta=0,\delta\neq 0}(\delta^TL\delta/\delta^T\delta) λ 2 = min 1 T δ = 0 , δ = 0 ( δ T L δ / δ T δ ) 是L L L 的第二小特征根。
引理4:在假设1、2下,w , x w,x w , x 以指数速率达成一致,即
∥ δ w ∥ ≤ C 1 ( e − β λ 2 t + ( 1 + t ) e − μ t ) , ∥ δ x ∥ ≤ C 2 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) , \begin{aligned}
\|\delta_w\|&\leq C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}),\\
\|\delta_x\|&\leq C_2((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}),
\end{aligned}
∥ δ w ∥ ∥ δ x ∥ ≤ C 1 ( e − β λ 2 t + ( 1 + t ) e − μ t ) , ≤ C 2 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) ,
其中C 1 , C 2 C_1,C_2 C 1 , C 2 为正常数。
证明:(1)根据定义,有δ ˙ w + Π w ˙ = W δ w − ∇ 2 \dot \delta_w+\Pi \dot w=W\delta_w-\nabla^2 δ ˙ w + Π w ˙ = W δ w − ∇ 2 ,和
Δ ˙ w = δ w T ( W δ w − ∇ 2 ) + δ w T Π ∇ 2 ≤ − 2 β λ 2 Δ w − δ w T ∇ 2 ≤ − 2 β λ 2 Δ w + L ∥ δ w ∥ ∥ q ∥ = − 2 β λ 2 Δ w + 2 L Δ w Q ( 0 ) + X ( 0 ) e − μ t . \begin{aligned}
\dot \Delta_w&=\delta_w^T(W\delta_w-\nabla^2)+\delta_w^T\Pi\nabla^2\\
&\leq -2\beta\lambda_2\Delta_w-\delta_w^T\nabla^2\\
&\leq-2\beta\lambda_2\Delta_w+L\|\delta_w\|\|q\|\\
&=-2\beta\lambda_2\Delta_w+2L\sqrt{\Delta_w}\sqrt{Q(0)+X(0)}e^{-\mu t}.
\end{aligned}
Δ ˙ w = δ w T ( W δ w − ∇ 2 ) + δ w T Π ∇ 2 ≤ − 2 β λ 2 Δ w − δ w T ∇ 2 ≤ − 2 β λ 2 Δ w + L ∥ δ w ∥ ∥ q ∥ = − 2 β λ 2 Δ w + 2 L Δ w Q ( 0 ) + X ( 0 ) e − μ t .
即∥ δ w ∥ ′ ≤ − β λ 2 ∥ δ w ∥ + L 2 Q ( 0 ) + 2 X ( 0 ) e − μ t \|\delta_w\|'\leq -\beta\lambda_2\|\delta_w\|+L\sqrt{2Q(0)+2X(0)}e^{-\mu t} ∥ δ w ∥ ′ ≤ − β λ 2 ∥ δ w ∥ + L 2 Q ( 0 ) + 2 X ( 0 ) e − μ t 。
注意到( ∥ δ w ∥ ′ + β λ 2 ∥ δ w ∥ ) e β λ 2 t = ( ∥ δ w ∥ e β λ 2 t ) ′ ≤ L 2 Q ( 0 ) + 2 X ( 0 ) e β λ 2 t − μ t (\|\delta_w\|'+\beta\lambda_2\|\delta_w\|)e^{\beta \lambda_2t}=(\|\delta_w\|e^{\beta\lambda_2 t})'\leq L\sqrt{2Q(0)+2X(0)}e^{\beta\lambda_2t-\mu t} ( ∥ δ w ∥ ′ + β λ 2 ∥ δ w ∥ ) e β λ 2 t = ( ∥ δ w ∥ e β λ 2 t ) ′ ≤ L 2 Q ( 0 ) + 2 X ( 0 ) e β λ 2 t − μ t ,可得
∥ δ w ∥ ≤ C 11 ( e − β λ 2 t + e − μ t ) , β λ 2 ≠ μ , ∥ δ w ∥ ≤ C 12 ( t e − μ t + e − μ t ) , β λ 2 ≠ μ . \begin{aligned}
\|\delta_w\|&\leq C_{11}(e^{-\beta\lambda_2 t}+e^{-\mu t}),\quad \beta\lambda_2\neq \mu,\\
\|\delta_w\|&\leq C_{12}(te^{-\mu t}+e^{-\mu t}),\quad \beta\lambda_2\neq \mu.\\
\end{aligned}
∥ δ w ∥ ∥ δ w ∥ ≤ C 1 1 ( e − β λ 2 t + e − μ t ) , β λ 2 = μ , ≤ C 1 2 ( t e − μ t + e − μ t ) , β λ 2 = μ .
取C 1 = max { C 11 , C 12 } C_1=\max\{C_{11},C_{12}\} C 1 = max { C 1 1 , C 1 2 } ,可得
∥ δ w ∥ ≤ C 1 ( e − β λ 2 t + ( 1 + t ) e − μ t ) . \|\delta_w\|\leq C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}).
∥ δ w ∥ ≤ C 1 ( e − β λ 2 t + ( 1 + t ) e − μ t ) .
(2)根据定义,有δ ˙ x = w + W δ x − Π w \dot \delta_x=w+W\delta_x-\Pi w δ ˙ x = w + W δ x − Π w ,和
Δ ˙ x = δ x T ( w + W δ x − Π w ) ≤ − 2 β λ 2 Δ x + δ x T δ w ≤ − 2 β λ 2 Δ x + ∥ δ w ∥ 2 Δ x \begin{aligned}
\dot \Delta_x&=\delta_x^T(w+W\delta_x-\Pi w)\\
&\leq -2\beta\lambda_2\Delta_x+\delta_x^T\delta_w\\
&\leq -2\beta\lambda_2\Delta_x+\|\delta_w\|\sqrt{2\Delta_x}
\end{aligned}
Δ ˙ x = δ x T ( w + W δ x − Π w ) ≤ − 2 β λ 2 Δ x + δ x T δ w ≤ − 2 β λ 2 Δ x + ∥ δ w ∥ 2 Δ x
由前面的结论,可得
∥ δ x ∥ ′ ≤ − β λ 2 ∥ δ x ∥ + C 1 ( e − β λ 2 t + ( 1 + t ) e − μ t ) . \|\delta_x\|'\leq-\beta\lambda_2\|\delta_x\|+C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}).
∥ δ x ∥ ′ ≤ − β λ 2 ∥ δ x ∥ + C 1 ( e − β λ 2 t + ( 1 + t ) e − μ t ) .
同理可得
∥ δ x ∥ ≤ C 2 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) . \|\delta_x\|\leq C_2((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}).
∥ δ x ∥ ≤ C 2 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) .
最优误差
最优性由最优状态误差给出,该误差指数收敛。
定理1:在假设1、2下,最优状态误差以指数速率收敛
∥ x − 1 ⊗ x ∗ ∥ ≤ C 3 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) , \begin{aligned}
\|x-1\otimes x^*\|&\leq C_3((1+t)e^{-\beta\lambda_2t}+(1+t)^2e^{-\mu t}),\\
\end{aligned}
∥ x − 1 ⊗ x ∗ ∥ ≤ C 3 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) ,
其中C 3 C_3 C 3 是正常数。
证明:定义g = ∑ i ∇ f i ( x i ) = − n w ˉ g=\sum_i\nabla f_i(x_i)=-n\bar w g = ∑ i ∇ f i ( x i ) = − n w ˉ 和g ˉ = ∑ i ∇ f i ( x ˉ ) \bar g=\sum_i\nabla f_i(\bar x) g ˉ = ∑ i ∇ f i ( x ˉ ) ,有
∥ g − g ˉ ∥ 2 = ∥ ∑ i ( ∇ f i ( x i ) − ∇ f i ( x ˉ ) ) ∥ 2 ≤ ∑ i ∥ ∇ f i ( x i ) − ∇ f i ( x ˉ ) ∥ 2 ≤ ∑ i L ∥ x i − x ˉ ∥ 2 = L ∥ δ x ∥ 2 . \begin{aligned}
\|g-\bar g\|^2&=\|\sum_i (\nabla f_i(x_i)-\nabla f_i(\bar x))\|^2\\
&\leq \sum_i\|\nabla f_i(x_i)-\nabla f_i(\bar x)\|^2\\
&\leq \sum_iL\|x_i-\bar x\|^2 = L\|\delta_x\|^2.
\end{aligned}
∥ g − g ˉ ∥ 2 = ∥ i ∑ ( ∇ f i ( x i ) − ∇ f i ( x ˉ ) ) ∥ 2 ≤ i ∑ ∥ ∇ f i ( x i ) − ∇ f i ( x ˉ ) ∥ 2 ≤ i ∑ L ∥ x i − x ˉ ∥ 2 = L ∥ δ x ∥ 2 .
作为结果,我们得到
∥ x ∗ − x ˉ ∥ 2 ≤ 1 / μ 2 ∥ ∇ f ( x ∗ ) − ∇ f ( x ˉ ) ∥ 2 = 1 / μ 2 ∥ ∇ f ( x ˉ ) ∥ 2 = 1 / ( n μ ) 2 ∥ g ˉ ∥ 2 ≤ 1 / ( n μ ) 2 ( ∥ g − g ˉ ∥ + ∥ g ∥ ) 2 \begin{aligned}
\|x^*-\bar x\|^2&\leq 1/\mu^2\|\nabla f(x^*)-\nabla f(\bar x)\|^2\\
&=1/\mu^2\|\nabla f(\bar x)\|^2=1/(n\mu)^2\|\bar g\|^2\\
&\leq1/(n\mu)^2(\|g-\bar g\|+\|g\|)^2
\end{aligned}
∥ x ∗ − x ˉ ∥ 2 ≤ 1 / μ 2 ∥ ∇ f ( x ∗ ) − ∇ f ( x ˉ ) ∥ 2 = 1 / μ 2 ∥ ∇ f ( x ˉ ) ∥ 2 = 1 / ( n μ ) 2 ∥ g ˉ ∥ 2 ≤ 1 / ( n μ ) 2 ( ∥ g − g ˉ ∥ + ∥ g ∥ ) 2
注意到∥ g − g ˉ ∥ \|g-\bar g\| ∥ g − g ˉ ∥ 可用∥ δ x ∥ \|\delta_x\| ∥ δ x ∥ 表示,∥ g ∥ \|g\| ∥ g ∥ 可用∥ w ˉ ∥ \|\bar w\| ∥ w ˉ ∥ 表示。因此由引理2和引理5得到
∥ x − 1 ⊗ x ∗ ∥ ≤ ∥ δ x ∥ + ∥ 1 ⊗ ( x ∗ − x ˉ ) ∥ ≤ C 3 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) . \begin{aligned}
\|x-1\otimes x^*\|&\leq \|\delta_x\|+\|1\otimes (x^*-\bar x)\|\\
&\leq C_3((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}).
\end{aligned}
∥ x − 1 ⊗ x ∗ ∥ ≤ ∥ δ x ∥ + ∥ 1 ⊗ ( x ∗ − x ˉ ) ∥ ≤ C 3 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) .