写在前面
原论文标题:Distributed convex optimization via continuous-time coordination algorithms with discrete-time communication.
之所以想要写这篇文章,是因为最近在看的一篇分布式优化论文(Kia 2015),其中有这么一个问题。
令Π n = I n − 1 n 1 n 1 n T \Pi_n=I_n-\frac{1}{n}1_n 1_n^T Π n = I n − n 1 1 n 1 n T 。为了简便表示,可以定义r ∈ R n r\in\mathbb R^n r ∈ R n 和R ∈ R n × ( n − 1 ) R\in\mathbb R^{n\times (n-1)} R ∈ R n × ( n − 1 ) ,且满足以下条件:
r = 1 n 1 n , r T R = 0 , R T R = I n − 1 , R R T = Π n 。 r=\frac{1}{\sqrt{n}} 1_n,\,r^TR= 0,\,R^TR=I_{n-1},\,RR^T=\Pi_n。
r = n 1 1 n , r T R = 0 , R T R = I n − 1 , R R T = Π n 。
那么如何得到期望的R R R ?
显然这里,[ r , R ] [r, R] [ r , R ] 是n n n 维空间的一组标准正交基 (orthonormal basis)。现在已知r r r 需要求出所有R R R 的列向量。这就需要线性代数中标准正交基和投影的知识。
正交基与投影
一个n n n 维空间中任何一组线性无关 (linearly independent)的向量,都是这个n n n 维空间的一组基。当这组基的向量两两垂直(即e i T e j = 0 e_i^Te_j=0 e i T e j = 0 ),则称为正交基 (orthogonal basis)。而标准正交基 只是将正交基又添加了一个条件,模长为1(即∥ e i ∥ = 1 \|e_i\|=1 ∥ e i ∥ = 1 )。一个空间可以有无数组基向量,正交基和标准正交基也同样是有无数组的。
一维投影 相当于把一个向量投影到另一个向量,可以进一步求取正交基。以下图片来自Jakob_Hu 的博客。
已知向量u u u 和v v v ,按照如上图所示方法可以求取投影p = u T v ∥ u ∥ 2 u p=\frac{u^Tv}{\|u\|^2}u p = ∥ u ∥ 2 u T v u 。求出p p p 后,进一步求出正交向量v − p v-p v − p 非常容易。这就解决了在二维空间中求取一组正交基的问题,正交基为p p p 和v − p v-p v − p 。
高维投影和Gram-Schmidt过程
为了解决第一节 提到的问题,我们需要一个能够通过任意维度的一组基构造空间的正交基的算法。
三维空间
以三维向量为例,假设存在一组三维向量,需要求出这三个向量所在空间的正交基,其中两个已经处理得到相互正交的向量p 1 p_1 p 1 、p 2 p_2 p 2 。再加上向量w w w 构成三维空间的一组基。
下一步我们需要做w w w 向p 1 p_1 p 1 、p 2 p_2 p 2 构成的二维子空间的投影p p p ,则w − p w-p w − p 即我们想要的正交向量。
分别做w w w 向p 1 p_1 p 1 、p 2 p_2 p 2 上的投影,得到w T p 1 ∥ p 1 ∥ 2 p 1 \frac{w^Tp_1}{\|p_1\|^2}p_1 ∥ p 1 ∥ 2 w T p 1 p 1 和w T p 2 ∥ p 2 ∥ 2 p 2 \frac{w^Tp_2}{\|p_2\|^2}p_2 ∥ p 2 ∥ 2 w T p 2 p 2 ,则p = w T p 1 ∥ p 1 ∥ 2 p 1 + w T p 2 ∥ p 2 ∥ 2 p 2 p=\frac{w^Tp_1}{\|p_1\|^2}p_1+\frac{w^Tp_2}{\|p_2\|^2}p_2 p = ∥ p 1 ∥ 2 w T p 1 p 1 + ∥ p 2 ∥ 2 w T p 2 p 2 ;
计算w − p w-p w − p ,得到w − w T p 1 ∥ p 1 ∥ 2 p 1 − w T p 2 ∥ p 2 ∥ 2 p 2 w-\frac{w^Tp_1}{\|p_1\|^2}p_1-\frac{w^Tp_2}{\|p_2\|^2}p_2 w − ∥ p 1 ∥ 2 w T p 1 p 1 − ∥ p 2 ∥ 2 w T p 2 p 2 即第三维的正交向量。
三维空间求正交基的整个过程可以看做是先求出相应的二维空间的正交基,进一步求取三维空间正交基。
四维及以上空间
与三维空间相似,先求取低维度空间的正交基,在其基础上进行高一维度正交基的求取。
给出任何一组n n n 维空间的基,正交基的过程都可以通过逐一维度的计算得到。任何一个维度的向量都减去它在低维度空间中已经正交的向量的投影,这一过程就是Gram-Schmidt过程 。
Gram-Schmidt过程构造标准正交基
回到第一节 提到的问题,现在我们已知n n n 维空间的任意一个向量r r r ,如何利用Gram-Schmidt过程构造一组标准正交基。
% 维度为4
n = 4;
r = ones(n,1)/n;
% r'的零空间
N = @(A) eye(size(A,2))-pinv(A)*A;
R1 = N(r');
R1 = R1./vecnorm(R1);
% [r R1(:,1)]'的零空间
R2 = N([r R1(:,1)]');
R2 = R2./vecnorm(R2);
% [r R1(:,1) R2(:,2)]'的零空间
R3 = N([r R1(:,1) R2(:,2)]');
R3 = R3./vecnorm(R3);
R = [R1(:,1) R2(:,2) R3(:,3)];
由此构建第一节 需要的R R R 。
后记
这里最后提一下,按照前面这样定义的R R R 会有什么好的性质。
首先,自不必说,有,
r = 1 n 1 n , r T R = 0 , R T R = I n − 1 , R R T = Π n 。 r=\frac{1}{\sqrt{n}}\boldsymbol 1_n,\,r^TR=\boldsymbol 0,\,R^TR=I_{n-1},\,RR^T=\Pi_n。
r = n 1 1 n , r T R = 0 , R T R = I n − 1 , R R T = Π n 。
然后,P = [ r , R ] P=[r,R] P = [ r , R ] 显然是标准正交基组成的矩阵。由于P P P 满秩,所以
P T P = P P T = I n , R T P = [ 0 n − 1 , I n − 1 ] , Π n P = R R T P = R [ 0 n − 1 , I n − 1 ] = [ 0 n − 1 , R ] 。 P^TP=PP^T=I_n,\,R^TP=[0_{n-1},I_{n-1}],\, \Pi_n P=RR^TP=R[0_{n-1},I_{n-1}]=[0_{n-1},R]。
P T P = P P T = I n , R T P = [ 0 n − 1 , I n − 1 ] , Π n P = R R T P = R [ 0 n − 1 , I n − 1 ] = [ 0 n − 1 , R ] 。
下面给出该性质在第一节 所看论文中的应用。
Section 4.1中的应用
定义图G \mathcal G G 是强连通平衡图,其拉普拉斯矩阵为L L L 。现有动力学如下
v ˙ = α β L x , x ˙ = − α ∇ f ( x ) − β L x − v , \begin{aligned}
\dot v&=\alpha\beta Lx,\\
\dot x&=-\alpha\nabla f(x)-\beta Lx-v,
\end{aligned}
v ˙ x ˙ = α β L x , = − α ∇ f ( x ) − β L x − v ,
其中1 n T v = 0 1_n^Tv=0 1 n T v = 0 ,故也有r T v = 0 r^Tv=0 r T v = 0 。令v ˉ = − α ∇ f ( x ˉ ) \bar v=-\alpha\nabla f(\bar x) v ˉ = − α ∇ f ( x ˉ ) 。
定义坐标变换
u = v − v ˉ , y = x − x ˉ , u = P w , y = P z 。 \begin{aligned}
u&=v-\bar v,\,&y &=x-\bar x,\\
u&=Pw,\,&y&=Pz。
\end{aligned}
u u = v − v ˉ , = P w , y y = x − x ˉ , = P z 。
由于拉普拉斯矩阵的性质,P T L P = diag ( 0 , R T L R ) P^TLP=\operatorname{diag}( 0,R^TLR) P T L P = d i a g ( 0 , R T L R ) 。同时,r T P w = r T ( v − v ˉ ) = r T v ˉ r^TPw=r^T(v-\bar v)=r^T\bar v r T P w = r T ( v − v ˉ ) = r T v ˉ ,R T P w = w 2 : n R^TPw=w_{2:n} R T P w = w 2 : n 。
定义h = ∇ f ( y + x ˉ ) − ∇ f ( x ˉ ) h=\nabla f(y+\bar x)-\nabla f(\bar x) h = ∇ f ( y + x ˉ ) − ∇ f ( x ˉ ) ,有
w ˙ 1 = 0 , w ˙ 2 : n = α β R T L R z 2 : n , z ˙ 1 = − α r T h , z ˙ 2 : n = − α R T h − β R T L R z 2 : n − w 2 : n 。 \begin{aligned}
\dot w_1&=0,\\
\dot w_{2:n}&=\alpha\beta R^TLRz_{2:n},\\
\dot z_1&=-\alpha r^Th,\\
\dot z_{2:n}&=-\alpha R^Th-\beta R^TLRz_{2:n}-w_{2:n}。
\end{aligned}
w ˙ 1 w ˙ 2 : n z ˙ 1 z ˙ 2 : n = 0 , = α β R T L R z 2 : n , = − α r T h , = − α R T h − β R T L R z 2 : n − w 2 : n 。
Section 5.2中的应用
令z ~ 2 : n ( t ) = z 2 : n ( t k ) − z 2 : n ( t ) = R T P ( z ( t k ) − z ( t ) ) = R T ( x ( t k ) − x ( t ) ) \tilde z_{2:n}(t)=z_{2:n}(t_k)-z_{2:n}(t)=R^TP(z(t_k)-z(t))=R^T(x(t_k)-x(t)) z ~ 2 : n ( t ) = z 2 : n ( t k ) − z 2 : n ( t ) = R T P ( z ( t k ) − z ( t ) ) = R T ( x ( t k ) − x ( t ) ) ,则有
z ~ 2 : n T ( t ) z ~ 2 : n ( t ) = ( x ( t k ) − x ( t ) ) T R R T ( x ( t k ) − x ( t ) ) = ( x ( t k ) − x ( t ) ) T Π ( x ( t k ) − x ( t ) ) 。 \tilde z_{2:n}^T(t)\tilde z_{2:n}(t)=(x(t_k)-x(t))^TRR^T(x(t_k)-x(t))=(x(t_k)-x(t))^T\Pi(x(t_k)-x(t))。
z ~ 2 : n T ( t ) z ~ 2 : n ( t ) = ( x ( t k ) − x ( t ) ) T R R T ( x ( t k ) − x ( t ) ) = ( x ( t k ) − x ( t ) ) T Π ( x ( t k ) − x ( t ) ) 。
由于Π \Pi Π 是幂等的,即Π = Π 2 \Pi=\Pi^2 Π = Π 2 。因此,∥ z ~ 2 : n ( t ) ∥ = ∥ Π ( x ( t k ) − x ( t ) ) ∥ \|\tilde z_{2:n}(t)\|=\|\Pi(x(t_k)-x(t))\| ∥ z ~ 2 : n ( t ) ∥ = ∥ Π ( x ( t k ) − x ( t ) ) ∥ 。
令p = [ z T , w 2 : n T ] T p=[z^T,w_{2:n}^T]^T p = [ z T , w 2 : n T ] T ,同样的由于Π \Pi Π 的幂等性,有
p T p = z T z + w 2 : n T w 2 : n = y T P P T y + w P T R R T P w = ( x − x ˉ ) T ( x − x ˉ ) + ( v − v ˉ ) T Π ( v − v ˉ ) p^Tp=z^Tz+w_{2:n}^Tw_{2:n}=y^TPP^Ty+wP^TRR^T Pw=(x-\bar x)^T(x-\bar x)+(v-\bar v)^T\Pi(v-\bar v)
p T p = z T z + w 2 : n T w 2 : n = y T P P T y + w P T R R T P w = ( x − x ˉ ) T ( x − x ˉ ) + ( v − v ˉ ) T Π ( v − v ˉ )
因此,∥ p ∥ = ∥ x − x ˉ ∥ 2 + ∥ Π ( v − v ˉ ) ∥ 2 \|p\|=\sqrt{\|x-\bar x\|^2+\|\Pi(v-\bar v)\|^2} ∥ p ∥ = ∥ x − x ˉ ∥ 2 + ∥ Π ( v − v ˉ ) ∥ 2 。
题外话
此外,简单记录下第一节 所看论文的另外一些收获。
两个定理
证明收敛性和有界性用到的两个定理。
Lemma 3.4. (Comparison lemma) Consider the scalar differential equation
u ˙ = f ( t , u ) , u ( t 0 ) = u 0 \dot u=f(t,u),\,u(t_0)=u_0
u ˙ = f ( t , u ) , u ( t 0 ) = u 0
where f ( t , u ) f(t,u) f ( t , u ) is continuous in t t t and locally Lipschitz in u u u , for all t ≥ 0 t\geq 0 t ≥ 0 and all u ∈ J ⊂ R u\in J\subset \mathbb R u ∈ J ⊂ R . Let [ t 0 , T ) [t_0,T) [ t 0 , T ) (T T T could be infinity) be the maximal interval of existence of the solution u ( t ) u(t) u ( t ) and suppose u ( t ) ∈ J u(t)\in J u ( t ) ∈ J for all t ∈ [ t 0 , T ) t\in[t_0,T) t ∈ [ t 0 , T ) . Let v ( t ) v(t) v ( t ) be a continuous function whose upper right-hand derivative D + v ( t ) D^+v(t) D + v ( t ) satisfies the differential inequality
D + v ( t ) ≤ f ( t , v ( t ) ) , v ( t 0 ) ≤ u 0 , D^+v(t)\leq f(t,v(t)),\,v(t_0)\leq u_0,
D + v ( t ) ≤ f ( t , v ( t ) ) , v ( t 0 ) ≤ u 0 ,
with v ( t ) ∈ J v(t)\in J v ( t ) ∈ J for all t ∈ [ t 0 , T ) t\in[t_0,T) t ∈ [ t 0 , T ) . Then, v ( t ) ≤ u ( t ) v(t)\leq u(t) v ( t ) ≤ u ( t ) for all t ∈ [ t 0 , T ) t\in[t_0,T) t ∈ [ t 0 , T ) .
可以知道,当v ˙ ( t ) ≤ u ˙ ( t ) \dot v(t)\leq \dot u(t) v ˙ ( t ) ≤ u ˙ ( t ) 且v ( t 0 ) ≤ u ( t 0 ) v(t_0)\leq u(t_0) v ( t 0 ) ≤ u ( t 0 ) 时,v ( t ) ≤ u ( t ) v(t)\leq u(t) v ( t ) ≤ u ( t ) 。
Theorem 4.10. Let x = 0 x=0 x = 0 be an equilibrium point for x ˙ = f ( t , x ) \dot x=f(t,x) x ˙ = f ( t , x ) and D ⊂ R n D\subset \mathbb R^n D ⊂ R n be a domain containing x = 0 x=0 x = 0 . Let V : [ 0 , ∞ ) × D → R V:[0,\infty)\times D\to \mathbb R V : [ 0 , ∞ ) × D → R be a continuously differentiable function such that
k 1 ∥ x ∥ α ≤ V ( t , x ) ≤ k 2 ∥ x ∥ α , ∂ V ∂ t + ∂ V ∂ x f ( t , x ) ≤ − k 3 ∥ x ∥ α , \begin{aligned}
k_1\|x\|^\alpha\leq V(t,x)&\leq k_2\|x\|^\alpha,\\
\frac{\partial V}{\partial t}+\frac{\partial V}{\partial x}f(t,x)&\leq -k_3\|x\|^\alpha,
\end{aligned}
k 1 ∥ x ∥ α ≤ V ( t , x ) ∂ t ∂ V + ∂ x ∂ V f ( t , x ) ≤ k 2 ∥ x ∥ α , ≤ − k 3 ∥ x ∥ α ,
∀ t ≥ 0 \forall t\geq 0 ∀ t ≥ 0 and ∀ x ∈ D \forall x\in D ∀ x ∈ D , where k 1 k_1 k 1 , k 2 k_2 k 2 , k 3 k_3 k 3 , and a a a are positive constants. Then, x = 0 x=0 x = 0 is exponentially stable. If the assumptions hold globally, then x = 0 x=0 x = 0 is globally exponentially stable.
可以知道,当上述定理中的条件满足时,我们有V ˙ ≤ − k 3 k 2 V \dot V\leq -\frac{k_3}{k_2}V V ˙ ≤ − k 2 k 3 V ,即不光指数收敛,且收敛速度不小于 k 3 k 2 \frac{k_3}{k_2} k 2 k 3 。
由Lemma 3.4可知,
V ( t , x ( t ) ) ≤ V ( t 0 , x ( t 0 ) ) e − ( k 3 / k 2 ) ( t − t 0 ) 。 V(t,x(t))\leq V(t_0,x(t_0))e^{-(k_3/k_2)(t-t_0)}。
V ( t , x ( t ) ) ≤ V ( t 0 , x ( t 0 ) ) e − ( k 3 / k 2 ) ( t − t 0 ) 。
因此,
∥ x ( t ) ∥ ≤ [ V ( t , x ( t ) ) k 1 ] 1 / α ≤ [ V ( t 0 , x ( t 0 ) ) e − ( k 3 / k 2 ) ( t − t 0 ) k 1 ] 1 / α ≤ [ k 2 ∥ x ( t 0 ) ∥ α e − ( k 3 / k 2 ) ( t − t 0 ) k 1 ] 1 / α = ( k 2 k 1 ) 1 / α ∥ x ( t 0 ) ∥ e − ( k 3 / k 2 a ) ( t − t 0 ) 。 \begin{aligned}
\|x(t)\|&\leq \left[\frac{V(t,x(t))}{k_1}\right]^{1/\alpha}\leq\left[\frac{V(t_0,x(t_0))e^{-(k_3/k_2)(t-t_0)}}{k_1}\right]^{1/\alpha}\\
&\leq \left[\frac{k_2\|x(t_0)\|^\alpha e^{-(k_3/k_2)(t-t_0)}}{k_1}\right]^{1/\alpha}=\left(\frac{k_2}{k_1}\right)^{1/\alpha}\|x(t_0)\|e^{-(k_3/k_2a)(t-t_0)}。
\end{aligned}
∥ x ( t ) ∥ ≤ [ k 1 V ( t , x ( t ) ) ] 1 / α ≤ [ k 1 V ( t 0 , x ( t 0 ) ) e − ( k 3 / k 2 ) ( t − t 0 ) ] 1 / α ≤ [ k 1 k 2 ∥ x ( t 0 ) ∥ α e − ( k 3 / k 2 ) ( t − t 0 ) ] 1 / α = ( k 1 k 2 ) 1 / α ∥ x ( t 0 ) ∥ e − ( k 3 / k 2 a ) ( t − t 0 ) 。
微分方程求解
使用Lemma 3.4证明收敛性,本质是把一个复杂的微分方程求解问题,转化成一个相对容易的微分方程来求解。
以第一节 所看论文中证明有界性时的一个问题为例。已知
x ˙ ≤ a ( 1 + x ) + b ( 1 + x ) 2 , x ( 0 ) = 0 \dot x\leq a(1+x)+b(1+x)^2,\,x(0)=0
x ˙ ≤ a ( 1 + x ) + b ( 1 + x ) 2 , x ( 0 ) = 0
现在要证明x x x 在时间τ \tau τ 内有界ζ \zeta ζ ,并求出τ \tau τ 的值。
应用Lemma 3.4,若存在y ˙ = a ( 1 + y ) + b ( 1 + y ) 2 \dot y=a(1+y)+b(1+y)^2 y ˙ = a ( 1 + y ) + b ( 1 + y ) 2 ,y ( 0 ) = 0 y(0)=0 y ( 0 ) = 0 ,那么x ≤ y x\leq y x ≤ y ,∀ t ≥ 0 \forall t\geq 0 ∀ t ≥ 0 。
分离变量,求解微分方程,参考步骤如下
t + C = ∫ d t = ∫ d y a ( 1 + y ) + b ( 1 + y ) 2 = ∫ d y b ( 1 + y + a 2 b ) 2 − a 2 4 b = 1 b ∫ d z z 2 − a 2 4 b 2 , ( z = 1 + y + a 2 b ) = 1 a ∫ ( d z z − a 2 b − d z z + a 2 b ) = 1 a ln ∣ z − a 2 b ∣ − 1 a ln ∣ z + a 2 b ∣ = 1 a ln ∣ 1 + y ∣ − 1 a ln ∣ 1 + y + a b ∣ \begin{aligned}
t+C=\int dt &=\int \frac{dy}{a(1+y)+b(1+y)^2}\\
&=\int \frac{dy}{b\left(1+y+\frac{a}{2b}\right)^2-\frac{a^2}{4b}}\\
&=\frac{1}{b}\int \frac{dz}{z^2-\frac{a^2}{4b^2}} ,\quad \left(z=1+y+\frac{a}{2b}\right)\\
&=\frac{1}{a}\int \left(\frac{dz}{z-\frac{a}{2b}}-\frac{dz}{z+\frac{a}{2b}}\right)\\
&=\frac{1}{a}\ln \left|z-\frac{a}{2b}\right|-\frac{1}{a}\ln \left|z+\frac{a}{2b}\right|\\
&=\frac{1}{a}\ln \left|1+y\right|-\frac{1}{a}\ln \left|1+y+\frac{a}{b}\right|
\end{aligned}
t + C = ∫ d t = ∫ a ( 1 + y ) + b ( 1 + y ) 2 d y = ∫ b ( 1 + y + 2 b a ) 2 − 4 b a 2 d y = b 1 ∫ z 2 − 4 b 2 a 2 d z , ( z = 1 + y + 2 b a ) = a 1 ∫ ( z − 2 b a d z − z + 2 b a d z ) = a 1 ln ∣ ∣ ∣ z − 2 b a ∣ ∣ ∣ − a 1 ln ∣ ∣ ∣ z + 2 b a ∣ ∣ ∣ = a 1 ln ∣ 1 + y ∣ − a 1 ln ∣ ∣ ∣ 1 + y + b a ∣ ∣ ∣
假设y , a , b ≥ 0 y,a,b\geq 0 y , a , b ≥ 0 。令y = t = 0 y=t=0 y = t = 0 ,可得a C = ln ( b a + b ) aC=\ln (\frac{b}{a+b}) a C = ln ( a + b b ) ,则有
e a t + a C = b a + b e a t = b y + b b y + a + b e^{at+aC}=\frac{b}{a+b}e^{at}=\frac{by+b}{by+a+b}
e a t + a C = a + b b e a t = b y + a + b b y + b
变换为y y y 关于t t t 的函数
y ( t , 0 ) = ( a + b ) ( e a t − 1 ) − b e a t + a + b y(t,0)=\frac{(a+b)(e^{at}-1)}{-be^{at}+a+b}
y ( t , 0 ) = − b e a t + a + b ( a + b ) ( e a t − 1 )
再令y ( τ , 0 ) = ζ y(\tau,0)=\zeta y ( τ , 0 ) = ζ ,得到
τ = 1 a ln ( 1 + a ζ a + b ( 1 + ζ ) ) \tau=\frac{1}{a}\ln\left(1+\frac{a\zeta}{a+b(1+\zeta)}\right)
τ = a 1 ln ( 1 + a + b ( 1 + ζ ) a ζ )