精确分布式一阶优化方法(Exact Distributed First-Order Method)
写在前面
本文简单的对已有的分布式一阶优化方法做个综述。虽然原论文以及大部分引文提出的是离散时间系统分布式优化方法,但由于我本人研究的课题主要针对连续时间系统,所以本文所述的分布式优化方法主要以连续时间形式呈现。
基于上述原因,本文中不再细述原论文关于离散时间系统的证明,主要是分享现有的分布式一阶优化方法,以及设计连续时间方法中我的一些想法和思考。
问题描述
考虑分布式优化问题
和单积分器系统
设计控制器使得实现一致性的同时收敛到的最小值。
分布式梯度下降(DGD)
提到分布式一阶优化方法,最早的就是分布式梯度下降(distributed gradient desent, DGD)。该方法连续时间形式给出如下:
其中为优化步长,。该方法满足,即的均值一直在沿着梯度下降的方向运动。
容易看出,当为固定步长(fixed step)时,该方法的收敛是不精确的。令,可得
但不能保证和同时成立。因为若要,则需要,但是每一个的解通常不是同一个,所以平衡点处不一定成立。为了使分布式梯度下降能够精确收敛于最优解,只能将设置为递减步长(diminishing step),使得当时,但是这样做牺牲了收敛速度。
精确一阶算法(EXTRA)
为了保证最优解的精确性,同时不牺牲收敛速度,Shi 2015给出了精确一阶算法(exact first-order algorithm, EXTRA)的离散时间形式[1]。
Kia 2015给出该方法的连续时间形式[2]如下:
其中是固定正值,且。可以看出,是的积分项,作为对精确性的补偿。只有当时,,补偿停止。同时,初值条件和联合保证了,因此能够收敛到最优解。
原始对偶算法
将分布式优化问题写成如下形式
构建增广拉格朗日函数
就可以使用经典的原始对偶算法(primal-dual algorithm)解决:
即
其中是图的关联矩阵(incidence matrix),满足。上面第二个式子用也可以,参考Dusan 2019[3]。
可以看出,原始对偶算法和EXTRA算法等价[4]。将EXTRA算法中的替换为,即可得到原始对偶算法。注意原始对偶算法无需初始条件限制,因为恒成立。
分布式梯度跟踪(DGT)
为了保证最优解的精确性,同时不牺牲收敛速度,Qu 2018[5]给出了另一个思路,即分布式梯度跟踪(distributed gradient tracking, DGT)。该方法的连续时间形式如下:
其中是固定正值,且。可以看出,作为梯度均值的估计,平衡点处梯度均值趋于0,从而保证。
值得一提的是,该方法在梯度跟踪部分引入了,而反过来保证,因此所有相等且为。这个思路在Dusan 2019中也有使用,相当于在原始对偶算法中的拉格朗日乘子部分引入了,而最终趋近于0,因此不影响最终结果。
Shi, W., Ling, Q., Wu, G., & Yin, W. (2015). Extra: An exact first-order a lgorithm for decentralized consensus optimization. SIAM Journal on Optimization, 25(2), 944–966. https://doi.org/10.1137/14096668X ↩︎
Kia, S. S., Cortés, J., & Martínez, S. (2015). Distributed convex optimization via continuous-time coordination algorithms with discrete-time communication. In Automatica (Vol. 55, pp. 254–264). Elsevier Ltd. https://doi.org/10.1016/j.automatica.2015.03.001 ↩︎
Jakovetić, D. (2019). A Unification and Generalization of Exact Distributed First-Order Methods. IEEE Transactions on Signal and Information Processing over Networks, 5(1), 31–46. https://doi.org/10.1109/TSIPN.2018.2846183 ↩︎
Mokhtari, A., & Ribeiro, A. (2016). DSA: Decentralized double stochastic averaging gradient algorithm. J. Mach. Learn. Res., vol. 17, pp. 1–35. ↩︎
Qu, G., & Li, N. (2018). Harnessing smoothness to accelerate distributed optimization. IEEE Transactions on Control of Network Systems, 5(3), 1245–1260. https://doi.org/10.1109/TCNS.2017.2698261 ↩︎