Featured image of post 神奇的数字2.5,正负0.5

神奇的数字2.5,正负0.5

考虑到 lambda 退火策略的成效,我们自然会想到两个问题:1. 不同的lambda值效果呈现什么变化趋势?2. lambda 退火策略在不同数据集上的泛化能力如何?

神奇的数字2.5,正负0.5

考虑到 lambda 退火策略的成效,我们自然会想到两个问题:

  1. 不同的lambda值效果呈现什么变化趋势?
  2. lambda 退火策略在不同数据集上的泛化能力如何?

为此我们进行以下实验:

我们在CIFAR10和SVHN上,取 alpha = 0.05 ,并分别取 lambda = 1.0 ,2.5 ,5.0 ,10.0 ,20.0 ,50.0 进行测试。

最终性能汇总表

算法 / Lambda最终准确率 (Acc)相对于基线 (V4) 的提升
OneshotOurs (V4, Baseline)57.74%-
OursV7 (λ = 1.0)58.89%+1.15%
OursV7 (λ = 2.5)57.44%-0.30%
OursV7 (λ = 5.0)59.38%+1.64%
OursV7 (λ = 10.0)59.39%+1.65%
OursV7 (λ = 20.0)59.68%+1.94%
OursV7 (λ = 50.0)59.39%+1.65%
算法 / Lambda最终准确率 (Acc)相对于基线 (V4) 的提升
OneshotOurs (V4, Baseline)49.94%-
OursV7 (λ = 1.0)51.04%+1.10%
OursV7 (λ = 10.0)50.64%+0.70%
OursV7 (λ = 20.0)51.07%+1.13%

基于上述数据,我们可以构建对超参数 lambda 的敏感性分析。

无论采取什么数据集,最终准确率都相对于基线有明显的提升,并且随 lambda 的变化趋势相同,这充分说明了我们方法的通用性。

然而, lambda 自身的变化对于准确率的影响十分有趣。结果基本呈现U形,即较低和较高的 lambda 的对齐效果良好,而中等的 lambda 效果不佳,甚至可能有反作用。除此之外,对于不同数据集,最适合的 lambda 并不相同。另外,似乎 lambda 对于较大数值的鲁棒性较好,对于 CIFAR10 ,即使到了 lambda = 50.0 ,性能依然维持在高位,没有出现显著下降,展现了宽顶平台型特征。

对比不同实验的学习曲线(Acc随round变化)

idxN/A(V4)12.55102050
00.25510.23890.25290.23940.24310.24440.2327
50.33150.34580.36170.34880.35610.34540.3543
100.39040.37640.38220.37340.38600.38230.3953
150.40620.41500.42130.41690.42550.43210.4398
200.48520.46500.45680.46550.47570.48640.4819
250.49470.50370.50730.50450.51080.50680.5182
300.57770.57450.56700.57190.58350.57710.5828
350.56490.55000.54130.53860.55710.54770.5609
400.58860.55680.56820.54830.57210.57230.5716
450.57170.57820.56870.57240.58110.57640.5789
490.57740.58890.57440.58770.59380.59680.5939
  • 基线 (V4): 学习曲线波动较大,收敛速度中等。
  • V7 (λ=1.0, 2.5): 曲线形态与基线类似,稍显平滑,最终略高。
  • V7 (λ=5.0, 10.0, 20.0, 50.0):
    • 在前10轮,强 lambda 的模型准确率普遍高于弱 lambda 和基线。这表明强力的初始引导有助于模型快速找到正确的特征空间。
    • 整个学习过程非常平滑,几乎没有波动,展现了极高的训练稳定性。

下面我们对观察到的现象进行猜想。

结果基本呈现U形

我们猜测,对齐框架在不同 lambda 强度下,存在两种不同的工作机制:

已经有研究证明,即使是随机的锚点,也会对本地对齐有促进作用,并可缓解模型不一致性。

  • 当lambda较低时,loss以本地对齐梯度为主, lambda=1.0 的全局对齐梯度,扮演了一个轻量级正则化项的角色。它足够强大,对本地对齐有促进作用,并可稍微纠正一下方向,但绝不足以挑战本地对齐梯度的主导地位。
  • 当 lambda 较大时,align_loss 将原型拉向全局统一的、几何最优的ETF锚点。依照lambda退火机制,模型首先成为了一个结构良好的全局通用性模型,然后再利用本地数据进行精修。由于ETF结构本身可以从数学上证明最优,这个新范式下的模型性能大幅提升,并且表现出极强的鲁棒性。
  • 当 lambda 大小不大不小时,破坏性干扰出现了。全局对齐梯度的力量现在,以至于本地对齐无法有效地完成其拟合本地数据的任务,导致 base_loss 降不下去。但全局对齐梯度的力量又不够强,无法原型完全地拉向全局ETF目标,导致 align_loss 也降不下去。这导致模型被困在了两种优化目标的冲突之中,性能反而下降。

对于不同任务需要不同lambda

  • 在CIFAR-10 (物体识别) 上:

    • 本地任务是语义复杂的。本地和全局力量平衡非常微妙。过弱的 lambda 无法建立全局范式,过强的 lambda 可能破坏了对细腻语义特征的学习,因此出现了性能相对于baseline下降的区域。
  • 在SVHN (数字识别) 上:

    • 本地任务是语义简单但感知困难的。区分“3”和“8”主要依赖于对形状、笔画等低级特征的学习。
    • 这意味着本地对齐的目标非常明确和“刚性”。只要 lambda 足够大( ≥1.0 ),能够将系统推入“全局主导”的范式,模型就能从ETF锚点这个优秀的几何结构中获益。由于任务本身不那么依赖复杂的语义,即使是 lambda=20.0 的强约束,也不会破坏模型对“数字形状”这一核心信息的学习。因此,其对于lambda更加鲁棒。

结论

通过对对齐强度λ的系统性研究,我们猜测揭示了在本地学习与全局对齐的相互作用中,存在着两种截然不同的学习范式。
在弱约束区 (λ≈1.0),全局对齐扮演轻量级正则化的角色,对以本地学习为主导的范式进行温和改良。
在强约束区 (λ≥5.0),训练动力学发生根本性转移,转变为一个以全局结构为主导的全新范式,模型性能在该范式下达到最优和最稳定的状态。
这为理解和设计联邦学习中的正则化与约束机制,提供了一个全新的的理论视角。

保留所有权。
comments powered by Disqus