Pager 3 - fQwQf

神奇的数字2.5，正负0.5

考虑到 lambda 退火策略的成效，我们自然会想到两个问题：1. 不同的lambda值效果呈现什么变化趋势？2. lambda 退火策略在不同数据集上的泛化能力如何？

lambda debug

在实验中的某个已不可考证的环节，我们曾猜测提高 lambda 可以提升效果，因此 alpha=0.1 和 0.05 的 lambda 被从5提升到了20。然而，尽管这个优化没有被采纳到 V7 ，在之后的实验中我们既没有把 alpha=0.3 和 0.5 的 lambda 提升到 20 ，也没有把 alpha=0.1 和 0.05 的 lambda 恢复到5。这个事实对于之前得出的一些实验结论提出了挑战。

DHCL + Progressive Alignment

参考之前的 lambda 退火，我们不再要求本地模型一步到位地对齐最终的ETF锚点，而是让对齐目标从一个容易的初始状态，平滑地、渐进地过渡到完美的最终状态。

DHCL + ETF

既然一个完美训练好的模型的分类器权重（原型）最终会自发形成ETF结构，可以直接创建一个ETF作为固定的锚点，让所有客户端从一开始就向其对其。

DHCL + Lambda Annealing

显然“全局一致”和“本地适应”是一对需要平衡的矛盾。一个固定的 lambda_align 可能在整个训练过程中并非最优。