考虑到 lambda 退火策略的成效,我们自然会想到两个问题:1. 不同的lambda值效果呈现什么变化趋势?2. lambda 退火策略在不同数据集上的泛化能力如何?
在实验中的某个已不可考证的环节,我们曾猜测提高 lambda 可以提升效果,因此 alpha=0.1 和 0.05 的 lambda 被从5提升到了20。然而,尽管这个优化没有被采纳到 V7 ,在之后的实验中我们既没有把 alpha=0.3 和 0.5 的 lambda 提升到 20 ,也没有把 alpha=0.1 和 0.05 的 lambda 恢复到5。这个事实对于之前得出的一些实验结论提出了挑战。
参考之前的 lambda 退火,我们不再要求本地模型一步到位地对齐最终的ETF锚点,而是让对齐目标从一个容易的初始状态,平滑地、渐进地过渡到完美的最终状态。
既然一个完美训练好的模型的分类器权重(原型)最终会自发形成ETF结构,可以直接创建一个ETF作为固定的锚点,让所有客户端从一开始就向其对其。
显然“全局一致”和“本地适应”是一对需要平衡的矛盾。一个固定的 lambda_align 可能在整个训练过程中并非最优。