目前的v7还是停留在 L_total = L_local + λ * L_align 一个本地loss加一个全局对齐通过一个参数简单相加,这是十分笨拙的。
考虑到 lambda 退火策略的成效,我们自然会想到两个问题:1. 不同的lambda值效果呈现什么变化趋势?2. lambda 退火策略在不同数据集上的泛化能力如何?
在实验中的某个已不可考证的环节,我们曾猜测提高 lambda 可以提升效果,因此 alpha=0.1 和 0.05 的 lambda 被从5提升到了20。然而,尽管这个优化没有被采纳到 V7 ,在之后的实验中我们既没有把 alpha=0.3 和 0.5 的 lambda 提升到 20 ,也没有把 alpha=0.1 和 0.05 的 lambda 恢复到5。这个事实对于之前得出的一些实验结论提出了挑战。
参考之前的 lambda 退火,我们不再要求本地模型一步到位地对齐最终的ETF锚点,而是让对齐目标从一个容易的初始状态,平滑地、渐进地过渡到完美的最终状态。
既然一个完美训练好的模型的分类器权重(原型)最终会自发形成ETF结构,可以直接创建一个ETF作为固定的锚点,让所有客户端从一开始就向其对其。