D1 跨异构计算的稳定性
硬件故障、网络抖动与局部失效都能被吸收,无需从头重启。
在计算、数据和团队跨越多个大洲时保持前沿训练稳定性的技术方法。
稳定性、可复现性与可恢复性,是训练运行本身的属性。我们为之而设计,而非绕之而行。
稳定性、可复现性与可恢复性,都是训练运行本身的属性。将它们当作系统工程问题来对待,而非琐碎的工程杂务,正是一个成型模型与一个半成品之间的分野。我们的分布式训练工作在不构成差异化优势之处对外发表,从而让规模较小的实验室也能在同一基础之上构建。
硬件故障、网络抖动与局部失效都能被吸收,无需从头重启。
版本化的数据集、确定性的加载,以及同时记录权重与产生它们的训练上下文的检查点。
从检查点恢复,可在相同条件下复现出相同的训练轨迹。
一次实时运行可在四个区域、约 46 个节点上保持续跑。运行时将局部失效视为重新调度的问题,而非重启事件。
一个检查点不仅记录权重,还记录产生这些权重的上下文。缺少该上下文,重启便只是一次猜测。
对于该技术栈中不构成差异化优势的部分,我们向上游开源项目贡献。构成差异化优势的部分则留在内部。