システム · マルチリージョン · 障害を越えて再開

分散クラスターにおける耐障害性トレーニング

コンピューティング・データ・チームが大陸をまたぐ場合に、最前線のトレーニングを安定させる技術。

安定性・再現性・回復性は、実行(ラン)そのものが備えるべき性質です。私たちはそれらを回避するのではなく、最初から設計に織り込みます。

障害を吸収する 決定的なデータ 再現可能な回復
なぜトレーニングもまた研究なのか

最前線のトレーニングは、研究予算を備えたシステム問題である

安定性・再現性・回復性は、トレーニングのランそのものが備える性質です。それらをエンジニアリング上の雑務ではなくシステムの問題として扱うことが、完成したモデルと中途半端なモデルとを分ける差になります。私たちの分散トレーニングの成果は、差別化要因とならない部分については公開しており、より小規模なラボでも同じ基盤の上に構築できるようにしています。

私たちが設計で重視する三つの性質

「耐障害性」が実際に意味するもの

D1 異種混在コンピューティング全体での安定性

ハードウェア障害、ネットワークのジッター、部分的な障害を、ゼロからの再起動なしに吸収します。

D2 決定的なデータ

バージョン管理されたデータセット、決定的なローディング、そして重みとそれを生み出したトレーニングの文脈の両方を捉えるチェックポイント。

D3 再現可能な回復

チェックポイントからの復元は、同じ条件のもとで同じ軌跡を再現します。

マルチリージョンクラスター

コンピューティング・データ・チームが大陸をまたぐ。

稼働中のランは4つのリージョンと約46ノードにまたがって保持されます。ランタイムは部分的な障害を、再起動イベントではなく再スケジューリングの問題として扱います。

46 総ノード数
4 リージョン数
1 稼働中に吸収した障害
0 再起動回数
ランタイムが吸収するもの

4種類の障害、そのいずれもランを再起動させない。

01
hardware fault
GPU SXM link drop
replicate · resume · continue
no restart
02
network jitter
cross-region latency spike
gradient backpressure · scheduler reslot
no restart
03
partial cluster loss
EU-west rack power event
shard reweight · 2 region failover
no restart
04
data shard skew
one shard yields NaN
shard quarantine · resample
no restart
チェックポイントの構造

重みだけでは足りない。

チェックポイントは重みと、それを生み出した文脈の両方を捉えます。その文脈がなければ、再起動は単なる推測になります。

weights tensor 1.2 TB
optimizer state tensor 480 GB
rng seeds context 48 KB
data offset context 8 KB
config hash context 64 B
cluster topology context 12 KB
commit sha provenance 40 B
7つのフィールドすべてを一括で書き込み · 一括で読み込む
オープンインフラストラクチャ

差別化要因とならない部分は、上流(アップストリーム)に貢献します。

01 fault-tolerant scheduler upstream contributed to ray + nccl ecosystems
02 deterministic data loader upstream sharded streaming · pinned offsets
03 checkpoint format + context upstream spec + reference reader
04 gradient-aware re-slotting internal differentiating · in-house
05 cross-region training runbook internal differentiating · in-house
01

オープンインフラストラクチャの取り組み

このスタックのうち差別化要因とならない部分は、上流のオープンソースプロジェクトに貢献します。差別化要因となる部分は社内に留めます。

研究予算を備えた、システム問題としてのトレーニング。