システム · マルチリージョン · 障害を越えて再開

分散クラスターにおける耐障害性トレーニング

コンピューティング・データ・チームが大陸をまたぐ場合に、最前線のトレーニングを安定させる技術。

安定性・再現性・回復性は、実行（ラン）そのものが備えるべき性質です。私たちはそれらを回避するのではなく、最初から設計に織り込みます。

障害を吸収する決定的なデータ再現可能な回復

なぜトレーニングもまた研究なのか

最前線のトレーニングは、研究予算を備えたシステム問題である

安定性・再現性・回復性は、トレーニングのランそのものが備える性質です。それらをエンジニアリング上の雑務ではなくシステムの問題として扱うことが、完成したモデルと中途半端なモデルとを分ける差になります。私たちの分散トレーニングの成果は、差別化要因とならない部分については公開しており、より小規模なラボでも同じ基盤の上に構築できるようにしています。

私たちが設計で重視する三つの性質

「耐障害性」が実際に意味するもの

D1 異種混在コンピューティング全体での安定性

ハードウェア障害、ネットワークのジッター、部分的な障害を、ゼロからの再起動なしに吸収します。

D2 決定的なデータ

バージョン管理されたデータセット、決定的なローディング、そして重みとそれを生み出したトレーニングの文脈の両方を捉えるチェックポイント。

D3 再現可能な回復

チェックポイントからの復元は、同じ条件のもとで同じ軌跡を再現します。

マルチリージョンクラスター

コンピューティング・データ・チームが大陸をまたぐ。

稼働中のランは4つのリージョンと約46ノードにまたがって保持されます。ランタイムは部分的な障害を、再起動イベントではなく再スケジューリングの問題として扱います。

46 総ノード数

4 リージョン数

1 稼働中に吸収した障害

0 再起動回数

ランタイムが吸収するもの

4種類の障害、そのいずれもランを再起動させない。

hardware fault

GPU SXM link drop

replicate · resume · continue

no restart

network jitter

cross-region latency spike

gradient backpressure · scheduler reslot

no restart

partial cluster loss

EU-west rack power event

shard reweight · 2 region failover

no restart

data shard skew

one shard yields NaN

shard quarantine · resample

no restart

チェックポイントの構造

重みだけでは足りない。

チェックポイントは重みと、それを生み出した文脈の両方を捉えます。その文脈がなければ、再起動は単なる推測になります。

weights tensor 1.2 TB

optimizer state tensor 480 GB

rng seeds context 48 KB

data offset context 8 KB

config hash context 64 B

cluster topology context 12 KB

commit sha provenance 40 B

7つのフィールドすべてを一括で書き込み · 一括で読み込む

オープンインフラストラクチャ

差別化要因とならない部分は、上流（アップストリーム）に貢献します。

01 fault-tolerant scheduler upstream contributed to ray + nccl ecosystems

02 deterministic data loader upstream sharded streaming · pinned offsets

03 checkpoint format + context upstream spec + reference reader

04 gradient-aware re-slotting internal differentiating · in-house

05 cross-region training runbook internal differentiating · in-house

オープンインフラストラクチャの取り組み

このスタックのうち差別化要因とならない部分は、上流のオープンソースプロジェクトに貢献します。差別化要因となる部分は社内に留めます。

研究予算を備えた、システム問題としてのトレーニング。

全リサーチオーケストレーター

Loominum^™ 1.0

プロダクション・グレードのシステム

Loominum ファミリー

ソリューション

詳細を見る

私たちが取り組むオープンな問い

リサーチツール

探究領域

詳細を見る

根底にある不変量を探して

サイエンスツール

分野

詳細を見る

私たちの使命は、科学を前進させ人類に貢献する、検証可能な知能を構築することです。

会社

詳細を見る

分散クラスターにおける耐障害性トレーニング

最前線のトレーニングは、研究予算を備えたシステム問題である

「耐障害性」が実際に意味するもの

コンピューティング・データ・チームが大陸をまたぐ。

4種類の障害、そのいずれもランを再起動させない。

重みだけでは足りない。

差別化要因とならない部分は、上流（アップストリーム）に貢献します。

オープンインフラストラクチャの取り組み

研究予算を備えた、システム問題としてのトレーニング。

Cookie の設定

厳密に必要