ハードウェア障害、ネットワークのジッター、部分的な障害を、ゼロからの再起動なしに吸収します。
分散クラスターにおける耐障害性トレーニング
コンピューティング・データ・チームが大陸をまたぐ場合に、最前線のトレーニングを安定させる技術。
安定性・再現性・回復性は、実行(ラン)そのものが備えるべき性質です。私たちはそれらを回避するのではなく、最初から設計に織り込みます。
最前線のトレーニングは、研究予算を備えたシステム問題である
安定性・再現性・回復性は、トレーニングのランそのものが備える性質です。それらをエンジニアリング上の雑務ではなくシステムの問題として扱うことが、完成したモデルと中途半端なモデルとを分ける差になります。私たちの分散トレーニングの成果は、差別化要因とならない部分については公開しており、より小規模なラボでも同じ基盤の上に構築できるようにしています。
「耐障害性」が実際に意味するもの
バージョン管理されたデータセット、決定的なローディング、そして重みとそれを生み出したトレーニングの文脈の両方を捉えるチェックポイント。
チェックポイントからの復元は、同じ条件のもとで同じ軌跡を再現します。
コンピューティング・データ・チームが大陸をまたぐ。
稼働中のランは4つのリージョンと約46ノードにまたがって保持されます。ランタイムは部分的な障害を、再起動イベントではなく再スケジューリングの問題として扱います。
4種類の障害、そのいずれもランを再起動させない。
重みだけでは足りない。
チェックポイントは重みと、それを生み出した文脈の両方を捉えます。その文脈がなければ、再起動は単なる推測になります。
差別化要因とならない部分は、上流(アップストリーム)に貢献します。
オープンインフラストラクチャの取り組み
このスタックのうち差別化要因とならない部分は、上流のオープンソースプロジェクトに貢献します。差別化要因となる部分は社内に留めます。