Sistemi · multi-regione · riprende attraverso i guasti

Addestramento resiliente su cluster distribuiti

Tecniche per mantenere stabile l'addestramento di frontiera quando calcolo, dati e team sono distribuiti su piu continenti.

Stabilità, riproducibilità e ripristino sono proprietà del run. Le progettiamo dentro, non intorno.

assorbire i guasti dati deterministici ripristino riproducibile
Perché anche l'addestramento è ricerca

L'addestramento di frontiera è un problema di sistemi con un budget di ricerca

Stabilità, riproducibilità e ripristino sono proprietà di un run di addestramento. Trattarli come problemi di sistemi anziché come incombenze ingegneristiche è la differenza tra un modello finito e uno lasciato a metà. Il nostro lavoro sull'addestramento distribuito è pubblicato dove non è differenziante, così che laboratori più piccoli possano costruire sulla stessa fondazione.

Tre proprietà per cui progettiamo

Cosa significa «resiliente» nella pratica

D1 Stabilità su calcolo eterogeneo

Guasti hardware, jitter di rete e fallimenti parziali vengono assorbiti senza ripartire da zero.

D2 Dati deterministici

Dataset versionati, caricamento deterministico e checkpoint che catturano sia i pesi sia il contesto di addestramento che li ha prodotti.

D3 Ripristino riproducibile

Il ripristino da un checkpoint riproduce la stessa traiettoria nelle stesse condizioni.

Cluster multi-regione

Calcolo, dati e team attraversano i continenti.

Un run dal vivo tiene attraverso quattro regioni e ~46 nodi. Il runtime tratta il guasto parziale come un problema di ri-schedulazione, non come un evento di riavvio.

46 nodi totali
4 regioni
1 guasto dal vivo assorbito
0 riavvii
Ciò che il runtime assorbe

Quattro classi di guasto, nessuna delle quali riavvia il run.

01
hardware fault
GPU SXM link drop
replicate · resume · continue
no restart
02
network jitter
cross-region latency spike
gradient backpressure · scheduler reslot
no restart
03
partial cluster loss
EU-west rack power event
shard reweight · 2 region failover
no restart
04
data shard skew
one shard yields NaN
shard quarantine · resample
no restart
Anatomia del checkpoint

I pesi non bastano.

Un checkpoint cattura i pesi e il contesto che li ha prodotti. Senza quel contesto, un riavvio è un'ipotesi.

weights tensor 1.2 TB
optimizer state tensor 480 GB
rng seeds context 48 KB
data offset context 8 KB
config hash context 64 B
cluster topology context 12 KB
commit sha provenance 40 B
tutti e sette i campi scritti insieme · caricati insieme
Infrastruttura aperta

Dove il lavoro non è differenziante, lo contribuiamo a monte.

01 fault-tolerant scheduler upstream contributed to ray + nccl ecosystems
02 deterministic data loader upstream sharded streaming · pinned offsets
03 checkpoint format + context upstream spec + reference reader
04 gradient-aware re-slotting internal differentiating · in-house
05 cross-region training runbook internal differentiating · in-house
01

Lavoro su infrastruttura aperta

Contribuiamo le parti di questo stack che non sono differenzianti a progetti open-source a monte. Le parti differenzianti restano interne.

L'addestramento come problema di sistemi con un budget di ricerca.