Sistemi · multi-regione · riprende attraverso i guasti

Addestramento resiliente su cluster distribuiti

Tecniche per mantenere stabile l'addestramento di frontiera quando calcolo, dati e team sono distribuiti su piu continenti.

Stabilità, riproducibilità e ripristino sono proprietà del run. Le progettiamo dentro, non intorno.

assorbire i guasti dati deterministici ripristino riproducibile

Perché anche l'addestramento è ricerca

L'addestramento di frontiera è un problema di sistemi con un budget di ricerca

Stabilità, riproducibilità e ripristino sono proprietà di un run di addestramento. Trattarli come problemi di sistemi anziché come incombenze ingegneristiche è la differenza tra un modello finito e uno lasciato a metà. Il nostro lavoro sull'addestramento distribuito è pubblicato dove non è differenziante, così che laboratori più piccoli possano costruire sulla stessa fondazione.

Tre proprietà per cui progettiamo

Cosa significa «resiliente» nella pratica

D1 Stabilità su calcolo eterogeneo

Guasti hardware, jitter di rete e fallimenti parziali vengono assorbiti senza ripartire da zero.

D2 Dati deterministici

Dataset versionati, caricamento deterministico e checkpoint che catturano sia i pesi sia il contesto di addestramento che li ha prodotti.

D3 Ripristino riproducibile

Il ripristino da un checkpoint riproduce la stessa traiettoria nelle stesse condizioni.

Cluster multi-regione

Calcolo, dati e team attraversano i continenti.

Un run dal vivo tiene attraverso quattro regioni e ~46 nodi. Il runtime tratta il guasto parziale come un problema di ri-schedulazione, non come un evento di riavvio.

46 nodi totali

4 regioni

1 guasto dal vivo assorbito

0 riavvii

Ciò che il runtime assorbe

Quattro classi di guasto, nessuna delle quali riavvia il run.

hardware fault

GPU SXM link drop

replicate · resume · continue

no restart

network jitter

cross-region latency spike

gradient backpressure · scheduler reslot

no restart

partial cluster loss

EU-west rack power event

shard reweight · 2 region failover

no restart

data shard skew

one shard yields NaN

shard quarantine · resample

no restart

Anatomia del checkpoint

I pesi non bastano.

Un checkpoint cattura i pesi e il contesto che li ha prodotti. Senza quel contesto, un riavvio è un'ipotesi.

weights tensor 1.2 TB

optimizer state tensor 480 GB

rng seeds context 48 KB

data offset context 8 KB

config hash context 64 B

cluster topology context 12 KB

commit sha provenance 40 B

tutti e sette i campi scritti insieme · caricati insieme

Infrastruttura aperta

Dove il lavoro non è differenziante, lo contribuiamo a monte.

01 fault-tolerant scheduler upstream contributed to ray + nccl ecosystems

02 deterministic data loader upstream sharded streaming · pinned offsets

03 checkpoint format + context upstream spec + reference reader

04 gradient-aware re-slotting internal differentiating · in-house

05 cross-region training runbook internal differentiating · in-house

Lavoro su infrastruttura aperta

Contribuiamo le parti di questo stack che non sono differenzianti a progetti open-source a monte. Le parti differenzianti restano interne.

L'addestramento come problema di sistemi con un budget di ricerca.

Tutta la ricerca L'orchestratore

Loominum^™ 1.0

Sistemi di livello produzione

La famiglia Loominum

Soluzioni

Scopri di più

Domande aperte su cui stiamo lavorando

Strumenti di ricerca

Aree di indagine

Scopri di più

Trovare gli invarianti sottostanti

Strumenti scientifici

Discipline

Scopri di più

La nostra missione è costruire un'intelligenza verificabile che faccia progredire la scienza e sia al servizio dell'umanità.

Azienda

Scopri di più

Addestramento resiliente su cluster distribuiti

L'addestramento di frontiera è un problema di sistemi con un budget di ricerca

Cosa significa «resiliente» nella pratica

Calcolo, dati e team attraversano i continenti.

Quattro classi di guasto, nessuna delle quali riavvia il run.

I pesi non bastano.

Dove il lavoro non è differenziante, lo contribuiamo a monte.

Lavoro su infrastruttura aperta

L'addestramento come problema di sistemi con un budget di ricerca.

Preferenze sui cookie

Strettamente necessari