Sistemas · multirregião · retoma após falhas

Treino resiliente em clusters distribuídos

Técnicas para manter o treino de fronteira estável quando o cálculo, os dados e as equipas abrangem continentes.

A estabilidade, a reprodutibilidade e a recuperação são propriedades da execução. Concebemo-las para elas, não em torno delas.

absorver falhas dados deterministas recuperação reproduzível
Porque o treino também é investigação

O treino de fronteira é um problema de sistemas com um orçamento de investigação

A estabilidade, a reprodutibilidade e a recuperação são propriedades de uma execução de treino. Tratá-las como problemas de sistemas em vez de tarefas rotineiras de engenharia é a diferença entre um modelo concluído e um modelo a meio. O nosso trabalho de treino distribuído é publicado onde não é diferenciador, para que laboratórios mais pequenos possam construir sobre a mesma fundação.

Três propriedades para as quais concebemos

O que significa «resiliente» na prática

D1 Estabilidade em cálculo heterogéneo

As falhas de hardware, a instabilidade da rede e as falhas parciais são absorvidas sem recomeçar do zero.

D2 Dados deterministas

Conjuntos de dados versionados, carregamento determinista e checkpoints que captam tanto os pesos como o contexto de treino que os produziu.

D3 Recuperação reproduzível

Restaurar a partir de um checkpoint reproduz a mesma trajetória nas mesmas condições.

Cluster multirregião

O cálculo, os dados e as equipas abrangem continentes.

Uma execução ativa mantém-se em quatro regiões e ~46 nós. O runtime trata a falha parcial como um problema de reagendamento, não como um evento de reinício.

46 nós totais
4 regiões
1 falha ativa absorvida
0 reinícios
O que o runtime absorve

Quatro classes de falha, nenhuma das quais reinicia a execução.

01
hardware fault
GPU SXM link drop
replicate · resume · continue
no restart
02
network jitter
cross-region latency spike
gradient backpressure · scheduler reslot
no restart
03
partial cluster loss
EU-west rack power event
shard reweight · 2 region failover
no restart
04
data shard skew
one shard yields NaN
shard quarantine · resample
no restart
Anatomia do checkpoint

Os pesos não são suficientes.

Um checkpoint capta os pesos e o contexto que os produziu. Sem esse contexto, um reinício é um palpite.

weights tensor 1.2 TB
optimizer state tensor 480 GB
rng seeds context 48 KB
data offset context 8 KB
config hash context 64 B
cluster topology context 12 KB
commit sha provenance 40 B
os sete campos escritos em conjunto · carregados em conjunto
Infraestrutura aberta

Onde o trabalho não é diferenciador, contribuímo-lo a montante.

01 fault-tolerant scheduler upstream contributed to ray + nccl ecosystems
02 deterministic data loader upstream sharded streaming · pinned offsets
03 checkpoint format + context upstream spec + reference reader
04 gradient-aware re-slotting internal differentiating · in-house
05 cross-region training runbook internal differentiating · in-house
01

Trabalho de infraestrutura aberta

Contribuímos as partes desta stack que não são diferenciadoras para projetos de código aberto a montante. As partes diferenciadoras permanecem internas.

O treino como problema de sistemas com um orçamento de investigação.