Sistemas · multirregião · retoma após falhas

Treino resiliente em clusters distribuídos

Técnicas para manter o treino de fronteira estável quando o cálculo, os dados e as equipas abrangem continentes.

A estabilidade, a reprodutibilidade e a recuperação são propriedades da execução. Concebemo-las para elas, não em torno delas.

absorver falhas dados deterministas recuperação reproduzível

Porque o treino também é investigação

O treino de fronteira é um problema de sistemas com um orçamento de investigação

A estabilidade, a reprodutibilidade e a recuperação são propriedades de uma execução de treino. Tratá-las como problemas de sistemas em vez de tarefas rotineiras de engenharia é a diferença entre um modelo concluído e um modelo a meio. O nosso trabalho de treino distribuído é publicado onde não é diferenciador, para que laboratórios mais pequenos possam construir sobre a mesma fundação.

Três propriedades para as quais concebemos

O que significa «resiliente» na prática

D1 Estabilidade em cálculo heterogéneo

As falhas de hardware, a instabilidade da rede e as falhas parciais são absorvidas sem recomeçar do zero.

D2 Dados deterministas

Conjuntos de dados versionados, carregamento determinista e checkpoints que captam tanto os pesos como o contexto de treino que os produziu.

D3 Recuperação reproduzível

Restaurar a partir de um checkpoint reproduz a mesma trajetória nas mesmas condições.

Cluster multirregião

O cálculo, os dados e as equipas abrangem continentes.

Uma execução ativa mantém-se em quatro regiões e ~46 nós. O runtime trata a falha parcial como um problema de reagendamento, não como um evento de reinício.

46 nós totais

4 regiões

1 falha ativa absorvida

0 reinícios

O que o runtime absorve

Quatro classes de falha, nenhuma das quais reinicia a execução.

hardware fault

GPU SXM link drop

replicate · resume · continue

no restart

network jitter

cross-region latency spike

gradient backpressure · scheduler reslot

no restart

partial cluster loss

EU-west rack power event

shard reweight · 2 region failover

no restart

data shard skew

one shard yields NaN

shard quarantine · resample

no restart

Anatomia do checkpoint

Os pesos não são suficientes.

Um checkpoint capta os pesos e o contexto que os produziu. Sem esse contexto, um reinício é um palpite.

weights tensor 1.2 TB

optimizer state tensor 480 GB

rng seeds context 48 KB

data offset context 8 KB

config hash context 64 B

cluster topology context 12 KB

commit sha provenance 40 B

os sete campos escritos em conjunto · carregados em conjunto

Infraestrutura aberta

Onde o trabalho não é diferenciador, contribuímo-lo a montante.

01 fault-tolerant scheduler upstream contributed to ray + nccl ecosystems

02 deterministic data loader upstream sharded streaming · pinned offsets

03 checkpoint format + context upstream spec + reference reader

04 gradient-aware re-slotting internal differentiating · in-house

05 cross-region training runbook internal differentiating · in-house

Trabalho de infraestrutura aberta

Contribuímos as partes desta stack que não são diferenciadoras para projetos de código aberto a montante. As partes diferenciadoras permanecem internas.

O treino como problema de sistemas com um orçamento de investigação.

Toda a investigação O orquestrador

Loominum^™ 1.0

Sistemas de qualidade de produção

A família Loominum

Soluções

Saber mais

Questões abertas que estamos a explorar

Ferramentas de investigação

Áreas de investigação

Saber mais

Encontrar os invariantes subjacentes

Ferramentas de ciência

Áreas

Saber mais

A nossa missão é construir inteligência verificável que faça avançar a ciência e sirva a humanidade.

Empresa

Saber mais

Treino resiliente em clusters distribuídos

O treino de fronteira é um problema de sistemas com um orçamento de investigação

O que significa «resiliente» na prática

O cálculo, os dados e as equipas abrangem continentes.

Quatro classes de falha, nenhuma das quais reinicia a execução.

Os pesos não são suficientes.

Onde o trabalho não é diferenciador, contribuímo-lo a montante.

Trabalho de infraestrutura aberta

O treino como problema de sistemas com um orçamento de investigação.

Preferências de cookies

Estritamente necessários