Sistemas · multirregión · reanuda a través de fallos

Entrenamiento resiliente en clústeres distribuidos

Técnicas para mantener el entrenamiento de frontera estable cuando el cómputo, los datos y los equipos abarcan varios continentes.

La estabilidad, la reproducibilidad y la recuperación son propiedades de la ejecución. Diseñamos para ellas, no a su alrededor.

absorber fallos datos deterministas recuperación reproducible

Por qué el entrenamiento también es investigación

El entrenamiento de frontera es un problema de sistemas con un presupuesto de investigación

La estabilidad, la reproducibilidad y la recuperación son propiedades de una ejecución de entrenamiento. Tratarlas como problemas de sistemas en lugar de tareas rutinarias de ingeniería marca la diferencia entre un modelo terminado y uno a medio terminar. Nuestro trabajo de entrenamiento distribuido se publica donde no es diferenciador, para que los laboratorios más pequeños puedan construir sobre la misma base.

Tres propiedades para las que diseñamos

Qué significa «resiliente» en la práctica

D1 Estabilidad en cómputo heterogéneo

Los fallos de hardware, la fluctuación de red y los fallos parciales se absorben sin reiniciar desde cero.

D2 Datos deterministas

Conjuntos de datos versionados, carga determinista y checkpoints que capturan tanto los pesos como el contexto de entrenamiento que los produjo.

D3 Recuperación reproducible

Restaurar desde un checkpoint reproduce la misma trayectoria bajo las mismas condiciones.

Clúster multirregión

El cómputo, los datos y los equipos abarcan continentes.

Una ejecución en vivo se mantiene a través de cuatro regiones y ~46 nodos. El runtime trata el fallo parcial como un problema de reprogramación, no como un evento de reinicio.

46 nodos totales

4 regiones

1 fallo en vivo absorbido

0 reinicios

Lo que el runtime absorbe

Cuatro clases de fallo, ninguna de las cuales reinicia la ejecución.

hardware fault

GPU SXM link drop

replicate · resume · continue

no restart

network jitter

cross-region latency spike

gradient backpressure · scheduler reslot

no restart

partial cluster loss

EU-west rack power event

shard reweight · 2 region failover

no restart

data shard skew

one shard yields NaN

shard quarantine · resample

no restart

Anatomía del checkpoint

Los pesos no bastan.

Un checkpoint captura los pesos y el contexto que los produjo. Sin ese contexto, un reinicio es una conjetura.

weights tensor 1.2 TB

optimizer state tensor 480 GB

rng seeds context 48 KB

data offset context 8 KB

config hash context 64 B

cluster topology context 12 KB

commit sha provenance 40 B

los siete campos escritos juntos · cargados juntos

Infraestructura abierta

Donde el trabajo no es diferenciador, lo aportamos upstream.

01 fault-tolerant scheduler upstream contributed to ray + nccl ecosystems

02 deterministic data loader upstream sharded streaming · pinned offsets

03 checkpoint format + context upstream spec + reference reader

04 gradient-aware re-slotting internal differentiating · in-house

05 cross-region training runbook internal differentiating · in-house

Trabajo de infraestructura abierta

Aportamos las partes de este stack que no son diferenciadoras a proyectos de código abierto upstream. Las partes diferenciadoras se quedan en casa.

El entrenamiento como problema de sistemas con un presupuesto de investigación.

Toda la investigación El orquestador

Loominum^™ 1.0

Sistemas de grado producción

La familia Loominum

Soluciones

Más información

Preguntas abiertas que estamos explorando

Herramientas de investigación

Áreas de investigación

Más información

Encontrando los invariantes subyacentes

Herramientas científicas

Disciplinas

Más información

Nuestra misión es construir inteligencia verificable que haga avanzar la ciencia y sirva a la humanidad.

Empresa

Más información

Entrenamiento resiliente en clústeres distribuidos

El entrenamiento de frontera es un problema de sistemas con un presupuesto de investigación

Qué significa «resiliente» en la práctica

El cómputo, los datos y los equipos abarcan continentes.

Cuatro clases de fallo, ninguna de las cuales reinicia la ejecución.

Los pesos no bastan.

Donde el trabajo no es diferenciador, lo aportamos upstream.

Trabajo de infraestructura abierta

El entrenamiento como problema de sistemas con un presupuesto de investigación.

Preferencias de cookies

Estrictamente necesarias