Guasti hardware, jitter di rete e fallimenti parziali vengono assorbiti senza ripartire da zero.
Addestramento resiliente su cluster distribuiti
Tecniche per mantenere stabile l'addestramento di frontiera quando calcolo, dati e team sono distribuiti su piu continenti.
Stabilità, riproducibilità e ripristino sono proprietà del run. Le progettiamo dentro, non intorno.
L'addestramento di frontiera è un problema di sistemi con un budget di ricerca
Stabilità, riproducibilità e ripristino sono proprietà di un run di addestramento. Trattarli come problemi di sistemi anziché come incombenze ingegneristiche è la differenza tra un modello finito e uno lasciato a metà. Il nostro lavoro sull'addestramento distribuito è pubblicato dove non è differenziante, così che laboratori più piccoli possano costruire sulla stessa fondazione.
Cosa significa «resiliente» nella pratica
Dataset versionati, caricamento deterministico e checkpoint che catturano sia i pesi sia il contesto di addestramento che li ha prodotti.
Il ripristino da un checkpoint riproduce la stessa traiettoria nelle stesse condizioni.
Calcolo, dati e team attraversano i continenti.
Un run dal vivo tiene attraverso quattro regioni e ~46 nodi. Il runtime tratta il guasto parziale come un problema di ri-schedulazione, non come un evento di riavvio.
Quattro classi di guasto, nessuna delle quali riavvia il run.
I pesi non bastano.
Un checkpoint cattura i pesi e il contesto che li ha prodotti. Senza quel contesto, un riavvio è un'ipotesi.
Dove il lavoro non è differenziante, lo contribuiamo a monte.
Lavoro su infrastruttura aperta
Contribuiamo le parti di questo stack che non sono differenzianti a progetti open-source a monte. Le parti differenzianti restano interne.