Hardwareausfälle, Netzwerk-Jitter und Teilausfälle werden abgefangen, ohne von vorn zu beginnen.
Resilientes Training über verteilte Cluster
Techniken zur Stabilisierung von Frontier-Training, wenn Rechenleistung, Daten und Teams auf mehrere Kontinente verteilt sind.
Stabilität, Reproduzierbarkeit und Wiederherstellung sind Eigenschaften des Trainingslaufs. Wir konstruieren für sie, nicht um sie herum.
Frontier-Training ist ein Systemproblem mit einem Forschungsbudget
Stabilität, Reproduzierbarkeit und Wiederherstellung sind Eigenschaften eines Trainingslaufs. Sie als Systemprobleme statt als technische Pflichtaufgaben zu behandeln, macht den Unterschied zwischen einem fertigen Modell und einem halbfertigen aus. Unsere Arbeit am verteilten Training wird dort veröffentlicht, wo sie nicht differenzierend ist, damit kleinere Labore auf demselben Fundament aufbauen können.
Was „resilient“ in der Praxis bedeutet
Versionierte Datensätze, deterministisches Laden und Checkpoints, die sowohl die Gewichte als auch den Trainingskontext erfassen, der sie hervorgebracht hat.
Die Wiederherstellung aus einem Checkpoint reproduziert unter denselben Bedingungen dieselbe Trajektorie.
Rechenleistung, Daten und Teams erstrecken sich über Kontinente.
Ein laufender Trainingslauf hält über vier Regionen und ~46 Knoten hinweg. Die Laufzeitumgebung behandelt Teilausfälle als ein Problem der Neuplanung, nicht als ein Neustart-Ereignis.
Vier Klassen von Ausfällen, von denen keine den Trainingslauf neu startet.
Gewichte allein genügen nicht.
Ein Checkpoint erfasst die Gewichte und den Kontext, der sie hervorgebracht hat. Ohne diesen Kontext ist ein Neustart bloß eine Vermutung.
Wo die Arbeit nicht differenzierend ist, tragen wir sie zu Upstream-Projekten bei.
Arbeit an offener Infrastruktur
Die nicht differenzierenden Teile dieses Stacks tragen wir zu Upstream-Open-Source-Projekten bei. Die differenzierenden Teile bleiben im Haus.