As falhas de hardware, a instabilidade da rede e as falhas parciais são absorvidas sem recomeçar do zero.
Treino resiliente em clusters distribuídos
Técnicas para manter o treino de fronteira estável quando o cálculo, os dados e as equipas abrangem continentes.
A estabilidade, a reprodutibilidade e a recuperação são propriedades da execução. Concebemo-las para elas, não em torno delas.
O treino de fronteira é um problema de sistemas com um orçamento de investigação
A estabilidade, a reprodutibilidade e a recuperação são propriedades de uma execução de treino. Tratá-las como problemas de sistemas em vez de tarefas rotineiras de engenharia é a diferença entre um modelo concluído e um modelo a meio. O nosso trabalho de treino distribuído é publicado onde não é diferenciador, para que laboratórios mais pequenos possam construir sobre a mesma fundação.
O que significa «resiliente» na prática
Conjuntos de dados versionados, carregamento determinista e checkpoints que captam tanto os pesos como o contexto de treino que os produziu.
Restaurar a partir de um checkpoint reproduz a mesma trajetória nas mesmas condições.
O cálculo, os dados e as equipas abrangem continentes.
Uma execução ativa mantém-se em quatro regiões e ~46 nós. O runtime trata a falha parcial como um problema de reagendamento, não como um evento de reinício.
Quatro classes de falha, nenhuma das quais reinicia a execução.
Os pesos não são suficientes.
Um checkpoint capta os pesos e o contexto que os produziu. Sem esse contexto, um reinício é um palpite.
Onde o trabalho não é diferenciador, contribuímo-lo a montante.
Trabalho de infraestrutura aberta
Contribuímos as partes desta stack que não são diferenciadoras para projetos de código aberto a montante. As partes diferenciadoras permanecem internas.