Le pipeline sono composte da componenti versionati e dichiarativi che viaggiano con le proprie dipendenze.
Emmy
Un orchestratore di workspace che esegue pipeline di ricerca riproducibili in diversi domini scientifici.
Un orchestratore di workspace che viaggia con la ricerca. Le pipeline si eseguono, si rieseguono e si verificano in modo identico.
Orchestrazione che viaggia con la ricerca
Emmy è lo strumento di orchestrazione che usiamo per mantenere la ricerca scientifica riproducibile attraverso i domini. Compone i nostri elementi costitutivi di ricerca in pipeline che possono essere eseguite, rieseguite e verificate, con il versionamento dei dati e la gestione delle dipendenze visibili agli scienziati che lo utilizzano. È lo strato che permette a un risultato di passare da un notebook a un artefatto difendibile.
Tre proprietà
I replay sono deterministici. Rieseguire una pipeline produce gli stessi artefatti a meno che gli input non siano cambiati, e quel cambiamento è visibile.
Emmy è usato in biologia, materiali e cognizione senza diventare un framework di dominio. È flusso di lavoro, non modellazione.
Cinque replay. Un solo hash.
La stessa pipeline produce lo stesso artefatto ogni volta che gli input coincidono. Quando gli input cambiano, il cambiamento è visibile a livello di riga.
Quattro tipi, componibili in qualsiasi cosa.
input versionato — dati, modello o artefatto ancorato tramite hash.
trasformazione deterministica dagli input agli output.
valutata rispetto a una suite fissa, l'output include la traccia.
artefatto finale ancorato all'esecuzione, rieseguibile end-to-end.
Un orchestratore, tre scienze.
biologia
pipeline di sequenze, predizione di strutture, analisi multi-fase con riferimenti versionati.
materiali
esecuzioni di flussi su silicio, sweep di blocchi analogici, pipeline da layout a LVS mantenute riproducibili tra processi.
cognizione
pipeline di addestramento e valutazione per la ricerca sul substrato cognitivo, incluse esecuzioni multi-seed.
Perché l'abbiamo costruito
La velocità della ricerca è limitata dall'infrastruttura di riproducibilità. Emmy è la nostra risposta: un orchestratore di workspace che permette a uno scienziato di passare una pipeline a un collaboratore e ottenere indietro la stessa risposta.