Comprimi, non memorizzare
Puntiamo a meccanismi compatti che assomigliano alle leggi della fisica, non a embedding che assomigliano ai dati.
Un'unica architettura su un asse continuo, allevata sullo stack.
Esplora LoominumEnterprise
Ricerca
Scienza
Chi siamo
Comprimere le leggi sottostanti le dinamiche proteiche in segnali fisicamente invarianti.
Holobiont è un programma scientifico costruito attorno a un'idea specifica: sotto le dinamiche proteiche esistono segnali fisicamente invarianti che comprimono meglio di qualsiasi quantità di memorizzazione. Inseguiamo quei segnali, li sottoponiamo a un audit spietato contro il leakage degli assi di retrieval e pubblichiamo i negativi quando una feature attraente si rivela un artefatto di misurazione.
aggiunge feature finché la leaderboard si muove e rilascia la leaderboard, anche quando il lift è un artefatto strutturale.
orienta la pipeline verso feature che assomigliano alla fisica — compatte, invarianti, auditabili — e ritira il resto prima che raggiunga la produzione.
Puntiamo a meccanismi compatti che assomigliano alle leggi della fisica, non a embedding che assomigliano ai dati.
Gli assi di retrieval pre-calcolati sono notoriamente facili da cui far trapelare le etichette di test. Adottiamo come impostazione predefinita la cross-validation annidata e riportiamo i budget di leakage in modo esplicito.
Dove una classe di feature danneggia le prestazioni una volta rimosso il leakage, lo diciamo. Il prodotto è il meccanismo, non la leaderboard.
Le statistiche di colonna — entropia di Shannon e frequenza degli amminoacidi — appaiono attraenti a bassa coverage. Oltre un budget di coverage intorno al centro del grafico, iniziano a danneggiare il miglior estimatore. Le abbiamo ritirate per l'uso in produzione.
Ogni decisione è un'affermazione misurata, non di marketing. Dove un risultato ha danneggiato, il risultato e il ritiro restano sulla pagina.
Una larga frazione del lift di una feature apparentemente forte era attribuibile al leakage attraverso assi k-NN pre-calcolati. La metodologia è stata irrigidita di conseguenza.
Le statistiche di colonna di Shannon e di frequenza danneggiavano il nostro miglior estimatore oltre un certo budget di coverage. Le abbiamo ritirate per l'uso in produzione e abbiamo continuato a esplorare le coppie a direct-coupling.
La pipeline attuale è orientata verso feature che assomigliano alla fisica. Ogni candidata ha un audit esplicito del leakage e un budget di coverage esplicito prima di essere rilasciata.
Le dinamiche proteiche sono il luogo ovvio dove mettere sotto pressione l'idea «comprimi, non memorizzare». Holobiont è dove esercitiamo quella pressione — e dove abbiamo già ritirato feature che apparivano attraenti ma non hanno superato l'audit.
L'audit mechanism-first attraversa i nostri programmi di ricerca — dalla disciplina di valutazione fino alla postura di allineamento. Dove una feature non sopravvive qui, non viene rilasciata da nessuna parte.