Strumenti scientifici

Holobiont

Comprimere le leggi sottostanti le dinamiche proteiche in segnali fisicamente invarianti.

tesitrova l'invariante, non la lookup table
auditcross-validation annidata · budget di leakage riportato su ogni feature
praticaritira ciò che non sopravvive · pubblica il negativo
attribuzione del lift · una feature rappresentativa
83%
17%
  • leakage attraverso assi di retrieval pre-calcolati
  • meccanismo residuo dopo la cross-validation annidata
La tesi di Holobiont

Trova l'invariante, non la lookup table

Holobiont è un programma scientifico costruito attorno a un'idea specifica: sotto le dinamiche proteiche esistono segnali fisicamente invarianti che comprimono meglio di qualsiasi quantità di memorizzazione. Inseguiamo quei segnali, li sottoponiamo a un audit spietato contro il leakage degli assi di retrieval e pubblichiamo i negativi quando una feature attraente si rivela un artefatto di misurazione.

la maggior parte delle pipeline

aggiunge feature finché la leaderboard si muove e rilascia la leaderboard, anche quando il lift è un artefatto strutturale.

holobiont

orienta la pipeline verso feature che assomigliano alla fisica — compatte, invarianti, auditabili — e ritira il resto prima che raggiunga la produzione.

Come è strutturato Holobiont

Tre impegni

HB1

Comprimi, non memorizzare

Puntiamo a meccanismi compatti che assomigliano alle leggi della fisica, non a embedding che assomigliano ai dati.

f(x) compact mechanism lookup table
premia meccanismi compatti che assomigliano alle leggi della fisica penalizza embedding che assomigliano al training set
HB2

Audita gli assi di retrieval per il leakage

Gli assi di retrieval pre-calcolati sono notoriamente facili da cui far trapelare le etichette di test. Adottiamo come impostazione predefinita la cross-validation annidata e riportiamo i budget di leakage in modo esplicito.

fold 1 fold 2 fold 3 fold 4 fold 5 test PDB never touches the retrieval axes
premia cross-validation annidata come impostazione predefinita, budget di leakage riportati penalizza assi di retrieval pre-calcolati usati senza audit
HB3

Pubblica ciò che non funziona

Dove una classe di feature danneggia le prestazioni una volta rimosso il leakage, lo diciamo. Il prodotto è il meccanismo, non la leaderboard.

F1 kept F2 kept F3 retired F4 kept F5 retired F6 kept
premia ritirare una classe di feature quando non supera l'audit penalizza lift da leaderboard mantenuto dopo che il leakage è stato individuato
coverage cliff

Dove una classe di feature allettante diventa silenziosamente negativa

Le statistiche di colonna — entropia di Shannon e frequenza degli amminoacidi — appaiono attraenti a bassa coverage. Oltre un budget di coverage intorno al centro del grafico, iniziano a danneggiare il miglior estimatore. Le abbiamo ritirate per l'uso in produzione.

+ 0.02 + 0.01 0.00 -0.01 -0.02 -0.03 -0.04 0 0% 25% 50% 75% 100% cliff · ~53 % coverage Δ Spearman ρ on held-out PDBs coverage budget →
Ogni punto è una variante di feature sotto audit. Sotto la linea dello zero, la feature sta danneggiando l'estimatore. Non rilasciamo sotto lo zero.
Negativi e progressi

Cosa ha deciso Holobiont

Ogni decisione è un'affermazione misurata, non di marketing. Dove un risultato ha danneggiato, il risultato e il ritiro restano sulla pagina.

  1. D15.1

    Leakage degli assi di retrieval quantificato

    Una larga frazione del lift di una feature apparentemente forte era attribuibile al leakage attraverso assi k-NN pre-calcolati. La metodologia è stata irrigidita di conseguenza.

    D15.1 83 % del lift apparente era leakage degli assi di retrieval
  2. D22

    Feature di conservazione ritirate alla coverage

    Le statistiche di colonna di Shannon e di frequenza danneggiavano il nostro miglior estimatore oltre un certo budget di coverage. Le abbiamo ritirate per l'uso in produzione e abbiamo continuato a esplorare le coppie a direct-coupling.

    D22 Δρ −0.0382 sul miglior estimatore sopra il coverage cliff
  3. Oggi

    Pipeline di feature mechanism-first

    La pipeline attuale è orientata verso feature che assomigliano alla fisica. Ogni candidata ha un audit esplicito del leakage e un budget di coverage esplicito prima di essere rilasciata.

    today physics-shaped solo feature, con audit esplicito del leakage

Perché è un programma a sé

Le dinamiche proteiche sono il luogo ovvio dove mettere sotto pressione l'idea «comprimi, non memorizzare». Holobiont è dove esercitiamo quella pressione — e dove abbiamo già ritirato feature che apparivano attraenti ma non hanno superato l'audit.

trasversali

Holobiont è dove l'idea comprimere-contro-memorizzare viene messa sotto stress

L'audit mechanism-first attraversa i nostri programmi di ricerca — dalla disciplina di valutazione fino alla postura di allineamento. Dove una feature non sopravvive qui, non viene rilasciata da nessuna parte.