Outils scientifiques

Holobiont

Compression des lois sous-jacentes à la dynamique des protéines en signaux physiquement invariants.

thèsetrouver l’invariant, pas la table de correspondance
auditvalidation croisée imbriquée · budget de fuite rapporté sur chaque caractéristique
pratiqueretirer ce qui ne survit pas · publier le négatif
attribution du gain · une caractéristique représentative
83%
17%
  • fuite via des axes de recherche pré-calculés
  • mécanisme résiduel après validation croisée imbriquée
La thèse Holobiont

Trouver l’invariant, pas la table de correspondance

Holobiont est un programme scientifique bâti autour d’une idée précise : sous la dynamique des protéines se cachent des signaux physiquement invariants qui se compriment mieux que n’importe quelle quantité de mémorisation. Nous traquons ces signaux, les auditons sans pitié face à la fuite par axe de recherche, et publions les négatifs lorsqu’une caractéristique attrayante se révèle être un artefact de mesure.

la plupart des pipelines

ajoutent des caractéristiques jusqu’à ce que le classement bouge, puis livrent le classement, même lorsque le gain est un artefact structurel.

holobiont

oriente le pipeline vers des caractéristiques qui ressemblent à de la physique — compactes, invariantes, auditables — et retire les autres avant qu’elles n’atteignent la production.

Comment Holobiont est structuré

Trois engagements

HB1

Comprimer, ne pas mémoriser

Nous visons des mécanismes compacts qui ressemblent aux lois de la physique, pas des plongements qui ressemblent aux données.

f(x) compact mechanism lookup table
récompense des mécanismes compacts qui ressemblent aux lois de la physique pénalise des plongements qui ressemblent à l’ensemble d’entraînement
HB2

Auditer les axes de recherche contre la fuite

Les axes de recherche pré-calculés laissent notoirement fuir les étiquettes de test. Nous adoptons par défaut la validation croisée imbriquée et rapportons explicitement les budgets de fuite.

fold 1 fold 2 fold 3 fold 4 fold 5 test PDB never touches the retrieval axes
récompense la validation croisée imbriquée par défaut, avec budgets de fuite rapportés pénalise des axes de recherche pré-calculés utilisés sans audit
HB3

Publier ce qui ne fonctionne pas

Lorsqu’une classe de caractéristiques nuit à la performance une fois la fuite éliminée, nous le disons. Le produit, c’est le mécanisme, pas le classement.

F1 kept F2 kept F3 retired F4 kept F5 retired F6 kept
récompense le retrait d’une classe de caractéristiques qui ne survit pas à l’audit pénalise un gain de classement conservé après la découverte d’une fuite
falaise de couverture

Là où une classe de caractéristiques tentante devient discrètement négative

Les statistiques de colonne — entropie de Shannon et fréquence des acides aminés — semblent attrayantes à faible couverture. Au-delà d’un budget de couverture situé vers le milieu du graphique, elles commencent à nuire au meilleur estimateur. Nous les avons retirées de l’usage en production.

+ 0.02 + 0.01 0.00 -0.01 -0.02 -0.03 -0.04 0 0% 25% 50% 75% 100% cliff · ~53 % coverage Δ Spearman ρ on held-out PDBs coverage budget →
Chaque point est une variante de caractéristique en cours d’audit. Sous la ligne du zéro, la caractéristique nuit à l’estimateur. Nous ne livrons pas sous zéro.
Négatifs et progrès

Ce que Holobiont a décidé

Chaque décision est un énoncé mesuré, pas un argument marketing. Là où un résultat a nui, le résultat et le retrait figurent sur la page.

  1. D15.1

    Fuite par axe de recherche quantifiée

    Une grande partie du gain d’une caractéristique apparemment robuste était attribuable à une fuite via des axes k-NN pré-calculés. La méthodologie a été resserrée en conséquence.

    D15.1 83 % du gain apparent provenait d’une fuite par axe de recherche
  2. D22

    Caractéristiques de conservation retirées à la couverture

    Les statistiques de colonne de Shannon et de fréquence nuisaient à notre meilleur estimateur au-delà d’un certain budget de couverture. Nous les avons retirées de l’usage en production et avons continué à explorer les paires à couplage direct.

    D22 Δρ −0.0382 sur le meilleur estimateur au-delà de la falaise de couverture
  3. Aujourd’hui

    Pipeline de caractéristiques centré sur le mécanisme

    Le pipeline actuel est orienté vers des caractéristiques qui ressemblent à de la physique. Chaque candidat fait l’objet d’un audit de fuite explicite et d’un budget de couverture explicite avant d’être livré.

    today physics-shaped caractéristiques uniquement, avec audit de fuite explicite

Pourquoi c’est un programme à part entière

La dynamique des protéines est l’endroit évident pour mettre l’idée « comprimer, ne pas mémoriser » sous pression. Holobiont est le lieu où nous exerçons cette pression — et où nous avons déjà retiré des caractéristiques qui semblaient attrayantes mais n’ont pas survécu à l’audit.

transversal

Holobiont est le lieu où l’idée comprimer-vs-mémoriser est mise à l’épreuve

L’audit centré sur le mécanisme traverse nos programmes de recherche — de la discipline d’évaluation jusqu’à la posture d’alignement. Là où une caractéristique ne survit pas ici, elle n’est livrée nulle part.