Comprimer, ne pas mémoriser
Nous visons des mécanismes compacts qui ressemblent aux lois de la physique, pas des plongements qui ressemblent aux données.
Une architecture sur un axe continu, élevée sur la stack.
Découvrir LoominumEntreprise
Recherche
Science
À propos
Compression des lois sous-jacentes à la dynamique des protéines en signaux physiquement invariants.
Holobiont est un programme scientifique bâti autour d’une idée précise : sous la dynamique des protéines se cachent des signaux physiquement invariants qui se compriment mieux que n’importe quelle quantité de mémorisation. Nous traquons ces signaux, les auditons sans pitié face à la fuite par axe de recherche, et publions les négatifs lorsqu’une caractéristique attrayante se révèle être un artefact de mesure.
ajoutent des caractéristiques jusqu’à ce que le classement bouge, puis livrent le classement, même lorsque le gain est un artefact structurel.
oriente le pipeline vers des caractéristiques qui ressemblent à de la physique — compactes, invariantes, auditables — et retire les autres avant qu’elles n’atteignent la production.
Nous visons des mécanismes compacts qui ressemblent aux lois de la physique, pas des plongements qui ressemblent aux données.
Les axes de recherche pré-calculés laissent notoirement fuir les étiquettes de test. Nous adoptons par défaut la validation croisée imbriquée et rapportons explicitement les budgets de fuite.
Lorsqu’une classe de caractéristiques nuit à la performance une fois la fuite éliminée, nous le disons. Le produit, c’est le mécanisme, pas le classement.
Les statistiques de colonne — entropie de Shannon et fréquence des acides aminés — semblent attrayantes à faible couverture. Au-delà d’un budget de couverture situé vers le milieu du graphique, elles commencent à nuire au meilleur estimateur. Nous les avons retirées de l’usage en production.
Chaque décision est un énoncé mesuré, pas un argument marketing. Là où un résultat a nui, le résultat et le retrait figurent sur la page.
Une grande partie du gain d’une caractéristique apparemment robuste était attribuable à une fuite via des axes k-NN pré-calculés. La méthodologie a été resserrée en conséquence.
Les statistiques de colonne de Shannon et de fréquence nuisaient à notre meilleur estimateur au-delà d’un certain budget de couverture. Nous les avons retirées de l’usage en production et avons continué à explorer les paires à couplage direct.
Le pipeline actuel est orienté vers des caractéristiques qui ressemblent à de la physique. Chaque candidat fait l’objet d’un audit de fuite explicite et d’un budget de couverture explicite avant d’être livré.
La dynamique des protéines est l’endroit évident pour mettre l’idée « comprimer, ne pas mémoriser » sous pression. Holobiont est le lieu où nous exerçons cette pression — et où nous avons déjà retiré des caractéristiques qui semblaient attrayantes mais n’ont pas survécu à l’audit.
L’audit centré sur le mécanisme traverse nos programmes de recherche — de la discipline d’évaluation jusqu’à la posture d’alignement. Là où une caractéristique ne survit pas ici, elle n’est livrée nulle part.