Wissenschaftswerkzeuge

Holobiont

Komprimierung der physikalischen Gesetze unterhalb der Proteindynamik zu physikalisch invarianten Signalen.

Thesedie Invariante finden, nicht die Nachschlagetabelle
Auditverschachtelte Kreuzvalidierung · Leckage-Budget für jedes Merkmal gemeldet
Praxisausmustern, was nicht übersteht · das Negative veröffentlichen
Zugewinn-Zuordnung · ein repräsentatives Merkmal
83%
17%
  • Leckage durch vorab berechnete Retrieval-Achsen
  • verbleibender Mechanismus nach verschachtelter CV
Die Holobiont-These

Die Invariante finden, nicht die Nachschlagetabelle

Holobiont ist ein Wissenschaftsprogramm, das um eine bestimmte Idee herum aufgebaut ist: Unterhalb der Proteindynamik liegen physikalisch invariante Signale, die sich besser komprimieren lassen als jede Menge an Auswendiglernen. Wir verfolgen diese Signale, prüfen sie schonungslos gegen Retrieval-Achsen-Leckage und veröffentlichen die Negativergebnisse, wenn sich ein attraktives Merkmal als Messartefakt herausstellt.

die meisten Pipelines

fügen Merkmale hinzu, bis sich das Leaderboard bewegt, und liefern das Leaderboard aus, selbst wenn der Zugewinn ein strukturelles Artefakt ist.

holobiont

verzerrt die Pipeline hin zu Merkmalen, die wie Physik aussehen — kompakt, invariant, prüfbar — und mustert den Rest aus, bevor er in die Produktion gelangt.

Wie Holobiont strukturiert ist

Drei Verpflichtungen

HB1

Komprimieren, nicht auswendig lernen

Wir streben nach kompakten Mechanismen, die wie die Gesetze der Physik aussehen, nicht nach Einbettungen, die wie die Daten aussehen.

f(x) compact mechanism lookup table
belohnt kompakte Mechanismen, die wie die Gesetze der Physik aussehen bestraft Einbettungen, die wie der Trainingsdatensatz aussehen
HB2

Retrieval-Achsen auf Leckage prüfen

Vorab berechnete Retrieval-Achsen sind notorisch anfällig dafür, Test-Labels durchsickern zu lassen. Standardmäßig setzen wir auf verschachtelte Kreuzvalidierung und melden Leckage-Budgets explizit.

fold 1 fold 2 fold 3 fold 4 fold 5 test PDB never touches the retrieval axes
belohnt verschachtelte Kreuzvalidierung als Standard, gemeldete Leckage-Budgets bestraft vorab berechnete Retrieval-Achsen, die ohne Audit verwendet werden
HB3

Veröffentlichen, was nicht funktioniert

Wo eine Merkmalsklasse die Leistung beeinträchtigt, sobald die Leckage entfernt ist, sagen wir das. Das Produkt ist der Mechanismus, nicht das Leaderboard.

F1 kept F2 kept F3 retired F4 kept F5 retired F6 kept
belohnt eine Merkmalsklasse ausmustern, wenn sie das Audit nicht übersteht bestraft Leaderboard-Zugewinn beibehalten, nachdem Leckage gefunden wurde
Abdeckungsklippe

Wo eine verlockende Merkmalsklasse still und leise negativ wird

Spaltenstatistiken — Shannon-Entropie und Aminosäurefrequenz — wirken bei geringer Abdeckung attraktiv. Jenseits eines Abdeckungsbudgets etwa in der Mitte des Diagramms beginnen sie, dem besten Schätzer zu schaden. Wir haben sie für den Produktiveinsatz ausgemustert.

+ 0.02 + 0.01 0.00 -0.01 -0.02 -0.03 -0.04 0 0% 25% 50% 75% 100% cliff · ~53 % coverage Δ Spearman ρ on held-out PDBs coverage budget →
Jeder Punkt ist eine Merkmalsvariante im Audit. Unterhalb der Nulllinie schadet das Merkmal dem Schätzer. Wir liefern nichts unterhalb von null aus.
Negativergebnisse und Fortschritt

Was Holobiont entschieden hat

Jede Entscheidung ist eine gemessene Aussage, keine Marketing-Aussage. Wo ein Ergebnis geschadet hat, leben das Ergebnis und die Ausmusterung auf der Seite fort.

  1. D15.1

    Retrieval-Achsen-Leckage quantifiziert

    Ein großer Teil des Zugewinns eines scheinbar starken Merkmals war auf Leckage durch vorab berechnete k-NN-Achsen zurückzuführen. Die Methodik wurde entsprechend verschärft.

    D15.1 83 % des scheinbaren Zugewinns waren Retrieval-Achsen-Leckage
  2. D22

    Konservierungsmerkmale bei Abdeckung ausgemustert

    Shannon- und Frequenz-Spaltenstatistiken schadeten unserem besten Schätzer jenseits eines bestimmten Abdeckungsbudgets. Wir haben sie für den Produktiveinsatz ausgemustert und die Erkundung von Direct-Coupling-Paaren fortgesetzt.

    D22 Δρ −0.0382 beim besten Schätzer oberhalb der Abdeckungsklippe
  3. Heute

    Mechanismus-orientierte Merkmals-Pipeline

    Die aktuelle Pipeline ist auf Merkmale ausgerichtet, die wie Physik aussehen. Jeder Kandidat verfügt über ein explizites Leckage-Audit und ein explizites Abdeckungsbudget, bevor er ausgeliefert wird.

    today physics-shaped nur Merkmale, mit explizitem Leckage-Audit

Warum dies ein eigenständiges Programm ist

Die Proteindynamik ist der naheliegende Ort, um die Idee „Komprimieren statt Auswendiglernen“ unter Druck zu setzen. Holobiont ist der Ort, an dem wir diesen Druck ausüben — und an dem wir bereits Merkmale ausgemustert haben, die attraktiv wirkten, das Audit aber nicht überstanden.

Querschnitte

Holobiont ist der Ort, an dem die Idee „Komprimieren statt Auswendiglernen“ einem Stresstest unterzogen wird

Das mechanismus-orientierte Audit reist durch unsere Forschungsprogramme — von der Evaluierungsdisziplin bis hin zur Alignment-Haltung. Wo ein Merkmal hier nicht übersteht, wird es nirgendwo ausgeliefert.