Herramientas científicas

Holobiont

Comprimir las leyes subyacentes a la dinámica de proteínas en señales físicamente invariantes.

tesisencuentra el invariante, no la tabla de consulta
auditoríavalidación cruzada anidada · presupuesto de fuga reportado en cada característica
prácticaretirar lo que no sobrevive · publicar el negativo
atribución de la mejora · una característica representativa
83%
17%
  • fuga a través de ejes de recuperación precomputados
  • mecanismo residual tras validación cruzada anidada
La tesis Holobiont

Encuentra el invariante, no la tabla de consulta

Holobiont es un programa científico construido en torno a una idea concreta: hay señales físicamente invariantes bajo la dinámica de proteínas que comprimen mejor que cualquier cantidad de memorización. Perseguimos esas señales, las auditamos sin piedad frente a la fuga del eje de recuperación, y publicamos los negativos cuando una característica atractiva resulta ser un artefacto de medición.

la mayoría de los pipelines

añaden características hasta que el leaderboard se mueve y entregan el leaderboard, incluso cuando la mejora es un artefacto estructural.

holobiont

sesga el pipeline hacia características que parecen física — compactas, invariantes, auditables — y retira el resto antes de que lleguen a producción.

Cómo se estructura Holobiont

Tres compromisos

HB1

Comprimir, no memorizar

Buscamos mecanismos compactos que parecen las leyes de la física, no embeddings que parecen los datos.

f(x) compact mechanism lookup table
recompensa mecanismos compactos que parecen las leyes de la física penaliza embeddings que parecen el conjunto de entrenamiento
HB2

Auditar la fuga de los ejes de recuperación

Los ejes de recuperación precomputados son notoriamente fáciles de usar para filtrar las etiquetas de prueba. Por defecto recurrimos a la validación cruzada anidada y reportamos los presupuestos de fuga de forma explícita.

fold 1 fold 2 fold 3 fold 4 fold 5 test PDB never touches the retrieval axes
recompensa la validación cruzada anidada por defecto, con presupuestos de fuga reportados penaliza ejes de recuperación precomputados usados sin auditoría
HB3

Publicar lo que no funciona

Donde una clase de características perjudica el rendimiento una vez eliminada la fuga, lo decimos. El producto es el mecanismo, no el leaderboard.

F1 kept F2 kept F3 retired F4 kept F5 retired F6 kept
recompensa retirar una clase de características cuando no sobrevive a la auditoría penaliza mantener la mejora del leaderboard tras detectar una fuga
precipicio de cobertura

Dónde una clase de características tentadora se vuelve negativa en silencio

Los estadísticos de columna — entropía de Shannon y frecuencia de aminoácidos — parecen atractivos con baja cobertura. Pasado un presupuesto de cobertura en torno a la mitad del gráfico, empiezan a perjudicar al mejor estimador. Los retiramos para uso en producción.

+ 0.02 + 0.01 0.00 -0.01 -0.02 -0.03 -0.04 0 0% 25% 50% 75% 100% cliff · ~53 % coverage Δ Spearman ρ on held-out PDBs coverage budget →
Cada punto es una variante de característica bajo auditoría. Por debajo de la línea cero, la característica está perjudicando al estimador. No entregamos por debajo de cero.
Negativos y progreso

Lo que Holobiont ha decidido

Cada decisión es una afirmación medida, no de marketing. Donde un resultado perjudicó, el resultado y la retirada viven en la página.

  1. D15.1

    Fuga del eje de recuperación cuantificada

    Una gran fracción de la mejora de una característica aparentemente fuerte era atribuible a la fuga a través de ejes k-NN precomputados. La metodología se endureció en consecuencia.

    D15.1 83 % de la mejora aparente era fuga del eje de recuperación
  2. D22

    Características de conservación retiradas por cobertura

    Los estadísticos de columna de Shannon y de frecuencia perjudicaban a nuestro mejor estimador más allá de cierto presupuesto de cobertura. Los retiramos para uso en producción y seguimos explorando los pares de acoplamiento directo.

    D22 Δρ −0.0382 en el mejor estimador por encima del precipicio de cobertura
  3. Hoy

    Pipeline de características centrado en el mecanismo

    El pipeline actual está sesgado hacia características que parecen física. Cada candidato tiene una auditoría de fuga explícita y un presupuesto de cobertura explícito antes de entregarse.

    today physics-shaped solo características, con auditoría de fuga explícita

Por qué es su propio programa

La dinámica de proteínas es el lugar obvio para poner a prueba la idea de «comprimir, no memorizar». Holobiont es donde aplicamos esa presión — y donde ya hemos retirado características que parecían atractivas pero no sobrevivieron a la auditoría.

transversales

Holobiont es donde la idea de comprimir-frente-a-memorizar se somete a estrés

La auditoría centrada en el mecanismo recorre nuestros programas de investigación — desde la disciplina de evaluación hasta la postura de alineación. Donde una característica no sobrevive aquí, no se entrega en ninguna parte.