Comprimir, no memorizar
Buscamos mecanismos compactos que parecen las leyes de la física, no embeddings que parecen los datos.
Una arquitectura sobre un eje continuo, criada sobre el stack.
Explorar LoominumEmpresa
Investigación
Ciencia
Acerca de
Comprimir las leyes subyacentes a la dinámica de proteínas en señales físicamente invariantes.
Holobiont es un programa científico construido en torno a una idea concreta: hay señales físicamente invariantes bajo la dinámica de proteínas que comprimen mejor que cualquier cantidad de memorización. Perseguimos esas señales, las auditamos sin piedad frente a la fuga del eje de recuperación, y publicamos los negativos cuando una característica atractiva resulta ser un artefacto de medición.
añaden características hasta que el leaderboard se mueve y entregan el leaderboard, incluso cuando la mejora es un artefacto estructural.
sesga el pipeline hacia características que parecen física — compactas, invariantes, auditables — y retira el resto antes de que lleguen a producción.
Buscamos mecanismos compactos que parecen las leyes de la física, no embeddings que parecen los datos.
Los ejes de recuperación precomputados son notoriamente fáciles de usar para filtrar las etiquetas de prueba. Por defecto recurrimos a la validación cruzada anidada y reportamos los presupuestos de fuga de forma explícita.
Donde una clase de características perjudica el rendimiento una vez eliminada la fuga, lo decimos. El producto es el mecanismo, no el leaderboard.
Los estadísticos de columna — entropía de Shannon y frecuencia de aminoácidos — parecen atractivos con baja cobertura. Pasado un presupuesto de cobertura en torno a la mitad del gráfico, empiezan a perjudicar al mejor estimador. Los retiramos para uso en producción.
Cada decisión es una afirmación medida, no de marketing. Donde un resultado perjudicó, el resultado y la retirada viven en la página.
Una gran fracción de la mejora de una característica aparentemente fuerte era atribuible a la fuga a través de ejes k-NN precomputados. La metodología se endureció en consecuencia.
Los estadísticos de columna de Shannon y de frecuencia perjudicaban a nuestro mejor estimador más allá de cierto presupuesto de cobertura. Los retiramos para uso en producción y seguimos explorando los pares de acoplamiento directo.
El pipeline actual está sesgado hacia características que parecen física. Cada candidato tiene una auditoría de fuga explícita y un presupuesto de cobertura explícito antes de entregarse.
La dinámica de proteínas es el lugar obvio para poner a prueba la idea de «comprimir, no memorizar». Holobiont es donde aplicamos esa presión — y donde ya hemos retirado características que parecían atractivas pero no sobrevivieron a la auditoría.
La auditoría centrada en el mecanismo recorre nuestros programas de investigación — desde la disciplina de evaluación hasta la postura de alineación. Donde una característica no sobrevive aquí, no se entrega en ninguna parte.