Comprimir, não memorizar
Visamos mecanismos compactos que se parecem com as leis da física, não embeddings que se parecem com os dados.
Uma arquitetura num eixo contínuo, criada sobre a stack.
Explorar LoominumEmpresa
Investigação
Ciência
Sobre
Compressão das leis subjacentes à dinâmica de proteínas em sinais fisicamente invariantes.
O Holobiont é um programa de ciência construído em torno de uma ideia específica: existem sinais fisicamente invariantes subjacentes à dinâmica de proteínas que comprimem melhor do que qualquer quantidade de memorização. Perseguimos esses sinais, auditamo-los impiedosamente contra a fuga pelos eixos de recuperação, e publicamos os negativos quando uma característica atraente se revela um artefacto de medição.
acrescenta características até a leaderboard se mover e entrega a leaderboard, mesmo quando o ganho é um artefacto estrutural.
enviesa o pipeline para características que se parecem com física — compactas, invariantes, auditáveis — e retira o resto antes de chegar à produção.
Visamos mecanismos compactos que se parecem com as leis da física, não embeddings que se parecem com os dados.
Os eixos de recuperação pré-computados são notoriamente fáceis de usar para fazer fuga das etiquetas de teste. Por defeito, recorremos à validação cruzada aninhada e reportamos os orçamentos de fuga de forma explícita.
Onde uma classe de características prejudica o desempenho depois de removida a fuga, dizemo-lo. O produto é o mecanismo, não a leaderboard.
As estatísticas de coluna — entropia de Shannon e frequência de aminoácidos — parecem atraentes com baixa cobertura. Para lá de um orçamento de cobertura próximo do meio do gráfico, começam a prejudicar o melhor estimador. Retirámo-las do uso em produção.
Cada decisão é uma afirmação medida, não uma afirmação de marketing. Onde um resultado prejudicou, o resultado e a sua retirada permanecem na página.
Uma grande fração do ganho de uma característica aparentemente forte era atribuível à fuga através de eixos k-NN pré-computados. A metodologia foi apertada em conformidade.
As estatísticas de coluna de Shannon e de frequência prejudicavam o nosso melhor estimador para lá de um certo orçamento de cobertura. Retirámo-las do uso em produção e continuámos a explorar os pares de acoplamento direto.
O pipeline atual está enviesado para características que se parecem com física. Cada candidato tem uma auditoria de fuga explícita e um orçamento de cobertura explícito antes de ser enviado.
A dinâmica de proteínas é o lugar óbvio para pressionar a ideia de «comprimir, não memorizar». O Holobiont é onde aplicamos essa pressão — e onde já retirámos características que pareciam atraentes mas não sobreviveram à auditoria.
A auditoria mecanismo-primeiro percorre os nossos programas de investigação — desde a disciplina de avaliação até à postura de alinhamento. Onde uma característica não sobrevive aqui, não é enviada para lado nenhum.