Ferramentas científicas

Holobiont

Compressão das leis subjacentes à dinâmica de proteínas em sinais fisicamente invariantes.

teseencontrar o invariante, não a tabela de consulta
auditoriavalidação cruzada aninhada · orçamento de fuga reportado em cada característica
práticaretirar o que não sobrevive · publicar o negativo
atribuição do ganho · uma característica representativa
83%
17%
  • fuga através de eixos de recuperação pré-computados
  • mecanismo residual após validação cruzada aninhada
A tese Holobiont

Encontrar o invariante, não a tabela de consulta

O Holobiont é um programa de ciência construído em torno de uma ideia específica: existem sinais fisicamente invariantes subjacentes à dinâmica de proteínas que comprimem melhor do que qualquer quantidade de memorização. Perseguimos esses sinais, auditamo-los impiedosamente contra a fuga pelos eixos de recuperação, e publicamos os negativos quando uma característica atraente se revela um artefacto de medição.

a maioria dos pipelines

acrescenta características até a leaderboard se mover e entrega a leaderboard, mesmo quando o ganho é um artefacto estrutural.

holobiont

enviesa o pipeline para características que se parecem com física — compactas, invariantes, auditáveis — e retira o resto antes de chegar à produção.

Como o Holobiont está estruturado

Três compromissos

HB1

Comprimir, não memorizar

Visamos mecanismos compactos que se parecem com as leis da física, não embeddings que se parecem com os dados.

f(x) compact mechanism lookup table
recompensa mecanismos compactos que se parecem com as leis da física penaliza embeddings que se parecem com o conjunto de treino
HB2

Auditar os eixos de recuperação contra a fuga

Os eixos de recuperação pré-computados são notoriamente fáceis de usar para fazer fuga das etiquetas de teste. Por defeito, recorremos à validação cruzada aninhada e reportamos os orçamentos de fuga de forma explícita.

fold 1 fold 2 fold 3 fold 4 fold 5 test PDB never touches the retrieval axes
recompensa validação cruzada aninhada por defeito, com orçamentos de fuga reportados penaliza eixos de recuperação pré-computados usados sem auditoria
HB3

Publicar o que não funciona

Onde uma classe de características prejudica o desempenho depois de removida a fuga, dizemo-lo. O produto é o mecanismo, não a leaderboard.

F1 kept F2 kept F3 retired F4 kept F5 retired F6 kept
recompensa retirar uma classe de características quando não sobrevive à auditoria penaliza ganho de leaderboard mantido depois de detetada a fuga
precipício de cobertura

Onde uma classe de características tentadora se torna negativa em silêncio

As estatísticas de coluna — entropia de Shannon e frequência de aminoácidos — parecem atraentes com baixa cobertura. Para lá de um orçamento de cobertura próximo do meio do gráfico, começam a prejudicar o melhor estimador. Retirámo-las do uso em produção.

+ 0.02 + 0.01 0.00 -0.01 -0.02 -0.03 -0.04 0 0% 25% 50% 75% 100% cliff · ~53 % coverage Δ Spearman ρ on held-out PDBs coverage budget →
Cada ponto é uma variante de característica sob auditoria. Abaixo da linha do zero, a característica está a prejudicar o estimador. Não enviamos abaixo de zero.
Negativos e progresso

O que o Holobiont decidiu

Cada decisão é uma afirmação medida, não uma afirmação de marketing. Onde um resultado prejudicou, o resultado e a sua retirada permanecem na página.

  1. D15.1

    Fuga pelos eixos de recuperação quantificada

    Uma grande fração do ganho de uma característica aparentemente forte era atribuível à fuga através de eixos k-NN pré-computados. A metodologia foi apertada em conformidade.

    D15.1 83 % do ganho aparente era fuga pelos eixos de recuperação
  2. D22

    Características de conservação retiradas na cobertura

    As estatísticas de coluna de Shannon e de frequência prejudicavam o nosso melhor estimador para lá de um certo orçamento de cobertura. Retirámo-las do uso em produção e continuámos a explorar os pares de acoplamento direto.

    D22 Δρ −0.0382 no melhor estimador acima do precipício de cobertura
  3. Hoje

    Pipeline de características mecanismo-primeiro

    O pipeline atual está enviesado para características que se parecem com física. Cada candidato tem uma auditoria de fuga explícita e um orçamento de cobertura explícito antes de ser enviado.

    today physics-shaped apenas características, com auditoria explícita de fuga

Porque é que isto é um programa próprio

A dinâmica de proteínas é o lugar óbvio para pressionar a ideia de «comprimir, não memorizar». O Holobiont é onde aplicamos essa pressão — e onde já retirámos características que pareciam atraentes mas não sobreviveram à auditoria.

transversais

O Holobiont é onde a ideia de comprimir-vs-memorizar é submetida a esforço

A auditoria mecanismo-primeiro percorre os nossos programas de investigação — desde a disciplina de avaliação até à postura de alinhamento. Onde uma característica não sobrevive aqui, não é enviada para lado nenhum.