科学工具

Holobiont

将蛋白质动力学底层的物理不变信号进行压缩表达。

论点找到不变量,而非查找表
审计嵌套交叉验证 · 每一项特征都报告渗漏预算
做法通不过的就退役 · 公开负面结果
增益归因 · 一项代表性特征
83%
17%
  • 经由预计算检索轴的渗漏
  • 嵌套交叉验证后的残余机制
Holobiont 论点

找到不变量,而非查找表

Holobiont 是一个围绕一个特定理念构建的科学项目:在蛋白质动力学底层存在着物理不变信号,它们的压缩表达优于任何程度的死记硬背。我们追寻这些信号,针对检索轴渗漏对其进行无情审计,并在某个诱人的特征最终被证明只是测量伪迹时公开负面结果。

多数流水线

不断加特征直到排行榜动起来,然后把排行榜交付出去——哪怕增益只是结构性的伪迹。

holobiont

将流水线偏向那些看起来像物理的特征——紧凑、不变、可审计——并在其余特征进入生产之前将其退役。

Holobiont 如何构建

三项承诺

HB1

压缩,而非死记

我们追求看起来像物理定律的紧凑机制,而非看起来像数据的嵌入。

f(x) compact mechanism lookup table
奖励 看起来像物理定律的紧凑机制 惩罚 看起来像训练集的嵌入
HB2

审计检索轴的渗漏

预计算检索轴出了名地容易让测试标签渗漏进来。我们默认采用嵌套交叉验证,并明确报告渗漏预算。

fold 1 fold 2 fold 3 fold 4 fold 5 test PDB never touches the retrieval axes
奖励 默认采用嵌套交叉验证,并报告渗漏预算 惩罚 未经审计就使用预计算检索轴
HB3

公开行不通的东西

凡是某类特征在去除渗漏后反而拖累性能之处,我们都会如实说明。产品是机制,而非排行榜。

F1 kept F2 kept F3 retired F4 kept F5 retired F6 kept
奖励 当某类特征通不过审计时将其退役 惩罚 发现渗漏后仍保留排行榜上的增益
覆盖度悬崖

一类诱人的特征如何悄然转为负面

列统计量——香农熵与氨基酸频率——在低覆盖度下看似诱人。一旦越过图表中部附近的某个覆盖度预算,它们便开始拖累最佳估计器。我们已将其从生产用途中退役。

+ 0.02 + 0.01 0.00 -0.01 -0.02 -0.03 -0.04 0 0% 25% 50% 75% 100% cliff · ~53 % coverage Δ Spearman ρ on held-out PDBs coverage budget →
每个点都是一项接受审计的特征变体。在零线以下,该特征正在拖累估计器。我们不交付零线以下的任何东西。
负面结果与进展

Holobiont 已作出的决定

每一个决策都是一句经过测量的陈述,而非一句营销话术。凡有结果造成损害之处,该结果及其退役都会留在本页面上。

  1. D15.1

    检索轴渗漏已量化

    一项看似强劲的特征,其增益中有很大一部分可归因于经由预计算 k-NN 轴的渗漏。我们据此收紧了方法论。

    D15.1 83 % 的表观增益来自检索轴渗漏
  2. D22

    守恒特征在覆盖度处退役

    香农与频率列统计量在超过某个覆盖度预算后会拖累我们的最佳估计器。我们已将其从生产用途中退役,并继续探索直接耦合对。

    D22 Δρ −0.0382 覆盖度悬崖之上最佳估计器上的表现
  3. 今天

    机制优先的特征流水线

    当前流水线偏向那些看起来像物理的特征。每个候选特征在交付之前都附有明确的渗漏审计与明确的覆盖度预算。

    today physics-shaped 仅特征,并附明确的渗漏审计

为何这是一个独立的项目

蛋白质动力学正是对「压缩,而非死记」这一理念施加压力的显而易见之处。Holobiont 正是我们施加这种压力的地方——也是我们已经退役了那些看似诱人却通不过审计的特征的地方。

横向贯通

Holobiont 正是「压缩对记忆」这一理念接受压力测试的地方

这种机制优先的审计贯穿我们的各个研究项目——从评测纪律一直到对齐姿态。凡是在这里通不过的特征,在任何地方都不会交付。