压缩,而非死记
我们追求看起来像物理定律的紧凑机制,而非看起来像数据的嵌入。
将蛋白质动力学底层的物理不变信号进行压缩表达。
Holobiont 是一个围绕一个特定理念构建的科学项目:在蛋白质动力学底层存在着物理不变信号,它们的压缩表达优于任何程度的死记硬背。我们追寻这些信号,针对检索轴渗漏对其进行无情审计,并在某个诱人的特征最终被证明只是测量伪迹时公开负面结果。
不断加特征直到排行榜动起来,然后把排行榜交付出去——哪怕增益只是结构性的伪迹。
将流水线偏向那些看起来像物理的特征——紧凑、不变、可审计——并在其余特征进入生产之前将其退役。
我们追求看起来像物理定律的紧凑机制,而非看起来像数据的嵌入。
预计算检索轴出了名地容易让测试标签渗漏进来。我们默认采用嵌套交叉验证,并明确报告渗漏预算。
凡是某类特征在去除渗漏后反而拖累性能之处,我们都会如实说明。产品是机制,而非排行榜。
列统计量——香农熵与氨基酸频率——在低覆盖度下看似诱人。一旦越过图表中部附近的某个覆盖度预算,它们便开始拖累最佳估计器。我们已将其从生产用途中退役。
每一个决策都是一句经过测量的陈述,而非一句营销话术。凡有结果造成损害之处,该结果及其退役都会留在本页面上。
一项看似强劲的特征,其增益中有很大一部分可归因于经由预计算 k-NN 轴的渗漏。我们据此收紧了方法论。
香农与频率列统计量在超过某个覆盖度预算后会拖累我们的最佳估计器。我们已将其从生产用途中退役,并继续探索直接耦合对。
当前流水线偏向那些看起来像物理的特征。每个候选特征在交付之前都附有明确的渗漏审计与明确的覆盖度预算。
蛋白质动力学正是对「压缩,而非死记」这一理念施加压力的显而易见之处。Holobiont 正是我们施加这种压力的地方——也是我们已经退役了那些看似诱人却通不过审计的特征的地方。