記憶せず、圧縮する
私たちは、データのように見える埋め込みではなく、物理法則のように見えるコンパクトなメカニズムを目指す。
タンパク質ダイナミクスの根底にある法則を、物理的不変シグナルとして圧縮します。
Holobiontは、ある特定の考えを中心に構築されたサイエンスプログラムである。すなわち、タンパク質ダイナミクスの根底には、いかなる量の記憶よりもうまく圧縮される物理的不変シグナルが存在する。私たちはそれらのシグナルを追求し、検索軸のリーケージに対して容赦なく監査し、魅力的な特徴量が測定アーティファクトであると判明したときにはネガティブを公表する。
リーダーボードが動くまで特徴量を追加し、上乗せが構造的アーティファクトであっても、そのリーダーボードを出荷する。
物理学のように見える特徴量——コンパクトで、不変で、監査可能なもの——へとパイプラインを偏らせ、本番に到達する前に残りを引退させる。
私たちは、データのように見える埋め込みではなく、物理法則のように見えるコンパクトなメカニズムを目指す。
事前計算された検索軸は、テストラベルをリークさせるのが悪名高いほど容易である。私たちはデフォルトで入れ子交差検証を用い、リーケージ予算を明示的に報告する。
リーケージを取り除いた後に特徴量クラスが性能を損なう場合、私たちはそう述べる。プロダクトはリーダーボードではなく、メカニズムである。
列統計量——シャノンエントロピーとアミノ酸頻度——は低カバレッジでは魅力的に見える。チャート中央あたりのカバレッジ予算を超えると、それらは最良の推定器を損ない始める。私たちはそれらを本番利用から引退させた。
各決定はマーケティング上の主張ではなく、測定された言明である。結果が損なった場合、その結果と引退はこのページに残る。
見かけ上強力な特徴量の上乗せの大部分は、事前計算されたk-NN軸を通じたリーケージに帰属できた。それに応じて方法論を厳格化した。
シャノンと頻度の列統計量は、一定のカバレッジ予算を超えると最良の推定器を損なった。私たちはそれらを本番利用から引退させ、直接結合ペアの探索を続けた。
現在のパイプラインは、物理学のように見える特徴量へと偏らせてある。各候補は、出荷前に明示的なリーケージ監査と明示的なカバレッジ予算を持つ。
タンパク質ダイナミクスは、「記憶せず、圧縮する」という考えに圧力をかける明白な場である。Holobiontは私たちがその圧力を加える場であり——そして、魅力的に見えたが監査を生き残らなかった特徴量をすでに引退させてきた場である。
メカニズム第一の監査は、評価規律からアラインメントの姿勢まで、私たちの研究プログラム全体を横断する。ここで特徴量が生き残らなければ、それはどこでも出荷されない。