構造化された計画、追跡可能なツール呼び出し、そして人が判断を下す明確な引き継ぎ点。
エージェント型システムのための安全性手法
監視、ケイパビリティ境界、安全なツール使用、および堅牢な拒否行動に関する研究。
良い依頼には役に立ち続け、悪い依頼には揺るがず信頼できるシステム。
安全性は最終層のプロンプトではなく、アーキテクチャ上の特性である
私たちの安全性への取り組みはアーキテクチャに組み込まれています。すなわち、ランタイムで強制されるケイパビリティ境界、人的レビュアーを迅速かつ的確な情報のもとに保つ監視のための表層、そして敵対的な圧力に対して評価される拒否行動です。目指すのは、良い依頼には役立ち続け、悪い依頼には信頼できるシステムです。
安全性の取り組みが位置するところ
エージェントはツールとデータに対する明示的な許可リストの内側で動作します。境界はプロンプトだけでなく、ランタイム層で強制されます。
拒否行動は、敵対的なプロンプト、プロンプトインジェクション、そしてインセンティブの圧力に対してテストされます。基準は「悪い依頼を拒否すること」ではなく「良い依頼に役立ち続けること」です。
ツールはデフォルトで拒否されます。許可は明示的です。
決定するのはプロンプトではなくランタイムです。許可リストに載っていないツールは、たとえエージェントが使うべきだと考えても呼び出すことができません。
良い依頼には役に立ち続ける。圧力下でも揺るがない。
基準は「悪い依頼を拒否すること」ではありません。基準は「良い依頼に役立ち続けること」であり、同じ評価において、ぎこちない言い回しや敵対的な圧力に対して測定されます。
五つの段階、二つの人的接点。
レビュアーは実行前に計画を確認し、実行後にスポットチェック用のトレースを確認します。エージェントは、レビュアーが計画レベルで承認していないものを決して実行しません。
役立つ部分は公開する。差別化する部分は非公開にする。
これまでに公開したもの
ケイパビリティが境界づけられたエージェントのための手法、監査ストリームの仕様、そして拒否の評価です。差別化につながる取り組みについては、その基盤となるメカニズムを非公開に保ち、そうでないものについてはアップストリームに貢献します。