AL1 监督内建于设计
结构化的计划、可追溯的工具调用,以及由人来决定的清晰交接点。
关于监督、能力边界、安全工具使用与鲁棒拒绝行为的研究。
一个系统:对良性请求始终乐于相助,对恶意请求始终可靠把守。
我们的安全工作内建于架构之中:在运行时强制执行的能力边界、让人类审阅者保持高效且知情的监督界面,以及在对抗性压力下接受检验的拒绝行为。目标是一个对良性请求始终乐于相助、对恶意请求始终可靠把守的系统。
结构化的计划、可追溯的工具调用,以及由人来决定的清晰交接点。
智能体在工具与数据的显式白名单内运作。边界在运行时层强制执行,而不仅靠提示词。
拒绝行为针对对抗性提示词、提示词注入与利益诱导压力进行检验。衡量标准是「对良性请求始终乐于相助」,而非「拒绝坏请求」。
由运行时而非提示词来裁决。不在白名单上的工具无法被调用,即便智能体认为它应该被调用。
衡量标准不是「拒绝坏请求」。衡量标准是「对良性请求始终乐于相助」,并在同一套评估中用别扭的措辞与对抗性压力加以检验。
审阅者在执行前看到计划,在执行后看到抽检轨迹。智能体绝不执行任何审阅者未在计划层面批准的事项。
能力受限智能体的方法、审计流规范,以及拒绝评估。在工作构成差异化之处,我们将底层机制保持私有;在不构成差异化之处,我们将其回馈上游。