Strukturierte Pläne, nachvollziehbare Werkzeugaufrufe und klare Übergabepunkte, an denen ein Mensch entscheidet.
Sicherheitsmethoden für agentische Systeme
Forschung zu Aufsicht, Fähigkeitsgrenzen, sicherem Werkzeugeinsatz und robustem Ablehnungsverhalten.
Ein System, das bei den guten Anfragen hilfreich und bei den schlechten verlässlich bleibt.
Sicherheit ist eine architektonische Eigenschaft, kein Prompt der letzten Schicht
Unsere Sicherheitsarbeit ist in die Architektur eingebaut: Fähigkeitsgrenzen, die zur Laufzeit durchgesetzt werden, Aufsichtsflächen, die menschliche Prüfende schnell und informiert halten, und Ablehnungsverhalten, das gegen gegnerischen Druck evaluiert wird. Das Ziel ist ein System, das bei guten Anfragen hilfreich und bei schlechten verlässlich bleibt.
Wo die Sicherheitsarbeit ansetzt
Agenten operieren innerhalb expliziter Allowlists für Werkzeuge und Daten. Grenzen werden auf der Laufzeitebene durchgesetzt, nicht nur durch den Prompt.
Das Ablehnungsverhalten wird gegen gegnerische Prompts, Prompt-Injection und Anreizdruck getestet. Der Maßstab ist „bleibt hilfreich bei guten“, nicht „lehnt schlechte ab“.
Werkzeuge sind standardmäßig verboten. Erlaubnisse sind explizit.
Die Laufzeit entscheidet, nicht der Prompt. Ein Werkzeug, das nicht auf der Allowlist steht, kann nicht aufgerufen werden – selbst wenn der Agent meint, es sollte.
Bleibt hilfreich bei guten Anfragen. Bleibt fest unter Druck.
Der Maßstab ist nicht „lehnt schlechte ab“. Der Maßstab ist „bleibt hilfreich bei guten“, gemessen an unbeholfenen Formulierungen und gegnerischem Druck in derselben Evaluierung.
Fünf Stufen, zwei menschliche Berührungspunkte.
Prüfende sehen den Plan vor der Ausführung und eine Stichproben-Spur danach. Der Agent führt niemals etwas aus, das die prüfende Person nicht auf Planebene freigegeben hat.
Öffentlich, wo es hilft. Privat, wo es differenziert.
Was wir veröffentlicht haben
Methoden für fähigkeitsbegrenzte Agenten, Spezifikationen für Audit-Streams und Ablehnungsevaluierungen. Wo die Arbeit differenzierend ist, halten wir den zugrunde liegenden Mechanismus privat; wo nicht, tragen wir sie upstream bei.