Des plans structurés, des appels d'outils traçables et des points de transfert clairs où une personne décide.
Méthodes de sécurité pour les systèmes agentiques
Recherche sur la supervision, les limites de capacité, l'utilisation sécurisée des outils et le comportement de refus robuste.
Un système qui reste utile pour les bonnes requêtes et fiable face aux mauvaises.
La sécurité est une propriété architecturale, non un prompt de dernière couche
Notre travail de sécurité est intégré à l'architecture : des limites de capacité imposées à l'exécution, des surfaces de supervision qui gardent les relecteurs humains rapides et informés, et un comportement de refus évalué face à la pression adverse. L'objectif est un système qui reste utile pour les bonnes requêtes et fiable face aux mauvaises.
Où se situe le travail de sécurité
Les agents opèrent à l'intérieur de listes d'autorisation explicites pour les outils et les données. Les limites sont imposées au niveau de l'exécution, et non seulement par le prompt.
Le comportement de refus est testé face aux prompts adverses, à l'injection de prompt et à la pression incitative. L'exigence est « reste utile pour les bonnes », et non « refuse les mauvaises ».
Les outils sont refusés par défaut. Les autorisations sont explicites.
C'est l'exécution qui décide, pas le prompt. Un outil absent de la liste d'autorisation ne peut être invoqué, même si l'agent estime qu'il le devrait.
Reste utile pour les bonnes requêtes. Reste ferme sous pression.
L'exigence n'est pas « refuse les mauvaises ». L'exigence est « reste utile pour les bonnes », mesurée face aux formulations maladroites et à la pression adverse sur une même évaluation.
Cinq étapes, deux points de contact humains.
Les relecteurs voient le plan avant l'exécution et une trace de vérification ponctuelle après. L'agent n'exécute jamais rien que le relecteur n'ait approuvé au niveau du plan.
Public là où c'est utile. Privé là où cela nous différencie.
Ce que nous avons publié
Des méthodes pour les agents à capacité limitée, des spécifications de flux d'audit et des évaluations de refus. Là où le travail nous différencie, nous gardons le mécanisme sous-jacent privé ; là où ce n'est pas le cas, nous le contribuons en amont.