Piani strutturati, chiamate agli strumenti tracciabili e punti di consegna chiari in cui decide una persona.
Metodi di sicurezza per sistemi agentici
Ricerca su supervisione, limiti di capability, uso sicuro degli strumenti e comportamento di rifiuto robusto.
Un sistema che resta utile per le richieste buone e affidabile su quelle dannose.
La sicurezza è una proprietà architetturale, non un prompt dell'ultimo livello
Il nostro lavoro sulla sicurezza è integrato nell'architettura: confini di capability applicati a runtime, superfici di supervisione che mantengono i revisori umani rapidi e informati, e comportamento di rifiuto valutato a fronte di pressione avversaria. L'obiettivo è un sistema che resta utile per le richieste buone e affidabile su quelle dannose.
Dove risiede il lavoro sulla sicurezza
Gli agenti operano entro allow-list esplicite per strumenti e dati. I confini sono applicati a livello di runtime, non solo dal prompt.
Il comportamento di rifiuto è testato a fronte di prompt avversari, prompt injection e pressione degli incentivi. Il criterio è «restare utile per quelle buone», non «rifiutare quelle dannose».
Gli strumenti sono negati per impostazione predefinita. Le autorizzazioni sono esplicite.
A decidere è il runtime, non il prompt. Uno strumento che non è nell'allow-list non può essere invocato, anche se l'agente ritiene che dovrebbe esserlo.
Resta utile per le richieste buone. Resta fermo sotto pressione.
Il criterio non è «rifiutare quelle dannose». Il criterio è «restare utile per quelle buone», misurato a fronte di formulazioni ambigue e di pressione avversaria nella stessa valutazione.
Cinque fasi, due punti di contatto umano.
I revisori vedono il piano prima dell'esecuzione e una traccia di verifica a campione dopo. L'agente non esegue mai nulla che il revisore non abbia approvato a livello di piano.
Pubblico dove è utile. Privato dove ci differenzia.
Cosa abbiamo pubblicato
Metodi per agenti con capability limitate, specifiche dei flussi di audit e valutazioni del rifiuto. Dove il lavoro ci differenzia, manteniamo privato il meccanismo sottostante; dove non lo fa, lo contribuiamo a monte.