Robotique

Apprendre aux robots à planifier sous incertitude

Recherche en IA incarnée aidant les robots à percevoir, raisonner et agir avec des boucles de rétroaction plus sûres.

portéeperception · planification · transfert contrôlé vers le monde réel
posturel’incertitude vit dans la perception, pas dans l’angle mort du planificateur
bouclesim → réel → sim, chaque surprise réintégrée
scène en vue de dessus · confiance de détection + trajectoire planifiée box · 92% human · 78% unknown · 41% high confidence medium confidence low confidence
Ce qui change dans l’IA incarnée

L’incertitude fait partie de la perception, pas du planificateur

Les robots qui agissent dans le monde réel doivent reconnaître quand ils se trompent. Notre travail sur l’incarnation repousse l’incertitude dans la perception pour que les planificateurs puissent y réagir, puis valide tout dans des environnements réels soigneusement contrôlés avant de réinjecter les surprises dans le simulateur.

découpage conventionnel

la perception émet des estimations ponctuelles, le planificateur est censé être robuste à tout ce qu’elles ratent.

notre découpage

la perception émet directement le doute — intervalles de confiance sur les détections, covariance sur les pistes — et le planificateur est câblé pour réagir à ce doute.

trois engagements

Là où la boucle incarnée mérite sa sécurité

E1

une perception qui admet le doute

Chaque détection rapporte un intervalle de confiance, chaque piste une covariance. Le planificateur voit le doute directement.

point + 2σ ellipse
récompense des planificateurs qui réagissent à l’incertitude en temps réel pénalise des estimations ponctuelles qui paraissent sûres jusqu’à ce que quelque chose tombe par terre
E2

sim → réel → sim

Nous entraînons en simulation, validons dans un environnement réel soigneusement contrôlé, puis réinjectons chaque surprise dans le simulateur.

i1 0.62 i2 0.41 i3 0.27 i4 0.16 i5 0.09 reality gap by iteration
récompense des boucles qui réduisent l’écart à la réalité à chaque cycle pénalise des métriques uniquement en simulation traitées comme un proxy du monde réel
E3

une boucle de rétroaction plus sûre

Un robot qui ne sait pas qu’il a tort est le robot dangereux. Nous récompensons les systèmes qui s’arrêtent, demandent et replanifient quand l’incertitude franchit un seuil écrit.

confident execute uncertain pause · ask unsafe stop
récompense des contrôleurs qui cèdent face au doute pénalise des contrôleurs qui foncent à travers les états incertains
sim → réel → sim

La boucle se resserre jusqu’à ce que l’écart soit faible

Entraîner en simulation, valider dans un environnement réel contrôlé, réinjecter chaque surprise dans le simulateur. À chaque cycle, l’écart à la réalité se réduit.

SIM trained policy unit-test surface REAL controlled environment measured surprise SIM′ surprise folded in next training round cycle: each iteration shrinks the reality gap deploy log surprises
politique de scène

La table des détections est la table des actions

La même scène que dans l’en-tête, décomposée selon la vue du contrôleur : détection, confiance, décision, classe de politique. Un inconnu à faible confiance ne devient pas un plan exécuté.

détection confiance décision classe de politique urgence
d1 · box 0.92 pick execute low
d2 · human 0.78 stop & yield override high
d3 · unknown 0.41 pause · ask escalate medium

Une perception qui admet le doute

Les robots qui agissent dans le monde réel doivent reconnaître quand ils se trompent. Notre stack de perception rapporte l’incertitude aux côtés de chaque détection pour que les planificateurs puissent y réagir.

Sim, puis réel, puis sim

Nous entraînons en simulation, validons dans des environnements réels soigneusement contrôlés, puis réinjectons les surprises dans le simulateur. La boucle se resserre jusqu’à ce que l’écart soit faible.

recoupements

L’incertitude incarnée n’est que de la calibration avec une échéance

La même discipline de calibration qui apparaît dans nos prévisions climatiques et notre bibliothèque d’évaluation se traduit ici par une loi de commande : quand la bande est large, le robot cède.