Robótica

Ensinar robôs a planear com incerteza

Investigação em IA incorporada que ajuda robôs a perceber, raciocinar e agir com ciclos de retroalimentação mais seguros.

âmbitoperceção · planeamento · entrega controlada no mundo real
posturaa incerteza vive na perceção, não no ponto cego do planeador
ciclosim → real → sim, cada surpresa reintegrada
cena vista de cima · confiança de deteção + trajetória planeada box · 92% human · 78% unknown · 41% high confidence medium confidence low confidence
O que muda na IA incorporada

A incerteza faz parte da perceção, não faz parte do planeador

Os robôs que atuam no mundo real têm de reconhecer quando estão errados. O nosso trabalho de IA incorporada empurra a incerteza de volta para a perceção, para que os planeadores possam reagir a ela, e depois valida tudo contra ambientes reais cuidadosamente controlados antes de reintegrar as surpresas no simulador.

divisão convencional

a perceção emite estimativas pontuais, e supõe-se que o planeador seja robusto a tudo aquilo em que elas errem.

a nossa divisão

a perceção emite a dúvida diretamente — intervalos de confiança nas deteções, covariância nos rastreios — e o planeador está ligado para reagir a essa dúvida.

três compromissos

Onde o ciclo incorporado conquista a sua segurança

E1

perceção que admite a dúvida

Cada deteção reporta um intervalo de confiança, cada rastreio uma covariância. O planeador vê a dúvida diretamente.

point + 2σ ellipse
recompensa planeadores que reagem à incerteza em tempo real penaliza estimativas pontuais que parecem confiantes até algo cair ao chão
E2

sim → real → sim

Treinamos em simulação, validamos num ambiente real cuidadosamente controlado e reintegramos cada surpresa no simulador.

i1 0.62 i2 0.41 i3 0.27 i4 0.16 i5 0.09 reality gap by iteration
recompensa ciclos que reduzem o fosso com a realidade a cada iteração penaliza métricas apenas de simulação tratadas como substituto do mundo real
E3

um ciclo de retroalimentação mais seguro

Um robô que não sabe que está errado é o perigoso. Recompensamos sistemas que param, perguntam e replaneiam quando a incerteza ultrapassa um limiar escrito.

confident execute uncertain pause · ask unsafe stop
recompensa controladores que cedem perante a dúvida penaliza controladores que avançam à força por estados incertos
sim → real → sim

O ciclo aperta-se até o fosso ser pequeno

Treinar em simulação, validar num ambiente real controlado, reintegrar cada surpresa no simulador. A cada ciclo o fosso com a realidade encolhe.

SIM trained policy unit-test surface REAL controlled environment measured surprise SIM′ surprise folded in next training round cycle: each iteration shrinks the reality gap deploy log surprises
política de cena

A tabela de deteção é a tabela de ação

A mesma cena do herói, decomposta na perspetiva do controlador: deteção, confiança, decisão, classe de política. Um desconhecido de baixa confiança não se torna um plano executado.

deteção confiança decisão classe de política urgência
d1 · box 0.92 pick execute low
d2 · human 0.78 stop & yield override high
d3 · unknown 0.41 pause · ask escalate medium

Perceção que admite a dúvida

Os robôs que atuam no mundo real têm de reconhecer quando estão errados. A nossa stack de perceção reporta a incerteza juntamente com cada deteção, para que os planeadores possam reagir.

Sim, depois real, depois sim

Treinamos em simulação, validamos em ambientes reais cuidadosamente controlados e reintegramos as surpresas no simulador. O ciclo aperta-se até o fosso ser pequeno.

transversalidades

A incerteza incorporada é apenas calibração com um prazo

A mesma disciplina de calibração que surge nas nossas previsões climáticas e na nossa biblioteca de avaliação aterra aqui como uma lei de controlo: quando a banda é larga, o robô cede.