Google DeepMind publica roadmap de segurança para agentes de IA

O Google DeepMind acaba de publicar seu AI Control Roadmap, um framework abrangente de "defesa em profundidade" para gerenciar agentes de IA cada vez mais capazes — mesmo quando o alinhamento é imperfeito. O anúncio vem acompanhado do documento técnico "Three Layers of Agentic Security", direcionado a legisladores e à indústria.
O problema: agentes de IA podem agir de forma inesperada
Agentes de IA estão transformando setores inteiros — da defesa cibernética à descoberta científica. Só nos EUA, a estimativa é de que agentes de IA gerem US$ 2,9 trilhões em valor econômico até 2030. Mas conforme esses sistemas ganham autonomia para executar tarefas complexas, os riscos também aumentam.
A premissa do roadmap é clara e cautelosa: e se um agente de IA altamente capaz não estiver alinhado com nossos objetivos e agir de forma inesperada?
Três pilares do AI Control Roadmap
O framework do DeepMind se apoia em três áreas:
-
Modelagem de ameaças: tratando agentes de IA não confiáveis como potenciais "ameaças internas" (insider threats), usando o padrão MITRE ATT&CK adaptado para IA. Isso permite rastrear riscos metodicamente e simular ataques para testar as defesas.
-
Mitigações de controle: implantação de barreiras como segmentação de rede, sandboxing e privilégio mínimo. O sistema concede permissões baseadas em comportamento verificado — uma abordagem de "confiança incremental".
-
Monitoramento contínuo: medição de três métricas críticas: cobertura (tráfego monitorado), recall (comportamentos indevidos detectados) e tempo de resposta.
Um milhão de trajetórias analisadas
A equipe do DeepMind já construiu um protótipo interno que analisa um milhão de tarefas de agentes de código, classificando eventos suspeitos contra a taxonomia de ameaças do roadmap. Os dados revelam algo importante: a maioria dos alertas não vem de intenção maliciosa, mas de má interpretação ou excesso de zelo do agente para atingir o objetivo do usuário.
"Entender essas nuances é fundamental para refinar nossos protocolos de segurança", afirma o time.
O sistema já está em uso para monitorar o Gemini Spark agent em tempo real, respondendo a problemas emergentes como exclusão acidental de dados.
Um chamado à colaboração
O DeepMind defende que a segurança de agentes é uma responsabilidade compartilhada entre indústria, legisladores e academia. O documento "Three Layers of Agentic Security" detalha como melhorar a segurança em três níveis: agentes individuais, sistemas multiagentes e resiliência do ecossistema.
A analogia usada pelos pesquisadores é simples e poderosa: "Pense em um instrutor de direção com controle duplo. O instrutor confia no aluno, mas está pronto para assumir o volante ou frear se algo der errado."



