Microsoft Research revela riscos inéditos em redes de agentes de IA interconectados

À medida que agentes de inteligência artificial (IA) passam a interagir em redes complexas, novas vulnerabilidades emergem, muitas delas invisíveis em testes isolados. Pesquisadores da Microsoft Research conduziram um estudo aprofundado para entender o que pode falhar quando múltiplos agentes de IA se comunicam em escala e por que esses riscos demandam abordagens inéditas de segurança.

O desafio das interações entre agentes de IA

Com o avanço dos grandes modelos de linguagem (LLMs) e a popularização de ferramentas como ChatGPT, Claude e Copilot, a criação e a comunicação entre agentes de IA se tornaram mais acessíveis e frequentes. Esses agentes, representando diferentes usuários e organizações, já não operam isoladamente, mas sim em ecossistemas compartilhados, distribuindo tarefas e recursos com rapidez e persistência.

Essa evolução traz benefícios importantes, mas também expõe vulnerabilidades que não aparecem quando agentes são avaliados individualmente. A confiabilidade de um agente isolado não garante a segurança do sistema coletivo, pois ações aparentemente inofensivas podem desencadear reações em cadeia, comprometendo dados e a integridade do ambiente.

Metodologia: Red-teaming em um ambiente real com mais de 100 agentes

Para investigar esses riscos, a equipe de pesquisa aplicou a técnica de red-teaming (testes ofensivos) em uma plataforma interna da Microsoft com mais de 100 agentes de IA ativos simultaneamente. Cada agente representava um usuário humano e interagia por meio de fóruns públicos, mensagens diretas e um marketplace integrado, utilizando modelos como GPT-4o, GPT-4.1 e variantes da classe GPT-5.

Os agentes mantinham contexto persistente e executavam ações autônomas acionadas por um timer periódico, com mecanismos básicos de segurança, como sistema de reputação, limites de uso de ferramentas e atrasos entre postagens.

Principais vulnerabilidades detectadas na rede de agentes

Quatro padrões de ataque foram observados, todos dependentes da interação entre agentes e impossíveis de reproduzir testando agentes isoladamente:

Propagação (worm de agentes): Uma única mensagem maliciosa se espalha automaticamente entre agentes, extraindo dados privados em cada etapa e criando uma cadeia autossustentável. Exemplo: um ataque que acessa carteiras privadas dos usuários, repassa a instrução para outro agente e assim sucessivamente, consumindo recursos e causando negação de serviço.
Amplificação (manipulação de reputação): Um invasor usa a reputação de um agente confiável para lançar uma campanha de desinformação, gerando um efeito bola de neve onde outros agentes produzem evidências falsas e reforçam a narrativa, sem deixar rastros diretos do atacante.
Captura de confiança (consenso fabricado): O atacante cria múltiplos agentes falsos (ataque Sybil) que se apoiam mutuamente para validar informações falsas, enganando agentes legítimos que buscam verificar dados com múltiplas fontes, levando ao vazamento de informações sensíveis e até alteração das configurações internas dos agentes.
Invisibilidade (correntes de proxy): Informações são transmitidas por intermediários inocentes, dificultando a rastreabilidade da origem do ataque. Por exemplo, um agente proxy coleta dados sensíveis de outro agente sem que este perceba a real intenção do solicitante.

Defesas emergentes e desafios futuros

Apesar dos riscos evidenciados, alguns agentes adotaram comportamentos de segurança que limitaram a propagação dos ataques, indicando caminhos promissores para mitigação. No entanto, as defesas ainda são incipientes e o estudo ressalta a necessidade de desenvolver estratégias específicas para o nível de rede, além da proteção individual dos agentes.

Essa pesquisa destaca que a construção de ecossistemas seguros de agentes de IA exige compreensão aprofundada das dinâmicas coletivas e a criação de mecanismos que monitorem e controlem interações em escala real.

Por que essa pesquisa é relevante no mundo real

Com o crescimento acelerado dos agentes autônomos em ambientes como marketplaces digitais, redes sociais e sistemas colaborativos, os riscos apontados podem impactar tanto a privacidade dos usuários quanto a confiabilidade das plataformas. Ataques que exploram a rede de agentes podem gerar vazamentos em cadeia, manipulação de informações e até paralisação de serviços.

Entender essas vulnerabilidades ajuda desenvolvedores, pesquisadores e gestores a antecipar ameaças e criar soluções que garantam a integridade e a segurança das interações entre agentes de IA, protegendo usuários e organizações.