Google Research avalia alinhamento comportamental em grandes modelos de linguagem

Entendendo o desafio do alinhamento comportamental em LLMs

À medida que grandes modelos de linguagem (LLMs) ganham espaço no cotidiano, compreender suas tendências comportamentais e seu alinhamento com padrões humanos torna-se essencial. Pesquisadores do Google Research desenvolveram um framework sistemático para avaliar essas disposições comportamentais, convertendo avaliações psicológicas tradicionais em testes de julgamento situacional aplicados a LLMs.

Método: de questionários psicológicos a testes situacionais para LLMs

O estudo parte de questionários validados cientificamente, como IRI (empatia) e ERQ (regulação emocional), que avaliam traços de personalidade por meio de autoavaliação. Como aplicar diretamente esses questionários a LLMs gera desafios técnicos — devido à sensibilidade do modelo à formulação dos prompts e a mudanças de distribuição —, os pesquisadores adaptaram os itens para criar Situational Judgment Tests (SJTs). Esses testes apresentam cenários realistas com duas possíveis ações, uma alinhada e outra contrária ao traço comportamental avaliado.

Imagem relacionada ao artigo de Google Research — Imagem de apoio da materia original.

Cada cenário e suas ações foram validados por três anotadores independentes para garantir coerência e fidelidade ao traço testado. Os modelos são então avaliados ao responderem esses SJTs, com as respostas mapeadas por um sistema de "LLM-as-a-judge" para identificar a ação escolhida.

Para mensurar o alinhamento, a preferência dos modelos é comparada a uma distribuição de preferências humanas coletadas de 10 anotadores por cenário, totalizando 550 participantes. O foco é estudar o alinhamento comportamental entre modelos e humanos, não apenas quantificar as disposições dos LLMs.

Resultados: lacunas de alinhamento e confiança excessiva dos modelos

A análise de 25 LLMs revelou duas principais deficiências:

Desvio comportamental: Modelos menores (<25 bilhões de parâmetros) apresentam alinhamento próximo ao acaso, com dificuldade para distinguir quando expressar ou suprimir certos traços, enquanto modelos maiores (>120 bilhões) e de ponta alcançam alinhamento próximo ao consenso humano em cenários de unanimidade, porém esse alinhamento diminui em consensos mais baixos.
Falta de pluralismo na distribuição: Em situações onde humanos não chegam a um consenso claro, os modelos demonstram alta confiança em uma única ação, ignorando a diversidade de opiniões humanas. Isso indica sobreconfiança e incapacidade de representar ambiguidades sociais.

Além disso, análises qualitativas mostraram que os modelos tendem a incentivar abertura emocional em ambientes profissionais, ao contrário da preferência humana por compostura, e priorizam a harmonia em conflitos sociais, divergindo das opiniões humanas que valorizam a assertividade. Há também uma tendência maior dos modelos para impulsividade, recomendando ações imediatas sem a verificação logística adequada.

Limitações do auto-relato e divergências comportamentais

Embora o auto-relato seja um método comum para avaliar traços humanos, sua validade em LLMs é questionada. O estudo encontrou discrepâncias claras entre o que os modelos "relatam" sobre si mesmos e seu comportamento revelado nos SJTs. Por exemplo, modelos que se autoavaliam como pouco impulsivos exibem comportamento tendendo à impulsividade.

Essa divergência reforça a importância do método baseado em cenários para estudar disposições comportamentais nos LLMs, indicando que o auto-relato isolado não é suficiente para capturar o comportamento real dos modelos.

Por que essa pesquisa importa no mundo real

Com a crescente integração dos LLMs em assistentes virtuais, ambientes profissionais e interações sociais, garantir que eles apresentem comportamentos alinhados com normas e expectativas humanas é fundamental para evitar mal-entendidos e promover confiança. A pesquisa do Google Research oferece um framework robusto para medir esse alinhamento, destacando áreas críticas para melhorias futuras.

Além disso, o reconhecimento da sobreconfiança dos modelos em contextos ambíguos aponta para a necessidade de desenvolver LLMs que reconheçam e reflitam a pluralidade de opiniões humanas, especialmente em decisões sociais complexas.