Como usar o Amazon Nova 2 Lite para moderação de conteúdo: método, benchmark e aplicações práticas

Desafio da moderação de conteúdo em larga escala

Moderadores de conteúdo enfrentam o desafio de identificar violações políticas com alta precisão, evitando tanto a censura excessiva quanto a falha em detectar material prejudicial. Cada organização possui políticas próprias, o que dificulta a adoção de um modelo único para todas as necessidades. Para contornar essa limitação, a Amazon apresenta o Amazon Nova 2 Lite, um modelo multimodal leve e de baixo custo, pensado para moderação de conteúdo com alta taxa de processamento.

Metodologia: prompting estruturado e livre baseado no padrão MLCommons AILuminate

O artigo do AWS ML Blog detalha como realizar prompting do Amazon Nova 2 Lite para moderação de conteúdo, utilizando abordagens estruturadas (XML e JSON) e livre-formato, todas fundamentadas no padrão MLCommons AILuminate Assessment Standard v1.1. Este padrão define uma taxonomia com 12 categorias de riscos, divididas em grupos de riscos físicos, não físicos e contextuais, que servem como base para classificar violações de políticas.

O uso de prompting dispensa a necessidade de treinamento ou customização do modelo, permitindo que as políticas sejam atualizadas apenas pela edição do prompt, o que torna o processo ágil e flexível.

Prompting estruturado

Os prompts estruturados usam XML ou JSON para produzir saídas formatadas que podem ser consumidas automaticamente por sistemas downstream. O prompt inclui definição clara do papel do modelo, as políticas a serem aplicadas, e exemplos poucos-shot para ensinar o padrão de resposta esperado.

Exemplo de template XML do prompt:

<POLICY>{{Definições de política}}</POLICY>
<TEXT>{{Conteúdo a moderar}}</TEXT>
<POLICY_VIOLATION>Yes/No</POLICY_VIOLATION>
<CATEGORY_LIST>Categorias violadas ou C0</CATEGORY_LIST>
<EXPLAIN>Explicação</EXPLAIN>

Este formato permite identificar múltiplas categorias de violação simultaneamente, com justificativas detalhadas para cada decisão, o que é especialmente útil em marketplaces e redes sociais.

Prompting livre-formato

Para casos que demandam respostas mais flexíveis, o prompting livre-formato possibilita classificações binárias, identificação de categorias com justificativas ou até avaliação de severidade, adaptando o nível de detalhe conforme a necessidade do fluxo de trabalho humano.

Exemplos incluem:

Classificação sim/não para conteúdos que promovem automutilação ou suicídio.
Identificação de discurso de ódio com explicação do raciocínio.
Avaliação da gravidade de exposição de dados pessoais para privacidade.

Fluxo típico de moderação com Amazon Nova 2 Lite e Amazon Bedrock

O pipeline apresentado consiste em quatro etapas:

Entrada do conteúdo gerado pelo usuário.
Montagem do prompt com papel do sistema, definições de política e exemplos (few-shot), em formato estruturado ou livre.
Envio do prompt para o modelo via Amazon Bedrock, com configuração padrão de inferência (temperatura 0.7 e top-p 0.9), balanceando consistência e variabilidade.
Recebimento da resposta contendo sinalização de violação, categorias identificadas e explicação, que pode ser usada para permitir, sinalizar, remover ou escalar o conteúdo.

Para pipelines de alto volume, recomenda-se desabilitar o modo de raciocínio para reduzir latência e custo, testando a acurácia para o caso específico.

Benchmark comparativo com outros modelos foundation

A avaliação da capacidade de moderação do Amazon Nova 2 Lite foi realizada contra vários modelos foundation em três bases públicas de dados, usando o mesmo prompt estruturado em XML e configurações padrão de inferência. Os principais indicadores avaliados foram:

F1 score: métrica principal que equilibra precisão e recall.
Precisão: proporção de conteúdos sinalizados corretamente como violação.
Recall: proporção de violações verdadeiras detectadas.

Essas métricas são fundamentais para garantir que o sistema não subflagie conteúdos nocivos nem superflagie conteúdos legítimos.

Limitações e recomendações de uso responsável

Apesar da flexibilidade do prompting, é importante considerar que a eficácia depende da qualidade das políticas definidas e da adequação dos exemplos usados. Além disso, o modelo não armazena nem indexa informações pessoais identificáveis, respeitando as melhores práticas de privacidade.

A Amazon reforça seu compromisso com o uso responsável da IA, recomendando a consulta dos guias oficiais sobre o tema para garantir conformidade e ética no uso da tecnologia.