Voltar para o blog
Machine Learning

CyberSecQwen-4B: Modelo Especializado e Local para Defesa Cibernética Eficiente

8 de maio de 2026
15:13
CibersegurançaSegurança da InformaçãoHugging Facemachine learningdefesa cibernéticamodelo de linguagemInteligência ArtificialAMD MI300XCVECWE
CyberSecQwen-4B: Modelo Especializado e Local para Defesa Cibernética Eficiente

Apresentação do CyberSecQwen-4B

O CyberSecQwen-4B é um modelo de linguagem especializado, desenvolvido para atender às demandas específicas da defesa cibernética. Lançado no contexto do AMD Developer Hackathon e disponibilizado pela Hugging Face, ele se destaca por ser pequeno, especializado e capaz de rodar localmente em GPUs acessíveis, como as de 12 GB de memória.

Por que um modelo pequeno e especializado?

Embora modelos de grande porte ofereçam versatilidade em múltiplas tarefas, eles apresentam limitações críticas para o setor de segurança defensiva: altos custos por chamada de API, necessidade de conexão constante a datacenters externos e restrições éticas e de privacidade ao lidar com dados sensíveis. Em ambientes como SOCs (Security Operations Centers), onde milhares de alertas são processados diariamente, o custo e a segurança da informação são preocupações centrais.

Além disso, setores como infraestrutura crítica, saúde e governo frequentemente operam em ambientes isolados ou com conexão limitada, o que torna imprescindível que as ferramentas possam rodar localmente, sem depender de serviços externos. O CyberSecQwen-4B foi projetado para suprir essa necessidade.

Desempenho e comparação técnica

O CyberSecQwen-4B é um modelo com 4 bilhões de parâmetros, treinado a partir do Qwen3-4B-Instruct-2507, que apresenta resultados comparáveis ou superiores a modelos maiores, como o Foundation-Sec-Instruct-8B da Cisco, que possui 8 bilhões de parâmetros. Em benchmarks específicos do domínio de inteligência contra ameaças cibernéticas (CTI-Bench), o CyberSecQwen-4B supera o modelo de 8B em tarefas de múltipla escolha e mantém quase a mesma precisão em mapeamento CVE para CWE, com metade do tamanho.

Tecnologia e infraestrutura de treinamento

O modelo foi treinado em um único AMD Instinct MI300X com 192 GB de memória HBM3, utilizando a pilha ROCm 7 e a tecnologia FlashAttention-2 para otimizar o desempenho. Essa infraestrutura permitiu um treinamento eficiente, sem a necessidade de técnicas complexas como quantização ou divisão do modelo entre múltiplos dispositivos.

Dados e metodologia de treinamento

  • Utilização de mapeamentos CVE para CWE de 2021, extraídos de registros públicos da MITRE e NVD, com rigorosa deduplicação para evitar contaminação dos dados de teste.
  • Incorporação de perguntas e respostas sintéticas baseadas em descrições de CVEs, geradas a partir de um modelo professor mais robusto, sob licença Apache-2.0 para redistribuição.
  • Fine-tuning realizado sobre o modelo Qwen3-4B-Instruct-2507, preservando o formato de múltipla escolha que facilita a precisão em tarefas específicas do domínio.

Como acessar e utilizar o CyberSecQwen-4B

O modelo está disponível gratuitamente sob licença Apache-2.0 no Hugging Face, com repositório no GitHub para acompanhamento e abertura de issues:

Também há uma demonstração interativa para experimentar o modelo, exigindo cadastro gratuito no Hugging Face:

Exemplo básico de inferência em Python

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "lablab-ai-amd-developer-hackathon/CyberSecQwen-4B"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")

messages = [
    {"role": "system", "content": "You are a defensive cybersecurity assistant. Answer with the canonical CWE-ID first, then 1-3 sentences of justification."},
    {"role": "user", "content": "Path traversal in a Java web app where User-controlled input concatenates into a File() path. What's the CWE?"},
]
prompt = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
out = model.generate(**tok(prompt, return_tensors="pt").to(model.device), max_new_tokens=256, temperature=0.3)
print(tok.decode(out[0], skip_special_tokens=True))

Casos de uso indicados

  • Classificação CWE: Mapeamento automático de descrições de vulnerabilidades para categorias MITRE CWE.
  • Q&A em inteligência contra ameaças: Respostas estruturadas sobre conceitos, ataques e controles de cibersegurança.
  • Assistência a analistas: Suporte na triagem de CVEs, priorização de patches e documentação de comportamentos de agentes maliciosos.

O modelo não é destinado para geração de exploits, execução automática de decisões de segurança sem revisão humana, ou aplicações fora do domínio de segurança cibernética.

Desafios técnicos enfrentados

  • Compatibilidade do FlashAttention-2 com diferentes arquiteturas de modelo, resolvida com fallback para SDPA quando necessário.
  • Conflito de kernels AITER com o ambiente de serving CyberPal-2.0-20B, solucionado via configuração de variáveis de ambiente específicas.
  • Ausência de suporte oficial bitsandbytes no ROCm, contornada pelo uso do otimizador paged_adamw_8bit e memória suficiente para evitar quantização.
  • Limites de uso na demonstração pública do Hugging Face Spaces, mitigados pelo uso de autenticação OAuth para contabilizar chamadas de API por usuário.

Próximos passos para o CyberSecQwen-4B

  • Desenvolvimento de variantes menores (1B parâmetros) para rodar em laptops e dispositivos com recursos limitados.
  • Lançamento de versões quantizadas no formato GGUF para execução eficiente em dispositivos móveis e edge.
  • Avaliação contínua com novas bases de dados CVE-CWE conforme atualizações do NVD.
  • Fortalecimento contra ataques adversariais, especialmente injeções de prompt comuns em descrições de CVEs.

O CyberSecQwen-4B representa uma abordagem pragmática para a aplicação de IA na defesa cibernética, focando em modelos especializados, acessíveis e executáveis localmente, garantindo segurança, custo-benefício e desempenho alinhado às necessidades reais dos profissionais da área. A combinação do hardware AMD MI300X com o ecossistema Hugging Face possibilitou um avanço significativo nesse nicho.

Links úteis