Transcrição Multilíngue de Áudio em Grande Escala com Parakeet-TDT e AWS Batch: Eficiência e Redução de Custos

Transcrição automática de áudio com custo reduzido e alta escala

Empresas que gerenciam grandes bibliotecas de mídia, analisam gravações de centrais de atendimento, preparam dados para treinamento de IA ou gerenciam legendas para vídeos sob demanda enfrentam um desafio comum: o custo crescente dos serviços gerenciados de reconhecimento automático de fala (ASR) à medida que o volume de dados aumenta. Para solucionar esse problema, a AWS, em parceria com a NVIDIA, apresenta uma solução baseada no modelo Parakeet-TDT-0.6B-v3, implementado via AWS Batch em instâncias GPU aceleradas, que permite transcrição multilíngue eficiente e econômica em grande escala.

O modelo Parakeet-TDT-0.6B-v3: capacidades e vantagens

Lançado em agosto de 2025, o Parakeet-TDT-0.6B-v3 é um modelo open source de ASR multilíngue que suporta 25 idiomas europeus, incluindo inglês, francês, alemão, espanhol, russo e português, com detecção automática de idioma. Sob licença CC-BY-4.0, o modelo entrega alta precisão com uma taxa de erro de palavras (WER) de 6,34% em condições limpas e 11,66% em ambientes com ruído de 0 dB SNR. Ele suporta áudios de até três horas usando o modo de atenção local, o que é adequado para transcrição de arquivos longos.

O modelo utiliza a arquitetura Token-and-Duration Transducer (TDT), que prevê simultaneamente tokens de texto e suas durações, permitindo pular silêncios e reduzir processamento redundante. Isso resulta em velocidades de inferência muito superiores ao tempo real, traduzindo-se em custos significativamente menores.

Arquitetura da solução: pipeline escalável e orientado a eventos

A solução se baseia em um pipeline que inicia automaticamente ao fazer upload de arquivos de áudio para um bucket do Amazon Simple Storage Service (Amazon S3). Esse evento dispara uma regra do Amazon EventBridge que submete um job ao AWS Batch. O AWS Batch então provisiona recursos computacionais GPU acelerados, que executam o contêiner contendo o modelo Parakeet-TDT pré-carregado, obtido do Amazon Elastic Container Registry (Amazon ECR).

Após o processamento, a transcrição em formato JSON com timestamps é salva em um bucket S3 de saída. A arquitetura é elástica, escalando para zero quando ociosa, evitando custos durante períodos sem demanda.

Veja um resumo do fluxo:

Upload do áudio no S3 (entrada)
Disparo do job via EventBridge
Execução do job no AWS Batch com instâncias GPU
Transcrição gerada e salva no bucket S3 (saída)

Como implementar a solução na prática

Pré-requisitos

Conta AWS ativa e configurada
Usuário IAM com permissões administrativas (criado via AWS IAM Identity Center)
Instalação do AWS CLI configurado com perfil administrativo
Docker instalado localmente
Clone do repositório GitHub oficial da solução (link do repositório)

Passo a passo para implantação

Construção da imagem Docker: O Dockerfile do repositório cria uma imagem otimizada para inferência, baseada no Amazon Linux 2023, com Python 3.12 e o modelo Parakeet-TDT pré-carregado para evitar latência de download em tempo de execução.

./updateImage.sh

Push da imagem para Amazon ECR: O script updateImage.sh automatiza o build, criação do repositório ECR, ativação de escaneamento de vulnerabilidades e push da imagem.
Deploy da infraestrutura: Utilizando o template AWS CloudFormation deployment.yaml e o script buildArch.sh, a infraestrutura é provisionada, incluindo ambientes AWS Batch com instâncias G6 e G5 GPU, filas de jobs, buckets S3 configurados com notificações EventBridge, regras EventBridge, monitoramento via CloudWatch e papéis IAM com políticas de menor privilégio.

./buildArch.sh

Configuração de instâncias Spot para redução de custos: Modifique o arquivo deployment.yaml para ativar o uso de Amazon EC2 Spot Instances, que podem reduzir custos em até 90%. A arquitetura suporta tolerância a interrupções, reexecutando jobs automaticamente.

Gerenciamento de áudio longo e inferência em streaming bufferizado

A memória VRAM exigida pelo modelo cresce linearmente com a duração do áudio, podendo limitar a transcrição de arquivos muito longos em hardware padrão. Para contornar essa limitação, a solução implementa inferência em streaming bufferizado, que processa o áudio em blocos sobrepostos (chunks) de 20 segundos com contexto para manter a qualidade na transcrição.

Esse método mantém o uso de memória constante, permitindo que uma instância g6.xlarge processe arquivos de até 10 horas com a mesma eficiência que arquivos curtos.

Para ativar essa funcionalidade, configure o parâmetro EnableStreaming=Yes no deploy CloudFormation:

aws cloudformation deploy \
  --stack-name batch-gpu-audio-transcription \
  --template-file ./deployment.yaml \
  --capabilities CAPABILITY_IAM \
  --parameter-overrides EnableStreaming=Yes \
  VPCId=your-vpc-id SubnetIds=your-subnet-ids SGIds=your-sg-ids RTIds=your-rt-ids

Testes, monitoramento e análise de desempenho

Para validar a escalabilidade, foram processados 1.000 arquivos de áudio idênticos de 50 minutos em 100 instâncias g6.xlarge, com 10 arquivos por instância. O monitoramento via Amazon CloudWatch coleta métricas detalhadas de GPU, CPU, memória e disco a cada 10 segundos, permitindo dashboards em tempo real.

Em benchmarks, o modelo atingiu velocidade de inferência de 0,24 segundos por minuto de áudio, com um pipeline completo processando 3 horas e 25 minutos de áudio em 100 segundos, ou 0,49 segundos por minuto de áudio efetivo.

Análise de custos e economia significativa

Com base em preços da região us-east-1, o custo estimado por minuto de áudio processado ficou em:

Instância On-Demand g6.xlarge: cerca de US$ 0,00011 por minuto
Instância Spot g6.xlarge: cerca de US$ 0,00005 por minuto

Essa abordagem self-hosted apresenta uma vantagem econômica clara para workloads de alto volume, oferecendo valor competitivo em relação a serviços gerenciados de API para transcrição.

Como limpar recursos e evitar custos futuros

Para evitar cobranças após os testes, siga estas etapas:

Esvazie todos os buckets S3 (entrada, saída e logs)
Delete a stack CloudFormation:

aws cloudformation delete-stack --stack-name batch-gpu-audio-transcription

Opcionalmente, remova o repositório ECR e as imagens do contêiner

Mais detalhes estão disponíveis na seção de limpeza do README do repositório.