Microsoft aposta em superinteligência focada em negócios com novo modelo de transcrição de áudio

Microsoft reforça estratégia de superinteligência com foco empresarial
Mustafa Suleyman, primeiro CEO de IA da Microsoft, tem concentrado seus esforços no desenvolvimento de uma superinteligência alinhada às necessidades de negócios e produtividade. Após uma reestruturação da empresa em março de 2026, Suleyman transferiu algumas responsabilidades para se dedicar integralmente a essa meta, que ele já planejava há cerca de nove meses.
O que é superinteligência para a Microsoft?
Diferentemente das definições vagas e mutáveis de superinteligência e AGI (inteligência geral artificial) no mercado de IA, Suleyman define o conceito estritamente pelo valor que esses modelos podem entregar para empresas e desenvolvedores. "Superinteligência é realmente sobre: esses modelos são capazes de gerar valor para milhões de empresas que dependem de nós para oferecer modelos de linguagem de classe mundial?" afirmou.

Nova estrutura organizacional e liderança
Com a reestruturação, as equipes voltadas para consumidores e empresas foram unificadas sob a marca Copilot AI. Jacob Andreou, ex-vice-presidente corporativo de produto e crescimento da Microsoft AI, assumiu como vice-presidente executivo, liderando engenharia, crescimento, produto e design das equipes combinadas. Isso liberou Suleyman para se concentrar na superinteligência e no desenvolvimento de modelos de IA de ponta, em um momento de intensa competição no setor.
MAI-Transcribe-1: o novo modelo de transcrição da Microsoft
Em 31 de março, a Microsoft lançou o MAI-Transcribe-1, seu mais recente modelo de transcrição de áudio, projetado para avançar o reconhecimento de voz. O modelo suporta 25 idiomas e é capaz de transcrever reuniões, legendar vídeos e analisar chamadas de centrais de atendimento, mesmo em condições desafiadoras como ruídos de fundo, áudio de baixa qualidade e fala sobreposta.
Segundo Suleyman, o modelo é "metade do custo de GPU dos outros modelos de última geração", representando uma economia significativa para a Microsoft. O treinamento foi realizado com uma combinação de transcrições humanas e automáticas, utilizando gravações feitas em estúdios controlados e em ambientes reais com ruído, incluindo sons de ruas movimentadas e crianças brincando, além de grande volume de dados da internet.
Disponibilidade e integração com outros modelos
MAI-Transcribe-1 está disponível na plataforma Microsoft Foundry e no Microsoft AI Playground, sendo a primeira vez que esses modelos são amplamente liberados para uso comercial. Ele suporta arquivos de áudio nos formatos MP3, WAV e FLAC.
O modelo junta-se aos já lançados MAI-Voice-1 (geração de voz) e MAI-Image-2 (geração de imagens), ampliando o portfólio de IA da Microsoft com ferramentas que atendem tanto desenvolvedores quanto consumidores e empresas.
Equipe enxuta e autonomia para inovação
Suleyman destaca que o desempenho do novo modelo é resultado do trabalho de uma equipe pequena e focada, composta por cerca de 10 pessoas. Essa equipe é "liberada da burocracia", contando com suporte de times auxiliares responsáveis por gerenciar fornecedores e obter dados para treinamento. Essa estrutura ágil é semelhante à adotada por outras gigantes de tecnologia, como Meta, Amazon e Google, que também experimentam modelos organizacionais mais planos para acelerar a inovação.
Visão para o futuro: IA centrada no usuário
O CEO de IA da Microsoft reforça a visão de uma inteligência artificial "human-centered" (centrada no ser humano), ou "humanist superintelligence", que seja útil para o dia a dia das pessoas. "Todos terão um assistente de IA no bolso que será verdadeiramente de classe mundial, responsável, alinhado aos seus interesses e trabalhando a seu favor", afirmou Suleyman.