Microsoft amplia portfólio de IA com novos modelos de voz e imagem

Novos modelos de IA da Microsoft ultrapassam limites dos LLMs
Em 1º de abril de 2026, a Microsoft anunciou o lançamento de três novos modelos de inteligência artificial desenvolvidos internamente, que vão além dos tradicionais grandes modelos de linguagem (LLMs). Sob a divisão Microsoft AI (MAI), foram apresentados o MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2, que abrangem capacidades multimodais de transcrição de voz, geração de áudio e criação de imagens.
Detalhes dos modelos e aplicações práticas
- MAI-Transcribe-1: modelo dedicado à transcrição de áudio para texto, suportando 25 idiomas e com velocidade até 2,5 vezes maior que o modelo Azure Fast existente. É indicado para legendagem de vídeos, transcrição de reuniões e assistentes de voz.
- MAI-Voice-1: foca em geração de voz de alta qualidade, capaz de produzir até um minuto de áudio em apenas um segundo. Destaca-se pela naturalidade, emoção e personalidade do locutor, ampliando as possibilidades para assistentes virtuais e conteúdos audiovisuais.
- MAI-Image-2: segunda geração do modelo de imagem da Microsoft, com pelo menos o dobro da velocidade do antecessor e maior realismo em detalhes como tom de pele, iluminação e texturas. Já está sendo integrado a produtos Microsoft como Bing e PowerPoint, com foco nas indústrias criativas. Um dos primeiros clientes é a agência de marketing WPP, que qualificou o modelo como um divisor de águas para a criação de imagens para campanhas.
Disponibilidade e acesso
Os três modelos estão disponíveis para uso na plataforma Microsoft Foundry e no ambiente de testes MAI Playground, permitindo que desenvolvedores e empresas experimentem e integrem as novas capacidades em suas soluções. A Microsoft não divulgou detalhes públicos sobre preços, sugerindo que o acesso inicial será direcionado a parceiros e clientes corporativos.

Impacto estratégico e visão da Microsoft
Esses lançamentos sinalizam uma mudança estratégica da Microsoft para fortalecer seu portfólio próprio de IA, reduzindo a dependência de parceiros externos como OpenAI. A empresa busca competir de forma mais robusta com rivais como Google e Amazon, que também investem em pilhas proprietárias de inteligência artificial.

Segundo a Microsoft, o foco dos novos modelos é uma IA mais humanista, que coloca o ser humano no centro das soluções, otimizando a comunicação prática e cotidiana. A empresa destaca o compromisso com aplicações que respeitam a complexidade e nuances da comunicação humana, refletindo no desenvolvimento de tecnologias com aplicação direta em setores como marketing, comunicação, automação e criação de conteúdo.