Treinamento Descentralizado: Uma Solução Sustentável para o Alto Consumo Energético da IA

O Desafio Energético do Treinamento de Inteligência Artificial

A inteligência artificial (IA) tem uma demanda energética imensa, evidenciada pela pegada de carbono dos grandes data centers que suportam o avanço dessa tecnologia. O treinamento de modelos de ponta, especialmente os grandes modelos de linguagem, tem aumentado constantemente as emissões de carbono, o que preocupa grandes empresas de tecnologia. Algumas delas já vislumbram o uso de energia nuclear como fonte confiável e livre de carbono para alimentar seus centros de dados no futuro. Contudo, essa solução ainda está distante e, no momento, pesquisadores e a indústria buscam alternativas para conter o crescimento do consumo energético da IA.

Descentralização: O Método para Reduzir o Consumo Energético no Treinamento

Uma das fases mais intensivas em energia no ciclo de vida de um modelo de IA é o treinamento. Para enfrentar esse desafio, a descentralização tem ganhado destaque. Em vez de concentrar o treinamento em um único data center ou provedor, a descentralização distribui a tarefa entre uma rede de nós independentes. Isso permite que o processamento ocorra onde a energia já está disponível, seja em servidores ociosos em laboratórios de pesquisa ou computadores residenciais alimentados por energia solar.

Imagem relacionada ao artigo de IEEE Spectrum AI — Imagem de apoio da materia original.

Essa abordagem evita a construção de novos data centers, que demandariam ampliação das redes elétricas e maior consumo de energia. Assim, a descentralização aproveita fontes energéticas já existentes, reduzindo o impacto ambiental.

Sinergia entre Hardware e Software para Treinamento Descentralizado

O treinamento de modelos de IA tradicionalmente exige clusters de GPUs altamente conectadas, geralmente localizadas em grandes data centers. Porém, com o crescimento exponencial dos modelos, mesmo esses centros não são suficientes. Empresas como Nvidia e Cisco estão desenvolvendo tecnologias para interligar data centers geograficamente dispersos, como o Spectrum-XGS Ethernet e o roteador 8223, respectivamente, permitindo treinamento em escala distribuída.

Além disso, novos modelos de negócio surgem para aproveitar a capacidade ociosa de GPUs em servidores, como o Akash Network, que funciona como um “Airbnb para data centers”. Nesse sistema, donos de GPUs subutilizadas podem alugá-las para quem precisa de poder computacional.

Software: Federated Learning e Algoritmos para Treinamento Distribuído

Para viabilizar o treinamento descentralizado, é necessário adaptar algoritmos e softwares. O federated learning (aprendizado federado) é uma estratégia onde um modelo global é enviado para diferentes participantes que treinam localmente em seus dados e retornam apenas as atualizações do modelo, preservando a privacidade e reduzindo o volume de dados trafegados.

Entretanto, o envio constante dessas atualizações gera altos custos de comunicação e problemas de tolerância a falhas, pois a queda de um nó pode exigir a reinicialização do processo. Para superar isso, o Google DeepMind desenvolveu o DiLoCo, um algoritmo de otimização distribuída com baixa comunicação, que organiza os nós em “ilhas de computação” independentes, permitindo maior resiliência e menor necessidade de sincronização constante.

Uma evolução, o Streaming DiLoCo, reduz ainda mais a largura de banda ao sincronizar as atualizações gradualmente, sem interromper o processamento, semelhante a assistir a um vídeo antes de seu download completo.

Experimentos e Aplicações Reais

O algoritmo DiLoCo foi implementado em modelos reais, como o INTELLECT-1, com 10 bilhões de parâmetros, treinado em cinco países. A 0G Labs adaptou o DiLoCo para um modelo com 107 bilhões de parâmetros, demonstrando a escalabilidade da abordagem. O PyTorch também incorporou DiLoCo em seu repositório de técnicas de tolerância a falhas, facilitando o uso comunitário.

Benefícios e Limitações do Treinamento Descentralizado

Eficiência Energética: Ao utilizar recursos computacionais já existentes e próximos de fontes renováveis, a descentralização reduz o consumo energético e a necessidade de novos data centers.
Resiliência: Com a divisão em ilhas independentes, falhas em um nó não comprometem todo o processo de treinamento.
Redução de Custos: Aproveitamento de GPUs menores e ociosas, evitando investimentos pesados em hardware novo.
Complexidade: Os métodos descentralizados são mais complexos, exigindo algoritmos e infraestrutura específicos para lidar com comunicação e sincronização.

Iniciativas para Democratizar o Treinamento Descentralizado

O Akash Network, por exemplo, lançou o programa Starcluster, que visa transformar residências equipadas com painéis solares e GPUs domésticas em pequenos data centers. Para isso, é necessário que os participantes invistam em baterias para backup e conexões redundantes de internet. A iniciativa busca facilitar essa adesão com parcerias para subsidiar custos e prevê alcançar suas metas até 2027, expandindo para escolas e centros comunitários com energia solar.

Implicações para o Futuro da IA Sustentável

O treinamento descentralizado representa uma mudança significativa na forma como a IA pode ser desenvolvida, tornando-a mais sustentável e acessível. Ao deslocar o processamento para onde a energia renovável está disponível, em vez de levar a energia até os data centers, essa abordagem pode reduzir drasticamente a pegada de carbono da IA.