Voltar para o blog
Machine Learning

AWS reduz tempo de inicialização de containers Deep Learning com índice SOCI em DLAMI e DLC

3 de junho de 2026
14:19
containersmachine learningAWSCloud ComputingDeep Learning AMIDeep Learning ContainersSOCIAWS DLAMIOtimização de Containers
AWS reduz tempo de inicialização de containers Deep Learning com índice SOCI em DLAMI e DLC

A Amazon Web Services (AWS) anunciou suporte ao SOCI snapshotter e índice nas suas imagens Deep Learning AMIs (DLAMI) e Deep Learning Containers (DLC). Essa novidade traz uma redução significativa nos tempos de cold start de containers, um desafio crítico para workloads de inteligência artificial (IA) e machine learning (ML) em escala.

O que é SOCI e como melhora a inicialização de containers

Seekable OCI (SOCI) é uma tecnologia que permite o gerenciamento eficiente de imagens de containers por meio do download seletivo de arquivos. Utilizando um sistema de indexação baseado em camadas, o SOCI mapeia a localização dos arquivos dentro da imagem, possibilitando que o container inicie apenas com os arquivos essenciais carregados — um processo conhecido como lazy loading.

Essa abordagem reduz o uso de banda de rede e acelera o tempo de inicialização dos containers, especialmente útil para organizações que lidam com imagens de containers grandes em ambientes cloud.

Desafios que o SOCI ajuda a superar

  • Tempos prolongados de cold start: imagens Docker padrão de 15 a 20 GB podem levar de 4 a 6 minutos para serem puxadas por instância, atrasando jobs de treinamento e endpoints de inferência.
  • Recursos computacionais ociosos: instâncias GPU ficam paradas durante o download da imagem, desperdiçando horas de computação caras.
  • Bottlenecks na escalabilidade: picos de demanda que acionam escalonamento automático sofrem com a lentidão na inicialização dos containers, prejudicando a performance.
  • Limitações de banda: downloads simultâneos de imagens pesadas saturam a rede, causando atrasos em cascata.
  • Produtividade dos desenvolvedores: cientistas de dados e engenheiros ML perdem tempo esperando a inicialização em ciclos iterativos de experimentação.

Modos de pull disponíveis: Docker padrão, SOCI paralelo e SOCI lazy loading

Ao puxar uma imagem para seus workloads, DLAMI e DLC oferecem três opções de pull:

  1. Docker padrão: download sequencial e lento da imagem completa.
  2. SOCI parallel pull: download mais rápido via chunks paralelos, consumindo mais recursos computacionais.
  3. SOCI lazy loading: inicia o container quase instantaneamente puxando apenas os arquivos necessários, com o restante sendo carregado sob demanda.

A escolha entre lazy loading e parallel pull depende do perfil da imagem, especificações da instância e desempenho do armazenamento. Instâncias com menor capacidade se beneficiam do lazy loading para economizar recursos, enquanto instâncias mais potentes tiram proveito do parallel pull para acelerar o download completo da imagem.

Exemplos práticos de redução de tempo

Lazy loading com SOCI

Usando a imagem vLLM Deep Learning Container com índice SOCI, o tempo de inicialização caiu de 6 minutos e 59 segundos (pull Docker padrão) para apenas 21 segundos com lazy loading. Isso ocorre porque o snapshotter SOCI baixa somente os arquivos essenciais para iniciar o container, carregando o restante conforme a necessidade.

Parallel pull com SOCI

Em um cenário com uma imagem privada de 19,32 GB, o tempo de pull foi reduzido de 4 minutos e 44 segundos (Docker padrão) para 2 minutos e 12 segundos usando o modo paralelo do SOCI — uma melhora de 2,2 vezes no desempenho.

Como habilitar e configurar o SOCI

O SOCI snapshotter está disponível publicamente para DLAMI e Deep Learning Containers. Para ativar o modo paralelo, é necessário editar o arquivo de configuração /etc/soci-snapshotter-grpc/config.toml e reiniciar o serviço:

# Habilitar modo parallel pull
[pull_modes.parallel_pull_unpack]
enable = true
max_concurrent_downloads_per_image = 20
max_concurrent_unpacks_per_image = 10

Após a alteração, execute:

sudo systemctl restart soci-snapshotter.service

Para validar se o modo paralelo está ativo, monitore os logs do snapshotter:

journalctl -u soci-snapshotter -f

Procure por mensagens indicando parallel pull/unpack.

Requisitos para usar o modo lazy loading

  • A imagem deve possuir um índice SOCI armazenado no registro. Sem ele, o sistema reverte para o pull padrão.
  • As imagens AWS Deep Learning Containers com o sufixo -soci já vêm com índice SOCI pré-criado e disponível para uso imediato.
  • Para imagens customizadas, é necessário criar e enviar o índice SOCI manualmente.

Impactos práticos para usuários AWS

Com SOCI, organizações que rodam workloads de IA/ML na AWS podem:

  • Reduzir drasticamente o tempo de inicialização dos containers, aumentando a agilidade em treinamentos e inferências.
  • Economizar recursos computacionais valiosos, evitando ociosidade prolongada de GPUs.
  • Melhorar a escalabilidade automática ao responder mais rapidamente a picos de demanda.
  • Minimizar o consumo de banda em grandes ambientes cloud.
  • Aumentar a produtividade de cientistas de dados e engenheiros ML.

Disponibilidade e acesso

Deep Learning AMIs e Deep Learning Containers com suporte a SOCI estão disponíveis publicamente hoje na AWS. Para começar a usar, consulte:

Links úteis