S2Vec: Aprendendo a Linguagem das Cidades para Mapear o Mundo Moderno

Desvendando o desafio da análise geoespacial

Quando pensamos em inteligência artificial aplicada à geografia, a primeira associação costuma ser navegação ou trajetos entre pontos. Contudo, o ambiente construído — a complexa rede de ruas, edifícios, comércios e infraestrutura — contém muito mais informações do que simples coordenadas. Esses elementos revelam padrões socioeconômicos, ambientais e de desenvolvimento urbano que são fundamentais para compreender e planejar nossas cidades.

Tradicionalmente, traduzir esses dados geoespaciais para formatos que modelos de machine learning (ML) consigam interpretar exigia um trabalho manual e específico para cada problema, criando indicadores personalizados. Para superar essa limitação, pesquisadores do Google Research desenvolveram o S2Vec, parte da iniciativa Earth AI, que transforma dados planetários em inteligência acionável por meio de modelos de base e raciocínio avançado em IA.

Imagem relacionada ao artigo de Google Research — Imagem de apoio da materia original.

O que é o S2Vec e como ele funciona

O S2Vec é um framework auto-supervisionado que gera embeddings — representações numéricas compactas — do ambiente construído, permitindo que a IA compreenda bairros e regiões de forma similar a um humano. Ele reconhece padrões na distribuição de pontos como postos de gasolina, parques e residências para prever métricas relevantes, como densidade populacional e impacto ambiental.

Do mapa às imagens: rasterização do ambiente construído

Particionamento com S2 Geometry: Utilizando a biblioteca S2 Geometry, a superfície terrestre é dividida em uma hierarquia de células que permitem analisar regiões em diferentes escalas, desde países inteiros até poucos metros quadrados.
Rasterização das características: Diferente de tratar edifícios e ruas como listas de coordenadas, o S2Vec conta tipos de características dentro de cada célula S2 e as organiza em camadas, como se fossem cores em uma imagem geoespacial. Por exemplo, três cafeterias e um parque em uma célula viram “cores” nessa imagem digital.

Essa transformação possibilita que técnicas avançadas de visão computacional, já maduras para imagens naturais, sejam aplicadas para entender o ambiente urbano.

Aprendizado auto-supervisionado via autoencoder mascarado

Após criar as imagens rasterizadas, o S2Vec usa uma técnica robusta chamada masked autoencoding (MAE). Diferente do aprendizado tradicional que depende de etiquetas manuais, o MAE permite que o modelo aprenda sem rótulos, essencial para dados globais impossíveis de rotular integralmente.

O processo consiste em mostrar ao modelo uma parte da imagem do ambiente enquanto oculta (mascara) outras áreas. O modelo deve então reconstruir as partes ocultas baseando-se no contexto visível, aprendendo relações complexas entre os elementos urbanos. Por exemplo, se vê edifícios residenciais altos e uma estação de metrô, o modelo aprende que provavelmente há um mercado próximo à área mascarada.

Esse treino massivo global gera embeddings gerais que capturam as características únicas de cada localidade, criando uma base para diversas aplicações.

Resultados e avaliação do S2Vec

O desempenho do S2Vec foi comparado a outros modelos geoespaciais e de imagens, como SATCLIP, GEOCLIP, RS-MaMMUT, Hex2vec e GeoVeX, em tarefas de regressão para prever métricas socioeconômicas (densidade populacional, renda mediana nos EUA) e ambientais (emissões de carbono, cobertura vegetal, elevação).

Função de perda: O treinamento utilizou o erro quadrático médio (mean squared error - MSE).
Configurações de teste: Foram avaliados tanto cenários de interpolação (divisão aleatória treino/teste) quanto de extrapolação geográfica (zero-shot, em regiões não vistas).

Desempenho socioeconômico

O S2Vec destacou-se especialmente em tarefas de adaptação geográfica zero-shot, sendo o melhor modelo individual na previsão de renda mediana e densidade populacional em regiões inéditas.

Combinação multimodal

A fusão do S2Vec com embeddings baseados em imagens geralmente superou o uso isolado de qualquer modalidade, mostrando que a combinação de diferentes fontes de dados enriquece as previsões.

Limitações ambientais

Embora competitivo na previsão de fatores ambientais, o S2Vec apresentou limitações quando utilizou apenas dados do ambiente construído. Para tarefas como cobertura arbórea e elevação, a combinação com imagens de satélite foi necessária para capturar aspectos como vegetação e relevo ausentes na contagem de edifícios e ruas.

Por que essa pesquisa importa para o mundo real

O S2Vec representa um avanço importante rumo a uma inteligência geográfica fundamental, criando uma forma escalável e auto-supervisionada de representar o ambiente construído. Isso elimina a dependência de modelos específicos e manuais para cada problema, abrindo caminho para aplicações amplas.

Urbanistas podem usar os insights dos embeddings para entender melhor como mudanças na infraestrutura impactam a saúde dos bairros. Pesquisadores ambientais podem modelar com maior precisão a pegada de carbono de cidades em rápido crescimento. Ensinar a IA a "ler" a linguagem das ruas e edifícios gera um entendimento mais profundo e orientado a dados do mundo que construímos.

Esse trabalho se alinha à missão mais ampla do Earth AI de transformar informações planetárias em inteligência acionável, apoiado por modelos de base como o Population Dynamics Foundation Model (PDFM) e o RS-MaMMUT VLM, que juntos oferecem escala e precisão para mapear e gerenciar nosso impacto no planeta.

S2Vec: Aprendendo a Linguagem das Cidades para Mapear o Mundo Moderno

Desvendando o desafio da análise geoespacial

O que é o S2Vec e como ele funciona

Do mapa às imagens: rasterização do ambiente construído

Aprendizado auto-supervisionado via autoencoder mascarado

Resultados e avaliação do S2Vec

Desempenho socioeconômico

Combinação multimodal

Limitações ambientais

Por que essa pesquisa importa para o mundo real

Links úteis

Leia também

Hugging Face lança simulação econômica com cinco modelos de IA para entender mercados emergentes

Projeto Amazing Digital Dentures: os desafios de criar aventuras digitais com IA

Her: a detetive que analisa suas sessões de Claude Code com inteligência e segurança

Hugging Face lança Thousand Token Wood v2: drama financeiro multi-modelos para pequenos modelos de IA