Wayback Machine sob ameaça: o futuro incerto do maior arquivo da internet

O Internet Archive, organização responsável pela Wayback Machine, a mais poderosa ferramenta de arquivamento da internet, enfrenta um momento crítico. Grandes veículos de comunicação, preocupados com o uso de seus conteúdos por empresas de inteligência artificial, têm bloqueado o acesso do crawler ia_archiverbot, responsável por coletar e preservar páginas web para o acervo.
O que é a Wayback Machine e sua importância
Lançada há 30 anos, a Wayback Machine já arquivou mais de um trilhão de páginas, funcionando como uma biblioteca digital que registra versões antigas de sites e notícias. Essa ferramenta é essencial para jornalistas, pesquisadores, advogados e o público em geral, permitindo o acesso a informações históricas que poderiam desaparecer com o tempo.

Um exemplo recente do uso da Wayback Machine foi a reportagem do USA Today que analisou estatísticas de detenção do ICE (Immigration and Customs Enforcement dos EUA), revelando atrasos em divulgações oficiais. A pesquisa foi possível graças à preservação de dados pelo arquivo digital, mostrando a relevância prática da ferramenta para o jornalismo investigativo e o interesse público.
Quem está bloqueando o acesso e por quê?
Entre os principais veículos que restringiram o acesso do crawler estão o The New York Times, o conglomerado USA Today Co. (antigo Gannett) e a plataforma Reddit. Segundo análises da startup Originality AI, 23 grandes sites de notícias já bloqueiam o ia_archiverbot. Outros, como The Guardian, adotam medidas intermediárias, filtrando conteúdos para dificultar o acesso público via API da Internet Archive.
As justificativas giram em torno do receio de que conteúdos arquivados sejam utilizados por empresas de inteligência artificial para treinar modelos sem autorização, infringindo direitos autorais. O New York Times afirma que seu material está sendo usado por IA para competir ilegalmente, embora não tenha confirmado casos concretos.
Impactos práticos para usuários e jornalistas
O bloqueio do acesso ameaça a missão do Internet Archive de preservar a história digital. Jornalistas, como Rachel Maddow, Kat Tenbarge e Taylor Lorenz, têm se manifestado em apoio à Wayback Machine, ressaltando sua importância para pesquisas, checagem de fatos e até organização sindical. Por exemplo, o acesso a antigos anúncios de emprego tem sido útil para monitorar mudanças nas descrições de cargos e salários.
Além disso, a ferramenta é fundamental para o jornalismo de prestação de contas. Em 2016, a Wayback Machine permitiu rastrear alterações editoriais controversas no New York Times sobre uma matéria do então candidato Bernie Sanders. Sem essa ferramenta, acompanhar versões anteriores de notícias se tornaria muito mais difícil.
Disponibilidade e acesso à Wayback Machine
A Wayback Machine continua disponível gratuitamente ao público em geral no site archive.org/web/. Qualquer pessoa pode consultar versões antigas de páginas da web usando a interface simples do serviço. No entanto, com o aumento das restrições por parte de grandes produtores de conteúdo, o acervo pode perder parte de sua abrangência e relevância.
Esforços para salvar o arquivo digital
Organizações de defesa digital como a Electronic Frontier Foundation e Fight for the Future estão mobilizando jornalistas e o público em geral para apoiar a preservação da Wayback Machine. Mais de 100 profissionais da mídia assinaram uma carta em defesa do Internet Archive, destacando que, com o fechamento de jornais e bibliotecas locais, a responsabilidade de manter o registro histórico da internet recai cada vez mais sobre essa iniciativa.
Mark Graham, diretor da Wayback Machine, afirma que está em diálogo com os veículos para tentar reverter os bloqueios, mas alerta que a crescente restrição dificulta a compreensão pública dos acontecimentos atuais e históricos.