Em 2021, quase toda a informação é produzida, disseminada e consumida em formato digital. Esta é a informação que rege todos os segundos das nossas sociedades. Porém, quando observamos as diversas iniciativas de preservação digital existentes, estas focam-se na digitalização de espólio que não nasceu em formato digital, por exemplo, digitalizando livros impressos. A maioria da informação digital publicada online perde-se.
Os acontecimentos recentes vieram reforçar esta tendência. Cerca de um ano e meio após o início da pandemia Covid-19, verificamos como este acontecimento originou uma quantidade imensa de informação (e desinformação) que foi produzida, replicada, adulterada, disseminada, e que, quer concordemos ou não, influenciou a tomada de medidas sociais, políticas e económicas.
Note-se que muitas das grandes torrentes de informação que actualmente influenciam os processos de tomada de decisão política em democracia são informais, sendo veiculadas por canais online tais como as redes sociais. Esta informação tão rapidamente aparece e influencia, como desaparece e fica inacessível (excepto para as empresas multinacionais detentoras das plataformas que têm consciência do valor da preservação desta informação). Sem a memória das primeiras informações (e desinformações) online que proliferaram acerca do SARS-CoV-2, que lições poderão os governos e os cidadãos tirar? Que história será possível escrever acerca de outros eventos contemporâneos sem a memória do online?
Existe informação digital oficial que é cuidadosamente preservada. São exemplos as publicações do Diário da República Eletrónico ou os Objetos Digitais Autênticos preservados no RODA da Direção-Geral do Livro, dos Arquivos e das Bibliotecas. Porém, estas comunicações oficiais documentam o efeito de eventos e dificilmente serão suficientes, por si só, para analisar as causas de um fenómeno, tirando lições para reagir melhor face a situações análogas no futuro.
Arquivos online vs. arquivos do online
O que se entende por um “arquivo online”? Exemplos como os anteriores são excelentes “arquivos online” que poderão continuar a evoluir através da convencional adaptação de legislação e tecnologia. Afinal, é incontestável a importância de preservar os Decretos de Lei de uma República. A minha preocupação está sobretudo relacionada com os “arquivos do online”, uma vez que nem existe ainda uma consciência instituída acerca da sua necessidade, seja a nível académico, governamental ou individual.
Que “Informação é poder” é uma verdade aceite. As organizações modernas comunicam estrategicamente, partilhando informação através dos seus canais online como websites ou redes sociais. Mas quantas organizações têm consciência do valor de preservar a sua informação online? Quantas têm consciência do risco de perder essa informação? Quantos professores das variadas áreas científicas alertam os seus alunos para a importância de preservar a informação online ou para os impactos de perdê-la? Se informação é poder, então perder informação é perder poder.
É tecnologicamente impossível preservar toda a informação online. Mas é absurdo não estar consciente de que temos de preservar alguma da informação online para acesso a curto, médio e longo prazo (e consequentemente agir nesse sentido). Depois da chegada da Era da Informação, que resolveu o problema do acesso à informação, os arquivos têm de contribuir para combater a atual Era da Desinformação. O papel dos arquivos do online é fundamental nesta luta porque a análise de uma informação a partir de várias fontes ao longo do tempo contribui para identificar incoerências ou atribuir credibilidade. Quanto maior for o volume de informação, mais possibilidades existem de aferir a veracidade de uma informação.
A vantagem dos arquivos do online é que a informação, uma vez que nasce digital e está rapidamente disponível, pode ser processada de forma automática e de múltiplas formas. Mas é necessária a criação de um novo tipo de instituições para realizarem o arquivo do online porque se trata de uma tarefa com desafios muito específicos que requerem especialistas e recursos adequados.
O custo de não preservar a informação digital nascida online será dantesco para as gerações futuras porque lhes será impossível aprender com os erros do passado. Nesse sentido, o principal desafio dos arquivos do online é conseguirem fazer sentir ao mundo que são necessários hoje.
Arquivo do online: difícil mas não impossível
Tecnicamente, a maior parte dos conteúdos que consumimos online são servidos via protocolo HTTP (ou HTTPS), ou seja, são conteúdos da Web. Porém, cerca de 80% dos conteúdos disponíveis na Web são alterados ou desaparecem passado apenas um ano.
O Internet Archive é uma organização norte-americana sem fins lucrativos que arquiva conteúdos da web à escala mundial. Porém, é difícil para uma única organização fazer um arquivo exaustivo de todos os conteúdos publicados porque a Web está em permanente mutação e muita informação desaparece antes de poder ser arquivada.
Além disso, a documentação de acontecimentos históricos de relevância nacional para um determinado país não é prioritária para o Internet Archive e grande parte da informação publicada, por exemplo, na web portuguesa perde-se irremediavelmente. Este problema é sentido igualmente por outras comunidades nacionais pelo que já existem pelo menos 93 iniciativas de arquivo da web espalhadas pelo mundo.
Em Portugal, o Arquivo.pt é um exemplo de um arquivo do online que permite pesquisar e aceder a páginas da web arquivadas desde 1996. Este é um serviço público gerido pela Fundação para a Ciência e a Tecnologia que está acessível a qualquer cidadão. O Arquivo.pt destaca-se por disponibilizar um serviço de pesquisa sobre páginas e imagens do passado. Uma espécie de Google, mas para o passado da Web.
O sistema que suporta o Arquivo.pt periodicamente recolhe e armazena informação publicada na Web. Depois processa esta informação para torná-la pesquisável e acessível. Este processo de preservação é realizado de forma automática através de um sistema informático distribuído de larga-escala. O serviço de pesquisa e acesso pode ser utilizado de forma automática através de Interfaces de Programação de Aplicações (API) para desenvolver aplicações inovadoras que tirem partido da informação arquivada.
O Arquivo.pt fornece um serviço de preservação gratuito aos autores da web e ao mesmo tempo um recurso valioso de investigação que já foi utilizado por investigadores, por exemplo, para medir de forma automática a acessibilidade da web portuguesa para pessoas com deficiência. O Prémio Arquivo.pt galardoa anualmente trabalhos que utilizem a informação preservada pelo Arquivo.pt. Os dez trabalhos premiados até hoje são exemplos reais de que o potencial social e científico dos arquivos do online é imenso e ainda agora começou a ser explorado.
O Arquivo.pt detém mais de 10 000 milhões de ficheiros arquivados (700 TB). Porém, o maior desafio não é o espaço em disco para armazenar esta informação. O desafio é manter esta informação pesquisável e acessível em tempo útil, o que significa, nos nossos dias, fornecer respostas aos utilizadores em poucos segundos e adequadas a qualquer dispositivo. O segundo desafio é recrutar e formar recursos humanos especializados. Como arquivar o online ainda não é ensinado nas universidades e por isso é necessário um esforço permanente de formação dos novos elementos da equipa.
O terceiro, e mais inesperado desafio para mim, é a dificuldade na disseminação da existência do serviço. Espero ter conseguido argumentar até agora que os arquivos do online são necessários. O Arquivo.pt está disponível publicamente desde 2010. Há quanto tempo o conhece? Vivemos numa economia da atenção. A atenção dos seres humanos tornou-se um bem escasso, pelo qual as mais poderosas empresas do mundo competem ferozmente entre si utilizando recursos quase ilimitados e estratégias eticamente discutíveis. No mundo online, que é a casa do Arquivo.pt, será este o grande desafio a curto-prazo: conseguir captar a atenção para que este serviço público possa ser útil a mais pessoas.