Em colaboração com a Wikimedia Portugal, a unidade FCCN, da Fundação para a Ciência e a Tecnologia (FCT), lançou um projeto para preservação das referências online contidas nos artigos da Wikipedia Portuguesa. O objetivo está relacionado com a alteração das referências para ligações quebradas em artigos na Wikipedia de modo a que passem a referenciar, de forma perene, conteúdos preservados no Arquivo.pt, mantendo assim a informação referenciada sempre acessível aos utilizadores Wikipedia.
Um dos recursos online mais usados para fins de educação são os artigos da Wikipedia. Porém, os artigos da Wikipedia referenciam muitas vezes páginas externas com importante informação complementar que entretanto ficou indisponível nos seus websites de origem. Este problema degrada a qualidade da Wikipedia como fonte credível e verificável de informação.
Em agosto de 2023, a equipa do Arquivo.pt da FCCN realizou uma experiência para medir a percentagem de links externos (fora do domínio wikipedia.org) que estavam quebrados, em artigos da Wikipedia portuguesa. Os resultados obtidos mostraram que 25% dos links externos referenciados na Wikipedia portuguesa estavam quebrados.
Para além disso, acresce o problema de que uma ligação pode até referenciar um conteúdo ainda disponível, mas este poderá já não ser o que se pretendia referenciar originalmente no artigo da Wikipedia. Ou porque o domínio foi entretanto comprado por terceiros, ou por outros fins maliciosos. A este fenómeno dá-se o nome de Content Drift.
Para fazer face a estes problemas, o Arquivo.pt lançou um projeto em parceria com a Wikimedia Portugal com o objetivo de preservar as referências online presentes nos artigos da Wikipedia em português. A principal meta é substituir os links quebrados nos artigos da Wikipedia por links que direcionem para conteúdos preservados no Arquivo.pt, garantindo, assim, que as informações citadas continuem acessíveis aos leitores e utilizadores Wikipedia.
Preservação de páginas referenciadas na Wikipedia
A Wikipedia portuguesa contém cerca de 1 milhão de artigos e em média são editadas 140 páginas por dia.
O Arquivo.pt extraiu automaticamente 14 milhões de ligações a partir das referências em todos os artigos da Wikipedia portuguesa. Destas ligações, observou-se que apenas 620 referenciavam o Arquivo.pt e 744 553 o Internet Archive (5,3%). Note-se que o guia da Wikipedia para criar referências recomenda a publicação de citações para arquivos da web (parâmetro arquivourl/archive-url).
No dia 15 de fevereiro de 2023, o Arquivo.pt recolheu todas as páginas referenciadas em artigos da Wikipedia portuguesa, o que resultou numa nova coleção nomeada EAWP42: Collection of external links from wikipedia using the wikimedia dumps que contém 12 milhões de ficheiros (856 GB).
O principal resultado deste projeto foi a criação de um novo processo automático para extrair e recolher os links externos citados em páginas da Wikipedia portuguesa. Este processo passou a fazer parte da operação de recolhas do serviço da unidade FCCN, sendo realizada uma compilação anual das citações da Wikipedia.
Saiba mais sobre a colaboração do Arquivo.pt com a Wikimedia.