Conheça a opinião de António Branco, Professor da Faculdade de Ciência de Lisboa e Diretor Geral da PORTULAN CLARIN Infraestrutura de Investigação para a Ciência e Tecnologia da Linguagem, sobre o projeto Albertina PT-*.

Os avanços da Inteligência Artificial têm sido impressionantes, sobretudo na sua aplicação à Tecnologia da Língua. Este progresso é baseado na aprendizagem automática com os chamados Grandes Modelos de Linguagem, como o GPT-3 ou o ChatGPT, de que tanto se tem falado recentemente.

Estas redes são gigantescas — o GPT-3, por exemplo, tem 175 mil milhões de ligações entre neurónios. Captam regularidades linguísticas quando treinadas em processos computacionais massivos, sobre volumes colossais de dados linguísticos, texto ou áudio. No caso do GPT-3, foram usadas 500 mil milhões de palavras no treino.

Uma vez treinados, estes modelos podem ser usados em outras tarefas linguísticas com um nível inédito de qualidade, como por exemplo tradução, conversação, transcrição de fala e legendagem, geração de texto e fala, análise do conteúdo e extração de informação, etc. Quando integrados em sistemas mais vastos, estão a transformar os diagnósticos e cuidados de saúde, os serviços financeiros e jurídicos, os jogos e o entretenimento, o ensino, a criatividade e a cultura, etc.

Devido ao tamanho dos modelos, estas tarefas de processamento estão disponíveis remotamente como serviços online, como é o caso dos motores de busca, e não como os corretores ortográficos de instalação local nos nossos dispositivos. Devido à dimensão dos recursos para a aprendizagem, no imediato, esses serviços são disponibilizados pelo oligopólio das bigtechs, que se contam pelos dedos de uma mão, com capacidade de acesso aos colossais volumes de computação e dados necessários para o treino.

Em consequência, na era digital, a utilização da linguagem — com outros seres humanos, organizações, serviços ou dispositivos artificiais — não voltará a ser feita sem esta intermediação tecnológica pervasiva e profunda, que processa os atos de comunicação e acede ao seu significado.

Temos suficiente experiência com os motores de busca de informação, por exemplo, e com os seus pressupostos e impactos, para intuir as consequências desta intermediação tecnológica na utilização quotidiana da própria linguagem. Intermediação tecnológica, em geral, gera um rasto digital de dados pessoais fora do nosso controlo. Intermediação tecnológica incessante da linguagem e comunicação humanas, em particular, afunilada num pequeno oligopólio mundial, gera riscos alarmantes para as soberanias individuais e coletivas.

Impactos indesejáveis de tecnologias emergentes mitigam-se com mais e melhor tecnologia, não com menos. A dispersão do fornecimento destes serviços é crucial para debelar a ameaça que a sua concentração constitui. A resposta encontra-se assim na promoção de um ecossistema de inovação que, em alternativa, permita atempadamente banalizar o acesso aos recursos necessários para a apropriação e exploração da Tecnologia da Linguagem pelo maior número possível de indivíduos e organizações, privadas e públicas, pequenas e grandes, nacionais e internacionais.

A este respeito, a RNCA já está a desempenhar um papel da maior relevância, nomeadamente através do Concurso de Projetos de Computação Avançada: Inteligência Artificial em Cloud.

Coordeno um dos projetos financiados pela primeira edição deste concurso em que procuramos contribuir para a IA aberta e para a preparação tecnológica da língua portuguesa. Um dos resultados desse projeto, de que aqui dou notícia, é o Albertina PT-*. Trata-se de um modelo fundacional desenvolvido especificamente para a língua portuguesa, tanto para a variante europeia, falada em Portugal, como para a variante americana falada no Brasil.

Tanto quanto nos é dado a conhecer, com os seus 900 milhões de parâmetros e o seu nível de desempenho, constitui o atual estado da arte no que diz respeito a grandes modelos de linguagem fundacionais da classe encoder para esta língua que estão publicamente disponíveis em código aberto, gratuitamente e com licença sem restrições. Uma apresentação exaustiva das suas características e implementação encontra-se no artigo aceite para publicação nas atas da EPIA2023, a conferência anual da Associação Portuguesa para a Inteligência Artificial.

Este é apenas um primeiro passo em direção à democratização desta tecnologia, que é chave para o futuro, e na promoção da IA generativa aberta, para a qual a RNCA, estou certo, continuará a dar uma contribuição inestimável.

___

Comunicado sobre o Albertina PT-*

Outros artigos relacionados