Cientistas criam maior banco de dados em português para treinamento de IA

3 de dezembro de 2024

A inteligência artificial (IA) tem se tornado cada vez mais integrada ao nosso dia a dia, e um novo avanço promete acelerar ainda mais seu desenvolvimento. Um grupo de pesquisadores da Universidade de Bonn, na Alemanha, criou um banco de dados pioneiro desenvolvido inteiramente em português, com o objetivo de “treinar” modelos de linguagem para IA, como os usados em ferramentas como o ChatGPT.

Nomeado Gigaverbo, o banco de dados contém 145 milhões de documentos em português, totalizando 780 GB de informações, suficientes para gerar 200 bilhões de tokens, ou unidades de texto processadas por modelos de IA. Para testar o banco de dados, os pesquisadores treinaram seis modelos de linguagem, batizados de Tucano, utilizando o supercomputador Marvin da universidade.

Entre os pesquisadores envolvidos no projeto, está o brasileiro Nicholas Kluge, que atuou como pós-doutorando, junto a Aniket Sen, Shiza Fatimah e Sophia Falk. O trabalho, realizado ao longo de oito meses, foi concluído e publicado na plataforma ArXiv.org em outubro de 2024.

Desafios no Processo de Criação

Um dos maiores desafios enfrentados pelos cientistas foi a seleção e organização dos dados a serem utilizados. “Passamos muito tempo coletando textos e filtrando o que seria relevante para o banco de dados. Contamos com a ajuda da própria IA nessa etapa. Foi uma verdadeira aplicação de IA para criar mais IA”, explica Kluge.

Além disso, otimizar o tempo de treinamento foi uma prioridade. O processo pode durar mais de um ano, dependendo da complexidade do banco de dados. “Gastamos alguns meses refinando o código para garantir que o treinamento fosse rápido e eficiente”, acrescenta outro coautor do estudo.

Democratizando o Acesso à Tecnologia

Uma das grandes contribuições do Gigaverbo é preencher uma lacuna significativa na IA: a falta de um banco de dados vasto e acessível em português. Com esse recurso agora disponível gratuitamente, é possível criar novas tecnologias de IA que operem em português de forma nativa. “Nosso estudo contribui para democratizar o acesso a essa tecnologia. Nem todo mundo fala inglês, e essa tecnologia é extremamente útil”, comenta Kluge.

Além da barreira linguística, o modelo tem a vantagem de entender elementos culturais, como gírias brasileiras e contextos locais, o que muitas vezes é ignorado por modelos treinados com dados em inglês. “O modelo entende português de uma forma muito mais profunda, incluindo a cultura brasileira, o que é um diferencial”, acrescenta Kluge.

O Potencial do Código Aberto

Outro diferencial importante do estudo é seu caráter open source, ou código aberto. Isso significa que o banco de dados e os modelos de IA criados estão acessíveis a todos, permitindo que qualquer pessoa possa estudar, modificar e aplicar a tecnologia. Esse conceito de código aberto busca romper com a tendência de empresas que mantêm suas soluções fechadas, escondendo o processo de criação e dificultando o avanço da ciência.

“Plataformas como ChatGPT ou a IA da Meta são muito eficientes, mas ninguém sabe como foram treinadas ou que dados foram usados. Isso cria um monopólio tecnológico”, destaca Kluge. Para ele, a ideia de IA aberta não é apenas criar modelos acessíveis, mas permitir que esses modelos possam ser replicados por outros pesquisadores, algo essencial para o progresso científico. “O nosso trabalho é um exemplo de IA aberta. Todos os dados, os modelos e as avaliações estão disponíveis para quem quiser usar e aprimorar”, afirma o pesquisador.

Sustentabilidade na Pesquisa em IA

O treinamento de modelos de IA exige enormes quantidades de dados e recursos computacionais, o que implica em alto consumo de energia e uma grande emissão de CO2. Por isso, Kluge alerta para a importância de tornar as pesquisas mais acessíveis e transparentes. “Quando os modelos não são abertos, cada vez que outra empresa ou pesquisador tenta recriar a pesquisa, eles acabam consumindo mais energia e gerando mais emissões de carbono”, diz ele.

Kluge ainda observa que manter esses modelos fechados, sem compartilhar informações sobre como foram desenvolvidos, propaga uma prática insustentável, tanto do ponto de vista ambiental quanto científico. “É crucial que a pesquisa em IA seja aberta para evitar a duplicação de esforços e a proliferação de impactos negativos no meio ambiente”, conclui.

Com a criação do Gigaverbo, os pesquisadores não apenas avançam na IA para a língua portuguesa, mas também abrem um novo caminho para o uso mais sustentável e democrático dessa tecnologia.