A inteligência artificial (IA) tem se tornado cada vez mais integrada ao nosso dia a dia, e um novo avanço promete acelerar ainda mais seu desenvolvimento. Um grupo de pesquisadores da Universidade de Bonn, na Alemanha, criou um banco de dados pioneiro desenvolvido inteiramente em português, com o objetivo de “treinar” modelos de linguagem para IA, como os usados em ferramentas como o ChatGPT.
Nomeado Gigaverbo, o banco de dados contém 145 milhões de documentos em português, totalizando 780 GB de informações, suficientes para gerar 200 bilhões de tokens, ou unidades de texto processadas por modelos de IA. Para testar o banco de dados, os pesquisadores treinaram seis modelos de linguagem, batizados de Tucano, utilizando o supercomputador Marvin da universidade.
Entre os pesquisadores envolvidos no projeto, está o brasileiro Nicholas Kluge, que atuou como pós-doutorando, junto a Aniket Sen, Shiza Fatimah e Sophia Falk. O trabalho, realizado ao longo de oito meses, foi concluído e publicado na plataforma ArXiv.org em outubro de 2024.
Além disso, otimizar o tempo de treinamento foi uma prioridade. O processo pode durar mais de um ano, dependendo da complexidade do banco de dados. “Gastamos alguns meses refinando o código para garantir que o treinamento fosse rápido e eficiente”, acrescenta outro coautor do estudo.
Uma das grandes contribuições do Gigaverbo é preencher uma lacuna significativa na IA: a falta de um banco de dados vasto e acessível em português. Com esse recurso agora disponível gratuitamente, é possível criar novas tecnologias de IA que operem em português de forma nativa. “Nosso estudo contribui para democratizar o acesso a essa tecnologia. Nem todo mundo fala inglês, e essa tecnologia é extremamente útil”, comenta Kluge.
Além da barreira linguística, o modelo tem a vantagem de entender elementos culturais, como gírias brasileiras e contextos locais, o que muitas vezes é ignorado por modelos treinados com dados em inglês. “O modelo entende português de uma forma muito mais profunda, incluindo a cultura brasileira, o que é um diferencial”, acrescenta Kluge.
Outro diferencial importante do estudo é seu caráter open source, ou código aberto. Isso significa que o banco de dados e os modelos de IA criados estão acessíveis a todos, permitindo que qualquer pessoa possa estudar, modificar e aplicar a tecnologia. Esse conceito de código aberto busca romper com a tendência de empresas que mantêm suas soluções fechadas, escondendo o processo de criação e dificultando o avanço da ciência.
“Plataformas como ChatGPT ou a IA da Meta são muito eficientes, mas ninguém sabe como foram treinadas ou que dados foram usados. Isso cria um monopólio tecnológico”, destaca Kluge. Para ele, a ideia de IA aberta não é apenas criar modelos acessíveis, mas permitir que esses modelos possam ser replicados por outros pesquisadores, algo essencial para o progresso científico. “O nosso trabalho é um exemplo de IA aberta. Todos os dados, os modelos e as avaliações estão disponíveis para quem quiser usar e aprimorar”, afirma o pesquisador.
O treinamento de modelos de IA exige enormes quantidades de dados e recursos computacionais, o que implica em alto consumo de energia e uma grande emissão de CO2. Por isso, Kluge alerta para a importância de tornar as pesquisas mais acessíveis e transparentes. “Quando os modelos não são abertos, cada vez que outra empresa ou pesquisador tenta recriar a pesquisa, eles acabam consumindo mais energia e gerando mais emissões de carbono”, diz ele.
Kluge ainda observa que manter esses modelos fechados, sem compartilhar informações sobre como foram desenvolvidos, propaga uma prática insustentável, tanto do ponto de vista ambiental quanto científico. “É crucial que a pesquisa em IA seja aberta para evitar a duplicação de esforços e a proliferação de impactos negativos no meio ambiente”, conclui.
Com a criação do Gigaverbo, os pesquisadores não apenas avançam na IA para a língua portuguesa, mas também abrem um novo caminho para o uso mais sustentável e democrático dessa tecnologia.
Em um avanço revolucionário, cientistas da IBM e da Cleveland Clinic utilizaram um computador quântico…
Quando as pessoas pensam em comércio de vida selvagem, elas frequentemente imaginam contrabandistas trazendo espécies raras…
Em um avanço científico sem precedentes, pesquisadores da Universidade de Sun Yat-sen realizaram com sucesso…
O lírio da paz é uma planta elegante e fácil de cuidar, mas para mantê-lo…
A lixeira da cozinha pode se tornar uma grande fonte de odores desagradáveis se não…
Algo estava acontecendo com os pássaros em Tiputini. O centro de pesquisa de biodiversidade, enterrado…
This website uses cookies.