A Meta anunciou oficialmente a revolucionรกria sรฉrie Llama 4, trazendo ao mercado modelos de IA nativamente multimodais, com capacidades avanรงadas para processar texto, imagens e vรญdeos. Segundo o Tomโs Guide, esta nova geraรงรฃo de modelos promete um salto significativo na tecnologia de inteligรชncia artificial, com capacidades de raciocรญnio aprimoradas e a habilidade de agentes de IA utilizarem navegadores e outras ferramentas digitais.
Arquitetura Inovadora: IA Nativamente Multimodal
A sรฉrie Llama 4 se destaca por uma arquitetura inovadora que integra de forma nativa os tokens de texto e visรฃo em um modelo unificado. Essa abordagem, chamada de fusรฃo antecipada (early fusion), permite o prรฉ-treinamento com conjuntos de dados variados, incluindo textos, imagens e vรญdeos.
Os modelos utilizam um design Mixture-of-Experts (MoE), no qual apenas uma fraรงรฃo dos parรขmetros totais รฉ ativada para cada entrada. Isso melhora consideravelmente a eficiรชncia computacional tanto no treinamento quanto na inferรชncia. Essa arquitetura permite ao Llama 4 entender mรบltiplas modalidades simultaneamente, abrindo espaรงo para aplicaรงรตes de IA mais sofisticadas em diversas รกreas.
Especificaรงรตes dos Modelos Llama 4
A sรฉrie Llama 4 inclui trรชs modelos distintos, desenvolvidos para diferentes finalidades:
-
Llama 4 Scout: modelo compacto com 17 bilhรตes de parรขmetros ativos e 16 especialistas, apresenta uma impressionante janela de contexto de 10 milhรตes de tokens, ideal para tarefas que exigem anรกlise contextual extensa.
-
Llama 4 Maverick: tambรฉm com 17 bilhรตes de parรขmetros ativos, mas com 128 especialistas, รฉ voltado para tarefas gerais de assistente e compreensรฃo precisa de imagens.
-
Llama 4 Behemoth: modelo em prรฉvia, รฉ um โmodelo professorโ massivo, com 288 bilhรตes de parรขmetros ativos e quase 2 trilhรตes de parรขmetros totais, superando modelos de ponta como GPT-4.5 e Claude Sonnet 3.7 em benchmarks de รกreas STEM (ciรชncia, tecnologia, engenharia e matemรกtica).
Inovaรงรตes no Treinamento e Desempenho
O processo de treinamento do Llama 4 contou com tรฉcnicas inovadoras, como o MetaP, para otimizaรงรฃo de hiperparรขmetros em diferentes configuraรงรตes. Os modelos foram treinados com um impressionante volume de 30 trilhรตes de tokens โ o dobro do conjunto de dados utilizado no Llama 3.
Alรฉm disso, foram empregadas estratรฉgias avanรงadas como:
-
Fine-tuning supervisionado leve,
-
Aprendizado por reforรงo online,
-
Otimizaรงรฃo direta por preferรชncia.
Nos testes de desempenho (benchmarks), os modelos Llama 4 Scout e Maverick superaram concorrentes como o GPT-4o e o Gemini 2.0 Pro em tarefas de programaรงรฃo, raciocรญnio, multilinguismo e processamento de imagens, oferecendo melhores resultados com menor custo, mesmo sendo modelos menores.
Acessibilidade e Cรณdigo Aberto
Fiel ao seu compromisso com o cรณdigo aberto, a Meta disponibilizou os modelos Llama 4 para download gratuito em plataformas como o Hugging Face e llama.com. Esses modelos tambรฉm estรฃo integrados ao ecossistema da empresa, incluindo aplicativos populares como WhatsApp, Messenger e Instagram Direct.
Essa abordagem de cรณdigo aberto garante que desenvolvedores de todo o mundo possam acessar e utilizar os modelos Llama 4 com facilidade, estimulando a inovaรงรฃo e permitindo a criaรงรฃo de experiรชncias personalizadas com inteligรชncia artificial em diversas รกreas.
Vocรช precisa fazer login para comentar.