A Meta anunciou oficialmente a revolucionária série Llama 4, trazendo ao mercado modelos de IA nativamente multimodais, com capacidades avançadas para processar texto, imagens e vídeos. Segundo o Tom’s Guide, esta nova geração de modelos promete um salto significativo na tecnologia de inteligência artificial, com capacidades de raciocínio aprimoradas e a habilidade de agentes de IA utilizarem navegadores e outras ferramentas digitais.
A série Llama 4 se destaca por uma arquitetura inovadora que integra de forma nativa os tokens de texto e visão em um modelo unificado. Essa abordagem, chamada de fusão antecipada (early fusion), permite o pré-treinamento com conjuntos de dados variados, incluindo textos, imagens e vídeos.
Os modelos utilizam um design Mixture-of-Experts (MoE), no qual apenas uma fração dos parâmetros totais é ativada para cada entrada. Isso melhora consideravelmente a eficiência computacional tanto no treinamento quanto na inferência. Essa arquitetura permite ao Llama 4 entender múltiplas modalidades simultaneamente, abrindo espaço para aplicações de IA mais sofisticadas em diversas áreas.
A série Llama 4 inclui três modelos distintos, desenvolvidos para diferentes finalidades:
Llama 4 Scout: modelo compacto com 17 bilhões de parâmetros ativos e 16 especialistas, apresenta uma impressionante janela de contexto de 10 milhões de tokens, ideal para tarefas que exigem análise contextual extensa.
Llama 4 Maverick: também com 17 bilhões de parâmetros ativos, mas com 128 especialistas, é voltado para tarefas gerais de assistente e compreensão precisa de imagens.
Llama 4 Behemoth: modelo em prévia, é um “modelo professor” massivo, com 288 bilhões de parâmetros ativos e quase 2 trilhões de parâmetros totais, superando modelos de ponta como GPT-4.5 e Claude Sonnet 3.7 em benchmarks de áreas STEM (ciência, tecnologia, engenharia e matemática).
O processo de treinamento do Llama 4 contou com técnicas inovadoras, como o MetaP, para otimização de hiperparâmetros em diferentes configurações. Os modelos foram treinados com um impressionante volume de 30 trilhões de tokens — o dobro do conjunto de dados utilizado no Llama 3.
Além disso, foram empregadas estratégias avançadas como:
Fine-tuning supervisionado leve,
Aprendizado por reforço online,
Otimização direta por preferência.
Nos testes de desempenho (benchmarks), os modelos Llama 4 Scout e Maverick superaram concorrentes como o GPT-4o e o Gemini 2.0 Pro em tarefas de programação, raciocínio, multilinguismo e processamento de imagens, oferecendo melhores resultados com menor custo, mesmo sendo modelos menores.
Fiel ao seu compromisso com o código aberto, a Meta disponibilizou os modelos Llama 4 para download gratuito em plataformas como o Hugging Face e llama.com. Esses modelos também estão integrados ao ecossistema da empresa, incluindo aplicativos populares como WhatsApp, Messenger e Instagram Direct.
Essa abordagem de código aberto garante que desenvolvedores de todo o mundo possam acessar e utilizar os modelos Llama 4 com facilidade, estimulando a inovação e permitindo a criação de experiências personalizadas com inteligência artificial em diversas áreas.
A equipe, da Universidade de Leeds e do Centro de Ecologia e Hidrologia do Reino Unido, forneceu…
O número e a diversidade de Abelhas estão diminuindo em todo o mundo. Alguns estudos…
Imagine entrar em casa e ser recebido por uma planta com folhas tão verdes e…
As suas orquídeas estão cheias de folhas verdes e brotos novos, mas nenhuma flor aparece?…
Pesquisas revelam que o ruído constante em ambientes urbanos pode causar impactos severos na saúde…
Projeto desenvolvido por alunos do ensino médio em Canindé de São Francisco propõe solução sustentável…
This website uses cookies.