Meta Lança o Multimodal Llama 4

A Meta anunciou oficialmente a revolucionária série Llama 4, trazendo ao mercado modelos de IA nativamente multimodais, com capacidades avançadas para processar texto, imagens e vídeos. Segundo o Tom’s Guide, esta nova geração de modelos promete um salto significativo na tecnologia de inteligência artificial, com capacidades de raciocínio aprimoradas e a habilidade de agentes de IA utilizarem navegadores e outras ferramentas digitais.

Arquitetura Inovadora: IA Nativamente Multimodal

A série Llama 4 se destaca por uma arquitetura inovadora que integra de forma nativa os tokens de texto e visão em um modelo unificado. Essa abordagem, chamada de fusão antecipada (early fusion), permite o pré-treinamento com conjuntos de dados variados, incluindo textos, imagens e vídeos.

Screenshot 2025 04 07 132620

Os modelos utilizam um design Mixture-of-Experts (MoE), no qual apenas uma fração dos parâmetros totais é ativada para cada entrada. Isso melhora consideravelmente a eficiência computacional tanto no treinamento quanto na inferência. Essa arquitetura permite ao Llama 4 entender múltiplas modalidades simultaneamente, abrindo espaço para aplicações de IA mais sofisticadas em diversas áreas.

Especificações dos Modelos Llama 4

A série Llama 4 inclui três modelos distintos, desenvolvidos para diferentes finalidades:

Llama 4 Scout: modelo compacto com 17 bilhões de parâmetros ativos e 16 especialistas, apresenta uma impressionante janela de contexto de 10 milhões de tokens, ideal para tarefas que exigem análise contextual extensa.
Llama 4 Maverick: também com 17 bilhões de parâmetros ativos, mas com 128 especialistas, é voltado para tarefas gerais de assistente e compreensão precisa de imagens.
Llama 4 Behemoth: modelo em prévia, é um “modelo professor” massivo, com 288 bilhões de parâmetros ativos e quase 2 trilhões de parâmetros totais, superando modelos de ponta como GPT-4.5 e Claude Sonnet 3.7 em benchmarks de áreas STEM (ciência, tecnologia, engenharia e matemática).

Inovações no Treinamento e Desempenho

O processo de treinamento do Llama 4 contou com técnicas inovadoras, como o MetaP, para otimização de hiperparâmetros em diferentes configurações. Os modelos foram treinados com um impressionante volume de 30 trilhões de tokens — o dobro do conjunto de dados utilizado no Llama 3.

Além disso, foram empregadas estratégias avançadas como:

Fine-tuning supervisionado leve,
Aprendizado por reforço online,
Otimização direta por preferência.

Nos testes de desempenho (benchmarks), os modelos Llama 4 Scout e Maverick superaram concorrentes como o GPT-4o e o Gemini 2.0 Pro em tarefas de programação, raciocínio, multilinguismo e processamento de imagens, oferecendo melhores resultados com menor custo, mesmo sendo modelos menores.

Acessibilidade e Código Aberto

Fiel ao seu compromisso com o código aberto, a Meta disponibilizou os modelos Llama 4 para download gratuito em plataformas como o Hugging Face e llama.com. Esses modelos também estão integrados ao ecossistema da empresa, incluindo aplicativos populares como WhatsApp, Messenger e Instagram Direct.

Essa abordagem de código aberto garante que desenvolvedores de todo o mundo possam acessar e utilizar os modelos Llama 4 com facilidade, estimulando a inovação e permitindo a criação de experiências personalizadas com inteligência artificial em diversas áreas.

Redação Revista Amazônia

Next Apple pode ampliar a produção de iPhones no Brasil »

Previous « UFMG foi palco de encontro global de jovens pelo clima

Published by

Redação Revista Amazônia