Meta se destaca na IA multimodal com as primeiras versões de Llama 4, Scout e Maverick

Em 5 de abril, a Meta revelou as duas primeiras versões do Llama 4: Scout e Maverick. Esses modelos abertos, projetados para serem nativamente multimodais, podem processar texto, imagens e vídeos. Graças a um processo de destilação baseado no Llama 4 Behemoth, o maior e mais poderoso modelo da série ainda em desenvolvimento, eles se destacam por sua rapidez de execução e eficiência.

Ao contrário das versões anteriores do Llama que usavam uma arquitetura baseada nos Transformers, o Llama 4 é baseado em uma arquitetura de Mixture-of-Experts (MoE), onde apenas alguns parâmetros são ativados para cada requisição. Essa abordagem melhora a eficiência e reduz o custo de computação, com Scout e Maverick ativando "apenas" 17 bilhões de parâmetros por requisição. A Meta também ampliou o suporte de idiomas, que passa de 8 no Llama 3.3, apresentado em dezembro passado, para 12. No entanto, deve-se notar que sua base de conhecimento se encerra em agosto de 2024.

Llama 4 Scout: uma janela de contexto inédita

Scout, com 109 bilhões de parâmetros, é o mais leve da série. Seu principal trunfo é uma janela de contexto que pode chegar a 10 milhões de tokens, um salto em relação aos 128.000 tokens do Llama 3. Além disso, ele pode operar em uma única placa Nvidia H100, tornando-se especialmente adequado para empresas com recursos limitados para tarefas como síntese de múltiplos documentos ou análise aprofundada de atividades de usuários. Segundo as avaliações internas da Meta, o Llama 4 Scout oferece desempenho superior ao Gemma 3, Mistral 3.1 e Gemini 2.0 Flash Lite.

Llama 4 Maverick

Maverick, por sua vez, possui 400 bilhões de parâmetros e 128 especialistas, o que o torna mais eficaz. Com uma janela de contexto de 1 milhão de tokens, ele abre caminho para aplicações como:

Agentes empresariais inteligentes, capazes de raciocinar e interagir com segurança com diversas ferramentas e fluxos de trabalho;
Sistemas de compreensão de documentos, facilitando a extração de dados estruturados a partir de PDFs, digitalizações e formulários;
Assistentes multilíngues, oferecendo respostas nuançadas e adaptadas às especificidades culturais;
Ferramentas de criação dedicadas à redação de histórias, conteúdos de marketing e textos personalizados.

Segundo a Meta, o Maverick Llama 4 é o melhor modelo multimodal de sua categoria, superando o GPT-4o e o Gemini 2.0 Flash em uma ampla gama de benchmarks. Ele também atinge resultados comparáveis aos do DeepSeek v3 em raciocínio e programação, enquanto usa menos da metade dos parâmetros ativos.

Além disso, o Llama 4 Maverick oferece uma relação custo-benefício excepcional, com uma versão experimental de chat atingindo uma pontuação ELO de 1417 no LMArena.

Llama 4 Behemoth

A Meta também compartilhou uma visão do Llama 4 Behemoth, o modelo professor de 2 trilhões de parâmetros (2.000 bilhões), que serviu de base para essas 2 primeiras versões. Contando com 288 bilhões de parâmetros ativos com 16 especialistas, ele oferece desempenho de ponta, mesmo não sendo um modelo especializado em raciocínio. Ele se destacaria, segundo a empresa, em matemática, multilinguismo e nos benchmarks de imagens.

Segundo suas avaliações, o Behemoth superaria o GPT-4.5, Claude Sonnet 3.7 e o Gemini 2.0 Pro em diferentes benchmarks.

Disponibilidade

Scout e Maverick estão disponíveis no Llama.com e Hugging Face, distribuídos em código aberto sob a licença da Meta que exige, no entanto, que empresas com mais de 700 milhões de usuários ativos mensais solicitem permissão para usá-los. Embora o Llama 4 já alimente o Meta AI, o assistente de IA de suas plataformas WhatsApp, Messenger, Instagram em cerca de quarenta países, os recursos multimodais estão atualmente disponíveis apenas nos Estados Unidos. Na UE, será necessário aguardar...

Stephane Nachez

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.

Meta se destaca na IA multimodal com as primeiras versões de Llama 4, Scout e Maverick

Llama 4 Scout: uma janela de contexto inédita

Llama 4 Maverick

Llama 4 Behemoth

Disponibilidade

Anthropic é obrigada a suspender Fable 5 e Mythos 5 após uma diretiva do governo dos Estados Unidos

Siri AI : Gemini como professor, não como motor - o que a WWDC não disse

Mesmo modelo, proteções diferentes: o que revela o lançamento de Claude Fable 5 e Mythos 5