Root Signals, especialista na avaliação de grandes modelos de linguagem (LLM) e no controle de qualidade de aplicações de IA, anunciou recentemente o lançamento do Root Judge, um modelo projetado para medir a confiabilidade das aplicações GenAI. Esta nova ferramenta, baseada no modelo open-source Llama-3.3-70B-Instruct da Meta, promete estabelecer um novo padrão em termos de avaliação confiável, personalizável e implantável localmente.

Uma IA que julga a IA: rumo a uma avaliação automatizada e confiável

O Root Judge visa responder aos desafios relacionados às alucinações dos LLMs e à confiabilidade das decisões geradas.

Seu objetivo é triplo:

  • Detecção de alucinações: ele identifica, descreve e bloqueia automaticamente os erros contextuais nos pipelines de IA generativa aumentada (RAG);
  • Julgamentos de preferência por pares: O modelo facilita as comparações entre diferentes saídas de modelos através de critérios personalizáveis;
  • Respeito à privacidade: Root Judge suporta implantações locais, garantindo assim a confidencialidade dos dados ao evitar o envio de dados sensíveis a servidores externos.

Uma estrutura de treinamento de ponta

Root Judge foi pós-treinado em um conjunto de dados rigorosamente anotado e otimizado usando técnicas avançadas, como a Direct Preference Optimization (DPO) e a Identity Preference Optimization (IPO).

Root Signals, com sede em Palo Alto e Helsinque, explorou a potência do supercomputador EuroHPC JU LUMI instalado em Kajaani, na Finlândia, para treinar seu 'LLM-as-a-Judge', em 384 GPU AMD Radeon Instinct MI250X.

Um modelo que se destaca

Root Judge supera tanto os modelos fechados como GPT-4o, o1-mini, o1-preview da OpenAI e Sonnet-3.5 da Anthropic, quanto outros LLMs Judge open source de tamanho similar em termos de detecção de alucinações e geração de saídas explicáveis. Suas aplicações se estendem a todos os setores, tornando-o uma ferramenta versátil para empresas, desenvolvedores e pesquisadores em busca de soluções de IA confiáveis e adaptadas às suas necessidades. Agora estamos aguardando benchmarks frente ao GPT 4.5 e Sonnet 3.7 que acabaram de ser lançados.


Disponível sob uma licença open weights, o modelo também é acessível via Root Signals EvalOps, uma plataforma projetada para medir e monitorar os comportamentos dos LLMs em produção.