Root Signals, especialista na avaliação de grandes modelos de linguagem (LLM) e no controle de qualidade de aplicações de IA, anunciou recentemente o lançamento do Root Judge, um modelo projetado para medir a confiabilidade das aplicações GenAI. Esta nova ferramenta, baseada no modelo open-source Llama-3.3-70B-Instruct da Meta, promete estabelecer um novo padrão em termos de avaliação confiável, personalizável e implantável localmente.
Uma IA que julga a IA: rumo a uma avaliação automatizada e confiável
O Root Judge visa responder aos desafios relacionados às alucinações dos LLMs e à confiabilidade das decisões geradas.
Seu objetivo é triplo:
- Detecção de alucinações: ele identifica, descreve e bloqueia automaticamente os erros contextuais nos pipelines de IA generativa aumentada (RAG);
- Julgamentos de preferência por pares: O modelo facilita as comparações entre diferentes saídas de modelos através de critérios personalizáveis;
- Respeito à privacidade: Root Judge suporta implantações locais, garantindo assim a confidencialidade dos dados ao evitar o envio de dados sensíveis a servidores externos.
Uma estrutura de treinamento de ponta
Root Judge foi pós-treinado em um conjunto de dados rigorosamente anotado e otimizado usando técnicas avançadas, como a Direct Preference Optimization (DPO) e a Identity Preference Optimization (IPO).
Root Signals, com sede em Palo Alto e Helsinque, explorou a potência do supercomputador EuroHPC JU LUMI instalado em Kajaani, na Finlândia, para treinar seu 'LLM-as-a-Judge', em 384 GPU AMD Radeon Instinct MI250X.
Um modelo que se destaca
Root Judge supera tanto os modelos fechados como GPT-4o, o1-mini, o1-preview da OpenAI e Sonnet-3.5 da Anthropic, quanto outros LLMs Judge open source de tamanho similar em termos de detecção de alucinações e geração de saídas explicáveis. Suas aplicações se estendem a todos os setores, tornando-o uma ferramenta versátil para empresas, desenvolvedores e pesquisadores em busca de soluções de IA confiáveis e adaptadas às suas necessidades. Agora estamos aguardando benchmarks frente ao GPT 4.5 e Sonnet 3.7 que acabaram de ser lançados.
Disponível sob uma licença open weights, o modelo também é acessível via Root Signals EvalOps, uma plataforma projetada para medir e monitorar os comportamentos dos LLMs em produção.