Root Signals, especialista en la evaluación de grandes modelos de lenguaje (LLM) y el control de calidad de aplicaciones de IA, ha anunciado recientemente el lanzamiento de Root Judge, un modelo diseñado para medir la fiabilidad de las aplicaciones GenAI. Esta nueva herramienta, basada en el modelo de código abierto Llama-3.3-70B-Instruct de Meta, promete establecer un nuevo estándar en materia de evaluación confiable, personalizable y desplegable localmente.

Una IA que juzga la IA: hacia una evaluación automatizada y confiable

Root Judge busca responder a los desafíos relacionados con las alucinaciones de los LLMs y la fiabilidad de las decisiones generadas.

Su objetivo es triple:

  • Detección de alucinaciones: identifica, describe y bloquea automáticamente los errores contextuales en los flujos de trabajo de IA generativa aumentada (RAG);
  • Juicios de preferencia por pares: el modelo facilita las comparaciones entre diferentes salidas de modelos gracias a criterios personalizables;
  • Respeto a la privacidad: Root Judge admite implementaciones locales, garantizando así la privacidad de los datos evitando el envío de datos sensibles a servidores externos.

Una estructura de entrenamiento de vanguardia

Root Judge ha sido post-entrenado en un conjunto de datos rigurosamente anotado y optimizado utilizando técnicas avanzadas como la Direct Preference Optimization (DPO) y la Identity Preference Optimization (IPO).

Root Signals, con sede en Palo Alto y Helsinki, ha aprovechado la potencia del supercomputador EuroHPC JU LUMI instalado en Kajaani, Finlandia, para entrenar su "LLM-as-a-Judge", en 384 GPU AMD Radeon Instinct MI250X.

Un modelo que destaca

Root Judge supera tanto a los modelos cerrados como GPT-4o, o1-mini, o1-preview de OpenAI y Sonnet-3.5 de Anthropic, así como a otros LLMs Judge de código abierto de tamaño similar en cuanto a detección de alucinaciones y generación de salidas explicables. Sus aplicaciones se extienden a todos los sectores, convirtiéndolo en una herramienta versátil para empresas, desarrolladores e investigadores en busca de soluciones de IA confiables y adaptadas a sus necesidades. Estamos ahora a la espera de benchmarks frente a GPT 4.5 y Sonnet 3.7 que acaban de salir.


Disponible bajo una licencia open weights, el modelo también es accesible a través de Root Signals EvalOps, una plataforma diseñada para medir y monitorear los comportamientos de los LLMs en producción.