Root Signals présente Root Judge : un pas de plus vers l’IA fiable et explicable ?

Root Signals a lancé Root Judge, un modèle destiné à mesurer la fiabilité des applications GenAI en détectant les hallucinations, en comparant des sorties par paires et en permettant des déploiements locaux pour protéger la confidentialité. Bâti sur Llama-3.3-70B-Instruct et entraîné sur le supercalculateur EuroHPC, le modèle est distribué en open weights et Root Signals affirme des performances supérieures à plusieurs LLMs concurrents sur la détection d'erreurs et l'explicabilité.

MAMarie-Claude Benoit ·28 févr. 2025 ·Mis à jour le 19 juin 2026 ·2 min

Root Signals, spécialiste de l'évaluation des grands modèles de langage (LLM) et du contrôle de la qualité des applications d'IA, a récemment annoncé le lancement de Root Judge, un modèle conçu pour mesurer la fiabilité des applications GenAI. Ce nouvel outil, basé sur le modèle open-source Llama-3.3-70B-Instruct de Meta, promet d’établir une nouvelle norme en matière d’évaluation fiable, personnalisable et déployable localement.

Une IA qui juge l’IA : vers une évaluation automatisée et fiable

Root Judge vise à répondre aux défis liés aux hallucinations des LLMs et à la fiabilité des décisions générées.

Son objectif est triple :

Détection des hallucinations : il identifie, décrit et bloque automatiquement les erreurs contextuelles dans les pipelines d’IA générative augmentée (RAG) ;
Jugements de préférence par paires : Le modèle facilite les comparaisons entre différentes sorties de modèles grâce à des critères personnalisables ;
Respect de la confidentialité : Root Judge prend en charge les déploiements locaux, garantissant ainsi la confidentialité des données en évitant l’envoi de données sensibles sur des serveurs externes.

Une structure d'entraînement de pointe

Root Judge a été post-entraîné sur un ensemble de données rigoureusement annoté et optimisé à l'aide de techniques avancées telles que la Direct Preference Optimization (DPO) et l'Identity Preference Optimization (IPO).

Root Signals, basée à Palo Alto et à Helsinki, a exploité la puissance du supercalculateur EuroHPC JU LUMI installé à Kajaani, en Finlande pour entraîner son "LLM-as-a-Judge", sur 384 GPU AMD Radeon Instinct MI250X.

Un modèle qui se démarque

Root Judge surpasse à la fois les modèles fermés tels que GPT-4o, o1-mini, o1-preview d’OpenAI et Sonnet-3.5 d’Anthropic, ainsi que d’autres LLMs Judge open source de taille similaire en matière de détection des hallucinations et de génération d'extrants explicables. ‍Ses applications s’étendent à tous les secteurs, ce qui en fait un outil polyvalent pour les entreprises, les développeurs et les chercheurs à la recherche de solutions d’IA fiables et adaptées à leurs besoins. Nous sommes désormais en attente de benchmarks face à GPT 4.5 et Sonnet 3.7 qui viennent de sortir.

Disponible sous une licence open weights, le modèle est également accessible via Root Signals EvalOps, une plateforme conçue pour mesurer et surveiller les comportements des LLMs en production.

Marie-Claude Benoit

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Root Signals présente Root Judge : un pas de plus vers l’IA fiable et explicable ?

Une IA qui juge l’IA : vers une évaluation automatisée et fiable

Une structure d'entraînement de pointe

Un modèle qui se démarque

IBM dévoile Granite 3.2 : une IA multimodale aux capacités de raisonnement avancées

Avec LARA, le risque réglementaire des LLM devient une pièce d'audit pour les DPO

Red Hat AI Inference Server : vers une standardisation ouverte de l’inférence IA en entreprise