Root Signals, specialista nella valutazione dei grandi modelli di linguaggio (LLM) e nel controllo della qualità delle applicazioni di IA, ha recentemente annunciato il lancio di Root Judge, un modello concepito per misurare l'affidabilità delle applicazioni GenAI. Questo nuovo strumento, basato sul modello open-source Llama-3.3-70B-Instruct di Meta, promette di stabilire un nuovo standard in materia di valutazione affidabile, personalizzabile e distribuibile localmente.

Un'IA che giudica l'IA: verso una valutazione automatizzata e affidabile

Root Judge mira a rispondere alle sfide legate alle allucinazioni dei LLMs e all'affidabilità delle decisioni generate.

Il suo obiettivo è triplice:

  • Rilevamento delle allucinazioni: identifica, descrive e blocca automaticamente gli errori contestuali nei pipeline di IA generativa aumentata (RAG);
  • Giudizi di preferenza a coppie: il modello facilita i confronti tra diverse uscite di modelli grazie a criteri personalizzabili;
  • Rispetto della privacy: Root Judge supporta le distribuzioni locali, garantendo così la riservatezza dei dati evitando l'invio di dati sensibili su server esterni.

Una struttura di addestramento all'avanguardia

Root Judge è stato post-addestrato su un insieme di dati rigorosamente annotato e ottimizzato utilizzando tecniche avanzate come la Direct Preference Optimization (DPO) e l'Identity Preference Optimization (IPO).

Root Signals, con sede a Palo Alto e Helsinki, ha sfruttato la potenza del supercomputer EuroHPC JU LUMI installato a Kajaani, in Finlandia, per addestrare il suo "LLM-as-a-Judge", su 384 GPU AMD Radeon Instinct MI250X.

Un modello che si distingue

Root Judge supera sia i modelli chiusi come GPT-4o, o1-mini, o1-preview di OpenAI e Sonnet-3.5 di Anthropic, sia altri LLMs Judge open source di dimensioni simili in materia di rilevamento delle allucinazioni e generazione di output spiegabili. Le sue applicazioni si estendono a tutti i settori, rendendolo uno strumento versatile per aziende, sviluppatori e ricercatori alla ricerca di soluzioni di IA affidabili e adattabili alle proprie necessità. Siamo ora in attesa di benchmark rispetto a GPT 4.5 e Sonnet 3.7 appena usciti.


Disponibile sotto una licenza open weights, il modello è anche accessibile tramite Root Signals EvalOps, una piattaforma concepita per misurare e monitorare i comportamenti dei LLMs in produzione.