Root Signals, büyük dil modellerinin (LLM) değerlendirilmesi ve yapay zeka uygulamalarının kalite kontrolü konusunda uzmanlaşmış bir firma olarak, yakın zamanda GenAI uygulamalarının güvenilirliğini ölçmek için tasarlanan Root Judge'u piyasaya sürdüğünü duyurdu. Meta'nın açık kaynaklı Llama-3.3-70B-Instruct modeline dayanan bu yeni araç, güvenilir, özelleştirilebilir ve yerel olarak dağıtılabilir bir değerlendirme standardı oluşturmayı vaat ediyor.

Yapay Zekayı Yargılayan Bir Yapay Zeka: Otomatik ve Güvenilir Bir Değerlendirmeye Doğru

Root Judge, LLM'lerin halüsinasyonları ve üretilen kararların güvenilirliği ile ilgili zorluklara yanıt vermeyi hedefliyor.

Hedefi üçlüdür:

  • Halüsinasyonların tespiti: Yapay zeka üretken artırılmış (RAG) hatlarında bağlamsal hataları otomatik olarak tanımlayıp, tanımlayıp ve engeller;
  • Çiftli tercih yargıları: Model, özelleştirilebilir kriterler sayesinde farklı model çıktıları arasında karşılaştırmaları kolaylaştırır;
  • Gizliliğe saygı: Root Judge, verilerin dış sunuculara gönderilmesini önleyerek, veri gizliliğini güvence altına alarak yerel dağıtımları destekler.

Önde Gelen Bir Eğitim Yapısı

Root Judge, titizlikle açıklanmış bir veri seti üzerinde ve Direct Preference Optimization (DPO) ve Identity Preference Optimization (IPO) gibi ileri teknikler kullanılarak optimize edilmiştir.

Palo Alto ve Helsinki merkezli Root Signals, Finlandiya'nın Kajaani kentinde kurulu EuroHPC JU LUMI süper bilgisayarının gücünü, 384 GPU AMD Radeon Instinct MI250X üzerinde LLM-as-a-Judge'ı eğitmek için kullanmıştır.

Öne Çıkan Bir Model

Root Judge, OpenAI'nin GPT-4o, o1-mini, o1-preview ve Anthropic'in Sonnet-3.5 gibi kapalı modellerin yanı sıra, benzer boyuttaki diğer açık kaynaklı LLMs Judge modellerini halüsinasyon tespiti ve açıklanabilir çıktılar üretme konularında geride bırakıyor. Uygulamaları tüm sektörlere yayılmakta olup, onu işletmeler, geliştiriciler ve ihtiyaçlarına uygun güvenilir yapay zeka çözümleri arayan araştırmacılar için çok yönlü bir araç haline getiriyor. Şimdi, yeni çıkan GPT 4.5 ve Sonnet 3.7 ile karşılaştırmalı test sonuçlarını bekliyoruz.


Açık ağırlık lisansı altında mevcut olan model, aynı zamanda üretimdeki LLM'lerin davranışlarını ölçmek ve izlemek için tasarlanmış bir platform olan Root Signals EvalOps aracılığıyla da erişilebilir.