Root Signals, azienda specializzata nella valutazione di modelli linguistici di grandi dimensioni (large language model, LLM) e nel controllo di qualità delle applicazioni di intelligenza artificiale, annuncia il rilascio di Root Judge, un LLM innovativo che secondo il team di sviluppo stabilisce un nuovo standard per i modelli di valutazione dell’AI affidabili, personalizzabili e distribuibili localmente.
Root Judge – spiega Root Signals – è una versione perfezionata di Llama-3.3-70B-Instruct di Meta, uno dei più potenti modelli open-weights di medie dimensioni. Consentirà alle aziende di implementare in modo trasparente e responsabile l’intelligenza artificiale, ottimizzando i costi di inferenza e assicurando al contempo la privacy dei dati.
Root Judge è stato progettato principalmente per fungere da LLM-as-a-Judge, consentendo alle organizzazioni di:
- Identificare le allucinazioni contestuali: individuando, descrivendo e bloccando automaticamente le allucinazioni nelle pipeline di Retrieval-Augmented-Generation (RAG).
- Semplificare il pairwise preference judgment (giudizio di preferenza a coppie): utilizzando criteri personalizzabili per task quali l’ottimizzazione dei calcoli di inferenza o la generazione di dati sintetici che richiedono decisioni Best-of-N.
- Favorire implementazioni incentrate sulla privacy: evitando l’invio di dati sensibili attraverso la rete Internet pubblica, pur sfruttando le funzionalità all’avanguardia degli LLM.
Root Signals mette in evidenza il fatto che Root Judge è stato meticolosamente post-addestrato su un mix di set di dati di alta qualità, annotati dall’uomo, progettati per giudizi di preferenza a coppie e per compiti di multi-turn instruction-following con citazione delle fonti. Sfruttando tecniche di ottimizzazione avanzate, come la Direct Preference Optimization (DPO) con perdita dell’Identity Preference Optimization (IPO), il modello è stato sottoposto a training su 384 GPU AMD Radeon Instinct MI250X utilizzando il supercomputer LUMI.
“Con le sue soluzioni per un’IA affidabile e spiegabile, Root Signals sta contribuendo a un tema cruciale per le imprese. Il successo del training di Root Judge sul supercomputer LUMI dimostra sia la potenza delle piattaforme di calcolo AMD sia la vivacità dell’ecosistema finlandese dell’IA. Questo è esattamente il tipo di innovazione che dobbiamo vedere di più in Finlandia e in Europa“, afferma Peter Sarlin, Co-Fondatore e CVP di AMD Silo AI.
Dal punto di vista di Root Signals, Root Judge si distingue per una serie di fattori. In primo luogo, per l’eccellenza del fine-tuning, con un rilevamento delle allucinazioni allo stato dell’arte, che secondo il team supera sia i modelli di frontiera closed source come GPT-4o, o1-mini, o1-preview di OpenAI e Sonnet-3.5 di Anthropic, sia altri Judge LLM open source di dimensioni simili.
Inoltre, per gli output spiegabili: è progettato per fornire giustificazioni trasparenti per i punteggi, aumentando la fiducia nelle valutazioni guidate dall’intelligenza artificiale.
E poi, per l’accesso aperto all’innovazione: grazie ai pesi open e all’attenzione per le implementazioni incentrate sulla privacy, Root Judge promuove l’innovazione, affrontando al contempo i problemi di sicurezza dei dati.
“Root Judge rappresenta un importante passo avanti nel modo in cui le aziende possono valutare e ottimizzare i loro sistemi LLM“, afferma Ari Heljakka, CEO di Root Signals. “La sua capacità di fornire in modo trasparente giudizi basati sul contesto garantisce che le aziende possano impiegare l’IA in modo responsabile ed efficace, ottimizzando al contempo i costi di inferenza e garantendo la privacy“.
Le applicazioni di Root Judge si estendono a tutti i settori, rendendolo uno strumento versatile per le aziende, gli sviluppatori e i ricercatori che cercano soluzioni di IA affidabili e adatte alle loro esigenze.
Root Judge è ora disponibile con una licenza open weights, che consente a sviluppatori e aziende di integrarlo e personalizzarlo per i loro specifici flussi di lavoro di valutazione. Il modello può essere immediatamente utilizzato e confrontato con altri LLM mainstream chiusi e aperti sulla piattaforma Root Signals EvalOps, che consente di costruire, ottimizzare e gestire livelli di misurazione personalizzati alimentati da un judge LLM, per monitorare con precisione i comportamenti delle applicazioni AI e degli agenti in produzione.
Per saperne di più su Root Judge e per esplorare le sue capacità di trasformazione, è possibile visitare il sito di Root Signals.










