Le Voci dell’AI – Episodio 82: ARC-AGI: Misurare il Quoziente Intellettivo dell’IA

Ciao a tutti, sono Vincenzo Lomonaco, ricercatore e docente all’Università di Pisa.

Nella puntata di oggi parliamo di un tema di eccezionale interesse e utilità per il campo dell’intelligenza artificiale.

Parliamo di valutazione del quoziente intellettivo delle nostre soluzioni di AI. È possibile farlo e compararlo magari a quello umano? A quale scopo? Scopriamolo insieme in questa puntata di Le Voci dell’AI.

Il Quoziente Intellettivo, QI, è una misura standardizzata delle capacità cognitive di un individuo rispetto alla popolazione generale.

È valutato tramite test che analizzano competenze come il ragionamento logico, la comprensione verbale, la memoria e le abilità matematiche.

Originariamente è stato ideato agli inizi del XX secolo da Alfred Binet e Théodore Simon per identificare studenti con difficoltà scolastiche. Il concetto di cui si è poi sviluppato ed è stato standardizzato da Lewis Terman con il test Stanford–Binet.

La formula classica del QI divide l’età mentale di un individuo per la sua età cronologica, moltiplicando il risultato per 100, anche se oggi vengono utilizzate scale più complesse.

Il test del QI è impiegato in vari contesti, inclusi la psicologia clinica, la selezione del personale e la ricerca scientifica, ma è anche oggetto di critiche per la riduzione della complessità dell’intelligenza a un singolo numero e per potenziali pregiudiziali culturali.

Si sottolinea infatti come il QI non catturi aspetti come l’intelligenza emotiva, la creatività o l’intelligenza pratica, rendendo il suo utilizzo più mirato al ragionamento astratto.

Nonostante questi limiti, il QI resta uno strumento importante per la comprensione delle capacità cognitive umane nel contesto dell’AI.

I progressi in termini di intelligenza vengono valutati attraverso la risoluzione di compiti – task – via via più complessi, spesso progettati per rappresentare, magari in maniera semplificata, problemi pratici o di interesse commerciale.

Sistemi avanzati di IA sono addestrati quindi per eccellere in ambiti specifici come il riconoscimento di immagini, l’elaborazione del linguaggio naturale o il controllo di macchine industriali, per esempio.

Ad ogni nuovo traguardo l’AI dimostra capacità superiori, permettendo quindi applicazioni utili come diagnosi medica, assistente virtuali e sistemi di raccomandazione tra i tanti.

Questi progressi stimolano un impatto crescente sul mercato, con soluzioni innovativi per settori come la sanità, i trasporti o la logistica.

Tuttavia, l’ottimizzazione per task specifici spesso compromette la capacità di generalizzazione.

Un sistema altamente performante in un dominio o task può risultare inefficace o addirittura inadatto in un altro.

Questo limite, noto come l’intelligenza ristretta o wicked eye, è accentuato dall’approccio basato su dataset specifici e metriche di valutazione mirate, che rischia di vincolare lo sviluppo di modelli soluzioni ideali a contesti rigidi.

Di conseguenza, mentre l’AI avanza verso problemi sempre più utili e complessi, emerge la necessità di superare la specializzazione per progettare sistemi in grado di apprendere e soprattutto adattarsi trasversalmente, affrontando scenari nuovi, senza una personalizzazione o un addestramento specifico.

Questa sfida resta centrale per il futuro della ricerca nel contesto dell’intelligenza artificiale.

Il benchmark o sistema di valutazione ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence) proposto da François Chollet nel 2019 è nato specificatamente per valutare la capacità delle nostre soluzioni di tipo generale di affrontare compiti nuovi senza affidarsi a dati pregressi o un addestramento specifico.

ARC-AGI si ispira ai test del QI umani come le matrici di Raven, che misurano l’intelligenza tramite abilità di astrazione e ragionamento.

ARC-AGI consiste in una serie di compiti visivi basati su griglie colorate in cui bisogna dedurre regole implicite osservando degli esempi di input output. Vedremo dopo un esempio.

Pur essendo intuitivi e semplici, molto semplice per gli umani che sfruttano capacità innate di ragionamento visivo e non, questi compiti sono estremamente difficili per modelli di AI all’avanguardia anche come GPT-4 Infatti, i Large Language Models, pur eccellendo in svariati compiti linguistici ma anche di ragionamento, mancano di adattabilità innata e ragionamento contestuale, senza quindi dati di addestramento che ne illustrano le modalità di movimento.

E questo divario evidenzia un limite fondamentale per l’intelligenza artificiale moderna: l’incapacità di ragionare in modo flessibile e non supervisionato sulla base di pochissimi esempi in problemi nuovi, come fanno gli esseri umani.

ARC è molto interessante perché valuta l’intelligenza artificiale su aspetti fondamentali per l’intelligenza generale, andando oltre la semplice ottimizzazione di performance su task specifici.

Risolvere questo test, quindi, rappresenterebbe un passo cruciale verso un’AI più versatile, con capacità cognitive simili se non superiori a quelle umane.

In questa immagine vediamo un esempio un compito del benchmark ARC, dove si richiede agli algoritmi di AI di dedurre una regola implicita osservando gli esempi forniti. Nelle prime tre coppie di input output, i nostri esempi, da sinistra verso destra l’interno delle figure verdi nella griglia viene riempito in giallo seguendo un pattern coerente.

Gli algoritmi devono quindi identificare questa regola generale: riempi di giallo l’interno delle figure chiuse in verde e l’ultimo esempio presenta un nuovo input, una figura complessa dove l’algoritmo deve applicare questa regola dedotta per produrre l’output corretto, colorando quindi l’interno di ognuna di queste figure chiuse in giallo.

Questo compito richiede capacità di astrazione e generalizzazione che sono particolarmente difficili da ottenere per soluzioni di AI allo stato dell’arte, mentre per gli uomini questo compito risulta molto semplice.

In questa immagine, invece, si mostra la relazione tra le performance ordinate e costo per task sulle ascisse nel benchmark ARC-AGI, confrontando diverse soluzioni di AI allo stato dell’arte.

In particolare, si confrontano con la recentissima soluzione di OpenAI o3 capacità umane e altri approcci open source.

Le performance degli esseri umani si dividono tra studenti laureati in discipline STEM, quindi scientifiche che vediamo raggiungono circa il 100% nella risoluzione di questo tipo di compiti, questo tipo di task cognitivi, e la media invece di cloudworker umani, che raggiunge circa il 76%, superando chiaramente le altre soluzioni di AI e algoritmica.

I modelli o3 low e high, a seconda del dispendio a livello di risorse e con un addestramento specifico per la risoluzione di questo task, si avvicinano al livello umano, raggiungendo rispettivamente il 76 e l’88%, dimostrando significativi progressi verso l’AI generale.

Tuttavia, soluzioni opensource come Kaggle SOTA standard o versioni preliminari, o1 Low, Med e High ottengono punteggi molto inferiori con valori che variano tra il 7% e il 32%.

Il grafico quindi evidenzia che i migliori modelli come o3, riescono ad avvicinarsi all’intelligenza umana nel risolvere compiti di astrazione e ragionamento sebbene gli elevatissimi costi per task, più di 1.000 $, pensate, per la risoluzione di un semplice compito ARC come l’esempio presentato precedentemente, davvero improponibile.

Questo risultato quindi rappresenta un progresso senz’altro rispetto agli approcci precedenti, ma sottolinea il divario significativo in termini di efficienza e generalizzazione.

Bene, in questa puntata abbiamo discusso del benchmark ARC-AGI, un sistema di valutazione delle capacità cognitive delle nostre soluzioni di intelligenza artificiale, molto simile ai test sul quoziente intellettivo, il QI, per gli umani.

Interessante notare come anche per i modelli fondazionali più sofisticati, capaci di ragionare come OpenAI o3, il compito risulti molto complesso, con dei costi davvero troppo elevati anche per la risoluzione di un solo quesito. François Chollet, l’autore di ARC-AGI ha già preannunciato per il 2025 l’avvio di una nuova edizione dell’Arc Prize con una competizione e una seconda versione del benchmark ancor più competitivo e sfidante per le nostre soluzioni, con l’ambizione di spingere le stesse verso capacità di ragionamento sempre più allineate a quelle umane.

Ciao! Alla prossima puntata di Le Voci dell’AI.

 

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome