Gemini Embedding 2: Google lancia il primo modello di embedding nativamente multimodale

Gemini Embedding 2

Google amplia la propria piattaforma di modelli Gemini con Gemini Embedding 2, il primo modello di embedding nativamente multimodale sviluppato su questa architettura. La novità principale è la capacità di mappare testo, immagini, video, audio e documenti nello stesso spazio semantico, permettendo ai sistemi di intelligenza artificiale di comprendere e correlare informazioni provenienti da media diversi.

Il modello è disponibile in Public Preview tramite Gemini API e Vertex AI e punta a semplificare la costruzione di pipeline di AI multimodali utilizzate in ambiti come ricerca semantica, Retrieval-Augmented Generation (RAG), classificazione dei contenuti e analisi dei dati.

Gemini Embedding 2: come funziona lo spazio semantico multimodale

Gli embedding sono rappresentazioni numeriche che consentono ai sistemi di AI di comprendere il significato semantico dei dati. Con Gemini Embedding 2, Google estende questo concetto a più tipi di contenuto contemporaneamente, permettendo a modelli e applicazioni di confrontare e analizzare media diversi nello stesso contesto.

Il modello è progettato per gestire diversi tipi di input:

  • Testo con un contesto fino a 8192 token, utile per applicazioni di ricerca semantica e analisi linguistica.
  • Immagini fino a sei per richiesta, nei formati PNG e JPEG.
  • Video fino a 120 secondi, supportando file MP4 e MOV.
  • Audio elaborato direttamente senza trascrizione intermedia.
  • Documenti PDF fino a sei pagine, incorporati direttamente nello spazio semantico.

Una caratteristica distintiva è la capacità di gestire input interleaved, cioè combinazioni di media diversi nello stesso prompt, ad esempio immagini e testo insieme. Questo consente al modello di catturare relazioni semantiche complesse tra contenuti eterogenei.

Prestazioni e scalabilità degli embedding

Gemini Embedding 2 utilizza la tecnica Matryoshka Representation Learning (MRL), che consente di ridurre dinamicamente la dimensionalità degli embedding mantenendo il massimo livello possibile di informazione semantica.

Il modello genera embedding con dimensione predefinita 3072, ma può ridurli a 1536 o 768 dimensioni per ottimizzare costi di storage e prestazioni computazionali. Questo approccio permette agli sviluppatori di adattare facilmente il modello a diversi scenari applicativi.

Secondo Google, il nuovo modello stabilisce un nuovo benchmark nelle attività multimodali, superando modelli precedenti nelle attività che coinvolgono testo, immagini e video e introducendo capacità avanzate di elaborazione dell’audio.

Applicazioni: dalla ricerca semantica alla gestione dei dati

Gli embedding sono una componente chiave in molte applicazioni di AI. Gemini Embedding 2 è progettato per supportare una nuova generazione di sistemi basati su comprensione semantica dei dati.

Tra gli scenari principali figurano:

  • motori di ricerca semantica avanzati
  • sistemi RAG per modelli generativi
  • analisi del sentiment e classificazione dei contenuti
  • clustering e gestione di grandi dataset multimodali

Alcuni partner stanno già sperimentando queste capacità. Nel settore legale, ad esempio, piattaforme di analisi documentale utilizzano il modello per ricercare informazioni rilevanti tra milioni di documenti, immagini e video nei processi di discovery giudiziaria.

Gemini Embedding 2 e l’evoluzione dell’AI multimodale

Con Gemini Embedding 2, Google rafforza la strategia di sviluppo di AI multimodale integrata, in cui diversi tipi di dati possono essere compresi e correlati in modo nativo.

L’obiettivo è offrire agli sviluppatori una base semantica unica per costruire applicazioni AI più avanzate, capaci di interpretare il significato dei dati indipendentemente dal formato con cui vengono generati o archiviati. In questa prospettiva, gli embedding multimodali diventano un elemento fondamentale per la prossima generazione di servizi intelligenti basati su dati eterogenei.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome