Come fare il riassunto di un video YouTube con l’AI, con l’app Google Gemini

10 Febbraio 2025

Di recente, Google ha reso disponibile nell’app Gemini la versione 2.0 Flash Thinking Experimental del modello di intelligenza artificiale.

Questo modello – disponibile, almeno al momento, anche con l’utilizzo gratuito dell’assistente AI di Google, quindi senza abbonamento a Gemini Advanced – presenta caratteristiche interessanti.

Il nuovo modello sperimentale Gemini non solo espone la catena di pensiero del suo ragionamento, ma, in più, il ragionamento lo può applicare anche ai contenuti di altre app di Google; nella fattispecie: YouTube, Maps e Ricerca.

In questo esempio, vediamo come chiedere a Gemini di farci un riassunto di un video YouTube, semplicemente fornendogli il link al video. Vediamo allora come fare, utilizzando l’app ufficiale Gemini di Google, nella sua versione per iOS su iPhone.

Una volta aperta l’app Gemini, per prima cosa occorre verificare che nella chat venga utilizzato il modello che ci serve e, nel caso non lo sia, selezionare il modello giusto.

Il nome del modello in uso è visibile nella parte superiore della schermata della conversazione. Il nome è affiancato da una freccia rivolta verso il basso: facendo tap su di esso, l’app apre il selettore del modello.

Se non è già quello in uso, selezioniamo la versione del modello Gemini denominata 2.0 Flash Thinking Experimental with apps. C’è anche la versione 2.0 Flash Thinking Experimental, che dispone di capacità di ragionamento a passaggi multipli, ma a noi, nello specifico, interessa la versione 2.0 Flash Thinking Experimental with apps, che alla versione standard aggiunge anche la capacità di ragionamento applicato alle app YouTube, Maps e Ricerca di Google.

Una volta selezionata, la versione del modello scelto verrà aggiornata anche nel titolo della finestra della chat.

L’app Gemini ci informa che questo modello ha capacità di ragionamento e funziona in modo ottimale con le app Google YouTube, Maps e Ricerca. Al tempo stesso, in quanto in versione ancora sperimentale, alcune funzioni di Gemini non sono disponibili con questo modello.

Ora apriamo l’app YouTube e cerchiamo il video di cui desideriamo fare il riassunto o estrapolare i punti chiave.

Nella scheda del video, tocchiamo su Condividi e poi, nel pannello di condivisione che si apre, su Copia link.

Quindi torniamo all’app Google Gemini.

Nella schermata della chat di Gemini, tocchiamo sul campo di testo del prompt e incolliamo il link al video che abbiamo appena copiato nell’app YouTube.

A seguire, scriviamo la nostra richiesta nella casella del prompt, ad esempio un semplice “Fai il riassunto di questo video”. Quindi inviamo il prompt.

Il modello Gemini 2.0 Flash Thinking Experimental with apps riconosce che l’URL inserito è di YouTube ed è interessante vedere, nella catena di pensieri che l’app mostra (nella lingua “nativa” del modello), come comprenda di dover utilizzare YouTube per ottenere il sommario del video.

Alla fine, nella risposta, Google Gemini ci fornisce il testo del sommario del video YouTube: si tratta di una funzione che può dare una forte spinta alla produttività, poiché ci risparmia il tempo richiesto per vedere tutto il video, che magari è oltre tutto in una lingua con cui non abbiamo molta confidenza.

Però, come correttamente la stessa app puntualizza, dobbiamo prestare sempre attenzione a due punti che anche noi ricordiamo e sottolineiamo spesso, soprattutto quando si utilizza l’intelligenza artificiale per lavoro: la correttezza delle risposte e la riservatezza dei dati.

Google Gemini, come tutti gli assistenti AI, può commettere errori. Tutti i sistemi di intelligenza artificiale possono produrre risposte non accurate o allucinazioni con informazioni del tutto o largamente inventati, quindi è sempre opportuno verificarle, prima di utilizzarle per i propri progetti e le proprie attività.

Per quanto riguarda la riservatezza, nella finestra della chat è disponibile il link per accedere all’informativa sulla privacy di Google, che spiega come vengono raccolti e trattati i dati degli utenti. Anche in questo caso, è opportuno consultare questi documenti per assicurarsi che i termini di utilizzo siano in linea con le nostre esigenze e i nostri requisiti di conformità.

Ora che la chat è “collegata” al video di YouTube e che abbiamo ottenuto il sommario dei contenuti, possiamo sfruttare le capacità dell’AI Gemini per estrarre le informazioni che ci servono nel modo in cui possono meglio servirci.

Ad esempio, potremmo chiedere all’assistente AI di estrapolare i punti chiave del video e descriverli in modo sintetico in uno specifico formato; oppure, di suggerirci un titolo e un sommario per una relazione riguardante il video; oppure, ancora, di produrre un’immagine che serva a illustrare questa ipotetica relazione.

Riguardo a quest’ultimo punto, il modello Gemini 2.0 Flash Thinking Experimental with apps non è in grado di creare direttamente l’immagine, ma può proporci una descrizione che poi potremmo utilizzare per il prompt per un’AI generativa di immagini.

Possiamo anche fare delle domande riguardanti i contenuti: l’importante è ricordare di essere cauti e procedere con una verifica delle risposte.

Per creare un sommario, il modello Gemini 2.0 Flash Thinking Experimental with apps chiaramente non guarda il video come farebbe un essere umano. Questo modello AI di Google Gemini utilizza invece gli strumenti dello stesso YouTube per analizzare contenuti testuali e metadati associati al video, tra cui: titolo e descrizione impostati dall’autore del video; metadati quali il canale, la data di pubblicazione e altri; e soprattutto la trascrizione dei dialoghi o i sottotitoli, se questi sono disponibili.

Infatti, in alcune delle prove che abbiamo fatto, il modello ci ha informato di non poter rispondere alla nostra richiesta (o di poter rispondere ma non in modo completo) e tra i possibili motivi di errore c’era anche l’evenienza che non ci fosse un file di sottotitoli leggibile.

Il link di YouTube che forniamo a Google Gemini deve essere chiaramente un URL valido e accessibile pubblicamente. I link possono provenire da YouTube web o app, o anche da link condivisi. Abbiamo però notato che alcuni link YouTube con query articolate con parametri aggiuntivi possono dare fastidio al modello, fino a interrompere l’elaborazione.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter