Alla fine di agosto Google ha rilasciato il suo nuovo modello AI Gemini 2.5 Flash Image soprannominato “Nano Banana”, che era già stato introdotto in preview e che aveva subito conquistato la vetta della classifica sia nella categoria Text-toImage sia, soprattutto, in quella Image Edit di LMArena.
Il nuovo modello sviluppato dal team di Google DeepMind è infatti specializzato nell’image editing e in special modo nel multi-turn editing: è ottimizzato per mantenere la coerenza tra le immagini durante diverse fasi di editing successive e questa capacità apre le porte a tanti casi d’uso interessanti.
Google Gemini 2.5 Flash Image può essere usato per il semplice Text-to-Image, così come per l’Image + Text-to-Image, cioè la modifica tramite prompt di una immagine fornita dall’utente. Si possono utilizzare più immagini di input per comporre una nuova scena, oppure per trasferire lo stile di un’immagine a un’altra. Oppure perfezionare progressivamente e iterativamente un’immagine in diversi passaggi successivi di una conversazione, apportando man mano piccole modifiche sempre in modo semplice con prompt in linguaggio naturale, fino a raggiungere il risultato desiderato. In più, il nuovo modello di Google offre una gestione del testo che il team definisce ad alta fedeltà.
È possibile utilizzare Google Gemini 2.5 Flash Image Nano Banana nell’app Gemini, sia sul web che mobile. In questo primo periodo a ridosso del lancio, nell’interfaccia dell’app Gemini viene mostrato un banner che informa della disponibilità del nuovo modello e, nella casella del prompt, il tasto Immagine è affiancato dall’icona della banana.
Google ha reso disponibile il nuovo modello anche nella sua API e Google Gemini 2.5 Flash Image è disponibile anche su alcune piattaforme di terze parti, tra cui ad esempio Adobe Firefly, che lo ha incluso tra i modelli dei partner. Naturalmente, costi, limiti di utilizzo e condizioni d’uso dipendono dai propri piani sulle specifiche piattaforme.
Nel nostro articolo, che prende spunto dal mondo del calcio, vista anche la ripresa in questo periodo delle principali competizioni sia nazionali che europee, descriviamo un esempio reale di un flusso di lavoro che prevede sia l’editing progressivo e iterativo di un’immagine, sia lo sviluppo di un soggetto su più immagini.
L’immagine di partenza è stata ottenuta con il seguente prompt:
“Una foto realistica di un calciatore a mezzo busto. La maglietta della squadra è a strisce bianche e rosse verticali. Non aggiungere loghi né sponsor sulla maglia. Il calciatore è in posa, non in un’azione di gioco. L’ambientazione è in uno stadio di notte, con l’illuminazione artificiale”.
Dalla prima generazione possiamo già verificare in pratica l’alta qualità delle immagini di Google Gemini 2.5 Flash Image Nano Banana. Ma quelle che vogliamo mettere maggiormente alla prova del nuovo modello di Google sono le capacità di editing, soprattutto in termini di coerenza e precisione.
Abbiamo perciò richiesto “cambia la colorazione della maglietta in un azzurro con bordi bianchi”.
La prima versione ha presentato già un buon risultato dal punto di vista grafico ma con un errore di interpretazione del prompt.
Abbiamo fatto notare di aver chiesto “non a strisce bianche e azzurre, ma maglietta tutta azzurra con bordi bianchi”.
Il modello, dopo essersi scusato per l’errore in maniera molto cortese, ha dunque generato una maglietta interamente azzurra con bordi bianchi.
Nelle nostre prove, qualche leggera differenza, soprattutto quando si tratta di persone come soggetto principale dell’immagine, è ancora riscontrabile. In questo esempio, Si nota di più tra la prima e la seconda che tra la seconda e le successive: la seconda e la terza e – come vedremo a breve –, la quarta, presentano una coerenza tra i soggetti davvero sorprendente, nelle successive fasi di editing.
Nella generazione delle immagini con l’AI uno degli aspetti ancora carenti, e sovente più frustranti per gli utenti, sta nel fatto che, se l’immagine giusta non viene generata al primo prompt, è difficile e non sempre possibile arrivare al risultato desiderato con passaggi di editing successivi.
Per alcuni, invece, Google Gemini 2.5 Flash Image Nano Banana potrebbe addirittura diventare un sostituto di applicazioni di fotoritocco, con il vantaggio che l’editing delle immagini viene fatto in maniera semplice, con il linguaggio naturale. A nostro avviso è ancora presto per l’AI generativa, per un paragone di questo tipo, ma le capacità di Nano Banana segnano senz’altro un’evoluzione in questo campo, per molti aspetti.
In pratica il modello ci consente di applicare una “maschera semantica” a una porzione dell’immagine. Mentre in un programma di fotoritocco lo facciamo con i vari strumenti di selezione, in Google Gemini 2.5 Flash Image possiamo farlo con un semplice prompt.
Nel nostro esempio, chiedendo al modello “cambia la colorazione della maglietta in un azzurro con bordi bianchi”, esso ha limitato alla sola maglietta del calciatore l’intervento grafico che abbiamo richiesto, lasciando gli altri elementi dell’immagine intatti. Ha persino preservato le stesse pieghe con relative ombre. Con una precisione non proprio al 100%, nei nostri esempi, ma molto vicina, e certamente sufficiente per molti casi d’uso, anche se non per tutti.
Abbiamo poi esplorato un’altra delle capacità che dovrebbero figurare tra i punti di forza di Google Gemini 2.5 Flash Image Nano Banana: la fusione di due immagini.
Abbiamo dunque caricato il file del logo della nostra testata e abbiamo chiesto: “aggiungi il logo che ho caricato sulla maglia”.
Anche in questo caso, l’editing è stato fatto in modo impeccabile, preservando il resto dell’immagine.
Un altro fiore all’occhiello della paletta di strumenti di Google Gemini 2.5 Flash Image è la gestione e il rendering del testo.
Abbiamo dunque chiesto: “invece del logo fornito, aggiungi sulla maglietta la scritta ‘01net.’ come se fosse disegnata con le nuvole”.
Tralasciando il discutibile gusto estetico dell’idea (di cui ci assumiamo per intero la responsabilità), Google Gemini 2.5 Flash Image ha risposto in modo impeccabile anche a questa richiesta.
Ancora una volta il modello denominato Nano Banana ha dimostrato le sue capacità nel supportare l’utente a portare avanti una generazione di immagini interattiva e iterativa, con semplici prompt in linguaggio naturale, senza l’inconveniente di poter perdere passaggi già acquisiti a ogni nuova richiesta.
In questo modo, abbiamo la possibilità di fare prove ed esperimenti grafici senza dover ogni volta re-iniziare daccapo. Oltre tutto, Google Gemini 2.5 Flash Image si dimostra reattivo e veloce, rendendo una sessione di generazione e editing molto fluida.
Nel nostro esempio, una volta fissato il nostro soggetto principale (il calciatore con la maglietta azzurra), abbiamo potuto fare qualche esperimento con lo sponsor sulla maglietta.
Ora però possiamo chiudere il capitolo di foto in stile album di figurine: è ora che il giocatore scenda in campo. E decidiamo di farlo con il momento decisivo del calcio: l’azione del gol.
Inviamo dunque la richiesta: “Con lo stesso giocatore, crea una foto realistica di un’azione di gioco. L’ambientazione è sempre quella notturna di uno stadio con illuminazione artificiale. Gli spalti dello stadio sono riempiti dai tifosi. L’inquadratura è come se la foto fosse scattata da dietro la porta avversaria. Il giocatore sta segnando un gol di testa”.
Vogliamo poi verificare il risultato in una inquadratura in cui è il calciatore è più visibile, per valutare meglio la coerenza con la generazione a mezzo busto, nella classica azione di questo sport: la corsa palla al piede. Chiediamo quindi: “fai un’altra foto realistica con il giocatore a figura intera durante la partita, mentre sta correndo palla al piede”.
Si può apprezzare anche nelle scene d’azione la coerenza nella generazione, anche in altri dettagli minori, non sempre scontati con l’AI generativa: ad esempio, la coerenza nella colorazione della maglia, che è stata estesa inoltre a tutta la divisa (pantaloncini e calzettoni), e anche ai compagni di squadra (che hanno lo stesso sponsor).
Anche il portiere (riconoscibile da una maglia diversa dai giocatori di movimento), mantiene in modo coerente la stessa maglia da gioco tra le due immagini d’azione. Però la posizione del portiere nell’ultima immagine ci sembra poco coerente con l’inquadratura.
È una buona occasione per mettere alla prova un’altra capacità di editing del modello: rimuovere un elemento dall’immagine. Chiediamo: “rimuovi dall’immagine il portiere, con la maglia gialla”.
Certo, ormai la rimozione di elementi da un’immagine è una funzione presente nella maggior parte dei software e delle piattaforme di editing delle immagini, ma, anche in questo caso, possiamo specificare l’elemento da cancellare in modo semantico con il semplice linguaggio naturale(“il portiere, con la maglia gialla”).
Inoltre, possiamo farlo senza uscire dal nostro flusso creativo. Ad esempio, potremmo ora decidere di aggiungere un arbitro alla scena. Chiediamo dunque: “aggiungi all’immagine un arbitro con la maglietta giallo fluo, i pantaloncini neri e i calzettoni neri”.
La prima versione non ci ha convinto del tutto perché in base ai nostri gusti l’arbitro era troppo vicino. Abbiamo provato con alcuni prompt a spostarlo leggermente più indietro rispetto al soggetto principale della foto ma con risultati che non ci hanno soddisfatto del tutto.
Abbiamo dunque utilizzato di nuovo la capacità di aggiunta di una elemento a un’immagine, caricando quella senza arbitro e inviando il seguente prompt: “posiziona in questa immagine un arbitro con la maglietta giallo fluo, i pantaloncini neri e i calzettoni neri presente nella seconda immagine. l’arbitro non è in primo piano”.
Nel nostro caso, anche se, con semplici istruzioni di editing, i risultati ottenuti non ci erano sempre piaciuti del tutto, a dire il vero ciò era solo in parte attribuibile al modello. Infatti, nei nostri esempi abbiamo mantenuto i prompt fin troppo semplici e sintetici (come accade a volte per la fretta, quando tendiamo a inviare prompt digitati in modo veloce e senza rifletterci troppo).
Invece, questa è una (ri)prova che è sempre utile ragionare prima su cosa desideriamo ottenere ed elaborare il prompt di conseguenza, con ricchezza di dettagli e descrivendo in modo quanto più accurato possibile ciò che abbiamo in mente. Dare istruzioni più precise al modello su ciò che ci serve, aiuta a ottenere risultati a loro volta più precisi.
Con questa manciata di esempi abbiamo chiaramente esplorato solo una parte delle capacità di Google Gemini 2.5 Flash Image Nano Banana. Negli ultimi tempi i big del settore avevano rilasciato nuove generazioni dei propri modelli che avevano alzato ulteriormente (e in modo significativo) l’asticella per l’AI generativa di immagini: pensiamo ad esempio a Adobe con le nuove versioni di Firefly Image, a Black Forest Labs con FLUX.1 Kontext e naturalmente a OpenAI con GPT-4o Image Generation.
Con Gemini 2.5 Flash Image, Google dimostra con forza la sua intenzione di recuperare e di proporsi come attuale stato dell’arte dell’AI generativa per immagini.
A questo proposito, proponiamo una sequenza delle fasi iniziali del nostro esempio fatte generate con ChatGPT:
E nuovamente con Google Gemini:
In questo specifico esempio, in termini di coerenza, Gemini 2.5 Flash Image dimostra a nostro avviso di essere un passo avanti, ma anche l’AI generativa di OpenAI, come qualità generale delle immagini, ha raggiunto un livello molto alto.
Questo testa a testa tra i protagonisti dell’AI generativa si fa sempre più interessante per gli utenti finali, così come per le aziende e gli sviluppatori che utilizzano le API.






















