Da Freepik e Fal, un nuovo modello di AI generativa per immagini open source

Freepik Fal F Lite

L’AI generativa si sta muovendo a velocità vertiginosa, spinta da una potente collaborazione open-source, tuttavia, lo sviluppo di modelli AI di alta qualità e su larga scala, addestrati esclusivamente su dati concessi in licenza, rimane una sfida significativa: in questo contesto, Freepik e Fal.ai hanno presentato F Lite, che le due aziende descrivono come un potente modello text-to-image e una pietra miliare significativa nell’AI aperta e responsabile.

I team di ricerca sull’intelligenza artificiale di Freepik e Fal hanno unito le forze per sviluppare F Lite da zero. Addestrato esclusivamente su immagini di alta qualità, legalmente conformi e sicure dal punto di vista del copyright, provenienti dalla libreria stock di Freepik, F Lite esplora ciò che è possibile fare con un set di dati molto più piccolo (solo 80 milioni di immagini, rispetto all’abituale più di un miliardo di immagini). Questo – affermano le due aziende – lo rende potenzialmente il più grande modello text-to-image disponibile al pubblico, addestrato interamente su contenuti legalmente validi.

Freepik Fal F LiteF Lite sfrutta un’architettura a 10 miliardi di parametri basata su DiT, e incorpora numerosi miglioramenti. Sebbene sia stato addestrato con meno risorse di calcolo – 64x GPU H100 in due mesi – e dati rispetto ai tipici modelli di punta, il modello secondo i team di sviluppo rimane altamente capace e pronto per ulteriori innovazioni da parte della comunità.

Freepik e Fal spiegano che F Lite eccelle nella generazione di immagini diversificate e ad alta fedeltà, soprattutto negli stili illustrativi e vettoriali che riflettono i dati di training . Essendo una prima versione, presenta alcuni limiti noti:

  • Dettaglio a grana fine: Le immagini fotorealistiche a volte mancano di texture ultra-fini.
  • Scene complesse: Composizioni o anatomie complesse possono produrre difetti.
  • Sensibilità ai prompt: Per ottenere risultati ottimali sono necessarie indicazioni descrittive; indicazioni più brevi e meno dettagliate possono dare risultati inferiori.
  • Rendering del testo: L’accuratezza del testo nelle immagini rimane una sfida nota.

Freepik Fal F LiteDopo aver effettuato test e verifiche approfondite, le aziende ritengono che l’architettura di base e la metodologia di addestramento di F Lite siano solide. Queste limitazioni riflettono principalmente i limiti dell’elaborazione e dei dati utilizzati.

Freepik e Fal stanno rilasciando due varianti di F Lite. F Lite Regular è ideale per un uso generico, mentre F Lite Textured offre una qualità estetica migliore e texture più ricche, più adatte a messaggi più dettagliati (meno efficaci con vettori e messaggi brevi).

È possibile provare queste demo:

Freepik Fal F LiteEntrambi i modelli sono rilasciati con una licenza aperta, con i pesi regular e textured disponibili su Hugging Face. Anche il codice del modello è open-source e consente di utilizzare F Lite in ComfyUI, di integrarlo nei flussi di lavoro Python tramite diffuser o di perfezionare e creare LoRA personalizzati.

Per gli appassionati di intelligenza artificiale e i ricercatori, Freepik e Fal ha pubblicato un dettagliato report tecnico su F Lite che spiega i metodi innovativi utilizzati durante l’addestramento, tra cui µ-Parameterization, WSD scheduling, Register Tokens, Residual Value Connections, Sequence Dropout, MaPO e GRPO.

È in preparazione – ha annunciato il team – anche una “versione micro” più piccola e GPU-friendly, con l’obiettivo di portare la potenza di F Lite a un numero ancora maggiore di creatori di contenuti.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome