Meta Dinov3, il nuovo modello di visione artificiale all’avanguardia ad alta risoluzione

Meta Dinov3

Meta ha rilasciato DINOv3, un modello di visione artificiale generalista e all’avanguardia, addestrato con SSL, self-supervised learning, e progettato per produrre funzioni visive ad alta risoluzione di qualità superiore. Per la prima volta, afferma l’azienda, un unico backbone di visione “frozen” supera le soluzioni specializzate in molteplici compiti di previsione densa di lunga data, tra cui il rilevamento di oggetti e la segmentazione semantica.

L’apprendimento auto-supervisionato (self-supervised learning, SSL), ovvero il concetto secondo cui i modelli AI possono apprendere in modo indipendente senza la supervisione umana, è emerso come paradigma dominante nel machine learning moderno, sottolinea il team. Ha favorito l’ascesa di modelli linguistici di grandi dimensioni che acquisiscono rappresentazioni universali grazie al pre-addestramento su corpora di testo di grandi dimensioni. Tuttavia, i progressi nella visione artificiale sono rimasti indietro, poiché i modelli di codifica delle immagini più potenti continuano a fare ampio ricorso a metadati generati dall’uomo, come le didascalie web, per l’addestramento.

Meta afferma che le prestazioni innovative di DINOv3 sono rese possibili da tecniche SSL innovative che eliminano la necessità di dati etichettati, riducendo drasticamente il tempo e le risorse necessarie per il training e consentendo al team di scalare i dati di addestramento a 1,7 miliardi di immagini e la dimensione del modello a 7 miliardi di parametri. Questo approccio label-free consente applicazioni in cui le annotazioni sono scarse, costose o impossibili. Ad esempio, le ricerche di Meta mostrano che backbone DINOv3 pre-addestrati su immagini satellitari ottengono prestazioni sorprendenti in task downstream come la stima dell’altezza della chioma forestale.

Meta ritiene che DINOv3 contribuirà ad accelerare i casi d’uso esistenti e ad aprirne di nuovi, portando a progressi in settori quali la sanità, il monitoraggio ambientale, i veicoli autonomi, il retail e la produzione, consentendo una comprensione visiva più accurata ed efficiente su larga scala.

Meta sta rilasciando DINOv3 con una suite completa di backbone open source sotto licenza commerciale, incluso un backbone satellitare addestrato su immagini MAXAR. L’azienda sta anche condividendo un sottoinsieme dei suoi head di valutazione downstream, consentendo alla community di riprodurre i risultati di Meta e di svilupparli ulteriormente. Inoltre, sta fornendo notebook di esempio in modo che la community disponga di una documentazione dettagliata che la aiuti a iniziare a costruire con DINOv3 subito.

Maggiori informazioni e link di approfondimento su DINOv3 sono disponibili nel blog di Meta.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome