Google Research – la divisione di Google dedicata alla ricerca scientifica di base e all’innovazione tecnologica – ha presentato VaultGemma, che l’organizzazione descrive come il modello più potente addestrato da zero con privacy differenziale.
Il team spiega il contesto di questa attività di ricerca. Man mano che l’intelligenza artificiale diventa sempre più integrata nelle nostre vite, svilupparla ponendo la privacy al centro è una sfida fondamentale per questo settore. La differential privacy (DP), privacy differenziale, offre una soluzione matematicamente solida aggiungendo rumore calibrato per impedire la memorizzazione.
La differential privacy, infatti, è un framework matematico rigoroso per la protezione della privacy ideato per garantire che i risultati di un’analisi di dati non rivelino informazioni sensibili sui singoli individui presenti nel dataset.
Tuttavia, mette in evidenza Google Research, l’applicazione della DP agli LLM comporta dei compromessi e comprendere questi compromessi è fondamentale. L’applicazione del rumore DP altera le tradizionali leggi di scalabilità, ovvero le regole che descrivono le dinamiche delle prestazioni, riducendo la stabilità dell’addestramento (la capacità del modello di apprendere in modo coerente senza subire eventi catastrofici come picchi di perdita o divergenze) e aumentando significativamente la dimensione dei batch (una raccolta di prompt di input inviati simultaneamente al modello per l’elaborazione) e i costi di calcolo.
La nuova ricerca di Google Research, “Scaling Laws for Differentially Private Language Models“, Leggi di scalabilità per modelli linguistici con privacy differenziale, condotta in collaborazione con Google DeepMind, stabilisce leggi che modellano accuratamente queste complessità, fornendo un quadro completo dei compromessi tra potenza di calcolo, privacy e utilità.
Sulla base di questa ricerca, Google Research ha quindi introdotto VaultGemma, presentato il più grande modello aperto (1 miliardo di parametri) addestrato da zero con privacy differenziale. L’organizzazione ha rilasciato i pesi su Hugging Face e Kaggle, insieme a un report tecnico, per promuovere lo sviluppo della prossima generazione di IA privata.
Secondo Google research, i modelli Gemma sono progettati ponendo al centro la responsabilità e la sicurezza e ciò li rende una base naturale per lo sviluppo di un modello addestrato con differential privacy e di qualità di produzione come VaultGemma.
Le leggi di scalabilità che Google Research ha derivato rappresentano un primo passo importante verso l’addestramento di un modello Gemma utile con DP. Il team di ricerca ha utilizzato le leggi di scalalabilità per determinare sia la quantità di calcolo necessaria per addestrare un modello basato su Gemma 2 con 1 miliardo di parametri ottimizzato dal punto di vista computazionale con differential privacy, sia come allocare tale calcolo tra dimensione del batch, iterazioni e lunghezza della sequenza per ottenere la massima utilità.
Pertanto, secondo Google Research VaultGemma rappresenta un significativo passo avanti nel percorso verso la creazione di un’intelligenza artificiale che sia potente e privata fin dalla sua progettazione. Sviluppando e applicando una nuova e solida comprensione delle leggi di scalabilità per la privacy differenziale, i ricercatori sono riusciti a addestrare e rilasciare il più grande modello linguistico aperto e addestrato con DP mai realizzato fino ad oggi.
Sebbene esista ancora un divario di utilità tra i modelli addestrati con DP e quelli non addestrati con DP, i ricercatori di Google ritengono che tale divario possa essere sistematicamente ridotto con ulteriori ricerche sulla progettazione dei meccanismi per l’addestramento differential privacy. VaultGemma e questa ricerca possono consentire alla community di costruire la prossima generazione di IA sicura, responsabile e riservata per tutti.
Ulteriori informazioni sono disponibili nel blog di Google Research.









