Home Aziende Microsoft Microsoft Azure rafforza la sicurezza nello sviluppo di applicazioni di AI generativa

Microsoft Azure rafforza la sicurezza nello sviluppo di applicazioni di AI generativa

Come afferma Microsoft, nel panorama in rapida evoluzione dell’AI generativa, i leader aziendali cercano di trovare il giusto equilibrio tra innovazione e gestione del rischio. Gli attacchi di tipo “Prompt Injection” sono emersi come una sfida significativa, in cui gli attori malintenzionati cercano di manipolare un sistema di AI per fargli compiere un’azione al di fuori del suo scopo, come la produzione di contenuti dannosi o l’esfiltrazione di dati riservati.

Oltre a mitigare questi rischi di sicurezza, le organizzazioni si preoccupano anche della qualità e dell’affidabilità. Vogliono assicurarsi che i loro sistemi di intelligenza artificiale non generino errori o non aggiungano informazioni non comprovate nelle fonti di dati dell’applicazione, cosa che può erodere la fiducia degli utenti.

Per aiutare i clienti ad affrontare queste sfide di qualità e sicurezza dell’AI, Microsoft ha annunciato nuovi tool ora disponibili o in arrivo in Azure AI Studio per gli sviluppatori di applicazioni di AI generativa.

Prompt Shields è progettato per rilevare e bloccare gli attacchi prompt injection, incluso un nuovo modello per identificare gli attacchi prompt indiretti prima che abbiano un impatto sul modello del cliente; è in arrivo ed ora ora disponibile in preview in Azure AI Content Safety.

Gli attacchi di tipo Prompt Injection, sia diretti, noti come jailbreak, sia indiretti, stanno emergendo come minacce significative alla sicurezza dei modelli foundation. Gli attacchi riusciti che aggirano le mitigazioni di sicurezza di un sistema di intelligenza artificiale possono avere gravi conseguenze, come la fuga di informazioni di identificazione personale (PII, personally identifiable information) e di proprietà intellettuale (IP, intellectual property).

È per combattere queste minacce, che Microsoft ha introdotto Prompt Shields, al fine di rilevare in tempo reale gli input sospetti e bloccarli prima che raggiungano il modello foundation. Questo approccio proattivo – spiega l’azienda – salvaguarda l’integrità dei sistemi LLM (Large Language Model) e delle interazioni con gli utenti.

Gli attacchi Jailbreak, direct prompt o user prompt injection, si riferiscono alla manipolazione da parte degli utenti dei prompt per iniettare input dannosi negli LLM e distorcere azioni e output. Un esempio di comando di jailbreak è l’attacco “DAN” (Do Anything Now), che può indurre l’LLM a generare contenuti inappropriati o a ignorare le restrizioni imposte dal sistema. Prompt Shield per gli attacchi jailbreak, rilasciato lo scorso novembre come “jailbreak risk detection“, rileva questi attacchi analizzando i prompt per identificare le istruzioni dannose e bloccandone l’esecuzione.

Gli attacchi indiretti di tipo prompt injection, sebbene non siano così noti come gli attacchi di jailbreak, rappresentano una sfida e una minaccia unica, mette in evidenza inoltre Microsoft. In questi attacchi occulti, gli hacker mirano a manipolare i sistemi di intelligenza artificiale in modo indiretto, alterando i dati di input, come siti web, e-mail o documenti caricati. In questo modo gli hacker possono indurre il modello foundation a eseguire azioni non autorizzate senza manomettere direttamente il prompt o l’LLM. Le conseguenze possono essere l’acquisizione di account, contenuti diffamatori o molesti e altre azioni dannose. Per contrastare questo fenomeno, Microsoft sta introducendo un Prompt Shield per gli attacchi indiretti, progettato per rilevare e bloccare questi attacchi nascosti e supportare la sicurezza e l’integrità delle applicazioni di AI generativa.

Microsoft Azure AI

Le “allucinazioni” nell’AI generativa si riferiscono ai casi in cui un modello genera con sicurezza risultati che non corrispondono al senso comune o che mancano di dati di base. Questo problema può manifestarsi in modi diversi, che vanno da piccole imprecisioni a risultati palesemente falsi. L’identificazione delle allucinazioni è fondamentale per migliorare la qualità e l’affidabilità dei sistemi di intelligenza artificiale generativa. Per questo Microsoft ha annunciato Groundedness detection, una nuova funzione progettata per identificare le allucinazioni basate sul testo. Questa funzione rileva il “materiale non fondato” nel testo per migliorare la qualità degli output degli LLM.

Oltre all’aggiunta di sistemi di sicurezza come Azure AI Content Safety, il prompt engineering è uno dei modi più potenti e popolari per migliorare l’affidabilità di un sistema di intelligenza artificiale generativa, sottolinea ancora Microsoft. Oggi Azure AI consente agli utenti di basare i modelli foundation su fonti di dati affidabili e di creare messaggi di sistema che guidano l’uso ottimale dei dati di base e il comportamento generale (fai questo, non quello). Il tam di  Microsoft ha scoperto che anche piccole modifiche a un messaggio di sistema possono avere un impatto significativo sulla qualità e sulla sicurezza di un’applicazione. Per aiutare i clienti a creare messaggi di sistema efficaci, presto Microsoft fornirà template di messaggi di sistema di sicurezza direttamente nei playground di Azure AI Studio e Azure OpenAI Service per impostazione predefinita. Sviluppati da Microsoft Research per mitigare la generazione di contenuti dannosi e l’uso improprio, questi template possono aiutare gli sviluppatori a creare applicazioni di alta qualità in minor tempo.

Azure AI Studio offre valutazioni robuste e automatizzate per aiutare le aziende a valutare e migliorare sistematicamente le loro applicazioni di AI generativa prima di distribuirle in produzione. Mentre attualmente Microsoft supporta metriche di valutazione della qualità precostituite, come la fondatezza, la pertinenza e la fluidità, ora ha annunciato valutazioni automatizzate per nuove metriche di rischio e sicurezza. Queste valutazioni di sicurezza misurano la suscettibilità di un’applicazione ai tentativi di jailbreak e alla produzione di contenuti violenti, sessuali, autolesionistici, odiosi e scorretti. Forniscono inoltre spiegazioni in linguaggio naturale per i risultati della valutazione, per aiutare ad apportare le opportune mitigazioni. Gli sviluppatori possono valutare un’applicazione utilizzando il proprio set di dati di test o semplicemente generare un set di dati di test di alta qualità utilizzando modelli di prompt adversarial sviluppati da Microsoft Research. Grazie a questa funzionalità, Azure AI Studio può anche contribuire ad aumentare e accelerare le attività manuali di red-teaming, consentendo ai red team di generare e automatizzare i prompt avversari su scala.

Il monitoraggio dei modelli di AI generativa in produzione è una parte essenziale del ciclo di vita dell’intelligenza artificiale. A questo scopo, Microsoft ha annunciato la funzionalità di risk and safety monitoring in Azure OpenAI Service. Ora gli sviluppatori possono visualizzare il volume, la gravità e la categoria degli input dell’utente e degli output del modello che sono stati bloccati dai filtri dei contenuti e dalle blocklist di Azure OpenAI Service nel corso del tempo.

Oltre al monitoraggio e agli approfondimenti a livello di contenuti, Microsoft sta introducendo la segnalazione di potenziali abusi a livello di utente. Ora i clienti enterprise hanno una maggiore visibilità sulle tendenze in cui gli utenti finali inviano continuamente richieste rischiose o dannose a un modello di Azure OpenAI Service. Se il contenuto di un utente viene segnalato come dannoso dai filtri o dalle liste di blocco preconfigurate del cliente, il servizio utilizzerà i segnali contestuali per determinare se il comportamento dell’utente si qualifica come abuso del sistema AI. Grazie a queste nuove funzionalità di monitoraggio, le aziende possono comprendere meglio le tendenze del comportamento delle applicazioni e degli utenti e applicare queste conoscenze per regolare le configurazioni dei filtri dei contenuti, le blocklist e il design generale delle applicazioni.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php