Vibe coding sotto esame: il benchmark Armis rivela vulnerabilità diffuse nel codice generato da AI

27 Marzo 2026

La diffusione di modelli di intelligenza artificiale generativa nei processi di sviluppo software sta ridefinendo tempi e modalità di produzione del codice, ma introduce al contempo nuove superfici di rischio. In particolare, nei contesti AI-native – dove il codice viene generato, adattato e integrato con il supporto diretto di modelli linguistici – la sicurezza applicativa fatica a tenere il passo con la velocità di adozione.

Un benchmark sulla sicurezza del codice generato

È in questo scenario che si inserisce il Trusted Vibing Benchmark Report di Armis Labs, che analizza 18 dei principali modelli di AI generativa su 31 scenari di test con l’obiettivo di misurarne la capacità di produrre codice sicuro. Il dato che emerge è particolarmente significativo: il tasso di fallimento nella generazione di codice sicuro raggiunge il 100% nei contesti critici analizzati.

Le vulnerabilità risultano particolarmente diffuse in aree ad alto rischio come i buffer overflow di memoria, i sistemi di upload dei file e i meccanismi di autenticazione, ambiti nei quali errori di implementazione possono tradursi direttamente in superfici di attacco.

“Vibe coding” e responsabilità della sicurezza

Nel commentare i risultati, Nadir Izrael, CTO e co-founder di Armis, richiama l’attenzione sull’equilibrio tra velocità e controllo nello sviluppo software: “L’era del vibe coding è arrivata, ma la velocità non deve andare a discapito della sicurezza. La nostra ricerca dimostra che i principali responsabili sono spesso gli stessi attori che vendono soluzioni di sicurezza per le vulnerabilità generate dai loro modelli. Se il settore continuerà a integrare codice autonomo senza adeguati controlli, non solo rallenterà l’innovazione, ma aumenterà anche il debito tecnico”.

Blind spot diffusi e fiducia eccessiva nel codice di terze parti

Il report evidenzia come, anche nei modelli più avanzati, persistano ampie aree di vulnerabilità, con oltre il 30% degli scenari in cui viene generato codice non sicuro. Questo fenomeno è aggravato da una discrepanza tra percezione e realtà operativa: secondo dati correlati, il 77% dei responsabili IT a livello globale dichiara di fidarsi dell’integrità del codice di terze parti utilizzato nelle applicazioni critiche, mentre una quota rilevante ammette di non avere certezza che tale codice venga verificato rispetto a vulnerabilità gravi.

Differenze tra modelli e rapporto tra costo e sicurezza

Il benchmark mette in evidenza anche differenze significative tra i modelli analizzati. Alcune soluzioni più recenti mostrano prestazioni migliori sul piano della sicurezza, mentre modelli proprietari più datati evidenziano un numero più elevato di vulnerabilità e l’assenza di controlli di base.

Un aspetto rilevante riguarda il rapporto tra costo e sicurezza: modelli open source a basso costo, come Qwen 3.5 e Minimax M2.5, dimostrano prestazioni competitive rispetto a soluzioni più costose, suggerendo che il prezzo non rappresenta un indicatore affidabile della qualità del codice generato.

Le variabili operative che influenzano la sicurezza

L’analisi proposta da Armis considera non solo il comportamento dei modelli, ma anche le condizioni operative in cui il codice viene generato e testato. In particolare, il report prende in esame la modalità con cui vengono costruiti i prompt, la configurazione del test harness, l’utilizzo di funzionalità di generazione “atomiche” e la scelta degli strumenti di sicurezza applicativa, evidenziando come la qualità del codice sia il risultato dell’interazione tra questi fattori.

Dallo “scanner management” alla gestione del rischio

Alla luce di questi risultati, emerge la necessità di un’evoluzione nelle pratiche di sicurezza applicativa. Izrael sottolinea come l’approccio tradizionale non sia più sufficiente: “Le organizzazioni stanno attualmente operando in un contesto di incertezza nella valutazione del codice generato con l’AI. Per progredire efficacemente, la sicurezza applicativa deve evolvere da una logica di scanner management a una vera e propria gestione del rischio. I team di sicurezza devono smettere di essere sommersi da segnali irrilevanti e iniziare a utilizzare controlli AI-native in grado di prioritizzare le vulnerabilità in base al reale impatto sul business”.

La sicurezza della supply chain software

Il report si inserisce inoltre in un contesto in cui la supply chain del software diventa sempre più complessa e influenzata dalla presenza di componenti generati automaticamente. In questo scenario, la capacità di rilevare, contestualizzare e correggere le vulnerabilità lungo l’intero ciclo di vita del software assume un ruolo centrale.

In questa direzione si collocano anche soluzioni progettate per affrontare la sicurezza applicativa in ambienti AI-native, con l’obiettivo di proteggere la supply chain attraverso funzionalità di rilevamento, analisi contestuale e remediation delle vulnerabilità.

Il quadro delineato evidenzia come l’adozione dell’intelligenza artificiale nello sviluppo software richieda un ripensamento profondo delle strategie di sicurezza. Senza un’evoluzione parallela dei controlli e dei modelli di gestione del rischio, l’incremento di produttività rischia di tradursi in un aumento sistemico dell’esposizione alle vulnerabilità.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter