Nonostante l’aumento della consapevolezza e della richiesta di sicurezza e responsabilità nell’ambito dell’intelligenza artificiale, un nuovo rapporto evidenzia che i test e i parametri di riferimento attualmente utilizzati per valutare la sicurezza dei modelli di intelligenza artificiale (IA) potrebbero essere gravemente insufficienti. I modelli di IA generativa, capaci di produrre testo, immagini, musica e video, sono al centro dell’attenzione per i loro errori e comportamenti imprevedibili. Tuttavia, le valutazioni esistenti potrebbero non essere adeguate a garantire la loro sicurezza.
Negli ultimi mesi, diverse organizzazioni hanno cercato di affrontare queste problematiche. La startup Scale AI ha creato un laboratorio dedicato alla valutazione dell’allineamento dei modelli alle linee guida di sicurezza. Inoltre, il National Institute of Standards and Technology (NIST) e l’UK AI Safety Institute hanno rilasciato nuovi strumenti per valutare i rischi associati ai modelli di IA. Nonostante questi sforzi, gli esperti avvertono che i metodi attuali possono rivelarsi inadeguati.
Strumenti per la valutazione dell’IA
L’Ada Lovelace Institute (ALI), un’organizzazione di ricerca britannica, ha condotto uno studio dettagliato sui limiti delle valutazioni attuali. L’indagine ha coinvolto esperti di laboratori accademici e aziende che producono modelli di IA, rivelando che le valutazioni esistenti sono spesso parziali e facilmente manipolabili. Elliot Jones, ricercatore senior presso l’ALI, ha sottolineato l’importanza di avere test rigorosi e trasparenti simili a quelli utilizzati per prodotti come smartphone e farmaci. Tuttavia, le valutazioni attuali non offrono una visione completa di come i modelli si comportano in scenari reali.
Lo studio ha identificato problemi significativi con i benchmark e il red-teaming, tecniche comuni utilizzate per testare la sicurezza dei modelli di IA. I benchmark spesso non riflettono le prestazioni reali dei modelli e possono essere manipolati se i modelli vengono addestrati sugli stessi dati su cui vengono testati. Inoltre, il red-teaming, che implica l’attacco intenzionale ai modelli per scoprire vulnerabilità, soffre della mancanza di standardizzazione e può essere costoso e laborioso, rendendolo poco accessibile per le organizzazioni più piccole.
Sfide e soluzioni per la sicurezza
La pressione per rilasciare modelli rapidamente e la riluttanza a condurre test approfonditi sono tra le principali ragioni per cui le valutazioni non sono migliorate. Gli esperti suggeriscono che i regolatori dovrebbero definire chiaramente le aspettative per le valutazioni e promuovere una maggiore partecipazione pubblica. Mahi Hardalupas dell’ALI propone lo sviluppo di valutazioni più contestuali, che considerino l’impatto specifico sui diversi gruppi di utenti e la robustezza delle misure di sicurezza implementate.
In definitiva, mentre le valutazioni attuali offrono alcuni spunti sulla sicurezza dei modelli di intelligenza artificiale, non possono garantire una sicurezza assoluta. È necessario un maggiore impegno per sviluppare metodi di valutazione più completi e robusti, che possano affrontare le sfide emergenti e garantire che i modelli di IA siano sicuri e affidabili. Come sottolineato da Hardalupas, la sicurezza non è una proprietà intrinseca dei modelli, ma dipende dal contesto d’uso e dalle misure di sicurezza adottate.