È online il nuovo studio del CERT-AgID che analizza i meccanismi con cui i sistemi di Intelligenza Artificiale decidono di rifiutare le richieste degli utenti, un comportamento noto come refusal.
L’analisi dimostra che questo meccanismo di difesa non è solo una rigida regola astratta appresa dal sistema, ma assume una vera e propria "forma geometrica" all'interno del modello, e come tale può essere studiata, tracciata e modificata, con l'obiettivo di ridurre i rifiuti su prompt malevoli mantenendo stabilità su quelli benigni.
Come funziona la "mappa interna" dell'IA e la tecnica dello steering
Quando un utente inserisce una richiesta, il modello linguistico non elabora semplici parole, ma le trasforma in coordinate matematiche, posizionandole su una sorta di mappa interna chiamata "spazio latente". Lo studio del CERT-AgID evidenzia che su questa mappa le richieste tendono a raggrupparsi in zone distinte: le richieste “innocue” si concentrano in una regione, mentre quelle considerate pericolose o non consentite si raggruppano in un'area diversa.
Poiché, qualora esistesse una separazione tra queste due zone, sarebbe possibile tracciare una direzione per attraversare questo confine. Utilizzando una tecnica chiamata activation steering, infatti, si può intervenire delicatamente durante l'elaborazione del testo per "spostare" la traiettoria del modello. In questo modo, l'IA viene guidata verso la zona sicura, riducendo i rifiuti senza però degradare la qualità della lingua o alterare le risposte alle domande normali.
La ricerca della rotta ottimale e i risultati
Per capire quale fosse il modo migliore per orientare il modello, lo studio ha messo a confronto diversi metodi matematici per calcolare questa rotta. Sono stati testati approcci semplici, che si limitano a calcolare la differenza tra le zone, e approcci molto più complessi (come le Recursive Feature Machines), capaci di adattarsi alla forma esatta del confine.
I test, condotti sul modello aperto Mistral-7B, hanno rivelato un aspetto molto interessante: la separazione tra ciò che è innocuo e ciò che fa scattare il blocco è in realtà molto lineare. Di conseguenza, le soluzioni più semplici si sono rivelate altrettanto efficaci di quelle più complesse, permettendo di orientare il comportamento del sistema in modo stabile ed evitando che l'IA perda coerenza o generi testi frammentari.
Le implicazioni per la Pubblica Amministrazione
La ricerca suggerisce che il comportamento dell'Intelligenza Artificiale può essere studiato e corretto direttamente alla radice, rendendo i sistemi molto più trasparenti e verificabili.
Questo aspetto assume una rilevanza cruciale per la Pubblica Amministrazione. L’utilizzo di modelli open-weight (ovvero modelli aperti e installabili sui propri server) permette alle istituzioni di analizzare i meccanismi decisionali dell'IA e di applicare queste tecniche di controllo in totale autonomia. Questa architettura garantisce la possibilità di effettuare verifiche tecniche indipendenti e, soprattutto, di proteggere i dati dei cittadini, poiché permette di gestire l'intero processo senza dover trasferire informazioni sensibili verso servizi esterni o proprietari.
