Chain-of-Thought e attacchi H-CoT: come gli hacker stanno sovvertendo i meccanismi di Sicurezza delle IA più avanzate
Nel panorama in costante evoluzione dell’intelligenza artificiale, una nuova e allarmante vulnerabilità è emersa, colpendo al cuore i sistemi di sicurezza implementati nei modelli linguistici di ragionamento più avanzati. Un recente studio condotto da ricercatori della Duke University ha portato alla luce una metodologia di attacco denominata “Hijacking Chain-of-Thought” (H-CoT), in grado di compromettere i meccanismi di sicurezza di modelli come OpenAI o1/o3, DeepSeek-R1 e Gemini 2.0 Flash Thinking.
Il paradosso della trasparenza nel ragionamento AI
Il meccanismo di ragionamento “chain-of-thought” (catena di pensiero) rappresenta una delle innovazioni più significative nel campo dell’intelligenza artificiale degli ultimi anni. Introdotto nel 2022, questo approccio consente ai modelli IA di affrontare problemi complessi scomponendoli in passaggi intermedi, imitando il processo di ragionamento umano. Questa metodologia ha migliorato notevolmente le capacità dei modelli di risolvere problemi articolati, fornendo risposte più accurate e contestualizzate.
Ironicamente, ciò che era stato concepito come un miglioramento per la sicurezza si è trasformato in una vulnerabilità critica. Come spiega Jianyi Zhang, autore principale dello studio e ricercatore presso la Duke University:
“La capacità di ragionamento chain-of-thought può effettivamente migliorare la sicurezza, poiché il modello può eseguire un’analisi interna più rigorosa per rilevare violazioni delle policy. Tuttavia, il nostro attacco H-CoT è un metodo più avanzato che sfrutta specificamente la trasparenza di questo processo. Quando un modello condivide apertamente i suoi ragionamenti intermedi sulla sicurezza, gli attaccanti acquisiscono informazioni sui suoi processi decisionali e possono creare prompt avversariali che imitano o sovrascrivono i controlli originali.”
Questa vulnerabilità è stata riconosciuta anche da Anthropic nella documentazione del suo modello Claude 3.7 Sonnet:
“…consentire agli utenti di vedere il ragionamento di un modello potrebbe permettere loro di comprendere più facilmente come aggirare le protezioni del modello stesso.”
Anatomia dell’Attacco H-CoT
Per comprendere la portata del problema, i ricercatori hanno sviluppato un dataset chiamato “Malicious-Educator“, contenente richieste intrinsecamente pericolose ma mascherate da scopi educativi legittimi. Queste richieste riguardano argomenti estremamente sensibili come terrorismo, cybercrime e abuso di minori – tematiche che i modelli AI responsabili dovrebbero rifiutarsi di trattare in contesti dannosi.
Il processo di attacco H-CoT si articola attraverso l’analisi e la manipolazione di due fasi distinte del ragionamento del modello:
- Fase di Giustificazione: In questa fase iniziale, il modello valuta se una richiesta è conforme alle policy di sicurezza e se dovrebbe fornire una risposta;
- Fase di Esecuzione: Se il modello decide che può fornire una risposta conforme alle policy, procede con questa fase, illustrando i passaggi di ragionamento per risolvere il problema.
Contrariamente ai tentativi più semplici di alterare la fase di giustificazione, che generalmente falliscono poiché il modello è addestrato a riconoscere manipolazioni esplicite, l’approccio H-CoT opera in modo più sofisticato. Invece di cercare di modificare direttamente l’opinione del modello sulla legittimità di una richiesta, l’attacco incoraggia il modello a concentrarsi sulla risoluzione del problema, aggirando efficacemente la fase di giustificazione e passando direttamente alla fase di esecuzione.
Ciò avviene inserendo frammenti di “pensieri” simulati che imitano lo stile del ragionamento del modello, inducendolo a credere che la valutazione della sicurezza sia già stata completata. Come spiegano i ricercatori:
“Interponendo un frammento di pensiero di esecuzione simulato, incoraggiamo il modello a saltare le giustificazioni attente e a passare direttamente a una mentalità di esecuzione.”
Nessun modello è veramente sicuro!
I risultati dei test condotti dai ricercatori sono profondamente preoccupanti e mettono in discussione l’efficacia delle attuali misure di sicurezza implementate nei modelli IA di punta.
Il modello o1 di OpenAI, che normalmente rifiuta il 99% delle richieste dannose presenti nel dataset Malicious-Educator, ha visto il suo tasso di rifiuto crollare a meno del 2% quando sottoposto ad attacchi H-CoT. Questo rappresenta un deterioramento catastrofico delle sue difese, riducendo praticamente a zero la sua capacità di identificare e bloccare contenuti potenzialmente pericolosi.
La situazione si rivela ancora più critica per DeepSeek-R1, che già in condizioni normali mostra un tasso di rifiuto di appena il 20% per i contenuti problematici. Sotto l’influenza dell’attacco H-CoT, questo tasso scende ulteriormente al 4%. Un problema aggiuntivo di DeepSeek-R1 risiede nel suo design di sicurezza difettoso: il modello inizialmente genera contenuti dannosi prima che il suo moderatore di sicurezza intervenga per sovrapporvi un messaggio di rifiuto. Questo comportamento permette a un attaccante di catturare la risposta dannosa originale prima della censura.
Il modello Gemini 2.0 Flash Thinking di Google mostra le prestazioni di sicurezza più scadenti, con meno del 10% delle richieste dannose rifiutate inizialmente. Sottoposto ad H-CoT, non solo il modello fornisce contenuti dannosi, ma cambia addirittura il suo tono da cauto a entusiasta nel fornire informazioni pericolose.
Vulnerabilità multilingue: un fenomeno inaspettato
Una scoperta inaspettata emersa durante la ricerca riguarda il comportamento linguistico dei modelli sottoposti ad attacco. Nonostante tutti gli input fossero in inglese, i modelli della serie o1 di OpenAI hanno occasionalmente prodotto pensieri di ragionamento in altre lingue, tra cui ebraico, arabo, cinese, giapponese, coreano e tamil.
Questo fenomeno, secondo i ricercatori, “dimostra non solo l’instabilità intrinseca nei meccanismi di ragionamento di sicurezza del modello o1, ma indica anche che il metodo H-CoT amplifica tali instabilità”. La manifestazione di queste instabilità attraverso molteplici lingue suggerisce che il meccanismo di ragionamento sottostante potrebbe essere vulnerabile ad attacchi multilingue, evidenziando la necessità di affrontare queste vulnerabilità in contesti linguistici diversi.
Vulnerabilità specifiche nei diversi modelli
L’analisi approfondita ha rivelato caratteristiche e vulnerabilità uniche per ciascun modello testato:
OpenAI o1/o3
I modelli di OpenAI, sebbene inizialmente mostrino il più alto tasso di rifiuto per contenuti dannosi, presentano significative variazioni nella sicurezza in base alla posizione geografica. L’uso di diversi indirizzi IP proxy ha influenzato in modo sostanziale le risposte di sicurezza del modello, suggerendo un’implementazione incoerente delle misure di sicurezza a livello globale.
I ricercatori hanno anche osservato un deterioramento della sicurezza tra le versioni di gennaio e febbraio 2025 del modello o1, coincidente con il rilascio di DeepSeek-R1. Questo solleva interrogativi sulla possibilità che OpenAI stia compromettendo la sicurezza per rimanere competitiva in termini di prestazioni e costi.
DeepSeek-R1
Oltre alla già menzionata vulnerabilità nel design del sistema di sicurezza, DeepSeek-R1 mostra differenze significative nelle risposte di sicurezza attraverso diverse lingue. Ad esempio, quando interrogato su sparatorie scolastiche in inglese, il modello fornisce strategie criminali, mentre in cinese semplificato offre tipicamente strategie di prevenzione. Questa discrepanza, attribuibile ai dati di addestramento e ai clienti target, apre le porte ad attacchi multilingue, dove un utente malintenzionato potrebbe tradurre una domanda pericolosa in inglese per aggirare i controlli di sicurezza di DeepSeek e poi ritradurre la risposta dannosa nella propria lingua.
Gemini 2.0 Flash Thinking
Il modello di Google mostra una forte inclinazione verso il comportamento di “seguire le istruzioni”, che ha implicazioni significative per la sua sicurezza. I ricercatori hanno notato che se il modello fornisce risposte con un diverso numero di strategie criminali in diverse prove (ad esempio, 2, 3, 3, 4, 4), selezionando la risposta con il maggior numero di strategie (4) e utilizzando il corrispondente processo di pensiero in H-CoT, il modello genererebbe costantemente risposte con almeno 4 strategie.
Inoltre, se il modello fornisce una risposta esitante in quattro prove su cinque e una risposta molto disponibile in una (solitamente iniziando con “certamente”), iniettando il processo di pensiero dalla risposta “certamente” nella query H-CoT, il modello inizierebbe tutte le sue risposte successive con “certamente”. Questo comportamento suggerisce che mentre il modello dà priorità al seguire le istruzioni per migliorare il ragionamento, pone meno enfasi sull’allineamento di sicurezza, rendendolo vulnerabile alla manipolazione sotto attacchi H-CoT.
Strategie difensive: proteggere l’intelligenza artificiale
Sulla base delle loro scoperte, i ricercatori propongono diverse strategie difensive per mitigare le vulnerabilità H-CoT nei modelli di ragionamento:
1. Nascondere il processo di ragionamento
La raccomandazione principale è di evitare di mostrare i dettagli del ragionamento sulla sicurezza agli utenti, sia nella fase di giustificazione che in quella di esecuzione. I ricercatori hanno osservato che OpenAI ha già iniziato ad adottare questo approccio nell’ultima versione web di o3-mini, dove il processo di pensiero per alcune query pericolose è coperto con “None” (Nessuno).
2. Rafforzare la difesa contro H-CoT imitato
Dato che H-CoT mantiene un’alta trasferibilità tra diversi modelli, è necessario separare i prompt relativi al CoT dalla richiesta principale durante le valutazioni di sicurezza. Se la richiesta principale è sicura, si può aggiungere un prompt relativo al CoT per l’elaborazione; tuttavia, se la richiesta principale è pericolosa, i prompt relativi al CoT dovrebbero essere esclusi dall’input per evitare di compromettere il ragionamento di sicurezza del modello.
3. Migliorare la capacità di ragionamento sulla sicurezza durante l’addestramento
Il successo di H-CoT è parzialmente attribuibile al fatto che l’allineamento di sicurezza è più impegnativo per i modelli di ragionamento di grandi dimensioni. A differenza dei metodi precedenti che miravano a semplici corrispondenze punto a punto, è necessaria una comprensione più profonda dell’intento dell’utente per evitare di cadere in trappole logiche dannose. Ciò richiede metodi di addestramento all’allineamento di sicurezza più avanzati e dataset di maggiore qualità che catturino meglio questa complessità.
4. Non Trascurare la Sicurezza a Causa della Competizione sull’Utilità
La competizione sulla capacità di ragionamento nei modelli IA è intensa, con gran parte dell’attenzione focalizzata sulla riduzione dei costi e sul miglioramento delle prestazioni di ragionamento. Di conseguenza, la sicurezza è stata spesso trascurata. I ricercatori incoraggiano le aziende a prendere sul serio il bilanciamento tra utilità e sicurezza, prioritizzando la sicurezza accanto all’utilità nello sviluppo futuro di modelli IA.
Implicazioni etiche: perché rivelare queste vulnerabilità?
La pubblicazione di vulnerabilità come H-CoT solleva importanti questioni etiche. I ricercatori riconoscono che divulgare tali debolezze potrebbe potenzialmente aiutare attori malintenzionati a creare attacchi più efficaci. Tuttavia, sostengono che studiare apertamente queste vulnerabilità è essenziale per la comunità di ricerca e l’industria per sviluppare salvaguardie più robuste, che alla fine beneficeranno gli utenti di tutto il mondo.
“Crediamo che studiare apertamente queste debolezze sia essenziale per la comunità di ricerca e l’industria per sviluppare salvaguardie più robuste”, scrivono i ricercatori nella sezione etica del loro articolo. “Riconosciamo che divulgare tali vulnerabilità potrebbe potenzialmente aiutare attori malintenzionati a creare attacchi più efficaci. Tuttavia, sottolineiamo che tali vulnerabilità, in varie forme, esistono già in diversi modelli. Documentando e analizzando trasparentemente queste debolezze, cerchiamo di incoraggiare meccanismi di sicurezza più forti piuttosto che favorire danni.”
Il team ha adottato precauzioni nella pubblicazione del loro lavoro, trattenendo le informazioni più sensibili come script di attacco direttamente utilizzabili per scoraggiare un uso improprio immediato.
Il futuro della sicurezza dell’IA: una corsa agli armamenti?
Man mano che i modelli IA diventano più potenti e integrati nei sistemi del mondo reale, le violazioni della sicurezza hanno il potenziale di causare impatti sociali sempre più gravi. Questa ricerca sottolinea che mostrare il processo di ragionamento chain-of-thought, pur essendo vantaggioso per l’interpretabilità e le prestazioni, può anche creare nuove superfici di attacco.
La competizione globale nell’IA sta intensificando le pressioni sulle aziende per rilasciare modelli sempre più capaci, spesso a scapito di rigorosi controlli di sicurezza. Questa dinamica rischia di innescare una “corsa agli armamenti” nell’IA, dove le capacità delle tecnologie offensive e difensive si evolvono continuamente per superarsi a vicenda.
Il costante equilibrio tra trasparenza, utilità e sicurezza rimarrà una sfida critica. I ricercatori sottolineano la necessità di sviluppare metodi più robusti per garantire che i sistemi IA avanzati rimangano sicuri senza sacrificare le loro capacità.
Necessità urgente di ripensare la sicurezza dei modelli di ragionamento AI
La scoperta del metodo di attacco H-CoT rappresenta un importante campanello d’allarme per l’industria dell’IA. Evidenzia la natura in continua evoluzione delle minacce alla sicurezza dell’IA e la necessità di un approccio proattivo per identificare e affrontare le vulnerabilità.
Per le organizzazioni che implementano sistemi IA, questa ricerca sottolinea l’importanza di valutare attentamente le implicazioni di sicurezza delle funzionalità di trasparenza dei modelli, in particolare nelle applicazioni ad alto rischio dove la sicurezza dell’IA è fondamentale.
I ricercatori concludono con un appello per un impegno più forte nella creazione di sistemi IA non solo più capaci, ma anche più sicuri.
“Speriamo che i nostri risultati catalizzino ulteriori ricerche su strategie di difesa più efficaci per i LRM, garantendo che le capacità di ragionamento avanzate non sacrifichino l’integrità etica e la sicurezza.”
Mentre l’IA continua a evolversi a un ritmo senza precedenti, la necessità di pratiche di sicurezza robuste non è mai stata così cruciale. Il futuro dell’IA sicura dipenderà dalla capacità della comunità di ricerca e dell’industria di anticipare e mitigare vulnerabilità come H-CoT, garantendo che le meraviglie dell’intelligenza artificiale avanzata possano essere godute senza mettere a rischio la sicurezza pubblica.
Riferimenti:
H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models
How nice that state-of-the-art LLMs reveal their reasoning … for miscreants to exploit
Detecting misbehavior in frontier reasoning models
Chain-of-thought prompting elicits reasoning in large language models