Il fenomeno dei Deepfake e le implicazioni cruciali per la Cybersecurity
La misinformazione è un inganno. La disinformazione è un imbroglio
Toba Beta
Preambolo: avete idea di quante captazioni “vocali” giornaliere siamo vittime, spesso inconsapevoli, e quanto è grande la galassia dei microfoni che ascoltano tutti i giorni la nostra voce, senza soluzione di continuità?
Un hacker falsifica la voce di un dipendente appartenete ad una società operativa nel settore informatico, iper specializzata nella creazione di software per la sicurezza ICT delle aziende, acquisendo durante una telefonata diversi dati con la tecnica della social engineering ottenendo così la descrizione planimetrica dell’edificio, i nominativi di alcuni colleghi, informazioni e impronta vocale dell’ignaro interlocutore, dati personali e voce che successivamente utilizzerà per confezionare la doppia “falsa identità”, credenziali necessarie per violare i livelli di sicurezza “logica” aziendale, portando brillantemente a segno l’attacco!
L’ingannevole doppia identità, conosciuta negli ambienti professionali come identità “Frankenstein”, è una tipologia di inganno in cui i criminali, combinando una serie di dati tra informazioni reali e false, creano da zero “doppie copie” di identità realmente esistenti.
Nel corso del 2022, il 46% delle organizzazioni aziendali mondiali sono state vittime di frodi “sintetiche”, hackerate, loro malgrado, utilizzando come grimaldello digitale le nuove tecnologie integrate con l’intelligenza, un evento che ha sollevato serie preoccupazioni in tema di sicurezza informatica, poiché proprio la AI può rendere più semplice la frode, poiché gli audio e i video creati artificialmente da manipolazione digitale, diventano sempre più credibili e realistici.
Ora, in questa rivoluzione digitale è fin troppo evidente la posizione che il cybercrime assumerà, sfruttando questi nuovi strumenti a suo vantaggio e per scopi di illecito profitto, difatti, le frodi online sono nuovamente cresciute per frequenza, con aggressioni di phishing (una ogni undici secondi!) molto più sofisticate.
Ma perché le tecniche di phishing sono notevolmente aumentate negli ultimi anni? Una parte della risposta va sicuramente ricercata all’interno delle tecnologie NPL (Natural Language Processing), laddove le tecniche di elaborazione del linguaggio naturale rappresentano un settore particolare dell’intelligenza artificiale (AI) che consente ai computer di comprendere, riprodurre e manipolare il linguaggio umano.
Parliamo di modelli AI sempre più potenti, specialmente quando uniti a strumenti di intelligenza generativa GenAI (ChatGPT di OpenAI), forniscono ai cyber scammers una infrastruttura impressionante in grado di creare, ad esempio, script grammaticalmente accurati da utilizzare come perfetto inganno per portare a segno un impressionante volume di frodi informatiche che per ricadute, velocità e precisione non ha precedente alcuno.
Quindi, benvenuti nel nuovo mondo delle synthetic identity (identità sintetiche), nell’era delle frodi per mezzo dei deepfake, una modalità di attacco molto raffinata, perché supportata dalla AI, da tecniche di ingegneria sociale, e da tutta una serie di vulnerabilità e debolezze, più o meno presenti all’interno della stragrande maggioranza dei sistemi informatici, tanto aziendali quanto pubblici.
Inoltre, la rapida crescita di varie piattaforme intelligenti sta causando una serie di problematiche di sicurezza logica nel perimetro della ICT security, rendendo pericolosamente più semplicistica la creazione di truffe audio-video online.
La tecnica dei deepfake trae le sue origini nel contesto della pornografia non consensuale, utilizzata per compiere atti illeciti (reati penali) di revenge porn, una tecnica impiegata per creare immagini umane sintetizzate basata su tecnologie di machine learning chiamate Generative Adversarial Networks, necessarie per unire e sovrapporre immagini e/o video reali alle immagini e/o video originali, in grado di riprodurre artificiosamente false “prove” dotate di personaggi realistici, protagonisti in scene mai accadute.
Secondo un sondaggio fatto sugli attacchi deepfake, i falsi artefatti biometrici audio-video vengono percepiti come reali minacce dall’80% delle aziende intervistate; addirittura negli Stati Uniti questo dato sale al 91% delle organizzazioni, un valore tale da considerarlo una minaccia concreta e crescente.
Ma l’uso deleterio della tecnologia non si esaurisce con un semplice fake video, si spinge oltre, raggiungendo la migliore performance con la peggiore delle creazioni: i deepfake audio.
Realizzarne uno, rimane ancora oggi un esercizio tecnicamente complesso, per abilità informatiche e potenze di calcolo da attrezzare in campo, difatti, per realizzare un file video accettabile di appena un minuto, se ne spendono oltre tremila per crearlo.
Ma cos’è e come si realizza praticamente un deepfake audio? Tutto nasce con l’elettronica moderna, quando la diffusione dei circuiti integrati concesse al dominio dell’elettronica digitale la conquista di importanti spazi, via via sempre più ampi, all’interno del settore audio della produzione industriale degli strumenti musicali, rivoluzionando, appunto, la creazione di musica a partire dagli anni ottanta.
Infatti, con la nascita dei sintetizzatori elettronici (elettrofoni) si delinea un preciso momento storico nel campo musicale, perché proprio la sintesi digitale soppianterà quella analogica, utilizzando apparecchiature digitalizzate chiamate synthesizer capaci di emulare la “voce” di uno strumento reale, quando non addirittura generandone di nuovi, con inediti suoni di strumenti “inesistenti”.
Questa futuristica tecnologia sarà la “madre” ingegnosa dei fake audio, ma con una micidiale differenza: la figlia sarà più temibile, perché fortemente evoluta.
Detto ciò, analizziamo allora il termine deepfake: un neologismo formato dall’unione semantica di due anglicismi, deep, parola separata della locuzione deep learning, una classe di algoritmi per l’apprendimento automatico utilizzati nella AI, e la parola fake, semplicemente un falso.
Sostanzialmente i deepfake non sono altro che dei falsi realistici realizzati grazie a potenti software che, impiegando specializzati algoritmi, ci restituiscono artificiosamente l’imitazione perfetta della voce di una persona al solo scopo di fargli pronunciare cose che in realtà non ha mai detto.
Ma è realmente possibile riconoscere un audio autentico da uno falso? Si, è possibile, ma non certo ad una “macchina umana”, che ha scarse capacità analitiche nel risolvere il dilemma vero/falso, rispetto ad un computer; occorrono, piuttosto, robusti algoritmi istruiti nel riconoscere le proprietà naturali di una voce umana, caratteristiche queste, incoerenti con le discrepanze digitali prodotte dalle sinterizzazioni elettroniche.
Su questo aspetto, anni fa un esperto di settore pronunciò questa frase: ciò che i nostri occhi non vedono e le orecchie non sentono in questi fake audio-video sono i dati digitali che compongono il file manipolato.
L’interazione uomo-macchina è da sempre un tema centrale e affascinate, su cui la ricerca scientifica e tecnologica, supportate anche da una riflessione umanistica, si sono spese molto nell’ultimo secolo; peraltro, per testare l’efficacia di un software specializzato nel rilevare i fake, confrontandola con la capacità naturale degli umani nel riconoscere gli artefatti, un gruppo di ricercatori tedeschi crearono in laboratorio oltre 1.000 file audio-video falsi, facendoli analizzare poi sia dalle macchine che dagli esseri umani, ottenedo questo risultato: gli umani non sono andati oltre il 50% dell’identificazione, mentre i computer sono arrivati al 98% dei riconoscimenti!
Un risultato del tutto scontato, per ovvie ragioni, una su tutte: un file voice computerizzato contiene generalmente frequenze che un essere umano non riuscirà ma a produrre, come pure particolari caratteristiche che il naturale parlato non ha; peraltro, una traccia di un secondo del normale parlato contiene tra gli 8.000 e i 50.000 campioni di dati, che quando analizzati logicamente fanno la differenza uomo-macchina, scoprendo il falso.
Come sappiamo, ad esempio, che i suoni di due vocali si contraddistinguono sempre tra loro per una separazione minima, perché è fisicamente impossibile per un essere umano pronunciare vocali in modo veloce e nettamente separato, questo a causa del ritardo con cui i muscoli della bocca e le corde vocali riescono a muoversi, di conseguenza se l’audio considerato contiene le due vocali adiacenti pronunciate ben scandite e ad alta velocità, la tal cosa genera un allarme di file falso, di conseguenza qualcosa non va.
Quindi, ora è chiaro a tutti come la tecnica dei falsi audio è di gran lunga più insidiosa, rispetto a quella video molto più imprecisa (sincronismo ancora imperfetto tra labiale e suono prodotto, movimenti della testa, altissima qualità dei video da modificare, etc), perché offre minori possibilità di salvezza, meno indizi nel capire se siamo realmente di fronte ad una voce autentica o artefatta, presentando perciò tutta una serie di rischi e pericoli, tra i quali le frodi e le manipolazioni, la diffamazione gratuita con danni alla reputazione, le manipolazioni audio-video delle prove giudiziarie (con implicazioni legali ed etiche), e non ultima, la sfera e la sicurezza della privacy personale e dei dati trattati.
Su quest’ultimo punto c’è un documento informativo pubblicato nel dicembre 2020 dall’Autorità Garante per la protezione dei dati personali, dove tutta la questione dei deepfake viene definita come una forma particolarmente grave del furto d’identità personale.
Argomento, quello della privacy e la sicurezza dei dati, nuovamente affrontato dall’Autorità nell’ottobre 2022; il Garante aprendo una puntuale istruttoria indagherà nei confronti della società che fornisce la App Fakeyou, applicazione che consente di trasformare file di testo in audio digitali vocali falsi, ma realistici, anche di personaggi noti, quindi le preoccupazioni del Garante “si indirizzano verso i potenziali rischi che potrebbero determinarsi da un uso improprio di un dato personale, quale è appunto la voce”.
Di centrale importanza, per l’Autorità, sono le modalità utilizzate nella costruzione dei file vocali, la tipologia dei dati personali utilizzati, non ultima la finalità del trattamento; così come non meno importante è l’attenzione data alle misure di sicurezza adottate e l’ubicazione dei data center, le misure tecniche-organizzative adottate sulle infrastrutture per garantire un livello di sicurezza dei dati archiviati, adeguato al rischio in gioco.
Quanto detto si qui ci spinge ad una ulteriore riflessione: oltre ai software deputati al riconoscimento delle ingannevoli messinscena, è ormai necessario un concreto intervento del legislatore per governare la complessità di questi processi e sull’uso ragionato dell’intelligenza artificiale, che oltre ai possibili risvolti positivi e alle efficaci applicazioni della tecnologia, ebbene, proprio mettendo in risalto il fattore dual use che la tal cosa pone in discussione il possibile uso delle tecniche di deepfake quale elemento di disturbo, di distorsione delle prove anche in ambito giudiziario.
Dunque siamo, tecnologicamente parlando, dinanzi l’ennesimo inseguimento tra “guardie e ladri”? Perché non vorremo ritrovarci nuovamente nella affannosa rincorsa consumatasi in questi ultimi cinquant’anni: quella tra virus e antivirus!
Del resto, con le iperboliche mutazioni tecnologie in atto, le “guardie” rimangono le vittime condannate a correre più velocemente degli algoritmi “ladri”, costantemente addestrati nell’essere sempre più accurati, precisi, ma in grado di rovinarci la vita, la nostra reputazione, di esporci sempre più facilmente ai ricatti e alle estorsioni digitalizzate.
Articolo a cura di Giovanni Villarosa
Giovanni Villarosa, laureato in scienze della sicurezza e intelligence, senior security manager, con estensione al DM 269/2010, master STE-SDI in sistemi e tecnologie elettroniche per la sicurezza, difesa e intelligence.