Collection#1 vs GDPR: Data Breach e riflessioni sulla Cyber Security

A cura di:Michelangelo De Bonis e Matteo De Simone 4 Febbraio 201915 Aprile 2022

Come riportato dal noto ricercatore di sicurezza Troy Hunt sul suo blog [1], è recentemente apparso sul servizio di condivisione file Mega un archivio da oltre 87 GB contenente qualcosa come 2,7 miliardi di righe. Un forum specializzato in hacking dopo poche ore ne estrae il contenuto, lo riorganizza in directory per una più facile e veloce ricerca e fruizione. Troy Hunt continua così l’analisi dei dati e scopre che, una volta ripulito, l’archivio contiene oltre 700 milioni di indirizzi mail e oltre 21 milioni di password. Molte di queste informazioni sono frutto di vecchi data breach e, forse, sono incluse anche informazioni provenienti da campagne di hacking dirette a singoli individui. Siamo probabilmente davanti ad uno degli archivi più grandi di dati personali mai recuperati, così il ricercatore ne celebra la dimensione e l’importanza battezzando questa grande raccolta di dati Collection#1.

Possiamo, quindi, interrogarci e cercare di fare un’analisi critica di questi dati oramai a disposizione di tutti.

Collection#1: 140 milioni di email e 21 milioni di password

Il numero di indirizzi email contenuti in questo colossale archivio è sicuramente un numero elevato e strabiliante ma, onestamente, l’indirizzo email non è un elemento particolarmente sensibile. Basta pensare a come noi stessi “pubblicizziamo” giornalmente il nostro indirizzo email su biglietti da visita, nei siti professionali come LinkedIn o in altre mille modi. Esistono poi dei servizi online, come il sito www.voilanorbert.com, che permettono la ricerca di indirizzi mail di utenti utilizzando nome, cognome e dominio in cui ricercare, offrono API per l’integrazione del loro servizio in bot leciti o meno. Oppure servizi come www.verificaemail.com che, come mostrato in Figura 1, ricevono uno status OK direttamente dal server del gestore di posta elettronica per la validazione o meno dell’indirizzo stesso.

Figura 1 – Esempio www.verificaemail.com

Il ricercatore Troy Hunt offre un servizio sul suo sito Have I Been Pwned (HIBP)[2], per controllare se un particolare account sia mai stato interessato o coinvolto in una violazione dei dati. Quindi non c’è da sorprendersi se l’80% degli indirizzi di Collection#1 sono risultati già presenti nel database di HIBP magari perché già coinvolti in precedenti data breach. In questo archivio risultano “sconosciuti” solo 140 milioni di indirizzi email.

E l’analisi delle password invece? Degli oltre 21 milioni di password elencate, la metà è risultata nuova al sito HIBN. Analizzando questo numero, l’ottica del “bicchiere mezzo vuoto” ci porterebbe ad affermare che sono state rese pubbliche e violate una mole enorme di password (che dovrebbero essere assolutamente cambiate molto in fretta…). D’altro canto il bicchiere può essere anche visto come mezzo pieno: perché il rapporto numerico tra password e indirizzi email presenti in Collection#1 indica che una buona metà degli utenti a cui è stata rubata la password, non la usava già su altri siti hackerati precedentemente.

Il rischio più immediato è che queste credenziali siano usate per effettuare “crediantial stuffing” cioè l’uso della combinazione email/password su svariati siti nella speranza di poter accedere contando sul fatto che, di solito, l’utente riutilizza la stessa combinazione per comodità.

Non esiste una valida alternativa alle password, questo lo sappiamo, specialmente quando si tratta di proteggere la propria casella di posta elettronica, il conto bancario online e tutti i dispositivi che archiviano i nostri dati personali. Anche nei casi di autenticazioni a due fattori o tramite token generati al volo, c’è sempre una prima combinazione utente/password a “dare il La” alla sequenza. Inoltre, le evidenze portano alla luce che gli utenti non amano sistemi complessi di autenticazione (es. solo il 10% degli utenti Google usano il sistema a due fattori [3]) e che questi sistemi di ridondanze soffrono anche di criticità gravi [4]. Ecco perché è cruciale utilizzare delle combinazioni uniche e affidabili, e non solo per i siti e i servizi più importanti. Il sito specializzato in sicurezza informatica Kaspersky offre uno strumento che permette di verificare e testare la robustezza di una password utilizzabile gratuitamente [5].

Altro strumento utilissimo che segnaliamo dal sito Kaspersky è, invece, di tenore metodologico: una metafora che ci aiuti a cambiare l’atteggiamento verso le nostre password. Gli esperti di sicurezza dell’azienda russa consigliano di pensare alle proprie password come se fossero biancheria intima [6]. Questo inusuale cambio di prospettiva da vita a tre regole fondamentali di gestione delle password:

non sono mostrate a chiunque;
sono cambiate regolarmente;
non sono esposte ben in vista sulla propria scrivania.

Se a questo saggio trittico di regole si aggiunge il buon senso di usare combinazioni lunghe, non direttamente derivabili dalla propria vita, con lettere maiuscole, minuscole, numeri e simboli, le password diventano sempre più affidabili e difficili da hackerare.

Il data breach non è questione di password

Il grosso problema dei data breach però è sostanzialmente un altro: i nostri dati sono esposti in modo totalmente indipendente dalla nostra accortezza e accuratezza. Infatti possiamo essere stati attenti ed efficaci nella scelta delle password, ma se queste sono rubate dal sito in cui sono depositate non possiamo farci nulla!

Tuttavia uno strumento utile a gestire il tema del data breach è stato recentemente introdotto in Europa. Il 25 maggio 2018 è entrato, infatti, in vigore in tutti gli Stati membri il Regolamento Ue 2016/679, noto come GDPR (General Data Protection Regulation)[7]. Tale regolamento è incentrato sulla protezione delle persone fisiche con riguardo al trattamento e alla libera circolazione dei dati personali.

Il regolamento europeo GDPR è uno strumento importante per veicolare una maggiore consapevolezza e cultura sulla cyber security nelle aziende di ogni dimensione. I meriti principali di una corretta applicazione del Regolamento sono:

l’obbligo di definire nelle aziende un processo di gestione della sicurezza dei dati
chiarire in modo inequivocabile a soggetti piccoli e grandi (dalla multinazionale alla PMI) che la sicurezza informatica è un tema non sacrificabile
per “contagio” aumentare la consapevolezza degli utenti sull’importanza dei dati personali e sugli strumenti che si hanno per assicurarsi della loro corretta conservazione

Lo sforzo – e la sfida – per tutti dovrebbe essere volto a combattere la consunzione della norma e la tentazione di incasellare il messaggio culturale e di innovazione di processo della GDPR come l’ennesima vessazione burocratica. La GDPR è l’opportunità per introdurre una nuova forma di mentalità nei comportamenti e nei processi, trasformando il tema della sicurezza in un elemento strutturale, in un cambiamento culturale.

Riferimenti

[1] https://www.troyhunt.com/the-773-million-record-collection-1-data-reach/
[2] https://haveibeenpwned.com
[3] USENIX Enigma 2018 – Anatomy of Account Takeover – https://youtu.be/W2a4fRalshI
[4] https://hackernoon.com/why-do-most-people-ignore-two-factor-authentication-1bbc49671b8e
[5] https://password.kaspersky.com/it/
[6] https://www.kaspersky.it/blog/passwords-are-like-underwear/6959/
[7] https://www.garanteprivacy.it/regolamentoue

Articolo a cura di Michelangelo De Bonis e Matteo De Simone

Profilo Autore

Michelangelo De Bonis

L’Ing. Michelangelo de Bonis è nato a San Giovanni Rotondo, FG, nel 1975. Ha conseguito la laurea in Ingegneria Informatica presso il Politecnico di Torino nel 2000; è membro IEEE e istruttore Cisco certificato.
E’ attualmente docente di ruolo di Informatica presso l’Istituto Tecnico Industriale di San Giovanni Rotondo, e svolge l’attività di consulente in reti e sicurezza informatica. I suoi principali interessi di ricerca sono la sicurezza informatica, il cyber defence, l’analisi forense, le reti neurali artificiali, bioinformatica e le Mobile Ad Hoc Networks, per i quali collabora presso l’Università degli Studi di Foggia.

Profilo Autore

Matteo De Simone

Matteo De Simone si laurea al Politecnico di Torino e lavora per alcuni anni nell’ambito della ricerca privata occupandosi di Knowledge Management e Sistemi Embedded. Completa quindi il percorso formativo con un Master in Business Administration e un dottorato di ricerca in Ingegneria Informatica sulla sintesi e analisi dell’immagine.
Da allora si occupa di progettazione e sviluppo di sistemi informatici complessi e di temi legati alla user-centered design. Oggi segue la sua start-up NetworkMamas.it e collabora stabilmente con la società di consulenza Kiwifarm.

Condividi sui Social Network:

Machine Unlearning e IA Generativa, sicurezza informatica

Machine Unlearning e IA Generativa: il mito della cancellazione dei dati nell’IA

A cura di:Redazione Pubblicato il16 Aprile 202511 Aprile 2025

Nell’universo in rapida evoluzione della sicurezza informatica, l’intelligenza artificiale generativa ha introdotto paradigmi completamente nuovi che sfidano le nostre concezioni tradizionali di protezione dei dati, privacy e cybersecurity. Tra le questioni più dibattute e fraintese emerge il concetto di “machine unlearning”, una tecnologia che promette di far “dimenticare” alle IA informazioni specifiche. Ma cosa succede…

Il CISO e la formazione del personale: strategie per rafforzare la sicurezza informatica aziendale contro le minacce cyber

Formazione e sensibilizzazione del personale: responsabilità del CISO

A cura di:Redazione Pubblicato il15 Aprile 20257 Aprile 2025

La protezione dei dati aziendali e la sicurezza delle informazioni sono temi cruciali in un mondo sempre più connesso e digitalizzato. Ogni giorno, le organizzazioni affrontano minacce sempre più sofisticate, che variano da attacchi mirati alla compromissione dei sistemi fino a comportamenti che rischiano di violare le normative sulla privacy. La responsabilità di gestire queste…

Clausole tipo GDPR: garanzie per trasferimenti dati extra-UE, codici condotta, certificazioni

Clausole tipo per il Trasferimento dei Dati Extra-UE

A cura di:Massimo Ippoliti Pubblicato il14 Aprile 202527 Marzo 2025

Questa pubblicazione fa parte di una serie dedicata al Registro dei Trattamenti in conformità al GDPR, il presente focus esaminerà le clausole tipo per la protezione dei dati in ottemperanza all’articolo 46 del GDPR, offrendo una panoramica dettagliata sulle garanzie adeguate per i trasferimenti di dati verso paesi terzi. Clausole tipo per la Protezione dei…

Evoluzione del ruolo del CISO: da figura tecnica a leader strategico nella cybersecurity aziendale

L’evoluzione del ruolo del CISO nel contesto aziendale moderno

A cura di:Redazione Pubblicato il11 Aprile 20257 Aprile 2025

In passato, i CISO si occupavano principalmente dell’implementazione di misure di sicurezza e della conduzione di analisi periodiche del rischio. Oggi, invece, ricoprono un ruolo strategico, contribuendo alle decisioni aziendali e guidando l’organizzazione nell’affrontare le sfide della digitalizzazione. Questa trasformazione non è soltanto una reazione all’aumento della complessità delle minacce informatiche, ma anche un approccio…

Chain-of-Thought e attacchi H-CoT: come gli hacker stanno sovvertendo i meccanismi di Sicurezza delle IA più avanzate

A cura di:Redazione Pubblicato il18 Aprile 202515 Aprile 2025

Nel panorama in costante evoluzione dell’intelligenza artificiale, una nuova e allarmante vulnerabilità è emersa, colpendo al cuore i sistemi di sicurezza implementati nei modelli linguistici di ragionamento più avanzati. Un recente studio condotto da ricercatori della Duke University ha portato alla luce una metodologia di attacco denominata “Hijacking Chain-of-Thought” (H-CoT), in grado di compromettere i…

Federated Learning con Privacy Differenziale: proteggere i dati nell’era dell’AI Collaborativa

A cura di:Redazione Pubblicato il17 Aprile 202511 Aprile 2025

Nel panorama attuale dell’intelligenza artificiale, il rapido sviluppo degli algoritmi di machine learning si scontra con una crescente preoccupazione per la privacy dei dati. I modelli di AI più avanzati richiedono enormi quantità di informazioni per essere addestrati efficacemente, ma questi dati sono spesso sensibili e difficili da condividere a causa di normative sempre più…

Collection#1 vs GDPR: Data Breach e riflessioni sulla Cyber Security

Collection#1: 140 milioni di email e 21 milioni di password

Il data breach non è questione di password

Riferimenti

Michelangelo De Bonis

Matteo De Simone

Machine Unlearning e IA Generativa: il mito della cancellazione dei dati nell’IA

Formazione e sensibilizzazione del personale: responsabilità del CISO

L’evoluzione del ruolo del CISO nel contesto aziendale moderno

Chain-of-Thought e attacchi H-CoT: come gli hacker stanno sovvertendo i meccanismi di Sicurezza delle IA più avanzate

Machine Unlearning e IA Generativa: il mito della cancellazione dei dati nell’IA

Formazione e sensibilizzazione del personale: responsabilità del CISO

L’evoluzione del ruolo del CISO nel contesto aziendale moderno

Chain-of-Thought e attacchi H-CoT: come gli hacker stanno sovvertendo i meccanismi di Sicurezza delle IA più avanzate

Machine Unlearning e IA Generativa: il mito della cancellazione dei dati nell’IA

Formazione e sensibilizzazione del personale: responsabilità del CISO

La Prima Rivista Italiana Dedicata alla Sicurezza Informatica

ICT Security Magazine

Collection#1: 140 milioni di email e 21 milioni di password

Il data breach non è questione di password

Riferimenti

Ultimi Articoli

La Prima Rivista Italiana Dedicata alla Sicurezza Informatica

ICT Security Magazine

Argomenti