La sicurezza dei dati e l’effetto ChatGPT
Stiamo tutti vivendo l’eccitazione per il rilascio di Large Language Model (LLM), come ChatGPT di OpenAI, e di molti altri LLM di giganti tecnologici quali Google, Meta e Microsoft (definizione rapida: Gli LLM sono reti neurali artificiali utilizzate per elaborare e comprendere il linguaggio naturale. Addestrati su grandi dataset, possono essere utilizzati per una serie di compiti come la generazione di testi, la classificazione di testi, la risposta a domande e la traduzione automatica). Non sono solo le persone che sperimentano e utilizzano questi servizi di AI/ML per scopi – sia appropriati che in parte inappropriati – ma anche le applicazioni e i servizi che integrano collegamenti a questi servizi per aggiungere intelligenza e funzionalità che richiederebbero anni per essere sviluppate da soli. Basti pensare a Microsoft e alle sue integrazioni nella suite di strumenti Microsoft 365.
La fretta di affidare i dati a questi servizi porta a chiedersi se le persone riflettano prima di “smanettare”. È certamente emozionante vedere cosa producono questi modelli. A volte è rilevante, a volte è divertente, ma avviene comunque nel contesto dei dati forniti, sia che si tratti di una domanda o di una richiesta di svolgere un compito come, per esempio, “scrivimi un blog post sugli effetti dei nuovi modelli MLL basati su AI e ML e sulle implicazioni di questa tecnologia sulla sicurezza dei dati”.
Mentre gli standard di sicurezza più elementari raccomandano di proteggere i dati e di controllarne l’accesso, non è altrettanto chiaro alle persone che l’immissione di dati all’interno di motori di analytics e modelli di AI possa avere conseguenze indesiderate.
Dottore, mi fa male quando…
Un interessante caso d’uso mostra il potenziale pericolo. Le organizzazioni stanno rapidamente adottando MLL come un modo più automatizzato e intelligente di ricercare e di utilizzare i dati aziendali attraverso tutte le varie fonti di dati. Questo approccio apparentemente innocuo alla catalogazione, all’indicizzazione e al servizio dei dati aziendali potrebbe nascondere dei pericoli. Poiché le fonti di dati vengono scansionate e immesse come parte del set di addestramento, è possibile ( qualcuno potrebbe dire altamente probabile) che vengano immessi dati sensibili nel set di addestramento. È quasi impossibile, una volta che il modello è stato addestrato, sapere che cosa ha acquisito e che cosa potrebbe rivelare in risposta alle query: magari numeri di carte di credito o dati personali di clienti presenti in documenti che si trovano in qualche archivio. L’intelligenza artificiale e la ricerca aziendale sono un ottimo esempio del perché i professionisti della sicurezza devono essere disciplinati nella gestione sicura dei dati, assicurandosi di utilizzare la tokenizzazione in modo che i dati di alto valore e soggetti a regolamentazione non finiscano nei modelli, dove potrebbero emergere in seguito in modi sorprendenti e pubblici.
Può essere possibile effettuare una ricerca pulita in un indice di ricerca aziendale alla ricerca di informazioni sensibili, ma non c’è un modo efficace per ottenere una completa comprensione di ciò che sa una rete di trasformazione, poiché tutto è codificato in un contesto opaco di pesi e di data set astratti.
Una buona sicurezza dei dati può aiutare, ma non “assolvervi” dai peccati commessi in precedenza
OpenText Cybersecurity dispone di una forte competenza sulla sicurezza dei dati e dispone di best practice consolidate. È certo che stiamo assistendo a un aumento dei dati raccolti e memorizzati su un’ampia gamma di piattaforme e servizi e non è sempre evidente dove vadano a finire i dati una volta che sono stati condivisi con un’applicazione o un servizio.
Per questo motivo è bene stabilire delle regole di gestione dei dati e fornire ai dipendenti una formazione di base sulla sicurezza dei dati, che comprenda anche i rischi legati alla trasmissione dei dati a un’intelligenza artificiale pubblica, come ChatGPT. Questo è il minimo che le aziende dovrebbero fare. È importante informare i dipendenti che fornire dati a qualsiasi servizio pubblico, come MLL basati su IA e le applicazioni che includono questi servizi costituisce un potenziale pericolo. È meglio trovare il modo per fornire dati protetti o rappresentativi senza che si tratti di dati reali.
Esistono prodotti (come Structured Data Manager di OpenText Cybersecurity) in grado di analizzare un set di dati per comprenderne la struttura e i valori tipici. Ciò consente di generare dati sintetici o finti che “sembrano” appartenere al data set. Corrispondono allo schema e assomigliano ai dati che potrebbero essere inseriti nelle tabelle, nei fogli di calcolo o altro, e le applicazioni a valle non noteranno la differenza. Questo è un modo per effettuare analisi utilizzando dati che assomigliano a quelli reali, senza rischiare di esporli.
Cosa si può e si dovrebbe fare?
Sappiamo tutti che l’uso improprio e l’esposizione di dati sensibili possono causare problemi significativi difficili da risolvere e in grado di danneggiare il brand e la reputazione di un’azienda oltre che, in caso di mancata osservanza dei controlli normativi, di causare una significativa sanzione finanziaria. Pertanto, dato che questi modelli linguistici MLL (così come altri servizi di IA) non scompariranno tanto presto, è bene agire con cautela. Finché non avremo un migliore controllo sui nostri dati e non potremo garantire che l’inserimento e l’output non ci esporranno a violazioni della sicurezza o a problemi di conformità, è meglio considerare servizi come ChatGPT, Dall-E e RytR come aree di rischio a cui non destinare i dati sensibili.
Ecco alcune best practice che possono essere adottate a riguardo:
- Non inserite dati sensibili nei modelli di intelligenza artificiale se potete evitarlo e, in ogni caso, non dati sensibili o critici.
- Se dovete inserire dati sensibili o regolamentati in applicazioni o servizi di intelligenza artificiale e di analisi, utilizzate metodi di cifratura con conservazione del formato (FPE). Si tenga presente che l’FPE potrebbe produrre risultati inaspettati, potenzialmente negativi, sui modelli di intelligenza artificiale in fase di addestramento.
- Assicuratevi di aver compreso gli obiettivi e le potenziali conseguenze dell’aggiunta di dati esistenti all’interno di modelli di intelligenza artificiale prima di iniziare a caricare i dati.
- Proteggete i vostri dati, governate l’accesso a essi e verificate tutto prima che dipendenti non informati o inconsapevoli utilizzino i dati aziendali senza la vostra approvazione.
Quest’ultimo punto è una regola generale che andrebbe applicata ogni volta che si intenda condividere asset di dati di alto valore con applicazioni o servizi.
Pertanto, tutte le best practice di sicurezza logiche e di buon senso continuano a essere applicate alla gestione dei dati. Naturalmente, è necessario che tutto ciò funzioni all’interno del quadro di sicurezza e dell’ecosistema di dati dell’azienda. È inoltre necessario gestire le identità e gli accessi. Questo include l’appartenenza a gruppi e l’accesso di ospiti/fornitori per garantire che solo chi ha i diritti appropriati abbia accesso ai dati, protetti o meno! Dovreste anche proteggere i dati sensibili il più vicino possibile al punto di origine. In questo modo si garantisce che i dati che transitano attraverso i sistemi siano protetti in modo persistente e che solo chi ha i diritti appropriati possa decifrarli. Infine, la protezione dei dati può prevedere il mantenimento del formato, e questo fa sì che le applicazioni e i servizi a valle non debbano essere sviluppati per supportare i dati protetti. Con le giuste tecnologie di conservazione del formato e di miglioramento della privacy, l’integrità referenziale viene mantenuta nei database e l’elaborazione del testo per le attività di analytics non richiede alcuna modifica. Assumete il controllo del vostro destino ottenendo il controllo dei vostri dati!