Big Data: Gestione e Analisi dei Dati su Larga Scala
Questo articolo è il primo di una serie estratta dal white paper “Big e Fast Data: tra sfida per la sicurezza e privacy”. In questa prima parte esploreremo in dettaglio i Big Data, le loro caratteristiche fondamentali e le implicazioni per il business moderno.
Cosa Sono i Big Data: Definizione e Caratteristiche Principali
“La definizione di Big Data è un dato che contiene una maggiore varietà, arrivando in volumi crescenti e con maggiore velocità. questo è anche noto come le tre v.”[1]
In parole povere, i Big Data sono insiemi di dati più grandi e complessi, soprattutto provenienti da nuove fonti di dati. Questi set di dati sono così voluminosi che i software di elaborazione dati tradizionali non sono in grado di gestirli. Tuttavia questi enormi volumi di dati possono essere utilizzati per risolvere problemi aziendali che prima non si sarebbe stati in grado di affrontare.
Storia ed Evoluzione dei Big Data: Dagli Anni ’60 ad Oggi
Sebbene il concetto stesso di Big Data sia relativamente nuovo, le origini dei grandi set di dati risalgono agli anni ’60 e ’70, quando il mondo dei dati era appena agli inizi con i primi data center e lo sviluppo del database relazionale. Intorno al 2005, le persone hanno iniziato a rendersi conto della quantità di dati generati dagli utenti attraverso Facebook, YouTube e altri servizi online. Hadoop, un framework open source creato appositamente per archiviare e analizzare set di Big Data, è stato sviluppato nello stesso anno. Anche Nosql ha iniziato a guadagnare popolarità durante questo periodo.
Lo sviluppo di framework open source, come Hadoop e, più recentemente, Spark, è stato essenziale per la crescita dei Big Data perché rendono i Big Data più facili da usare e più economici da archiviare. Negli anni successivi, il volume dei Big Data è salito alle stelle. Gli utenti continuano a generare enormi quantità di dati, ma non sono solo gli esseri umani a farlo.
Con l’avvento dell’Internet of Things (IoT), sempre più oggetti e dispositivi sono connessi a Internet, raccogliendo dati sui modelli di utilizzo dei clienti e sulle prestazioni dei prodotti. l’emergere dell’apprendimento automatico ha prodotto ancora più dati”[2].
Sfide e Opportunità dei Big Data
“Sebbene i Big Data abbiano fatto molta strada, la loro utilità è solo all’inizio. Il cloud computing ha ampliato ulteriormente le possibilità dei Big Data”[3].
Il cloud offre una scalabilità veramente elastica, in cui gli sviluppatori possono semplicemente creare cluster ad hoc per testare un sottoinsieme di dati. In questo ambito anche i database a grafo stanno diventando sempre più importanti, con la loro capacità di visualizzare enormi quantità di dati in un modo che rende l’analisi veloce e completa. Innanzitutto, i Big Data sono… grandi. Sebbene siano state sviluppate nuove tecnologie per l’archiviazione dei dati, i volumi di dati raddoppiano di dimensioni circa ogni due anni. Le organizzazioni faticano ancora a tenere il passo con i propri dati e a trovare modi per archiviarli in modo efficace.
Ma non è sufficiente archiviare i dati. I dati devono essere utilizzati per essere preziosi e questo dipende dalla cura. I dati puliti, o i dati rilevanti per il cliente e organizzati in modo da consentire un’analisi significativa, richiedono molto lavoro. I data scientist dedicano dal 50 all’80% del loro tempo alla cura e alla preparazione dei dati prima che possano essere effettivamente utilizzati.
Infine, la tecnologia dei Big Data sta cambiando a un ritmo rapido. Oggi, una combinazione dei due quadri sembra essere l’approccio migliore. Stare al passo con la tecnologia dei Big Data è una sfida continua[4].
Le Tre Azioni Chiave per l’Implementazione dei Big Data
I Big Data offrono nuove informazioni che aprono nuove opportunità e modelli di business. Per iniziare, sono necessarie tre azioni chiave:
1.Integrazione dei Big Data
“I Big Data aggregano dati provenienti da molte fonti e applicazioni disparate. I meccanismi tradizionali di integrazione dei dati, come l’estrazione, la trasformazione e il caricamento (ETL), in genere non sono all’altezza del compito”[5]. Richiede nuove strategie e tecnologie per analizzare i grandi set di dati su scala terabyte o addirittura petabyte.
Durante l’integrazione, è necessario inserire i dati, elaborarli e assicurarsi che siano formattati e disponibili in un formato con cui gli analisti aziendali possano iniziare.
2.Gestione dei Big Data
“I Big Data richiedono spazio di archiviazione. La soluzione di archiviazione può essere nel cloud, on-premise o in entrambi. È possibile archiviare i dati in qualsiasi forma desiderata e trasferire i requisiti di elaborazione desiderati e i motori di processo necessari a tali set di dati su richiesta”[6]. Molte persone scelgono la loro soluzione di archiviazione in base a dove risiedono attualmente i loro dati. Il cloud sta gradualmente guadagnando popolarità perché supporta gli attuali requisiti di calcolo e consentono di attivare le risorse in base alle esigenze.
3.Analisi dei Big Data
“L’investimento nei Big Data restituisce valore quando analizza e agisce concretamente sui propri dati perché consente nuova chiarezza con un’analisi visiva dei vari set di dati che consente di fare nuove scoperte. É quindi possibile condividere le proprie scoperte con gli altri e creare modelli di dati con l’apprendimento automatico e l’intelligenza artificiale”[7].
Architetture di Computing per i Big Data
I “Big Data” riconducono all’enorme quantità di dati disponibili per le organizzazioni che, a causa del volume e della complessità, non sono facilmente gestiti o analizzati da molti strumenti di business intelligence. Gli strumenti per i Big Data possono essere d’aiuto con il volume di dati raccolti, la velocità con cui questi dati diventano disponibili per un’organizzazione per l’analisi e la complessità o varietà di questi dati.
Con l’emergere dei Big Data, sono emersi modelli di computing con la capacità di archiviarli e gestirli. I sistemi di computing centralizzati o distribuiti forniscono l’accesso ai Big Data. Computing centralizzato significa che i dati vengono archiviati su un computer centrale ed elaborati da piattaforme di calcolo come BigQuery.
Computing distribuito significa invece che i Big Data vengono archiviati ed elaborati su computer diversi che comunicano su una rete. Un framework software come Hadoop consente di archiviare i dati e di eseguire applicazioni per elaborarli.
L’utilizzo del computing centralizzato e l’analisi dei Big Data nel luogo in cui risiedono, offre dei vantaggi rispetto all’estrazione dei dati per l’analisi da un sistema distribuito. Quando i Big Data vengono ospitati in un unico luogo e analizzati da una piattaforma, gli insight sono accessibili a ogni utente dell’azienda e integrati nei flussi di lavoro quotidiani.
I Big Data differiscono dai tipici asset di dati a causa della complessità del loro volume e della necessità di strumenti avanzati di business intelligence per elaborarli e analizzarli.
Le Sette “V” dei Big Data: Caratteristiche Fondamentali
Gli attributi che definiscono i Big Data sono volume, velocità, varietà, validità, veridicità, volatilità, valore, anche conosciute come sette.”V”[8] (figura 1.), ovvero:
- Volume di dati che rappresenta la quantità totale di informazioni o dati che sono generati, raccolti o archiviati in un determinato contesto o sistema. La dimensione del volume di dati è spesso espressa in unità di misura come byte, kilobyte, megabyte, gigabyte, terabyte o anche petabyte, a seconda delle dimensioni dell’insieme di dati[9].
- Velocità dei dati che si riferisce alla rapidità con cui le informazioni vengono ricevute e analizzate. Le organizzazioni si stanno adattando a gestire flussi continui di dati in movimento anziché solo dati statici. Questa transizione da analisi periodiche a analisi in tempo reale è motivata dalla breve validità dei flussi di dati. La velocità non riguarda solo il processo di analisi, ma anche la percezione culturale degli utenti, che vedono la tempestività nella trasmissione dei dati come un valore aggiunto per il loro lavoro. La necessità di reazioni rapide sottolinea l’importanza di elaborare i dati con crescente velocità, spesso in tempo reale.
- Varietà dei dati che utilizza degli strumenti di data integration che permettono di combinare dati provenienti da diverse fonti e formati. Inoltre, per affrontare la complessità dei dati non strutturati, quali testi, immagini o video, è opportuno implementare tecnologie avanzate come il Natural Language Processing o la Computer Vision.
- Veridicità dei dati che implementa processi di controllo della qualità, che comprendano tecniche di data cleaning e algoritmi di rilevamento degli errori. Inoltre, per mantenere la sicurezza dei dati e assicurare la loro veridicità, è cruciale adottare misure di sicurezza adeguate a proteggerli da accessi non autorizzati o modifiche indebite.
- Validità dei dati, in relazione ai modi in cui vengono analizzati, che si riferisce alla coerenza e all’affidabilità delle informazioni nel contesto delle metodologie di analisi adottate. In sostanza, la validità sottolinea la congruenza dei dati rispetto alle tecniche e agli strumenti impiegati per esaminarli. Un insieme di dati è considerato valido se le informazioni che fornisce sono coerenti e pertinenti alla specifica metodologia analitica utilizzata. La valutazione della validità dei dati è fondamentale per garantire che le conclusioni derivate dall’analisi siano accurate e che le informazioni estratte siano affidabili, contribuendo così a prendere decisioni informate basate su dati solidi e pertinenti.
- Valore dei dati che è essenziale per definire obiettivi chiari prima dell’analisi dei dati. Per estrarre valore, è necessario utilizzare strumenti avanzati come apprendimento automatico, intelligenza artificiale o visualizzazione dei dati. Integrare i risultati nelle decisioni aziendali richiede una collaborazione tra i team di analisi dei dati e i responsabili delle decisioni aziendali.
- Volatilità nel tempo che si riferisce alla capacità intrinseca dei dati di mantenere la loro affidabilità e leggibilità nel corso dell’evoluzione delle nuove tecnologie di archiviazione. In altre parole, è la misura della resistenza dei dati alle trasformazioni o agli avanzamenti nel campo delle tecnologie di archiviazione. Una maggiore volatilità nel tempo implica che i dati conservino la loro integrità e comprensibilità anche quando vengono trasferiti o archiviati in nuovi ambienti tecnologici. Questa caratteristica diventa cruciale nel contesto della rapida evoluzione delle tecnologie, poiché assicura che le informazioni conservate rimangano pertinenti e accessibili nel lungo periodo, contribuendo alla continuità e all’affidabilità delle risorse informative.
Figura 1. Le sette “V” dei Big Data (realizzazione Michel Durinx).
Applicazioni Pratiche e Vantaggi Competitivi dei Big Data
I dati possono essere la risorsa più preziosa di un’azienda, in quanto sono in grado di veicolarsi tra i diversi prodotti e diversi settori sociali. In questo senso il vero potere dei Big Data consiste nel permettere di instaurare connessioni tra settori e approcci con cui nel passato è risultato difficile – sia per barriere sociali sia per motivi tecnici – dialogare direttamente. L’utilizzo dei Big Data per estrarre insight, infatti, può supportare nella comprensione di aree che influenzano le aziende, dalle condizioni di mercato e dal comportamento di acquisto dei clienti ai processi aziendali. Queste informazioni aiutano a prendere decisioni più efficaci.
I Big Data gestiti dall’azienda, sono caratterizzati da velocità e volumi elevati e variabilità, sono asset essenziali, in grado di guidare processi decisionali migliori per produrre risultati aziendali di qualità superiore. L’utilizzo dei Big Data attraverso un’analisi efficace dei dati offre molti vantaggi competitivi. Tra le applicazioni di Big Data sono incluse:
Iper-personalizzazione nel retail con i Big Data
L’analisi dei Big Data può aiutare le aziende di vendita al dettaglio a comprendere meglio le preferenze e i comportamenti dei propri clienti. Grazie a queste informazioni, un rivenditore può iper-personalizzare le iniziative di marketing e le esperienze di acquisto che ridefiniscono l’esperienza del cliente.
Ottimizzazione dei Processi Finanziari con i Big Data
Le applicazioni dei Big Data possono aiutare le aziende a sfruttare al meglio i dati finanziari per migliorare l’efficienza operativa, semplificando il tempo e i processi per ottenere informazioni strategiche. Questa semplificazione riduce al minimo i colli di bottiglia e concede più tempo per identificare nuove opportunità di fatturato.
Scalabilità e Crescita Aziendale
I Big Data contengono insight nascosti, che aiutano le aziende a migliorare le prestazioni, aumentare la competitività e adeguare efficacemente il modello aziendale per un’espansione efficace in nuovi mercati.
Big Data in Azione: Esempi e Volumi
La Borsa di New York è un esempio di Big Data che genera circa un terabyte di nuovi dati commerciali al giorno. I Big Data devono essere veloci e intelligenti. Ecco perché. Ogni minuto vengono caricate su YouTube 48 ore di video. Vengono inviati 204 milioni di messaggi di posta elettronica e generati 600 nuovi siti web. 600.000 contenuti vengono condivisi su Facebook e vengono inviati più di 100.000 tweet. E questo non inizia nemmeno a scalfire la superficie della generazione di dati, che si estende a sensori, cartelle cliniche, database aziendali e altro ancora.
Poiché registriamo e generiamo una quantità crescente di dati ogni millisecondo, dobbiamo anche essere in grado di comprendere questi dati altrettanto rapidamente[10]. Dal monitoraggio del traffico al monitoraggio della diffusione dell’epidemia al trading di azioni, il tempo è essenziale. Un ritardo di pochi secondi nella comprensione delle informazioni potrebbe costare non solo denaro, ma anche vite umane.
Sebbene “Big Data” sia stata recentemente considerata una parola d’ordine inflazionata, non scomparirà presto. Il sovraccarico di informazioni è un fenomeno e una sfida che affrontiamo ora, e che inevitabilmente continueremo ad affrontare, forse con maggiore gravità, nei prossimi decenni. In effetti, l’analisi dei dati su larga scala, la modellazione predittiva e la visualizzazione sono sempre più cruciali per la sopravvivenza delle aziende sia nei settori high-tech che in quelli tradizionali. Le funzionalità dei Big Data sono oggi un’esigenza, non un desiderio. “Big Data” è un termine ampio che comprende una varietà di angolazioni. Ci sono sfide complesse all’interno dei “Big Data” che devono essere prioritarie e affrontate, come i “Fast Data” e gli “Smart Data”[11].
Smart Data: Il Futuro dell’Analisi dei Dati
Per “Smart Data” si intendono le informazioni che hanno effettivamente senso. È la differenza tra vedere un lungo elenco di numeri che si riferiscono alle vendite settimanali e identificare i picchi e le depressioni del volume delle vendite nel tempo. Gli algoritmi trasformano numeri privi di significato in informazioni fruibili. Gli smart data sono dati da cui sono stati estratti segnali e modelli da algoritmi intelligenti. La raccolta di grandi quantità di statistiche e numeri porta pochi benefici se non c’è uno strato di intelligenza aggiuntiva[12].
Questo primo articolo della serie ci ha permesso di comprendere le fondamenta e l’importanza dei Big Data nel panorama aziendale moderno. Nel prossimo articolo, ci concentreremo sui Fast Data, per approfondire tutti gli aspetti legati a questi temi è possibile scaricare in maniera libera e gratuita il white paper completo “Big e Fast Data: tra sfida per la sicurezza e privacy”.
Note e Biografia:
[1] Oracle Italia. Cosa sono i Big Data? Oracle Italia.
[2] InlineStyle. “Cosa sono i Big Data e a cosa servono?”.
[3] Vgs. nota 1.
[4] Miloslavskaya, N., & Tolstoy, A. (2016). Big Data, Fast Data and Data Lake Concepts. Procedia Computer Science, 88, 300-305. ISSN 1877-0509.
[5] Vgs. nota 1.
[6] Vgs. nota 1.
[7] Vgs. nota 1.
[8] Leonelli, Sabina. (2018) “La Ricerca Scientifica Nell’era Dei Big Data.” Costan, A. “From Big Data to Fast Data: Efficient stream data management.” Diss. ENS Rennes, 2019.
[9] Per gestire in modo efficiente grandi volumi di dati, è essenziale investire in infrastrutture adeguate, come il cloud computing o soluzioni di storage scalabili. La capacità di archiviare e processare quantità significative di informazioni è cruciale. Inoltre, l’utilizzo di strategie di compressione dati risulta vantaggioso per ridurre le dimensioni senza compromettere informazioni importanti, mitigando così l’impatto dell’ingente volume di dati.
[10] Pasco, Richard Clark. (1976) Source coding algorithms for Fast Data compression. Diss. Stanford University.
[11] Data & Analitycs. “Ruolo nel contesto aziendale: Analisi predittiva, miglioramento decisionale, innovazione”. LinkedIn.
[12] Vgs. nota 8.
É un esperto di sicurezza informatica, con una formazione che combina conoscenze giuridiche e tecniche. Ha conseguito una laurea triennale in Operatore Giuridico di Impresa presso l’Università degli Studi de L’Aquila, seguita da una laurea magistrale in Giurisprudenza presso l’Università Telematica Pegaso. La sua formazione si arricchisce di quattro master: uno in Criminologia e Studi Forensi, uno in Programmazione e Sviluppo Backend e Frontend, un master in Cybersecurity presso l’Ethical Hacker Academy, e un master di II livello in Homeland Security presso l’Università Campus Bio-Medico di Roma.
Grazie a diverse certificazioni EIPASS, tra cui quella di Data Protection Officer (DPO/RDP), e licenze OPSWAT, ha acquisito competenze avanzate in sicurezza delle reti, protezione delle infrastrutture critiche e gestione dei dati. La sua passione per il mondo informatico e tecnologico e il costante aggiornamento professionale lo hanno reso un punto di riferimento nel settore, incluse aree emergenti come l’intelligenza artificiale.
È autore di due pubblicazioni scientifiche: “Contrasto al Terrorismo: La Normativa dell’Unione Europea” e “La Cyber Security: La Riforma Europea in Materia di Cybersicurezza ed il Cyber- Crime”, entrambe edite da Currenti Calamo.