Premessa
Quando si lavora ad un progetto di analisi dei dati viene spesso in mente il principio “Garbage in, Garbage out” letteralmente “spazzatura dentro, spazzatura fuori”. Questo principio, noto agli analisti, viene spesso utilizzato per richiamare l’attenzione sul fatto che le analisi dei dati, tramite programmi software, elaborano, in modo acritico, anche un insieme di informazioni in entrata palesemente insensate (garbage in) producendo, a loro volta, un risultato insensato (garbage out).
Questo concetto introduce la questione che la capacità di eseguire una buona analisi in grado di raggiungere risultati in linea con gli obiettivi fissati, dipende enormemente dalla qualità dei dati utilizzati. La gestione della qualità dei dati, tuttavia, non è una fase così semplice da svolgere richiedendo un’attenzione particolare sul momento della prevenzione, del rilevamento e sulla risoluzione dei problemi che ogni progetto richiede.
In questo articolo tenteremo, prima di tutto, di definire cosa si intende per qualità dei dati e poi discuteremo in che modo la qualità del dato può essere gestita in ogni fase del progetto.
Cosa si intende per qualità dei dati: definizione
Iniziamo a definire cosa si intende esattamente per qualità dei dati all’interno di un progetto di analisi. A tale scopo possiamo utilizzare due definizioni. La prima è quella che solitamente si trova quando leggiamo articoli tecnici o report analitici che fanno riferimento all’idoneità dei dati allo scopo che l’analista si è prefissato o l’idoneità degli stessi a soddisfare i requisiti definiti in fase progettuale. Tale definizione sta a significare che la qualità dei dati è rappresentata da quanto le informazioni prescelte siano utili ed in grado di raggiungere lo scopo del progetto di analisi. La seconda definizione è un po’ più filosofica e identifica la qualità dei dati in base alla capacità di essere in grado di rappresentare la realtà che si sta tentando di spiegare. Questo concetto sta a significare che il nostro interesse sarà sempre maggiore per capire cosa stia accadendo nel mondo aziendale avvicinando sempre di più il concetto di qualità con quello di rappresentatività. Tanto più le decisioni che prendiamo e le azioni che intraprendiamo sono valide tanto più possiamo asserire di aver scelto dati che si sono rivelati rappresentativi del mondo reale oggetto di analisi.
Ulteriori caratteristiche della qualità dei dati di aiuto per l’analista
Per aiutare l’analista a stabilire se l’insieme dei dati su cui sta lavorando sia sufficientemente qualitativo, ci sono sette caratteristiche da non dimenticare mai.
La prima si chiama completezza. Questa misura la quantità, o meglio, la disponibilità di tutti quei dati che ci si aspetta di poter ottenere da un progetto di studio. Ci sono alcune domande che in genere l’analista può utilizzare per essere sicuro di avere dati completi. Facciamo alcuni esempi:
se si stesse valutando un processo di acquisto potremmo chiederci: “sto considerando tutti gli accadimenti che interessano quel processo e che dovrei intercettare?” Nel caso di valutazione di un particolare evento la domanda potrebbe essere: abbiamo considerato tutte le caratteristiche di quel particolare accadimento che ci aspettiamo di possedere? Mentre nel caso di valori contabili o di riferimento potremmo chiederci: sono tutti contabilizzati i valori di quella grandezza di riferimento che cerchiamo?
La seconda caratteristica è l’unicità. Per esempio, se registro un dato evento, sono sicuro di averlo fatto una sola volta e non più volte? Sono sicuro che quel dato che sto utilizzando non sia ridondante? Queste domande danno il senso di cosa si intende per la verifica della caratteristica dell’unicità.
La terza caratteristica è l’accuratezza, la quale esprime quanto i dati considerati siano in grado di rappresentare con precisione l’obiettivo che si sta cercando di raggiungere con l’analisi. Se per esempio l’oggetto che stiamo cercando è un numero, per verificare l’accuratezza la domanda che ci dovremmo porre potrebbe essere la seguente: il numero trovato risulta quello corretto? Se fosse una stringa per verificare l’accuratezza dovremmo chiederci: è la stringa giusta ed è scritta correttamente?
La quarta caratteristica è la coerenza che rappresenta, invece, un ampliamento del concetto di precisione. Si riferisce, infatti, alla fonte di acquisizione dei dati. Gli interrogativi da porsi potrebbero essere: stiamo acquisendo i dati con le stesse modalità ogni volta? Oppure: nel caso dovessi acquisire dati in due o più punti diversi i valori che ottengo sono gli stessi?
La quinta caratteristica è rappresentata dalla conformità o validità che esprime, in riferimento ai dati che troviamo memorizzati, se sono conformi alla sintassi e alla codifica o ad altre specifiche di un dato modello di dati. Gli interrogativi da porsi potrebbero essere: i dati memorizzati rispettano il formato considerato corretto dall’analista? I dati vengono denominati utilizzando le regole stabilite per un certo sistema o database? O anche, i codici utilizzati per identificare i vari attributi dei campi sono quelli previsti?
La sesta caratteristica attiene alla tempestività che evidenzia se i dati sono acquisiti o resi disponibili abbastanza presto rispetto ad un accadimento che li determina. A tal riguardo potremmo utilizzare il termine latenza per descrivere quanto tempo occorre prima che i dati siano disponibili per la nostra analisi o report. Per esempio, se è necessario prendere una decisione immediata ma i dati che necessitano non sono disponibili se non il giorno successivo potremmo affermare che gli stessi sono di scarsa utilità per lo scopo che dobbiamo raggiungere e anche di bassa qualità secondo la nostra definizione.
L’ultima caratteristica da considerare si chiama prominenza. Se vogliamo possiamo definire questa caratteristica quasi di secondo livello in quanto esprime la fiducia dell’analista nel fatto che i dati che sta utilizzando siano reali ed accurati.
In conclusione, possiamo affermare che solo se l’analista è in grado di misurare tutte queste caratteristiche in riferimento ai dati che possiede o che ha estrapolato potrà avere una buona idea di quanto tali siano di buona qualità per l’uso che si è proposto.
Gestione della qualità dei dati durante le fasi del progetto di analisi
Qualunque sia la metodologia o il processo che utilizziamo nella fase dell’elaborazione dell’informazioni, il modo più efficace per risolvere i problemi che attengono la qualità dei dati è evitare che si verifichino distorsioni, controllando il modo in cui questi vengono acquisiti dalle fonti.
I principali errori che ricorrono molto spesso sono quelli introdotti tramite l’inserimento di dati in modalità manuale da parte degli utenti, siano essi clienti, partner o dipendenti.
Per limitare al minimo questa tipologia di errore si potrebbe creare da parte dell’analista o dell’organizzazione dei meccanismi di convalida o far sì che certe informazioni vengano create automaticamente dal software senza richiedere l’intervento di alcun operatore.
Per fare qualche esempio si potrebbe far riferimento ad un modulo online creato per raccogliere alcune informazioni rilevanti per le nostre analisi che prevede di immettere numeri in un formato specifico obbligato, utilizzare caselle a discesa per scegliere alcune opzioni già caricate. Inoltre, potrebbe non consentire di inviare o procedere ad elaborazioni se alcuni campi ritenuti essenziali non vengono compilati dall’utente.
In generale possiamo dire che minori sono le quantità di dati che facciamo inserire agli utenti e maggiore sarà la qualità dei dati che potremmo aspettarci di disporre per le elaborazioni che servono.
Altre problematiche che si incontrano in genere quando si progettano le basi dati dai sistemi sorgenti sono rappresentati dai bug delle applicazioni. In tali casi l’imperativo per cercare di attenuare tali questioni si chiama tempestività: rilevare subito le anomalie è sicuramente la cosa migliore anche se, purtroppo, non sempre è possibile. Queste attività di estrazioni di dati sono in genere riassunte utilizzando l’acronimo ETL che identifica l’attività chiamata “Extract, Transform, Load” che si riferisce, appunto, al processo di estrazione, trasformazione e caricamento dei dati in un dato sistema di archiviazione. Per migliorare la qualità dei dati quando si progettano tali attività, si può fare ricorso alle così dette operazioni di bilancio e controllo. Queste operazioni consistono generalmente nell’assicurarsi che tali processi di trasferimento avvengano rispettando tutti i criteri previsti mediante la costruzione di metriche di riepilogo che controllano entrambi i flussi di trasferimento, dal sistema di origine al sistema di archiviazione e viceversa, garantendo garanzia ed equilibrio. Possiamo anche scrivere dei codici ETL in modo tale da ricevere risultati standardizzati come per esempio in un formato comune. Possiamo anche spingerci, sempre nel tentativo di migliorare la qualità dei dati a disposizione, ad utilizzare la proprietà dell’integrità referenziale nel nostro database che sta a significare che tutti i dati contenuti nei record devono avere valori noti e tabelle di riferimento correlate. Tale funzione ci garantisce che nessun valore sconosciuto possa entrare nel nostro sistema di analisi aiutandoci, magari, attraverso l’impostazione di avvisi o alert che segnalano quando un valore anomalo viene osservato.
Quindi, se come analista abbiamo fatto un buon lavoro sulla qualità dei dati sia come caratteristica intrinseca che come processo di estrazione degli stessi, dovremmo aver eliminato la stragrande maggioranza degli errori e dei problemi che potrebbero rendere i risultati nel nostro progetto non in linea con le aspettative di partenza.
Non dobbiamo, però, dimenticarci di un altro controllo da fare, forse ancora più importante dei precedenti, che si chiama occhio dell’analista. La persona o il gruppo di persone che esaminano un report o interpretano l’analisi devono conoscere l’azienda sufficientemente da riconoscere quando i dati sembrano insignificanti.
Conclusione
Esaminati tutti i requisiti per assicurare la qualità dei dati che utilizziamo nelle analisi, la domanda che potrebbe sopraggiungere è la seguente: quali usiamo? La risposta risulta semplice e cioè tutti quelli che abbiamo esaminato nel presente lavoro.
Questa breve disamina ha definito la qualità dei dati sia dal punto di vista della loro idoneità all’uso che della loro capacità di rappresentare il modo reale oggetto di studio. Abbiamo introdotto una serie di misure come la completezza, l’unicità, l’accuratezza, la coerenza, la conformità e validità, la tempestività e importanza. Abbiamo individuato le varie problematiche di gestione della qualità durante i processi di estrazione dei dati (ETL) e abbiamo individuato i principali rimedi che si possono utilizzare per poter alla fine disporre di una base dati equilibrata e coerente per ogni tipo di analisi che l’organizzazione dovesse necessitare.