Data Warehousing
Che cos’è il data warehouse?
Il data warehousing è l’archiviazione elettronica di una grande quantità di informazioni da parte di un’azienda o organizzazione. Il data warehousing è una componente vitale della business intelligence che impiega tecniche analitiche sui dati aziendali.
Il concetto di data warehousing è stato introdotto nel 1988 dai ricercatori IBM Barry Devlin e Paul Murphy. La necessità di immagazzinare i dati si è evoluta man mano che i sistemi informatici sono diventati più complessi e hanno gestito quantità crescenti di dati. Un libro chiave sul data warehousing è “Building the Data Warehouse” di WH Inmon, pubblicato per la prima volta nel 1990 e da allora ristampato più volte.
Come funziona il data warehouse
Il data warehousing viene utilizzato per fornire una visione più approfondita delle prestazioni di un’azienda confrontando i dati consolidati da più fonti eterogenee. Un data warehouse è progettato per eseguire query e analisi sui dati storici derivati da fonti transazionali.
Una volta che i dati sono stati incorporati nel warehouse, non cambiano e non possono essere modificati poiché un data warehouse esegue analisi su eventi che si sono già verificati concentrandosi sui cambiamenti dei dati nel tempo. I dati immagazzinati devono essere archiviati in modo sicuro, affidabile, facile da recuperare e facile da gestire.
Esistono alcuni passaggi da eseguire per creare un data warehouse. Il primo passaggio è l’estrazione dei dati, che prevede la raccolta di grandi quantità di dati da più punti di origine. Dopo che i dati sono stati compilati, passa attraverso la pulizia dei dati, il processo di setacciamento dei dati per gli errori e la correzione o l’esclusione di eventuali errori trovati.
I dati puliti vengono quindi convertiti da un formato di database a un formato di magazzino. Una volta archiviati nel magazzino, i dati vengono ordinati, consolidati, riepilogati, ecc. In modo che siano più coordinati e più facili da usare. Nel tempo, più dati vengono aggiunti al magazzino man mano che vengono aggiornate più origini dati.
Punti chiave
- Il data warehousing è l’archiviazione elettronica di una grande quantità di informazioni da parte di un’azienda o organizzazione.
- Un data warehouse è progettato per eseguire query e analisi su dati storici derivati da fonti transazionali per scopi di business intelligence e data mining.
- Il data warehousing viene utilizzato per fornire una visione più approfondita delle prestazioni di un’azienda confrontando i dati consolidati da più fonti eterogenee.
Considerazioni speciali: data mining
Le aziende potrebbero immagazzinare dati da utilizzare nell’esplorazione e nel data mining, alla ricerca di modelli di informazioni che li aiutino a migliorare i loro processi aziendali. Un buon sistema di data warehousing può anche facilitare l’accesso reciproco ai dati dei diversi reparti all’interno di un’azienda.
Ad esempio, un data warehouse potrebbe consentire a un’azienda di valutare facilmente i dati del team di vendita e aiutare a prendere decisioni su come migliorare le vendite o semplificare il reparto. L’azienda potrebbe scegliere di concentrarsi sulle abitudini di spesa dei propri clienti per posizionare meglio i propri prodotti e aumentare le vendite.
Con il data warehousing, l’azienda può raccogliere i dati storici delle spese dei suoi clienti nel passato, diciamo 20 anni, ed eseguire analisi su questi dati. Le informazioni risultanti potrebbero fornire informazioni sulle preferenze dei suoi consumatori; l’ora del giorno, del mese o dell’anno con maggiori vendite; o cliente con la spesa più alta dell’anno.
L’archiviazione e la gestione efficaci dei dati sono anche ciò che rende possibili processi, come l’avvio delle prenotazioni di viaggio e l’utilizzo di sportelli automatici.
Il processo di data mining si suddivide in cinque passaggi:
- Le organizzazioni raccolgono i dati e li caricano nei loro data warehouse.
- Quindi archiviano e gestiscono i dati, su server interni o sul cloud.
- Analisti aziendali, team di gestione e professionisti della tecnologia dell’informazione accedono ai dati e determinano come vogliono organizzarli.
- Il software applicativo ordina quindi i dati in base ai risultati dell’utente
- L’utente finale presenta infine i dati in un formato facile da condividere, come un grafico o una tabella.
Data warehouse e database
Un data warehouse non è necessariamente lo stesso concetto di un database standard. Un database è un sistema transazionale impostato per monitorare e aggiornare i dati in tempo reale in modo da avere a disposizione solo i dati più recenti. Un data warehouse è programmato per aggregare dati strutturati in un periodo di tempo. Ad esempio, un database potrebbe avere solo l’indirizzo più recente di un cliente, mentre un data warehouse potrebbe avere tutti gli indirizzi in cui il cliente ha vissuto negli ultimi 10 anni.