Comments
Description
Transcript
Business Intelligence
IT FOR BUSINESS AND FINANCE Business Intelligence Siena 14 aprile 2011 AGENDA Cos’è la Business Intelligence Terminologia Perché la Business Intelligence La Piramide Informativa Macro Architettura Obiettivi e Vantaggi Definizione di Data Warehouse /Data Mart Applicazioni Analitiche RDBMS vs MDDBMS Database multidimensionali OLAP Elementi di un database multidimensionale OLAP Rolap e Molap Il quadrante di Gartner Architettura BI Cognos Panoramica prodotti BI Cognos. 2 Business Intelligence – Cos’è? Il termine fu coniato nel 1996 dagli analisti della Gartner Group per indicare: Una vasta categoria di applicazioni e di tecnologia per: La raccolta L’immagazzinamento L’analisi L’accesso ai dati utili per aiutare a prendere le decisioni migliori per l’azienda. Ma il concetto di BI non è nuovo nella cultura aziendale; il termine con cui si è soliti chiamare i sistemi di supporto al processo decisionale è mutato più volte da Executive Information System (EIS) a Decision Support System (DSS) La definizione include varie sottocategorie che vengono identificate con sigle e nomi diversi, come Data Warehousing, Data Mining, BPM, CPM, CRM, Scorecards, Dashboards, Budgeting, Planning fino ad includere aree confinanti come il Knowledge Management. 3 Business Intelligence – Terminologia (1/2) 4 Data Warehousing: “magazzino di dati” progettato per produrre analisi e relazioni tra dati; Data Mining: estrazione di informazioni utili da grandi mole di dati con tecniche di tipo statistico; BPM: Business Process Management, è l’insieme di attività necessarie per definire, ottimizzare, monitorare e integrare i processi aziendali; CPM: Corporate Performance Management, è l’insieme delle attività per definire le strategie aziendali e assicurarne il corretto sviluppo; CRM: Customer Relationship Management, è l’insieme delle attività di gestione dei rapporti con la clientela; Scorecards: Consentono la misurazione delle performance aziendali sotto diversi profili. Finanziario, cliente, interno e innovazione. E’ una raccolta di informazioni in linea con gli obiettivi strategici dell'organizzazione, che consente ai dipendenti di sapere in che modo i loro obiettivi e le loro attività si correlano agli obiettivi aziendali. Mostra velocemente come si sta andando a fronte degli obiettivi.Comunica la strategia e gli obiettivi. Business Intelligence – Terminologia (2/2) Dashboards: forniscono una rappresentazione per immagini delle prestazioni dell’intera organizzazione. E’ una raccolta di analisi e report KPI che offre agli utenti una singola visualizzazione dati che li aiuta a monitorare informazioni associate a un lavoro, un progetto o un obiettivo; Budgeting:è il bilancio di previsione e rientra tra gli strumenti fondamentali di programmazione e controllo dell'azienda; Planning: processo di pianificazione; Knowledge Management: condivisione della conoscenza 5 Business Intelligence – Perchè Una parte importante del patrimonio di conoscenza di un’azienda è contenuto in forma strutturata nelle basi dati delle applicazioni gestionali, conseguentemente le informazioni venivano rese disponibili sotto forma di report statici, onerosi da produrre e spesso obsoleti una volta arrivati nelle mani degli utenti. Di conseguenza le organizzazioni si basavano più sull’intuito dei manager che su fatti concreti per valutare l’andamento dell’impresa e prendere decisioni importanti. Per consentire alle aziende di sfruttare il proprio patrimonio di informazioni, in vista di decisioni tattiche e strategiche, sono stati messi a punto numerosi strumenti denominati di Business Intelligence. Grazie alla BI è possibile raccogliere tutte le informazioni utili, gestirle e trasformarle in informazioni a supporto decisionale. 6 Business Intelligence – La Piramide Informativa Reporting Presentazione Analisi Multidimensionale, BSC, TDB, BDG e Forecast Modello e Analisi DWH,DB Integrazione Transazione ERP,CRM, HOST,EXCEL Infrastruttura 7 Macro Architettura di una soluzione BI OLAP Server other sources Operational DBs Extract Transform Load Refresh Serve Data Warehouse Analysis Query Reports Data mining Tools Data Marts 8 Obiettivi della BI Gli obiettivi della BI sono: passare da opinioni a fatti aumentare la qualità dell’informazione dare informazioni significative diffondere informazioni condividere informazioni Scegliere in un’azienda le soluzioni idonee di DW/BI richiede una visione strategica d’insieme considerando che si hanno a disposizione diverse classi di prodotti (di tipo Build o Buy), per diverse tipologie di utenti (utenti finali, manager di linea, direzione), in diverse aree aziendali, su diverse architetture tecnologiche. 9 Caratteristiche della BI (1/3) Un sistema di BI deve rispondere a requisiti di funzionalità e progettazione che vanno ben oltre quelli propri di un normale ambiente di reportistica facente parte di un'applicazione gestionale. In particolare, un sistema di BI deve possedere le seguenti caratteristiche: Facilità d'uso: presentare i dati in un formato che sia facile da leggere e da interpretare, dove sia possibile navigare sui dati seguendo dei percorsi di analisi facilmente comprensibili dall'utente finale Velocità: possibilità di trattare grandi volumi di dati con tempi di risposta quasi istantanei grazie all'uso di tecniche di modellazione, memorizzazione e indicizzazione dei dati orientate all'analisi piuttosto che all'aggiornamento dei dati. Integrazione: integrare tra loro dati provenienti da fonti differenti, sia interne che esterne all'azienda. Il processo di integrazione deve essere affidabile e testato, in modo che gli utenti possano fare affidamento sui dati presenti nel DW. Se i dati provenienti dai sistemi operazionali non sono puliti ed affidabili, prima di essere inseriti nel DW devono passare attraverso un processo di pulizia (data cleansing) e certificazione. 10 Caratteristiche della BI (2/3) Storicizzazione: mantenere la storia dei cambiamenti subiti da certi attributi selezionati, per permettere analisi storiche contestualizzate. Identificazione di trend ed anomalie: gli strumenti devono facilitare l'identificazione di trend nei dati, ad esempio confrontando periodi e prodotti diversi. Queste operazioni sono possibili solo con l'utilizzo di strumenti interattivi che permettano di effettuare operazioni di drill down/drill up (visualizzazione dei dettagli su un certo dato) e di slice & dice (cambiamento delle dimensioni di analisi sui due assi). Subject orientation: presentare i dati in modo da fornire la visione di un processo aziendale (supply chain, vendite, qualità...), attraversando i confini delle singole aree dei sistemi gestionali. 11 Caratteristiche della BI (3/3) Simulazione scenari: in certi casi (applicazioni di budgeting, forecasting and planning) deve essere possibile impostare degli scenari e confrontarli poi con i valori reali ("actual") Indipendenza dal reparto I.T.: gli strumenti di analisi e reportistica devono dare la possibilità agli utenti finali di crearsi da soli i report di cui hanno bisogno Adattabilità nel tempo, intesa come la capacità di resistere alle inevitabili evoluzioni della realtà aziendale, dei sistemi operazionali e delle esigenze di analisi Sicurezza: deve essere possibile controllare in maniera al tempo stesso stretta e flessibile l'accesso ai dati, che in molti casi includono informazioni altamente riservate. 12 Vantaggi della BI CONDIVISIONE INFORMAZIONI COMPETITIVITA’ Differenziazione dalla concorrenza Ottimizzazione dei processi mediante la condivisione di informazioni con clienti, fornitori e partner. Le aziende offrono ai dipendenti un accesso facile ed intuitivo alle informazioni strategiche Condivisione responsabilità per la crescita del business. SEMPLICITA’ Uso degli strumenti senza conoscenze tecniche specifiche. Vantaggi CONTROLLO MERCATO FLESSIBILITA’ Monitoraggio del mercato. Individuazione di trend e opportunità di sviluppo del business. 13 Sperimentazione di modelli e soluzioni diverse. Analisi dinamiche. Data Warehouse Il Data Warehouse è un insieme di dati e strumenti software aventi lo scopo di prelevare i dati dai sistemi gestionali di un'azienda o da fonti esterne e di utilizzarli per effettuare interrogazioni a carattere generalmente statistico e analitico. Per rendere facili e veloci le interrogazioni di grandi volumi di dati, questi ultimi devono prima essere organizzati in maniera differente dai normali database operazionali (OLTP). Per questo sono state concepite strutture di dati alternative a quelle dei database operazionali; mentre questi si basano sui concetti e sulle regole relazionali (Entity-Relationship), i Data Warehouse sono generalmente basati sul modello detto dimensionale o Star Schema, ottimizzato per rispondere velocemente a interrogazioni di vario tipo. L’attività di Data Warehousing, cioè di costruzione e gestione di un Data Warehouse, comprende varie fasi: 14 individuazione dei dati di partenza conversione, estrazione e pulitura dei dati utilizzo di un DBMS per costruire il Data Warehouse Gestione del Data Warehouse Utilizzazione di strumenti di Business Intelligence per accedere Data Warehouse vs Data Mart Quando la raccolta dati ha una localizzazione dipartimentale si suole dire che viene costruito un Data Mart. In un progetto ben architettato Data Warehouse e Data Mart coesistono, essendo collocati a due livelli diversi (il primo aziendale, il secondo dipartimentale). L’approccio più articolato offre molti vantaggi in termini di flessibilità e di ROI, ma nello stesso tempo fa aumentare il rischio di perdere il controllo dell’architettura. 15 Applicazioni Analitiche La categoria delle Applicazioni Analitiche rappresenta il lato Buy della Business Intelligence. Le applicazioni analitiche sono caratterizzate da tre elementi distintivi: includono un concetto di processo (di controllo o di sviluppo di business), cioè non si limitano ad una rappresentazione di dati; vivono separate dalle applicazioni operative tradizionali; integrano dati da fonti multiple, introducendo un concetto di evoluzione temporale. Le applicazioni analitiche si sviluppano principalmente in tre aree aziendali: l’area della gestione strategica e del cosiddetto BPM (Business Performance Management); l’area marketing e più in generale il CRM; l’area delle Operations, con una diversa caratterizzazione nei diversi mercati verticali, ma con un’attenzione particolare per la pianificazione, la previsione, e la simulazione. 16 OLAP vs OLTP (1/2) Cos’è un OLTP (On Line Transaction Processing)? E’ il tradizionale sistema per l’elaborazione delle transazioni, che realizzano i processi operativi dell’azienda: per l'elaborazione delle transazioni, tra aziende o tra aziende e consumatori con massimi vincoli di efficienza e di tolleranza ai guasti. Questi sistemi devono garantire transazioni in tempi brevi (pochi secondi) stabiliti dal SLA (Service Level Agreement). L'aggiornamento rapido del database e la tolleranza ai guasti nei sistemi OLTP assumono un'importanza cruciale. Le caratteristiche principali per un sistema OLTP sono: scalabilità e realizzazione di query nella stessa quantità di tempo, nonostante la crescita dei dati; integrità dei dati e delle transazioni; disponibilità e ripartizione delle risorse. Esempi di applicazioni OLTP sono il servizio Bancomat per effettuare acquisti e prelievi, ma anche la gestione delle prenotazioni dei mezzi di trasporto da più terminali. I sistemi OLTP generalmente forniscono anche dati al Data Warehouse, per calcoli statistici aziendali su un grande volume di dati. 17 OLAP vs OLTP (2/2) Cos’è un OLAP (On-Line Analytical Processing)? E’ una particolare tecnologia, vista anche come estensione delle funzionalità tipiche di un OLTP, in grado di supportare l’elaborazione di operazioni per il supporto alle decisioni. La struttura dati multidimensionale, contenente gli elementi da analizzare con strumenti messi a disposizione da OLAP, è denominata cubo. Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile; i secondi, invece, hanno come obiettivo la garanzia di integrità e sicurezza delle transazioni 18 RDBMS vs MDDBMS (1/2) Quando si devono eseguire interrogazioni complesse su grandi quantità di dati strutturati su più dimensioni (tra cui il tempo), invece di usare DBMS relazionali (RDBMS) si preferisce ricorrere ai cosiddetti database multidimensionali (MDDBMS). Rispetto alla rappresentazione logica dei dati per tabelle bidimensionali dei tradizionali RDBMS, i MDDBMS adottano una rappresentazione spaziale a ipercubi In un MDDBMS si individuano alcune grandezze di riferimento (in un esempio a 3 dimensioni: prodotti, aree geografiche e periodi temporali), una gerarchia di raggruppamento all’interno di ogni dimensione (per esempio, giorni, mesi, anni sulla dimensione temporale), una fonte di caricamento dei dati. La caratteristica principale dei MDDBMS sta nel fatto che le operazioni per isolare i risultati all’incrocio fra le varie dimensioni sono pre-eseguite all’atto del caricamento. Ad un caricamento lento fa riscontro una risposta veloce in fase di utilizzo. 19 RDBMS vs MDDBMS (2/2) Tutti i principali produttori di RDBMS hanno aggiunto (tramite acquisizioni) servizi multidimensionali tramite acquisizioni di aziende o licenze (Oracle con Express e Hyperion, Microsoft con Analytic Services, IBM con Applix). Il più importante produttore di MDDBMS era Arbor con Essbase, che oggi si è fusa con Hyperion ed ha dato vita ad uno dei principali produttori di Applicazioni Analitiche. 20 I sistemi OLAP MOLAP è la tipologia più utilizzata e ci si riferisce ad essa comunemente con il termine OLAP. Utilizza un database di riepilogo avente un motore specifico per l'analisi multidimensionale e crea le "dimensioni" con un misto di dettaglio ed aggregazioni. Caratteristiche: scelta migliore per quantità di dati ridotte, velocità nel calcolare aggregazioni e restituire risultati, ma crea enormi quantità di dati intermedi ROLAP lavora direttamente con database relazionali; i dati e le tabelle delle dimensioni sono memorizzati come tabelle relazionali e nuove tabelle sono create per memorizzare le informazioni di aggregazione. Caratteristiche: scalabile, richiede minor spazio disco e minore RAM, lento nella fase di creazione tabelle e nel produrre il risultato delle interrogazioni HOLAP utilizza tabelle relazionali per memorizzare i dati e le tabelle multidimensionali per le aggregazioni Caratteristiche: creazione più veloce di un ROLAP, più scalabile di un MOLAP. La difficoltà nell'implementazione di un database OLAP parte dalle ipotesi delle possibili interrogazioni utente; scegliere la tipologia di OLAP, lo schema e creare una base dati completa e consistente è un'operazione complessa. 21 I sistemi OLAP La creazione di un database OLAP consiste nell'effettuare una fotografia di informazioni in un determinato momento e trasformare queste singole informazioni in dati multidimensionali. Una struttura OLAP creata per questo scopo è chiamata "cubo" multidimensionale. Ci sono diversi modi per creare un cubo, ma il più conosciuto è quello che utilizza uno schema "a stella"; al centro c'è la tabella dei "fatti" che elenca i principali elementi su cui sarà costruita l'interrogazione, e collegate a questa tabella ci sono varie tabelle delle "dimensioni" che specificano come saranno aggregati i dati. Per esempio un archivio di clienti può essere raggruppato per città, provincia, regione; questi clienti possono essere relazionati con i prodotti ed ogni prodotto può essere raggruppato per categoria. Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile; i secondi, invece, hanno come obiettivo la garanzia di integrità e sicurezza delle transazioni 22 I sistemi OLAP – Punti deboli Inaccessibilità o difficoltà ad accedere al livello atomico del dato: gli strumenti OLAP funzionano molto bene su dati di sintesi, non è conveniente usarli su dati analitici; Richiede una struttura denormalizzata per funzionare in maniera efficiente: i motori OLAP generano grandi masse di dati per il semplice fatto che per migliorare le prestazioni di accesso sono costretti a memorizzare chiavi ridondanti e sommarizzazioni; Possibile proliferazione del codice SQL: nel caso in cui il database su cui vengono effettuate le analisi OLAP non sia multidimensionale (MOLAP) ma sia relazionale (ROLAP), le operazioni di slicing, dicing, drilling provocano la generazione e l'esecuzione di query SQL estremamente complesse, che richiedono molte risorse di elaborazione. 23 Tipiche richieste di BI Qual è il volume delle vendite per regione e categorie di prodotto durante l’ultimo anno? Come si correlano i prezzi delle azioni delle società produttrici di hardware con i profitti trimestrali degli ultimi 10 anni? Quali sono stati i volumi di vendita dello scorso anno per regione e categoria di prodotto? In che modo i dividendi di aziende di hardware sono correlati ai profitti trimestrali negli ultimi 10 anni? 24 Perché i sistemi tradizionali non sono sufficienti? Non gestiscono dati storici Sono sistemi eterogenei Basse prestazioni DBMS non adeguati al supporto decisionale Problemi di sicurezza 25 OLAP: Cubi Multidimensionali Prodotti Zona Pisa Roma Firenze sum Latte Pane Birra … ... sum Tutti i Prodotti Gennaio 09, Pisa. Jan 09 Feb 09 … ... sum Ogni dimensione contiene una gerarchia di valori una cella del cubo contiene valori aggregati (count, sum, max, etc.) 26 Tempo OLAP: esempi Il manager regionale esamina la vendita dei prodotti in tutti i periodi relativamente ai propri mercati Il manager finanziario esamina la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente magazzino tempo prodotto Il manager strategico si concentra su Il manager di prodotto esamina una categoria di prodotti, la vendita di un prodotto un’area regionale e un orizzonte in tutti i periodo e in tutti i mercati temporale medio 27 Operazioni tipiche (1/2) Roll up: ES:il volume totale di vendite per categoria di prodotto e per regione Roll up: significa riassumere i dati, ovvero passare da un livello di dettaglio alto ad un livello più basso; Drill down, drill through: ES:per un particolare prodotto, trova le vendite dettagliate per ogni venditore e per ogni data Drill-down: è l'operazione di ‘esplosione’ del dato nelle sue determinanti. L'operazione di drill- down consente di visualizzare la gerarchia costruita sulla dimensione di analisi (p. es.: passaggio dalla famiglia di prodotti all'insieme dei prodotti che ne fanno parte); Drill-through: il drill-through è un'operazione con cui un utente finale seleziona una singola cella di un cubo e recupera un set di risultati dai dati di origine di tale cella allo scopo di ottenere informazioni più dettagliate. Per impostazione predefinita, il set di risultati di un drill-through è derivato dalle righe di tabella che sono state valutate per calcolare il valore della cella del cubo selezionata. 28 Operazioni tipiche (2/2) Slice and dice: ES:Vendite delle bevande nelWest negli ultimi 6 mesi Slicing: è l'operazione di rotazione delle dimensioni di analisi. È un'operazione fondamentale per analizzare totali ottenuti in base a dimensioni diverse o trasversali; Dicing: è l'operazione di estrazione di un subset di informazioni dall'aggregato che si sta analizzando. L'operazione di dicing viene eseguita quando l'analisi viene focalizzata su una ‘fetta del cubo’. 29 ROLAP & MOLAP MOLAP (Multidimensional OLAP): Il modello di memorizzazione è un vettore multidimensionale Queries multidimensionali si mappano sul server in modo immediato Ma: Dati sparsi difficili da gestire Memoria sottoutilizzata 30 … no join … no interfaccia SQL (API) … necessità sistema relazionale per dati dettaglio … file molto grandi … limitazioni a circa 10GB (problemi scalabilità) DBMS multidimensionali vendite 1 2 3 4 5 … prodotto mese magazzino vino acqua coca cola acqua acqua … febbraio febbraio aprile maggio settembre … A B A A C ... magazzino A B C feb tempo apr mag set prodotto 31 vino acqua coca cola Star Schema 32 Il quadrante di Gartner – BI Platform 33 Le ragioni di Gartner Il Magic Quadrant for Business Intelligence Platforms presenta una visione globale che comprende il parere di Gartner e quello dei fornitori principali di software. Gli acquirenti devono valutare i fornitori in tutti e quattro i quadranti, e non pensare che solo le organizzazioni più grandi sono in grado di fornire soluzioni di successo sulla BI. In aggiunta alle opinioni degli analisti Gartner, i punteggi e commenti nel grafico precedente si basano su tre fonti: le percezioni dei clienti dei punti di forza di ogni produttore; un sondaggio online condotto dal vendor sui clienti a fine 2008; un questionario compilato da alcuni fornitori sulla loro strategia di BI. 34