L`espressione Data Mining, che letteralmente significa “estrarre dati
by user
Comments
Transcript
L`espressione Data Mining, che letteralmente significa “estrarre dati
SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Approccio Tradizionale dei dati personali tramite Approccio Innovativo Arricchimento dei dati del Raccolta contratto sottoscrittore / user (professione, dati sul nucleo familiare, livello di Arricchimento del database user con fonti esterne oggettive e misurabili in termini di: • reddito, ecc.) Limiti: • cognome I dati relativi a nome e cognome e alla correttezza dell’indirizzo non Spesso i campi non sono compilati o compilati parzialmente • • vengono verificati o sono incompleti • Riconoscimento e validazione del nome e del La raccolta dei dati personali è soggettiva e poco misurabile perché lasciata alla rete di Riconoscimento, validazione, capificazione e normalizzazione dell’indirizzo • Attribuzione delle coordinate X,Y per la localizzazione del cliente • Arricchimento delle informazioni sul cliente relativamente a: o promotori / agenti variabili socio demografiche (es. età del cliente, reddito, cluster sociodemografico Value Lab, scoring finanziario, livello istruzione, valore immobili, beni posseduti, tipologia prevalente professioni, ecc.) o variabili territoriali (caratteristiche della microzona di residenza, distanza dalla filiale / agenzia / consulente). Costruzione del database/ datamart per il data-mining Costruzione di un database contenente: • anagrafica promotori Creazione di un database finalizzato all’analisi statistica secondo modelli statistici (non pura estrazione/ reportistica) La • anagrafica clienti • transazioni avvenute e relativi movimenti • albero decisionale (Chaid, C&RT, ecc.) • reportistiche standard attraverso l’incrocio • cluster analysis delle diverse viste/dimensioni di analisi • reti neurali costruzione del quali: database è tipicamente Le fasi di costruzione del datamart per il data mining relazionale su cui si appoggiano cubi olap per la differiscono dalla costruzione di un classico database e parte di reportistica prevedono una modellizzazione specifica per tool di analisi Gli skill necessari allo sviluppo del db tradizionale statistica muiltivariata (es. SPSS o Enterprise Miner di sono di programmatori, sviluppatori di db, db SAS). Le principali differenze si evincono nelle fasi di: • administrator, ecc. integrazione delle fonti dati Se i dati provengono da più fonti, vanno Limiti: • consolidati in un singolo database permettono estrazioni di liste di clienti in – riconoscimento cliente unico (doblonatura) funzione di singole variabili secondo una – modifica logica di query sul database • e ridefinizione campi inconsistente non permette di associare / aggregare – eliminazione differenti codifiche dei dati comportamenti simili tra clienti / promotori – eliminazione valori inconsistenti per gli perché strutturato secondo logiche reportistica e non secondo logiche di “associazione per similarità” stessi dati di • creazione di nuovi campi derivati – Variazione di una grandezza fra due periodi – Relativizzazione di una misura – Creazione di indici ad hoc per i modelli statistici (es. standardizzazione delle variabili rispetto alla media e alla varianza) • identificazione ed eliminazione di outlier – valori massimi e minimi – verifica della distribuzione delle variabili – eventuale scelta di non considerare nelle analisi variabili distorsive • eventuale selezione di un campione – per disporre di più basi di confronto per la scelta dei modelli – per Testare i modelli su differenti subset di dati • trasformazione variabili per specifici modelli – Discretizzazione di una variabile continua (es. da fatturato in € a classi di fatturato) – Creazione di flag (es. da valore della raccolta relativa a un prodotto a prodotto trattato si/no) – Trasformazione di variabili qualitative in quantitative – Omogeneizzazione delle variablili qualitative e quantitative (per i modelli che prevedono l’utilizzo di solo una delle due tipologie) La costruzione del db è effettuata da esperti di statistica multivariata e non da sviluppatori o programmatori. Segmentazione La segmentazione avviene introducendo nel db dei La segmentazione della base clienti è focalizzata sulla filtri (simili ad excel) sulle diverse variabili ma non ricerca di cluster di clienti con comportamenti simili tra loro. permette di aggregare i record dei clienti per Le tecniche (e i differenti algoritmi statistici) di cluster “comportamenti simili”. analysis o reti neurali consentono di individuare gruppi di Di fatto non è possibile segmentare correttamente clienti omogenei al loro interno e differenziati tra loro. la base clienti. Ciò che distingue questa attività da quella di “pura estrazione” o applicazione di filtri (metodo tradizionale) è il fatto che nel clustering le classi o i gruppi non sono definiti a priori, ma attraverso un’opera di maieutica vengono “riconosciuti” e descritti a posteriori dal modello e interpretati dal manager. Figura 1 – Segmentazione comportamentale Cluster analysis BANCA Z - Segmentazione comportamentale dei clienti Deposito titoli Mutu i Bancoma 100,t 0 Carte revolving 50, 0 - Libretto di risparmio Domiciliazione utenze Gestione patrimoniale Bancomat 1 2 3 Carta di credito Prodotto assicurativo Carta di cr edito Fond i Carte r evolving Domiciliaz. utenze Home banking Credito personale Prod. assicur ativo Home banking Credito personale Fondi comuni Gest. patrimoniale Cluster Libretto risparmio 1 Mutui 2 Deposito titoli 3 0 10 20 30 40 50 60 70 80 90 100 Nella figura 1 il cluster 3 è rappresentato, in una banca con prodotti assicurativi, dai cosiddetti “correntisti tecnologici-propensi al rischio” che fanno largo utilizzo di home banking, carta di credito, prodotti assicurativi, domiciliazione utenze e hanno un consistente deposito titoli. Su tale cluster l’azienda può focalizzare l’offerta di prodotti finanziari specifici per il target in oggetto ottenendo redemption significativamente più elevate rispetto alle estrazioni classiche effettuate tramite semplici query.