Comments
Description
Transcript
Data mining
DATA MINING DATA MINING • Il processo di estrazione di conoscenza da una base di dati è detto Knowledge Discovery in Databases (KDD) e si avvale di tecniche che consentono di esplorare grandi quantità di dati per estrapolare dati nascosti , ossia non direttamente intuibili, ed inferenze significative. • Tali tecniche si possono indicare complessivamente con il termine di data mining. DATA MINING • Perché usare tecniche di data mining? • Nessuna ipotesi a priori • Lavorano su dati eterogenei • Possono lavorare su un gran numero di variabili • Possono elaborare un gran numero di osservazioni • Diminuiscono il tempo di elaborazione DATA MINING • Le tecniche tradizionale di analisi statistica e data retrieval sono inadeguate per questi scopi poiché richiedono dati strutturati (generalmente di tipo quantitativo) e condizioni note a priori ( data retrivial richiedono di formulare una query ; • il sistema cerca, all'interno della banca dati, tutti i casi che soddisfano le condizioni poste nella query e fornisce la risposta). DATA MINING • Gli algoritmi di data mining utilizzano un approccio esplorativo e non “verificativo”, come avviene per la statistica standard. • Essi riescono a trovare relazioni nascoste e difficilmente ipotizzabili a priori. DATA MINING • Le tecniche di clustering e l'uso delle reti neurali non supervisionate consentono di effettuare operazioni di segmentazione sui dati, cioè di individuare gruppi omogenei, o tipologie, che presentano delle regolarità al loro interno in grado di caratterizzarli e differenziarli dagli altri gruppi. DATA MINING • Le reti neurali (supervisionate) e gli alberi di decisione consentono di effettuare operazioni di classificazione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggetti o prevedere nuovi eventi. • Le tecniche di analisi delle associazioni consentono di individuare delle regole nelle occorrenze concomitanti di due o più eventi. TECNICHE • Le tecniche di data mining sono differenti e quindi anche gli algoritmi che le implementano. Le più utilizzate sono • Clustering • Reti neurali • Alberi di decisione • Individuazione di associazioni • Algoritmi genetici • ……. TECNICHE • Processo di estrazione della conoscenza: • Generalmente si compone delle seguenti fasi : Definizione degli obiettivi Organizzazione dei dati : vengono raccolti i dati e vengono organizzati in databases. TECNICHE • Pre - Processing Viene effettuata una prima valutazione della rilevanza dei dati raccolti che può richiedere una trasformazione delle variabili originarie (pulizia dei dati). • Data-Mining La scelta del metodo da utilizzare dipende fortemente dal problema in esame, dagli obiettivi e dal tipo di dati disponibili. TECNICHE Elaborazione dei dati Valutazione dei modelli Dal confronto dei risultati ottenuti con i diversi metodi si sceglie il modello migliore di analisi. Interpretazione, valutazione e rappresentazione dei risultati