...

Data mining

by user

on
Category: Documents
36

views

Report

Comments

Transcript

Data mining
DATA MINING
DATA MINING
• Il processo di estrazione di conoscenza da
una base di dati è detto Knowledge
Discovery in Databases (KDD) e si avvale
di tecniche che consentono di esplorare
grandi quantità di dati per estrapolare dati
nascosti , ossia non direttamente intuibili,
ed inferenze significative.
• Tali
tecniche
si
possono
indicare
complessivamente con il termine di data
mining.
DATA MINING
• Perché usare tecniche di data mining?
•
Nessuna ipotesi a priori
•
Lavorano su dati eterogenei
•
Possono lavorare su un gran numero
di variabili
•
Possono elaborare un gran numero
di osservazioni
•
Diminuiscono il tempo di
elaborazione
DATA MINING
• Le tecniche tradizionale di analisi
statistica e data retrieval sono
inadeguate per questi scopi poiché
richiedono dati strutturati (generalmente
di tipo quantitativo) e condizioni note a
priori ( data retrivial richiedono di
formulare una query ;
• il sistema cerca, all'interno della banca
dati, tutti i casi che soddisfano le
condizioni poste nella query e fornisce
la risposta).
DATA MINING
• Gli algoritmi di data mining utilizzano un
approccio
esplorativo
e
non
“verificativo”, come avviene per la
statistica standard.
• Essi riescono a trovare relazioni
nascoste e difficilmente ipotizzabili a
priori.
DATA MINING
• Le tecniche di clustering e l'uso delle
reti
neurali
non
supervisionate
consentono di effettuare operazioni di
segmentazione sui dati, cioè di
individuare
gruppi
omogenei,
o
tipologie,
che
presentano
delle
regolarità al loro interno in grado di
caratterizzarli e differenziarli dagli altri
gruppi.
DATA MINING
• Le reti neurali (supervisionate) e gli
alberi di decisione consentono di
effettuare operazioni di classificazione,
fanno cioè uso della conoscenza
acquisita in fase di addestramento per
classificare nuovi oggetti o prevedere
nuovi eventi.
• Le tecniche di analisi delle associazioni
consentono di individuare delle regole
nelle occorrenze concomitanti di due o
più eventi.
TECNICHE
• Le tecniche di data mining sono
differenti e quindi anche gli algoritmi che
le implementano. Le più utilizzate sono
•
Clustering
•
Reti neurali
•
Alberi di decisione
•
Individuazione di associazioni
•
Algoritmi genetici
• …….
TECNICHE
• Processo di estrazione della
conoscenza:
• Generalmente
si
compone
delle
seguenti fasi :
  Definizione degli obiettivi
  Organizzazione dei dati : vengono
raccolti i dati e vengono organizzati in
databases.
TECNICHE
• Pre - Processing
Viene effettuata una prima valutazione
della rilevanza dei dati raccolti che può
richiedere una trasformazione delle
variabili originarie (pulizia dei dati).
• Data-Mining
La scelta del metodo da utilizzare
dipende fortemente dal problema in
esame, dagli obiettivi e dal tipo di dati
disponibili.
TECNICHE
  Elaborazione dei dati
  Valutazione dei modelli
Dal confronto dei risultati ottenuti con i
diversi metodi si sceglie il modello
migliore di analisi.
  Interpretazione, valutazione e
rappresentazione dei risultati
Fly UP