...

METODI DI CLUSTER ANALYSIS

by user

on
Category: Documents
26

views

Report

Comments

Transcript

METODI DI CLUSTER ANALYSIS
Istituto tecnico Industriale Statale “Enrico Fermi”, Treviso
Liceo Scientifico “Leonardo da Vinci”, Treviso
AMBIENTE in FORMAZIONE
• Il trattamento dei dati analitici ambientali
•
• (elementi di chemiometria)
Rossano Piazza
• Che cos’ è la Chemiometria ?
La chemiometria è un settore della chimica che studia
l'applicazione dei metodi matematici o statistici ai dati chimici
La chemiometria può essere definita come la branca della chimica che
si serve di metodi matematici, statistici e logici per:
•progettare, selezionare ed ottimizzare procedure ed esperimenti;
•estrarre la massima informazione possibile sul sistema in esame
attraverso l’analisi dei dati;
•fornire una rappresentazione grafica di questa informazione.
Appare chiaro come la chemiometria accompagni il processo chimico,
ed in particolare chimico-analitico, lungo tutte le sue fasi a partire dal
campionamento fino all’ottimizzazione.
•
Fino a poco tempo fa le indagini chimico-fisiche
riguardavano essenzialmente una sola determinazione
analitica o la misura di poche variabili che si determinavano
una alla volta. Oggi, l’uso delle moderne strumentazioni
analitiche, come ad esempio i vari tipi di tecniche
cromatografiche e spettroscopiche, consente l’acquisizione in
tempi brevi di un gran numero di determinazioni
(informazioni) su un unico campione.
•
• Un sistema complesso, quale è un sistema ambientale, per
essere studiato richiede l’acquisizione e l’indagine di (su)
molti campioni, ed ognuno di essi, a sua volta, può essere
descritto da molte informazioni (variabili). Di conseguenza,
l’elaborazione e l’interpretazione dei dati da UNIVARIATA è
necessariamente diventata MULTIVARIATA per poter
utilizzare CONTEMPORANEAMENTE tutte le informazioni
disponibili.
• Aumento del numero di campioni atti a
caratterizzare un sistema:
• + Aumento del potenziale scientifico di
conoscenza sul sistema
• - Diminuzione della nostra capacità di
“vedere” la struttura dei dati
PATTERN RECOGNITION
obiettivi:
•
1. LA SCELTA DELLE CONDIZIONI OTTIMALI PER
L’APPLICAZIONE DI METODOLOGIE SPERIMENTALI
(OTTIMIZZAZIONE ED EXPERIMENTAL DESING);
•
2. L’ESTRAZIONE DELLE INFORMAZIONI
CONTENUTE IN SERIE O TABELLE DI DATI
SPERIMENTALI (PATTERN RECOGNITION).
•
Lo scopo finale è quello di contribuire in maniera
determinante a risolvere i problemi ad alta complessità,
semplicemente semplificandoli, estraendo l’informazione
rilevante ai fini della comprensione dei problemi, e
scartando la parte di informazione ridondante e rumorosa.
La strategia chemiometrica
DATI
RUMORE
Informazione
utile
OBIETTIVO
Informazione
diversa
Informazione
ridondante
Obiettivi
diversi
I metodi chemiometrici vengono utilizzati per l’esplorazione dei dati, cioè per
aprire una finestra sulla complessità di un sistema reale, al fine di gettare luce
sulla struttura dei dati, sulle relazioni e correlazioni tra essi esistenti, sulla
congruità, sulla rilevanza e sulla ridondanza con cui il problema è stato
descritto.
LA CHEMIOMETRIA NEL CONTESTO SCIENTIFICO: APPROCCIO
“SOFT” E APPROCCIO “HARD”
(Soft models and Hard models)
PROBLEMI
TEORIE
Nuovi
Nuove
ESPERIMENTI
Schema di strategia su cui si basa lo sviluppo della scienza
tradizionale
•
•
•
•
Cosa è un sistema?
Cosa è un sistema relazionale empirico?
Cosa è la rappresentazione di un sistema?
Oggetti (i campioni atti a rappresentare il
sistema)
• Variabili (il modo con cui si decide di
rappresentare il sistema).
–Rilevanza
–Correlazione
Rappresentazione in uno spazio
multivariato
Una volta che serie di dati polidimensionali siano facilmente acquisibili o
costruibili, l’analisi statistica multivariata è lo strumento necessario per
poter usare contemporaneamente tutte le informazioni disponibili. Si può
facilmente dimostrare che l’uso di informazioni parziali (ad esempio
considerare le modificazioni dovute a ciascuna variabile presa una alla
volta) può portare a risultati completamente distorti.
Per una comprensione immediata del
significato dei vari metodi di analisi multivariata, è
estremamente utile averne una rappresentazione
grafica. Un campione su cui siano state misurate p
variabili è rappresentato da un punto dello spazio pdimensionale in cui ciascuna variabile misurata
rappresenta un asse ortogonale
La struttura multivariata dei dati
Come si può descrivere un oggetto rappresentato da p variabili?
• Le Variabili
•
Sono le grandezze che utilizziamo per studiare un dato fenomeno e
per descrivere complessivamente le osservazioni; possono essere
di natura sperimentale o numerica (calcolabili per via teorica) .
•
Le variabili sono il modo con cui si descrive il sistema
relazionale empirico, e le scale di misura sono il modo con cui
l’informazione empirica viene trasformata in informazione
numerica.
Il Trattamento Preliminare dei dati
1. Verifica della
correttezza del dato
2. Verifica della completezza del dato (ovvero, se ci sono valori mancanti),
eventuale completamento della matrice di dati; verifica della presenza di
variabili “costanti”; verifica della co-presenza di variabili discrete e continue
3. Scalatura delle variabili
Definizione di gruppo e di classe, e
differenze
-Metodi di Clustering
-Metodi di classificazione
• I metodi di Pattern Recognition sono basati
sul concetto di analogia:
• 1) metrica (distanza, similarità)
• 2) aderenza ad un modello matematico
Nei metodi di classificazione esiste una serie di campioni
la cui appartenenza ad una classe è conosciuta a
priori (training set). Ciascun oggetto del training set è
a priori assegnato alla sua classe. Il metodo serve per
trovare delle regole che permettono di distinguere le
varie classi. Una volta trovate, queste regole servono
per classificare campioni incogniti (test set)
Nei metodi di clustering non si hanno, invece,
conoscenze di sorta sui dati da elaborare. (le classi
non sono note a priori). L’obiettivo, in questo caso, è
quello di verificare se i punti nello spazio sono
dispersi omogeneamente o formano dei gruppi
(clusters). Se al termine dell’analisi riteniamo di dare ai
gruppi un significato, i gruppi saranno definiti classi.
(…)
Cluster Analysis
•
•
•
•
•
•
•
Ciascun metodo di analisi multivariata si basa sull’utilizzo di un
criterio di similitudine. Sotto questo profilo, i vari metodi sviluppati fino ad
oggi si possono suddividere in due categorie.
I primi (storicamente) usano come criterio di similitudine la
distanza Euclidea (ed altri tipi di distanze geometriche): due campioni sono
tanto più simili quanto più sono vicini nello spazio p-dimensionale.
Dati n oggetti e p variabili, con X = x n,p ( matrice di n oggetti per p
variabili), si definisce distanza Euclidea dell’oggetto k-esimo
dall’oggetto l-esimo d k,l:
dkl = [j (xkj – xlj )2]0.5
(j= 1, 2,…….p)
Nel semplice caso bidimensionale (p=2 ), dati 2 oggetti P1 e P2 di coordinate
P1(x11 , x12) e P2(x21 ,x22), la distanza d12 sarà (x21-x11)2 + (x22-x12)2 .
x2
x22
x12
P2
P1
x11
x21
x1
• Nel caso bidimensionale, si può semplicemente
verificare la validità della formula sulla base del
Teorema di Pitagora.
• La misura della distanza Euclidea è a rigore
l’inverso di una misura di similtudine in quanto, per
oggetti identici (o, meglio, per oggetti diversi, ma
non distinguibili attraverso la nostra
caratterizzazione multivariata), si ha che d = 0.
• Di questo gruppo fanno parte i metodi di
classificazione [LDA (Analisi Discriminante
Lineare), K-NN (K intorni più vicini], e la Cluster
Analysis.Nel secondo gruppo di metodi il
criterio di similitudine è invece rappresentato
dall’aderenza ad un unico modello matematico.
• Fra questi metodi, regna sovrana l’Analisi delle
Componenti Principali (PCA).
Similarità: trasposizione del concetto di
analogia.
Significato opposto al concetto di distanza
euclidea.
Il concetto di similarità di oggetti è insito nel
concetto di distanza. Dalla definizione di
distanza Euclidea, discende quella di
similarità:
skl = 1- dkl /dmax (0s1 )
Metodi di Raggruppamento: CLUSTER
ANALYSIS
• METODI DI CLUSTER ANALYSIS
• -Metodi gerarchici (single linkage,
average linkage, complete linkage)
• Caratterizzazione dei Clusters:
• la loro posizione nello spazio p –
dimensionale è definita da:
• centroide (vettore delle medie delle
variabili calcolate per gli oggetti assegnati
al cluster); centrotipo (oggetto di
riferimento fra tutti gli oggetti facenti parte
del cluster, il più vicino al centroide);
• .dimensione (n. di oggetti in esso
contenuti).
Strategia di una Cluster Analysis
• Questo avviene andando ad eliminare dalla
matrice di similarità le righe e le colonne
relative ai due cluster (oggetti) che sono
stati “uniti”, e mettendo al loro posto una
nuova riga ed una nuova colonna relativa
alle nuove similarità del nuovo cluster con
tutti i restanti cluster (oggetti). Così
facendo, la dimensione della matrice di
similarità si riduce di uno ad ogni passo
successivo.
• Ma come si calcola la distanza del
“nuovo” cluster f (ottenuto dalla
“fusione” del cluster s con il cluster t)
con un altro cluster k ?
• s (ns)
t (nt)
k (nk)
?????
f (ns+nt)
• Algoritmi di Cluster
• Se ns è la dimensione del cluster s, nt è la dimensione del
cluster t, nk quella del cluster k, ed ovviamente nf = ns + nt è la
dimensione del nuovo cluster f, si ha:
• 1. d kf = 0.5 ( d ks + d kt )
( Average Linkage)
• 2. d kf = ( ns d ks + nt d kt ) \ nf
(weighted Average Linkage)
• 3.d kf = min (d ks , dkt )
• 4.d kf = max (d ks , d kt )
(Single Linkage)
(Complete Linkage)
Cluster Analisys: Dendrogramma
0
S
i
m
i
l
a
r
i
t
à
d
i
s
t
a
n
z
a
1
campioni 1
2
3
4
5
6
7
8
9
10
Limiti della Cluster Analysis
• -Rumore sperimentale legato alla
imprecisione delle misure sperimentali
• -Interpretazione incompleta delle
informazioni ottenute (La Cluster
Analysis non da’ informazioni sul ruolo
discriminante delle variabili)
CASO DI STUDIO
Confronto fra acque potabili (con la genesi di
potabilizzazione, a partire dai pozzi di falda) ed acque
minerali
• Stima della qualità delle acque
• Indice di qualità di un’acqua che possa essere
confrontabile
• Le acque potabili sono “diverse” da quelle minerali?
• (Conoscenza preliminare)dell’aspetto Chimico-Fisico,
biologico, microbiologico, geografico, legislativo
• L’acquedotto di Venezia dispone di fonti di
approvigionamento molto differenti, per cui immette in rete
acque dalle caratteristiche diverse. Non si può, dunque,
parlare di un'unica acqua potabile.
• Le acque bevute dai veneziani
•
94% FALDA
6% FIUME SILE
• CENTRALI DI SPINTA (ASPIV) :
• Venezia Urbe :
(VE) (1884)
• Mestre :
(GA)
• Centrale Marghera
• Cà Solaro:
(CA) (1974)
Centrale S. Andrea
Centrale GAZZERA
(MA)
Centrale omonima
• Identificazione di 20 parametri (variabili) per
l’identificazione della qualità e della “diversità”
Obiettivo: scelta dell'acqua "migliore" (basso
contenuto di sostanze indesiderabili, parametri
costanti nel tempo) da confrontare con le principali
acque minerali distribuite al dettaglio E' possibile
imbottigliare l'acqua dell' ASPIV ?
• (direttiva 96/70/CE sul riavvicinamento delle
legislazioni degli stati membri sull' uso e la
commercializzazione delle acque minerali).
ASPIV: Centrali di potabilizzazione
• Utilizzo della Cluster Analysis per un
primo screening: valutazione della
“diversità” fra i campioni analizzati
dalle 4 centrali di spinta
• Analisi di 100 campioni per ogni
centrale di spinta: totale 400 campioni,
20 variabili (variabilità stagionale)
• Matrice 400obj x 20vars
• Autoscaling
Risultati della Cluster Analysis sui dati autoscalati
-Cà Solaro appare l’acqua più “diversa” (si unisce per ultima)
-I campioni di Gazzera appaiono i più simili tra loro
-Marghera e Venezia non solo distinguibili a nessun livello (stesse fonti)
-Ipotesi: Marghera e Venezia: stesse fonti (permeabilità di falda)
-L’acqua di Gazzera sembra essere la più omogenea
No informazioni sulla variabili
• Roberto Todeschini: “Introduzione alla
Chemiometria”, EdiSES, Napoli
• D.L. Massart et al:”Chemometrics:a Textbook”,
Data Handling in Science and Technology, 2,
ELSEVIER, Amsterdam.
Fly UP