...

Approccio parametrico e non parametrico - Unicas

by user

on
Category: Documents
47

views

Report

Comments

Transcript

Approccio parametrico e non parametrico - Unicas
Approccio statistico
alla classificazione
Approccio parametrico e non
parametrico
Finestra di Parzen
Classificatori K-NN 1-NN
Limitazioni dell’approccio
bayesiano
z
Con l’approccio bayesiano, sarebbe possibile
costruire un classificatore ottimo se si
conoscessero:
z
z
le probabilità a priori P(ωi)
le densità condizionate alla classe P(x|ωi)
z
Informazioni che raramente sono disponibili
z
Alternativa: costruire una classificatore da un
insieme di esempi (training set)
z
z
Pro: stima delle P(ωi) semplicemente realizzabile
Contro: training set troppo limitato per una stima affidabile
delle distribuzioni condizionate
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
1
Università degli Studi
di Cassino
1
Approccio parametrico e
non parametrico
z
Due sono le soluzioni più diffuse
z
Approccio parametrico
z
z
Si assume una forma particolare per le pdf (es.
Gaussiane)
Approccio non parametrico
z
Non si assume alcuna conoscenza sulla forma
analitica delle pdf.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
2
Università degli Studi
di Cassino
Approccio parametrico
z
z
z
In questo tipo di approccio si assume nota la forma
delle densità condizionali; tipicamente si assume
una gaussiana P(x | ωi) ~ N( µi, Σi).
Ci sono quindi due parametri da stimare per ogni
classe.
Le tecniche più usate per la stima sono:
z
z
z
Maximum-Likelihood (ML)
Stima Bayesiana
Sebbene differenti nella logica, le due tecniche
portano a risultati quasi identici.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
3
Università degli Studi
di Cassino
2
Stima Maximum Likelihood
z
z
z
z
I parametri sono fissati, ma non noti.
I valori ottimali dei parametri sono ottenuti
attraverso la massimizzazione della
probabilità di ottenere i campioni osservati.
La stima ha buone proprietà di convergenza
al crescere dell’insieme di campioni.
E’ più semplice di altre tecniche.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
4
Università degli Studi
di Cassino
Stima Maximum Likelihood
z
Principi generali
z
assumiamo di avere c classi, con
P(x | ωj) ~ N( µj, Σj)
P(x | ωj) ≡ P (x | ωj, θj) dove:
22
m
n
θ j = (µ j ,Σ j ) = (µ1j,µ2j ,..., σ11
j , σ j , cov(x j , x j )...)
z
z
per ogni classe ωi abbiamo un insieme di
campioni Di
supponiamo, inoltre, che i campioni in Di non
diano informazioni su θj
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
5
Università degli Studi
di Cassino
3
Stima Maximum Likelihood
z
In queste ipotesi si può lavorare indipendentemente su
ogni classe.
z
Consideriamo una classe generica cui corrisponde un
insieme D contenente n campioni, x1, x2,…, xn estratti
indipendentemente.
La probabilità di ottenere l’insieme D dato θ è quindi:
z
n
P(D | θ) = ∏ P(x k | θ)
k =1
z
Per definizione la stima ML di θ è il valore che
massimizza P(D | θ).
E’ il valore di θ che meglio si accorda con i campioni di
training effettivamente osservati
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
Università degli Studi
di Cassino
6
Stima Maximum Likelihood
z
Per valutare più agevolmente l’insieme di parametri
θ, è opportuno osservare che:
θˆ = arg max[ p(D θ )] = arg max[log p(D θ )]
θ
θ
e quindi considerare il problema equivalente:
  n

 n

θˆ = arg max log ∏ p(xk θ ) = arg max ∑ log( p (xk θ ))
θ
θ

 k =1

  k =1
z In questo modo, l’espressione è più facile da
analizzare (derivate di somme invece che di
prodotti; semplificazioni per p() esponenziali)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
7
Università degli Studi
di Cassino
4
Stima Maximum Likelihood
Esempio: caso gaussiano, media non nota
z
z
Supponiamo che D contenga n campioni
provenienti da una pdf gaussiana p( x) = N ( µ , σ )
con σ nota.
Qual è la stima ML di µ ?
 1
 (x − θ )2  
exp − k 2   =
 2π σ

2σ
θ
θ
k =1
k =1



2
2
n 
n 
(
xk − θ ) 
 1  ( xk − θ ) 
= arg max ∑ log
−
 = arg max ∑ −

2σ 2 
2σ 2 
θ
θ
 2π σ 
k =1 
k =1 
n
n
θˆ = arg max ∑ log( p(xk θ )) = arg max ∑ log
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
Università degli Studi
di Cassino
8
Stima Maximum Likelihood
Esempio: caso gaussiano, media non nota
z
Calcoliamo la derivata e uguagliamola a 0:
d
dθ
z
Da cui:
 ( xk − θ )2  n  xk − θ 
=0
=∑
−
∑
2σ 2  k =1  σ 2 
k =1 
n
µˆ = θˆ =
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
1 n
∑ xk
n k =1
9
Università degli Studi
di Cassino
5
Stima Maximum Likelihood
Esempio: caso gaussiano, µ e σ non note
z
z
Supponiamo che D contenga n campioni
provenienti da una pdf gaussiana p( x) = N ( µ , σ )
con µ e σ non note.
Questa volta occorre considerare il gradiente
θ
µ
θ =  1  =  2 
θ 2  σ 
1 n

 
 ∂ n
(
)
−
x
θ
(
(
)
)
p
x
θ
log
∑
1
k


∑
k

 ∂θ
θ 2 k =1
k =1
1
 = 0 

= n
∇θ = 
2
n


∂
(
)
−
x
θ
1
 0



1
k


(
(
)
)
p
x
θ
log
−
+
k

 ∑
 ∂θ 2 ∑
2θ 22 
k =1
 k =1  2θ 2
F. Tortorella © 
2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
Università degli Studi
di Cassino
10
Stima Maximum Likelihood
Esempio: caso gaussiano, µ e σ non note
z
La stima ML dei due parametri è quindi:
µˆ = θˆ1 =
z
1 n
∑ xk
n k =1
σˆ 2 = θˆ2 =
1 n
(xk − µˆ )2
∑
n k =1
In effetti, il valore di σˆ 2 è polarizzato in
quanto il valore atteso calcolato su tutti gli
insiemi di dati di ampiezza n è diverso dalla
varianza reale
n −1 2
E σˆ 2 =
σ ≠σ2
n
[ ]
z
Una stima non polarizzata è σˆ 2 =
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
11
1 n
(xk − µˆ )2
∑
n −F.1Tortorella
k =1 © 2005
Università degli Studi
di Cassino
6
Stima bayesiana
z
z
Nella stima ML il parametro θ era assunto fisso
ma non noto.
La soluzione ML è il valore che meglio si
accorda con i campioni di training effettivamente
osservati.
Maximum
Likelihood
D
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
12
Università degli Studi
di Cassino
Stima bayesiana
z
z
z
z
Anche nella stima bayesiana la forma di p(x | θ) è
assunta nota, con θ non noto.
Nella stima bayesiana θ è considerato una variabile
aleatoria di densità nota p(θ).
Il resto della conoscenza a priori è contenuto in un
insieme D di n campioni x1, x2, …, xn indipendenti
estratti da una popolazione avente densità p(x).
Perciò dobbiamo valutare la densità condizionata p(x|D)
che risulta:
p(x | D) = ∫ p(x | θ)p(θ | D)dθ
nota
da stimare
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
13
Università degli Studi
di Cassino
7
Stima bayesiana
z
z
z
z
Di conseguenza, nella stima bayesiana, l’incertezza sul valore
del parametro è modellata tramite una pdf.
Prima dell’osservazione dei dati, il parametro θ è descritto da una
densità a priori p(θ) che è tipicamente di supporto molto ampio
per rappresentare la scarsa conoscenza sul suo vero valore.
Una volta noti i dati, si fa uso del teorema di Bayes per
determinare la densità a posteriori p(θ|D).
La conoscenza dei dati dovrebbe idealmente rendere più definita
la densità p(θ|D); in altre parole, si dovrebbe ridurre l’incertezza
sul valore del parametro θ.
D
D
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
14
Università degli Studi
di Cassino
Stima bayesiana
z
La densità condizionata p ( x D) si calcola integrando
la densità congiunta p( x,θ D) su θ:
p( x D) = ∫ p( x,θ D)dθ
z
Calcoliamo p( x,θ D) :
p (x, θ D ) = p (x θ , D ) p (θ D )
p (x θ , D ) è indipendente da D perché, una volta noto θ,
la densità è completamente specificata. Quindi:
p (x, θ D ) = p (x θ ) p (θ D )
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
15
Università degli Studi
di Cassino
8
Stima bayesiana
z
Per calcolare p(θ D) utilizziamo il teorema di Bayes:
p(θ D ) =
z
p(D θ ) p(θ )
p (D )
=
p(D θ ) p(θ )
∫ p(D θ ) p(θ )dθ
Possiamo calcolare p(D θ ) sfruttando l’ipotesi che i
campioni di D siano i.i.d.:
n
p(D θ ) = ∏ p(xk θ )
k =1
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
16
Università degli Studi
di Cassino
Stima bayesiana
Esempio: caso gaussiano, media non nota
z
z
Supponiamo che D contenga n campioni i.i.d.
provenienti da una pdf gaussiana con µ non
nota e σ nota.
Supponiamo che il parametro θ = µ abbia
anch’esso una pdf normale N(µ0, σ0):
p0 (θ ) =
 (θ − µ 0 )2 

exp −
2σ 02 
2π σ 0

1
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
17
Università degli Studi
di Cassino
9
Stima bayesiana
Esempio: caso gaussiano, media non nota
z
Valutiamo la pdf a posteriori p(θ |D):
p(θ D ) =
p(D θ ) p0 (θ )
p( D)
p0 (θ ) n
∏ p (x k θ ) =
p ( D) k =1
=
 (θ − µ 0 )2  1 n

exp −
p(xk θ )
2
 p( D) ∏
2
σ
2π σ 0
=
1
k
0


1
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
Università degli Studi
di Cassino
18
Stima bayesiana
Esempio: caso gaussiano, media non nota
z
Per comprendere come la stima bayesiana modifica la
densità a posteriori all’aumentare dei dati, consideriamo il
valore massimo di p(θ |D):
n

d
d  1
 −
(µ − µ0 )2 + ∑ − 1 2 (xk − µ )2  = 0
log p (θ D ) = 0 ⇒
2
dθ
dµ  2σ 0
2σ
k =1

da cui
z
µn =
σ2
σ + nσ
2
2
0
µ0 +
nσ 02 1 n
∑x
σ + nσ 02 n k =1 k
2
si comprende come, all’aumentare di n, la stima µn si porta
dalla stima iniziale µ0 verso la stima ML.
In maniera simile, la deviazione standard σn è data da:
1
σ n2
=
n
σ2
+
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
19
1
σ 02
F. Tortorella © 2005
Università degli Studi
di Cassino
10
Stima bayesiana
Esempio: caso gaussiano, media non nota
Supponiamo di dover stimare la media di una pdf gaussiana con
parametri µ=0.8 e σ=0.3. Conosciamo solo σ.
Assumiamo una p0(θ) ugualmente gaussiana con µ0=0.0 e σ0=0.3.
D)
Visualizziamo p(θ |D) al variare del numero di campioni n.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
20
Università degli Studi
di Cassino
Confronto tra stima ML e
stima bayesiana
z
z
z
Qual è la relazione tra queste due stime ?
All’aumentare dei dati, la stima bayesiana si
avvicina alla stima ML.
In pratica, le due tecniche forniranno risultati
significativamente diversi solo per bassi valori
di n.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
21
Università degli Studi
di Cassino
11
Approccio non parametrico
z
z
z
Nell’approccio parametrico tutte le densità erano
unimodali (hanno un singolo massimo locale),
mentre in molti problemi pratici le densità sono
multimodali.
Con l’approccio non parametrico si rimuove
l’assunzione della conoscenza delle densità per cui
si può lavorare con distribuzioni di forma arbitraria.
Due tipologie di metodi non parametrici:
z
z
Stimare p(x | ωj)
Stimare direttamente le probabilità a posteriori P( ωj|x)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
23
Università degli Studi
di Cassino
Stima della densità
z
Consideriamo la probabilità che un vettore x,
la cui densità è p(x), cada in una regione R:
P = ∫ p(ξ )dξ
R
z
Consideriamo n campioni i.i.d. di x x1,…,xn.
La probabilità che k di questi cadranno in R
sarà data da:
Pk (1− P)n−k
Pk =  n
k
 
mentre il valore atteso per k è E[k]=nP.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
24
Università degli Studi
di Cassino
12
Stima della densità
z
z
z
Possiamo quindi assumere P≅k/n, dove la
stima diventa più accurata al crescere di n.
2
 k
Infatti si ha:  k 
k 
  P(1 − P)
var
=
=E
−P
E  = P
n
 n 

 n
 
 
n
D’altra parte, se supponiamo p(x) continua ed
R sufficientemente piccola, possiamo porre:
P = ∫ p(ξ )dξ ≅ p(x)∫ dξ = p(x)V
R
z
R
In questo modo, otteniamo una stima di p(x):
k/n
F. Tortorella
p(x) ≅
V
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
25
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
© 2005
Università degli Studi
di Cassino
26
Università degli Studi
di Cassino
13
Stima della densità
Alcuni problemi:
z se fissassimo il volume V e facessimo crescere n,
otterremmo una media di p(x):
P
=
V
∫ p(ξ )dξ
R
∫ dξ
R
z
per cui dovremmo considerare un volume che tende
a zero.
Tuttavia, per n fissato, R diventerebbe talmente
piccola che k=0 (e quindi p(x) ≅0); altrimenti se k>0,
la stima divergerebbe.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
27
Università degli Studi
di Cassino
Stima della densità
z
z
z
Mettiamoci nell’ipotesi di avere un numero illimitato
di campioni.
Per valutare p(x) consideriamo una sequenza di
regioni R1,R2,…, Rn contenenti x: la regione Rs si
impiega nel caso n=s (1,2,…,n campioni totali).
Se Vn è il volume di Rn, kn il numero di campioni che
cadono in Rn and pn(x) è l n-ma stima di p(x), si ha:
pn(x) = (kn/n)/Vn
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
28
Università degli Studi
di Cassino
14
Stima della densità
z
Perché pn(x) converga a p(x) sono necessarie tre
condizioni:
lim Vn = 0
n→ ∞
z
lim k n = ∞
n→ ∞
lim
n→ ∞
kn
=0
n
Due modi per ottenere tali condizioni:
z
z
ridurre la regione R definita inizialmente specificando il
volume Vn come funzione di n (es.: Vn=1/√n) e dimostrare
che pn(x)Æp(x) per nÆ∞ (metodo della finestra di Parzen).
specificare kn come funzione di n (es.: kn= √n). In questo
caso, Vn cresce fino a contenere kn campioni (stima a kn
vicini).
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
29
Università degli Studi
di Cassino
Stima della densità
Stima della densità con i due metodi. Entrambe le sequenze
rappresentano variabili aleatorie che generalmente convergono,
F. Tortorella © 2005
permettendo
diPattern
stimare
la densità nel punto di interesse.
Teoria e Tecniche di
Recognition
Università degli Studi
Approccio parametrico e non parametrico
30
di Cassino
15
Metodo della finestra di Parzen
z
z
Assumiamo che la regione Rn sia un ipercubo a d
dimensioni, di lato hn e volume Vn= hnd.
Consideriamo una funzione finestra ϕ(u) che unitaria
all’interno di un ipercubo centrato nell’origine e di
lato unitario:
1

j = 1,... , d
1 u j ≤
ϕ (u) = 
2
0 altrimenti
z
ϕ((x-xi)/hn) è uguale a 1 se xi cade all’interno
dell’ipercubo di volume Vn centrato su x e nullo al di
fuori.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
31
Università degli Studi
di Cassino
Metodo della finestra di Parzen
z
Il numero di campioni che cade all’interno di Vn è quindi
uguale a:
n
 x − xi 

k n = ∑ ϕ 
i=1  hn

z
La stima della densità è quindi:
pn (x) =
z
1 n 1  x − xi 

∑ ϕ
n i=1 Vn  hn 
pn(x) stima p(x) come la media di funzioni di x e dei
campioni (xi) (i = 1,… ,n). La funzione ϕ può essere di
forma generale purchè si verifichi ϕ(u)≥0 e ∫ ϕ(u)du =1.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
32
Università degli Studi
di Cassino
16
Metodo della finestra di Parzen
z
z
z
z
In corrispondenza di un punto xi, la pdf non è nulla.
Se la pdf è continua sull’intero spazio delle features, allora essa
sarà non nulla anche in un piccolo intorno di xi. Tuttavia, quanto
più ci si allontana dal punto tanto più diminuisce l’influenza del
valore della pdf in xi.
Di conseguenza, la stima di Parzen si basa sulla considerazione
che la conoscenza sulla pdf ottenuta con l’osservazione del
punto xi è rappresentata da una funzione centrata sul punto e
con un supporto ristretto ad un intorno limitato di xi. Di
conseguenza è una funzione che:
z Ha il suo massimo per x=xi
z È monotonicamente decrescente al crescere di d(x,xi) (distanza)
z Ha integrale unitario
La funzione è spesso chiamata kernel e rappresenta il contributo
del punto alla stima. La stima complessiva è quindi ottenuta
sommando i contributi di tutti i punti.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
Università degli Studi
di Cassino
33
Finestra di Parzen
z
Una scelta frequente è un kernel gaussiano:
ϕ (u) =
z
(
1
2π
Per cui la stima è:
1 n
pn ( x ) = ∑
n i =1
(
)
d
 u2

exp −
 2 


 x − xi
−
exp
d d

2h 2
2π h

1
)




F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
2
34
Università degli Studi
di Cassino
17
Metodo della finestra di Parzen
A parità di n, la stima dipende dalla forma della ϕ:
ϕ(u)
p(x) stimata
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
35
Università degli Studi
di Cassino
Più in
generale, la
stima dipende
dalla forma di
ϕ e dal numero
di campioni n.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
36
Università degli Studi
di Cassino
18
Classificazione
z
Nei classificatori basati sulla stima con la
finestra di Parzen, si stima la densità
condizionata per ogni classe e si esegue
la classificazione con la regola della
massima probabilità a posteriori.
z
Le regioni di decisione dipendono dalla
scelta della funzione finestra.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
37
Università degli Studi
di Cassino
Classificazione
ampiezza h piccola
ampiezza h grande
La forma della ϕ influisce sulle regioni di decisione.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
38
Università degli Studi
di Cassino
19
Algoritmo di classificazione
basato sul metodo di Parzen
z
1.
2.
Input: training set Ts, test set T
Determinazione di h a partire da Ts
Per ogni campione x di T si stimano le pdf
condizionate:
1
pˆ (x ωt ) =
nt
3.
∑
i∈Tst
(
 x − xi
−
exp
d d

2h 2
2π h

1
)
2




Il campione viene assegnato alla classe con
criterio MAP: ω = arg max p( x ωt ) Pˆ (ωt )
{
t
}
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
Università degli Studi
di Cassino
39
Stima LOO di h
z
z
Per determinare il valore di h si potrebbe usare un
approccio Maximum Likelihood, ma ciò porterebbe ad un
valore di hÆ0.
Invece di determinare h che massimizza log(P(Ts|h)) si
n
considera h tale che:
hˆ = arg max ∑ log pˆ −i (x i h )
h
n
dove: pˆ (x h ) = 1
∑
i
−i
n − 1 j =1, j ≠i
z
(
i =1
 x −x
i
j

exp −
d d
2
2h

2π h

1
)
2




In effetti, pˆ −i (x i h ) è la stima della pdf su xi valutata usando
per la stima l’insieme Ts-{xi} (stima LOO, Leave One Out)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
40
Università degli Studi
di Cassino
20
Stima della densità a k vicini
z
z
Nalla stima a k vicini il volume che circonda il
punto x cresce fin quando arriva a includere k
punti degli n totali.
La stima della densità che si ottiene è quindi:
pˆ n ( x) =
k
n ⋅ Vn ( x )
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
41
Università degli Studi
di Cassino
Stima della densità a k vicini
z
Stima non
soddisfacente
per diversi
problemi:
z
z
È influenzata
dal rumore
locale
Produce densità
con molte
discontinuità
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
42
Università degli Studi
di Cassino
21
Stima della densità a k vicini
È possibile usare il metodo a k vicini per
stimare direttamente la probabilità a posteriori
P(ωi|x).
Consideriamo un insieme Ts di n campioni
appartenenti alle varie classi e sia ni il numero
di campioni appartenenti alla classe ωi.
Sia x è un campione da classificare non
appartenente a Ts.
z
z
z
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
Università degli Studi
di Cassino
43
Stima della densità a k vicini
z
z
z
Si consideri un’ipersfera centrata su x e di
raggio tale da includere k campioni di Ts.
Sia ki ≤ k il numero di campioni interni
all’ipersfera appartenenti alla classe ωi.
Se V è il volume dell’ipersfera, con il metodo
a k vicini si possono stimare
z
z
z
ki
La pdf condizionata p(x | ωi ) = n ⋅V
k
i
p (x ) =
La pdf incondizionata
n ⋅V
n
La probabilità a priori P(ωi ) = i
n
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
44
Università degli Studi
di Cassino
22
Classificatore k-NN
z
Mettendo tutto insieme, è possibile ottenere
una stima della probabilità a posteriori:
P(ωi | x ) =
z
p(x | ωi )P(ωi )
k n n ⋅ V ki
≅ i i
=
p(x )
ni ⋅ V n k
k
In questo modo è possibile definire una
regola di classificazione (k Nearest Neighbor
rule o k-NN):
k ( x)
α (x) = ωi ωi = arg max i
k (x)F. Tortorella
i
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
45
© 2005
Università degli Studi
di Cassino
Classificatore k-NN
z
z
Il classificatore k-NN è un classificatore non
parametrico che classifica i campioni sulla base
della loro somiglianza con gli esemplari del training
set Ts.
Per definire un
classificatore k-NN
è necessario soltanto
z
z
z
Scegliere un valore k
Un insieme di campioni
con etichette (training set)
Una metrica per definire
la “vicinanza”
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
k=5
46
Università degli Studi
di Cassino
23
Prestazioni del classificatore
k-NN
z
z
Il classificatore è sub-ottimo nel senso che
non garantisce la probabilità di errore minima
esibita dal classificatore bayesiano.
E’ però possibile dimostrare che, con nÆ∞,
la probabilità di errore Pe per il classificatore
k-NN si avvicina alla probabilità di errore del
classificatore bayesiano se kÆ∞.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
47
Università degli Studi
di Cassino
Prestazioni del classificatore
k-NN
Limiti inferiore (errore di Bayes) e superiore alla
probabilità di errore del classificatore k-NN per un
problema a due classi.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
48
Università degli Studi
di Cassino
24
Classificatore Nearest-Neighbor
z
z
z
Un caso particolare si ha quando k=1.
Si ottiene un classificatore 1-NN o
classificatore “Nearest Neighbor”
La classificazione di un nuovo campione x
non appartenente a Ts avviene scegliendo
l’etichetta del campione di Ts a minima
distanza da x.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
49
Università degli Studi
di Cassino
Classificatore Nearest-Neighbor
Il classificatore NN induce sullo spazio delle
F. Tortorella © 2005
degli Studi
features una tassellazione di Voronoi. Università
di Cassino
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
50
25
Prestazioni del classificatore
1-NN
z
z
Anche il classificatore 1-NN è sub-ottimo.
E’ però possibile dimostrare che, al crescere
di n, la probabilità di errore Pe per il
classificatore NN soddisfa la seguente
relazione:
Pe* ≤ Pe ≤ 2Pe*
dove Pe* è la probabilità di errore del
classificatore bayesiano.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
51
Università degli Studi
di Cassino
Classificatore Nearest-Neighbor
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Approccio parametrico e non parametrico
52
Università degli Studi
di Cassino
26
Fly UP