...

(Tipi di test). - Dipartimento di Ingegneria dell`informazione e

by user

on
Category: Documents
34

views

Report

Comments

Transcript

(Tipi di test). - Dipartimento di Ingegneria dell`informazione e
Unità 6
Test parametrici e non parametrici
Test per la verifica della normalità
Funzione di ripartizione
1
TEST PARAMETRICI E NON PARAMETRICI
L’applicazione di un dato test a una serie di dati dipende dal
tipo di distribuzione della variabile casuale che stiamo
studiando.
Agli effetti pratici possiamo suddividere i test in due categorie:
 test parametrici,
 test non parametrici.
Nella statistica parametrica si fanno uso di modelli matematici
che necessitano di ipotesi a priori sulle caratteristiche della
popolazione o comunque di ipotesi più restrittive di quelle
della statistica non parametrica.
2
Nell’analisi di dati biomedici ci possiamo trovare di fronte a:
A. dati proventi da distribuzioni gaussiane (o molto simili ad esse);
B. dati provenienti da distribuzioni diverse dalla curva di Gauss.
Nel caso A (rispettando determinate ipotesi) si utilizzano
preferibilmente test parametrici, mentre nel caso B è in generale
obbligatorio applicare test non parametrici.
Si noti che, mentre nel caso B è in generale errato applicare test
parametrici, nel caso A si possono applicare test parametrici o
non parametrici.
Tuttavia nel caso A è preferibile impiegare test parametrici,
poiché, a parità di numerosità del campione, questi sono molto più
potenti dei corrispondenti test non parametrici, permettendo così di
evidenziare differenze significative con campioni meno numerosi
rispetto ai corrispondenti test non parametrici.
3
OSSERVAZIONE SUI TEST PARAMETRICI
Ogni test statistico parametrico impone talune condizioni sulla
distribuzione dei parametri della popolazione dalla quale è stato
estratto il campione usato nella ricerca.
Molte volte (sbagliando) si suppone che queste condizioni siano
valide senza effettuare nessuna verifica.
La validità dei risultati ottenuti applicando un test parametrico,
dipende dalla validità dei presupposti.
Un test statistico non parametrico è invece basato su un modello
che specifica solo condizioni molto generiche e non richiede
condizioni relative alla forma specifica della distribuzione della
popolazione da cui è stato estratto il campione.
4
Esempio
Il test t di Student per il confronto di due campioni
indipendenti è un classico esempio di test parametrico che
descriveremo in seguito.
Esso richiede i seguenti presupposti:
 i dati seguono in modo accettabile una distribuzione
normale;

i dati sono indipendenti;
 le deviazioni standard per le due popolazioni sono
uguali (in generale diciamo che il rapporto fra la
deviazione standard maggiore e quella minore non è
maggiore di 2).
5
TEST PER LA VERIFICA DELLE NORMALITÀ
I test parametrici (come il test t di Student) partono
dall’ipotesi
che
le
osservazioni
seguano
una
distribuzione gaussiana.
In questo caso tutta l’informazione è contenuta nella media 
e nella deviazione standard  della popolazione in esame.
Tuttavia, quando si considerano dati reali, è raro che tale
ipotesi sia completamente verificata: i dati possono essere
essenzialmente gaussiani ma presentare occasionali
outliers, oppure possono non essere affatto gaussiani.
È quindi necessario avere a disposizione procedimenti
per verificare, per un dato set di osservazioni, la
ragionevolezza dell’assunzione di normalità.
6
Un modo grossolano per valutare qualitativamente forti
scostamenti dalla normalità è quello di analizzare
visivamente l’istogramma di frequenza dei dati raccolti. È
chiaro che un istogramma in cui si evidenziano
chiaramente più mode oppure fortemente asimmetrico a
destra o a sinistra suggerisce che i dati che si vogliono
analizzare non seguono una distribuzione gaussiana.
Un tale approccio non porta però a nessuna informazione
quantitativa precisa ed è da considerarsi mediocre.
Il modo più classico per valutare la normalità di
osservazioni univariate è tramite l’analisi dei coefficienti di
asimmetria e di curtosi i cui valori critici al 5% e all’1%
sono riportati nei manuali di statistica.
7
Anche il test del χ2 (che descriveremo in seguito) può
essere impiegato per valutare se una distribuzione di
frequenze è da considerarsi ragionevolmente di tipo
gaussiano oppure no.
Con questo test è possibile confrontare le frequenze
osservate nel campione in esame con quelle attese
nell’ipotesi di distribuzione gaussiana.
Shapiro e Wilks hanno proposto un differente test globale
che ha buone proprietà di potenza, essendo sensibile ad
un’ampia varietà di alternative alla normale. Nel lavoro
originale essi hanno riportato i valori critici della loro
statistica per una numerosità del campione n50.
8
Per n>50 D’Agostino ha proposto un test alternativo,
dando anche una tavola dei valori critici del suo test per
dimensioni campionarie fino a 1000.
Un test largamente impiegato, che descriveremo più in
dettaglio, è il test di Kolmogorov-Smirnov.
Per comprendere il funzionamento del test di
Kolmogorov-Smirnov è necessario definire prima il
concetto di funzione di ripartizione.
9
FUNZIONE DI RIPARTIZIONE
Funzione di densità di probabilità f(x)
In precedenza abbiamo visto che la
distribuzione di probabilità di una
variabile aleatoria continua X può
essere rappresentata con il grafico
della densità di probabilità f(x) in
funzione di x, come in figura.
La funzione di ripartizione (detta
anche funzione di distribuzione
cumulativa o brevemente funzione di
distribuzione) di una variabile casuale
X è definita come
F(x) = P(X≤x)
x
0
Funzione di ripartizione F(x)
1
con –∞<x<∞
Essa esprime perciò la probabilità
che la variabile aleatoria assuma
valori uguali o inferiori a x.
0
x
10
F(x) rappresenta l’area sottostante
alla curva densità di probabilità f(x),
dall’estremo sinistro della curva (che
può essere a –∞) fino al valore x.
Funzione di densità di probabilità f(x)
Essa è quindi una funzione monotona
non decrescente che va da 0 a 1.
La funzione
corrisponde alla
figura in alto a
quella riportata
destra.
di ripartizione che
densità di probabilità in
destra è, ad esempio,
in figura in basso a
N.B. La funzione di ripartizione può
essere definita, in modo del tutto
analogo a quanto fatto sopra, anche per
una variabile aleatoria discreta.
x
0
Funzione di ripartizione F(x)
1
0
x
11
Test di Kolmogorov-Smirnov
Molti test utilizzati in statistica sono test parametrici. Questi
test sono basati su assunzioni importanti, quali un’adeguata
dimensione campionaria e la distribuzione normale della
variabile di interesse.
Il test di Kolmogorov-Smirnov è un test non parametrico
che verifica la forma delle distribuzioni campionarie. È
applicabile a dati per lo meno ordinali perché richiede la
costruzione di una funzione di ripartizione.
Questo test è comunemente usato per confrontare dati
sperimentali con distribuzioni attese ed in particolare per
testare se la distribuzione in studio differisce da una
distribuzione teorica, per esempio, normale.
12
Sia X una variabile casuale continua con funzione di
ripartizione F(x).
Il test di Kolmogorov-Smirnov su un unico campione è un test
per la bontà dell’adattamento. Esso verifica cioè che la
variabile casuale X abbia funzione di ripartizione uguale ad
una data funzione di ripartizione F0(x), ossia:
H0: F(x) = F0(x), per ogni x
contro
H1: F(x) ≠ F0 (x), per qualche x.
Sia x = (x1, . . . xN) un campione casuale di ampiezza N tratto
dalla variabile casuale X. Poiché il problema riguarda la
funzione di ripartizione della variabile casuale X, è intuitivo
basare la statistica test sulla funzione di ripartizione empirica.
13
Dette quindi x(1), . . . . x(N) le N osservazioni ordinate, la
funzione di ripartizione empirica sarà definita come
0
 k
FˆN ( x )  
N
1
La
FˆN ( x )
se x  x (1)
se x (k )  x  x (k  1)
se x  x (N )
è uno stimatore non distorto di F(x).
14
La statistica test di Kolmogorov-Smirnov è data da
DN  max
   x  
FˆN ( x )  F0 ( x )
È cioè definita come la massima differenza (in valore
assoluto) tra la funzione di ripartizione empirica FˆN ( x ) e la
funzione di ripartizione teorica F0 ( x ) .
L’idea del test di Kolmogorov-Smirnov è piuttosto semplice e
intuitiva. Poiché FˆN ( x ) stima la vera funzione di ripartizione
F(x), è logico basarsi su una qualche distanza tra FˆN ( x )
e F0 ( x ) .
Se FˆN ( x ) e F0 ( x ) sono vicine, si accetta l’ipotesi nulla,
mentre la si rifiuta se FˆN ( x ) e F0 ( x ) sono lontane.
15
Il valore di DN così calcolato è confrontato con i valori
critici riportati nella corrispondente tabella, che
dipendono dal livello di significatività scelto e dalla
numerosità dei campioni considerati.
In altre parole l’ipotesi nulla viene rifiutata ad un livello di
significatività α quando il valore calcolato di DN supera il
corrispondente valore riportato nella tabella dei quantili.
Nella sua forma originale il test di Kolmogorov-Smirnov si
applica quando F0 ( x ) è completamente determinata
indipendentemente dai dati che stiamo studiando.
In questo caso i valori critici di DN sono quelli riportati nella
successiva Tabella 1. Di solito, però, non è questa la
situazione.
16
Testando se una serie di osservazioni si adatta ad una
distribuzione gaussiana, la particolare distribuzione è
quella avente media e deviazione standard stimate dai
dati. In questo caso si usa una versione modificata del
test di Kolmogorov-Smirnov, dovuta a H.W. Lilliefors.
Il test statistico, ovvero il valore di DN, è calcolato
esattamente come prima, ma i valori critici sono diversi.
La tabella da usare è la Tabella 2, che fornisce i valori critici
per N fino a 30. (Se, per N<30, il valore critico corrispondente
ad un particolare N non è presente in tabella, si può usare
un’interpolazione lineare per ricavarlo).
In generale, quando N>30 i valori critici per il test di
Kolmogorov-Smirnov- Lilliefors bilaterale per α = 0,10; 0,05 e
0,01 sono rispettivamente 0,805 / N ; 0,886 / N e 1,031/ N .
17
18
Esempio di calcolo di una funzione di ripartizione empirica
Si supponga di avere un campione di 20 individui sui quali è stata acquisita la
variabile aleatoria X e che i valori misurati siano quelli di seguito riportati
1,55; 0,08; 0,70; 6,98; 0,42; 3,20; 0,95; 0,17; 1,37; 50,57; 0,24; 0,34; 0,50; 0,94;
1,26; 0,38; 0,10; 1,75; 0,15; 0,49
Per calcolare la funzione di ripartizione empirica si ordinano le osservazioni in
ordine crescente. Ricordando che la numerosità del campione (N) è pari a 20 e
che quindi
per
, la
x(k )  x  x(k  1)
FˆN ( x )  k / 20  0,05  k
funzione di ripartizione empirica sarà calcolata come nella seguente tabella. Il
suo grafico sarà pertanto quello in figura sotto.
Funzione di ripartizione empirica
19
Esempio di applicazione del test di Kolmogorov-Smirnov-Lilliefors
Si supponga che la funzione di ripartizione empirica calcolata (utilizzando la
procedura vista precedentemente) su un campione con numerosità N pari a 53
osservazioni sia la linea a gradini mostrata in figura sotto.
Sulla base del valore medio e della deviazione standard delle osservazioni
campionarie si supponga di avere ottenuto la funzione di ripartizione teorica
F0(x) corrispondente alla distribuzione gaussiana (linea continua in figura).
Il valore della statistica del test è la massima differenza verticale tra le due
funzioni di ripartizione ed è uguale a 0,13.
Esso supera il valore critico del test al
livello del 5% ( 0,122  0,886 / 53 ). Si
può quindi rigettare l’ipotesi nulla con
p < 0,05.
In altre parole vi è evidenza (p < 0,05)
che i valori non siano distribuiti in
modo gaussiano.
Osservazione: si noti che anche il
grafico rivelava un’asimmetria positiva.
20
Fly UP