Pre Processing dei dati

by user

on 06-07-2016

Category: Documents

>> Downloads: 7

views

Report

Comments

Description

Download Pre Processing dei dati

Transcript

Pre Processing dei dati

Pre Processing dei dati
Modulo
1.2
C – Indici di Asimmetria e Curtosi
La forma della distribuzione di frequenza ottenuta a livello empirico è analizzabile anche
tramite specifici indici. Tra questi i più usati riguardano l’asimmetria della distribuzione
(Skewness) e lo schiacciamento della stessa (Curtosi).
Skewness
Curtosi
Rappresenta lo spostamento del vertice della
distribuzione dall’asse centrale: verso sinistra per valori
di Skewness positivi e verso destra in concomitanza di
valori negativi.
La curtosi rappresenta invece lo schiacciamento della
campana della distribuzione, in generale un valori di
curtosi negativo indica una distribuzione “più
schiacciata” verso il basso rispetto alla normale, che
viene definita platicurtica. Un valore di curtosi positivo
invece indica una distribuzione “più appuntita” rispetto
alla normale, che viene definita leptocurtica.
Si considera una distribuzione come perfettamente
normale quando presenta un valore di 0 relativamente
alla Skewness; nonostante questo alcuni autori, data la
potenza dei test utilizzati per calcolarla, suggeriscono di
considerare accettabili valori di asimmetria compresi
tra 0,5 e -0,5 per una buona normalità e tra 1 e -1 per
una quasi normalità.
 N

  ( xi  x ) 3 

1   i 1


N




•- Fonti bibliografiche
2
3
 N

  ( xi  x ) 2  Indice di
 i 1
 asimmetria di

 Pearson
N




 N

  ( xi  x ) 4 

 2   i 1


N




 N

  ( xi  x ) 2 
 i 1



N




2
Indice di
curtosi di
Pearson
Pre Processing dei dati
Modulo
1.2
D – Indici complessivi di Normalità
Esistono infine alcuni test statistici che consentono di valutare se la
distribuzione è normale. Tra questi di particolare rilievo, anche perché
proposti nei più diffusi software statistici, sono il test di Kolmogorov Smirnov
ed il test di Shapiro-Wilk. Se il test statistico che viene condotto su tali indici
risulta significativo si deve rifiutare l’ipotesi nulla che la distribuzione in
oggetto sia normale.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Analisi della Distribuzione Univariata
I quattro step precedentemente illustrati sono implementati su SPSS e
raggiungibili attraverso la voce analyze della barra degli strumenti.
Esempio di calcolo degli indicatori
di normalità su alcune variabili
relative ai punteggi ottenuti alle
scale cliniche del MMPI-II,
da un campione di soggetti sani.
•- Fonti bibliografiche
Histogram
Normal Q-Q Plot of Scala L
30
3
2
20
1
Frequency
10
Expected Normal
0
-1
Std. Dev = 8,61
-2
Mean = 48,0
N = 78,00
0
,0
5
7 ,0
0
70
,
5
60
,
0
60
,
5
50
,
0
5 ,0
5
40
,
0
40
,
5
3
Dev from Normal
Scala L
-3
30
Scala L
40
50
Observed Value
80
Detrended Normal Q-Q Plot of Scala
L
1,0
42
55
70
,8
,6
60
,4
,2
50
0,0
40
-,2
-,4
30
40
50
60
70
80
30
N =
Observed Value
78
Scala L
60
70
80
Histogram
Normal Q-Q Plot of Scala F
20
3
2
1
0
Expected Normal
Frequency
10
-1
Std. Dev = 11,27
-2
Mean = 55,1
N = 78,00
0
,0
5
9 ,0
0
9 ,0
5
8 ,0
0
8 ,0
5
7 ,0
0
7 ,0
5
6 ,0
0
6 ,0
5
5 ,0
0
5 ,0
5
4 ,0
0
4
Dev from Normal
Scala F
-3
30
Scala F
40
50
60
Observed Value
110
Detrended Normal Q-Q Plot of Scala F
2,0
100
65
90
1,5
80
60
56
18
1,0
70
,5
60
50
0,0
40
-,5
30
40
50
60
70
80
90
100
30
N =
Observed Value
78
Scala F
70
80
90
100
Scala K
Histogram
Normal Q-Q Plot of Scala K
16
3
14
2
12
1
10
8
Frequency
4
Expected Normal
0
6
-1
Std. Dev = 9,53
2
Mean = 47,5
0
N = 78,00
-2
,0
0
7 ,0
5
60
,
0
60
,
5
50
,
0
50
,
5
4 ,0
0
40
,
5
30
,
0
3
-3
20
Scala K
30
40
50
Observed Value
80
Detrended Normal Q-Q Plot of Scala K
,3
70
,2
60
,1
50
0,0
40
-,1
30
-,2
20
30
40
50
60
70
80
20
N =
Observed Value
78
Scala K
60
70
80
Indici di Asimmetria, Curtosi e Normalità Univariata
Descriptive Statistics
Scala L
Scala F
Scala K
Valid N (lis twis e)
N
Statis tic
78
78
78
78
Skewness
Statis tic
Std. Error
,689
,272
1,295
,272
,162
,272
Kurtos is
Statis tic
Std. Error
,361
,538
2,093
,538
-,812
,538
Tests of Normality
a
Scala L
Scala F
Scala K
Kol mogorov-Smi rnov
Statis tic
df
Sig.
,119
78
,008
,116
78
,011
,070
78
,200*
Shapi ro-Wilk
Statis tic
df
,952
78
,902
78
,975
78
*. This i s a lower bound of the true s ignifi cance.
a. Lilli efors Signi ficance Correcti on
Sig.
,005
,000
,132
Pre Processing dei dati
Modulo
1.2
Outlier Univariati
I valori anomali, o Outlier, sono quei casi che in una presentano valori estremamente
elevati o estremamente bassi rispetto al resto della distribuzione.
Per individuare tali outlier univariati è possibile standardizzare i punteggi relativi ala
variabile in esame e calcolare una distribuzione delle frequenze, solitamente si
considerano come valori anomali quei punteggi che corrispondono ad un punteggio Z
maggiore di 3 in valore assoluto (Tabachnick e Fidell, 1989). In ogni caso è sempre
necessario considerare la distribuzione nella sua interezza, anche perchè dati infrequenti
non sempre sono anche “anomali”.
Per concludere, i valori anomali sono in grado di influenzare molti indicatori, come la
media, la deviazione standard, l’asimmetria e la curtosi. Essi sono in grado quindi di
influenzare anche gli indici di associazione tra variabili come avviene con il coefficiente
di correlazione di Pearson.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Outlier Univariati
In presenza di casi anomali univariati che influenzano i risultati delle analisi è
possibile utilizzare degli estimatori dei parametri che risultano meno influenzati
dalla presenza ditali valori. Ad esempio, la mediana e la moda spesso possono
risultare più affidabili della media. Sono inoltre disponibili alcune statistiche
che risultano “robuste” alla presenza di tali valori, come ad esempio la media
trimmed che viene calcolata eliminando il 5% dei casi con punteggi più elevati e
più bassi.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Outlier univariati
Nel nostro esempio risulta opportuno, almeno per le variabili relative alla scala L
ed alla scala F che non raggiungono i requisiti di normalità, esaminare in prima
istanza la presenza di outlier univariati. Sebbene esista la possibilità di
visualizzare i valori estremi, uno degli strumenti più funzionali a questo scopo
risulta il Box Plot fornito da SPSS
Visualizzazione dei valori anomali
Relativamente a tre variabili
Ottenute dalle scale di controllo
Dell’MMPI-II
•- Fonti bibliografiche
M-Estimators
Scala L
Scala F
Scala K
Huber's
a
M-Estimator
47,22
53,25
47,16
Tukey's
b
Biweight
46,91
52,55
47,15
Hampel's
c
M-Estimator
47,33
53,31
47,28
Andrews '
d
Wave
46,88
52,54
47,15
a. The weighting cons tant is 1,339.
b. The weighting cons tant is 4,685.
c. The weighting cons tants are 1,700, 3,400, and 8,500
d. The weighting cons tant is 1,340*pi.
Analisi dei Box Plot per l’individuazione degli Outlier
80
80
110
100
42
55
65
70
60
56
18
60
70
90
80
60
50
70
50
60
40
50
40
30
40
30
20
30
N=
78
N=
N=
78
Scala L
78
Scala K
Scala F
Des cr iptive Statistic s
Sca la L
Sca la F
Sca la K
Vali d N (lis twis e)
N
Sta tis tic
78
78
78
78
Ske wne ss
Sta tis tic
Std .
,6 89
1 ,29 5
,1 62
Erro r
,2 72
,2 72
,2 72
Kurtos is
Sta tis tic
Std .
,3 61
2 ,09 3
-,81 2
Erro r
,5 38
,5 38
,5 38
Tes ts of Nor mality
a
Sca la L
Sca la F
Sca la K
Kol mo g or ov-Smi rn ov
Sta tis tic
df
Sig .
,1 19
78
,0 08
,1 16
78
,0 11
,0 70
78
,2 00 *
Sta tis tic
,9 52
,9 02
,9 75
*. This i s a lo wer b ou nd o f the tr ue s ign ifi ca nce.
a . L illi efo rs Sig ni fican ce Cor re cti on
Sha pi ro -Wilk
df
78
78
78
Sig .
,0 05
,0 00
,1 32
Pre Processing dei dati
Modulo
1.2
Outlier univariati
Un primo passo per raggiungere una distribuzione adeguatamente normale nei
propri dati, requisito necessario alle successive analisi, risulta quello di
considerare i dati anomali come errori di misurazione e/o campionamento.
In questo senso, quando questi sono pochi, può essere opportuno eliminarli
dall’analisi e ricalcolare gli indici di normalità.
Eliminazione dei casi anomali
individuati e confronto degli
indici di normalità prima e
dopo tale resezione.
•- Fonti bibliografiche
Analisi dei Box Plot per l’individuazione degli Outlier
80
80
42
55
70
70
60
60
Outlier eliminati 2
50
50
40
40
30
30
N=
N=
78
72
Scala L
Scala L
110
80
100
65
70
90
60
56
18
80
60
Outlier eliminati 5
70
50
60
50
40
40
30
30
N =
78
N =
71
Scala F
Scala F
Descriptive Statistics
Scala L
Scala F
Scala K
Vali d N (lis twis e)
N
Statis tic
78
78
78
78
Skewness
Statis tic
Std. Error
,689
,272
1,295
,272
,162
,272
Descriptive Statistics
Kurtos is
Statis tic
Std. Error
,361
,538
2,093
,538
-,812
,538
Scala L
Scala F
Scala K
Valid N (lis twis e)
N
Statis tic
71
71
71
71
Skewness
Statis tic
Std. Error
,337
,285
,404
,285
,150
,285
Kurtos is
Statis tic
Std. Error
-,382
,563
-,736
,563
-,749
,563
Pre Processing dei dati
Modulo
1.2
Trasformazioni sui dati (Normalizzazione)
Al fine di rendere normale la distribuzione di una variabile, oltre all’eliminazione
quando possibili dei valori anomali, sono state
- proposte diverse tecniche.
Alcune di esse agiscono senza alterare le proprietà metriche (es., il livello di
misurazione) delle variabili originali, altre invece portano a modificazioni più
consistenti di tali proprietà.
Le prime risultano più adeguate in condizioni di Non-normalità “Moderata” (Valori di
asimmetria e curtosi compresi tra |.5| e |1|.)
Le seconde sono spesso necessarie nei casi di forte violazione della normalità (Valori
di asimmetria e curtosi maggiori di |1|.)
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Trasformazioni sui dati (Normalizzazione)
L’asimmetria o semilimitazione laterale della distribuzione del carattere statistico
sotto esame può essere ridotta tramite opportune
trasformazioni operate direttamente
sui dati. Si distinguono generalmente quattro condizioni:
Asimmetria Positiva
Moderata
Asimmetria Negativa
Elevata
Moderata
Trasformazione
Logaritmica o Radice
Quadrata
Trasformazione in
Reciproco
X *  Log10 ( X )
1
*
X 
X
X*  X
Trasformazione
Logaritmica o Radice
Quadrata
X *  Log10 ( K  X )
X*  K  X
Elevata
Trasformazione in
Reciproco
1
X 
KX
*
X*= Nuova variabile
*: Nell’effettuare le trasformazioni in caso di asimmetria negativa è necessario utilizzare una
costante (k) di solito uguale a 1 + il valore più elevato presente nella distribuzione originale.
Pre Processing dei dati
Modulo
1.2
Trasformazioni sui dati
Trasformazione logaritmica sui dati grezzi di un carattere statistico distribuito in
maniera quesi-normale, presentando una non-normalità moderata ed una
semilimitazione a sinistra.
Esempio di trasformazione dei dati
Da esempio precedente per
Scale L e F
Riduzione di una asimmetria
moderata positiva
•- Fonti bibliografiche
Distribuzioni Grezze, con valori anomali e dati non trasformati
Histogram
Histogram
30
20
Asimmetria
positiva
Moderata
20
Asimmetria
positiva
Moderata
10
Std. Dev = 8,61
Mean = 48,0
N = 78,00
0
Frequency
10
Std. Dev = 11,27
Mean = 55,1
N = 78,00
0
,0
9 5 ,0
9 0 ,0
8 5 ,0
8 0 ,0
7 5 ,0
7 0 ,0
6 5 ,0
6 0 ,0
5 5 ,0
5 0 ,0
4 5 ,0
40
,0
7 5 ,0
7 0 ,0
6 5 ,0
6 0 ,0
5 5 ,0
5 0 ,0
4 5 ,0
4 0 ,0
35
Outliers
Scala L
Outliers
Scala F
Histogram
Histogram
20
16
14
12
10
10
8
Mean = ,223
N = 71,00
0
,213
,200
,238
,225
L_TRASF
,263
4
Std. Dev = ,07
2
Mean = 1,720
0
N = 71,00
0
85
1,825
1, 00
8
1,775
0
1 ,7 5
1,725
1, 00
7
1,675
0
1 ,6 5
1,625
1,600
1,
,188
Frequency
6
Std. Dev = ,02
,250
F_TRASF
Distribuzioni dopo eliminazione dei dati anomali e trasformazione
logaritmica del punteggio.
Pre Processing dei dati
Modulo
1.2
Analisi della “Linearità della relazione”
Molte analisi statistiche richiedono, oltre alla normalità della distribuzione del
carattere statistico sotto indagine, che le relazione tra i punteggi siano di tipo lineare.
-
Se la relazione tra due variabili X e Y è lineare, allora la variazione nei punteggi in Y
attesa in concomitantanza di una variazione nei punteggi di X è costante per tutti i
valori di X.
Spesso la non linearità della relazione tra due variabili e la non normalità delle
distribuzioni delle stesse sono fenomeni collegati.
Spesso i tentativi di “normalizzare” la distribuzione di un carattere statistico sotto
esame tendono a provocare una “linearizzazione” delle relazioni che il carattere ha
con le altre variabili.
La linearità può essere rilevata tramite il diagramma di dispersione (Scatterplot) che
rappresenta le distribuzioni congiunte delle due variabili.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Creazione ed analisi dello Scatterplot
Esempio di analisi della linearità
della relazione tra due variabili,
produzione dello Scatterplot
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Normalità Multivariata
La distribuzione normale multivariata rappresenta una generalizzazione della normale
univariata quando il numero di variabili che vengono prese in considerazione è maggiore
di 1.
Considerando il caso di due variabili X e Y, se le distribuzioni dei valori di Y per ogni
valore dato di X sono di forma normale, e si verifica anche il contrario, allora la
distribuzione congiunta di X e Y viene definita normale bivariata.
La distribuzione normale bivariata risulta essere una condizione particolarmente
desiderabile almeno per due motivi:
A- Questa distribuzione ha la proprietà di rendere la regressione di Y su X lineare.
B- Essa determina che gli scarti quadratici delle Y per ciascuna X siano effettivamente
identici (Omoschedasticità).
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Normalità Multivariata
Se abbiamo più di due variabili, l’universo determinato dalle loro distribuzioni congiunte
rappresenterà una situazione più complicata, e difficilmente rappresentabile a livello
grafico. Si parlerà in questo caso di Normalità Multivariata in riferimento alla assunzione
che riguarda l’insieme delle variabili che vengono considerate in analisi.
Se consideriamo un insieme di p variabili, la distribuzione multivariata delle p variabili è
normale se:
-Tutte le distribuzioni univariate sono normali,
-Le distribuzioni congiunte di tutte le coppie di variabili sono normali,
-Tutte le combinazioni lineari delle variabili sono normali.
La normalità multivariata è una proprietà particolarmente rilevante. Infatti se essa viene
rispettata le relazioni tra le variabili considerate sono sicuramente lineari, ed i modelli di
analisi preposti a valutare gli indici di associazione, di conseguenza, affidabili.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Normalità Multivariata
Distanza di Mahalanobis
Si definisce innanzi tutto la distanza generalizzata o distanza di Mahalanobis (Di2) come
la distanza del vettore dei punteggi di un soggetto (Xi) dal centroide del campione (Xm),
ponderata per la covarianza tra le varibili.
(Xi  Xm)
D 
S
2
2
i
La distanza di Mahalanobis può essere utilizzata per diagnosticare la presenza di outlier,
o valori anomali, multivariati. Questi rappresentano combinazioni di punteggi delle
singole variabili che risultano particolarmente “strani”, appunto “anomali” rispetto al
resto dei valori delle variabili. Non si tratta quindi di casi che necessariamente
presentano valori estremi su una o più variabili.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Normalità Multivariata
Q-Q Plot
Se la distribuzione delle variabili è normale multivariata e il numero dei casi meno il
numero delle variabili è maggiore di 25, allora i valori della distanza generalizzata
seguono la distribuzione del chi quadrato. Di fatto si può sfruttare questa proprietà per
costruire un test di normalità multivariata nel modo seguente:
A- Si ordinano i valori Di2 per ogni soggetto dal più basso al più alto.
B- Si calcola per ogni Di2 il corrispondente punteggio percentile nella distribuzione χ2.
C- Si costruisce il grafico dei due valori di punteggi Di2 e χ2 (Q-Q Plot), se la
distribuzione è normale multivariata le due serie di punteggi formano un grafico
che ha un andamento lineare.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Normalità Multivariata
Coefficinte di Curtosi Multivariata di Mardia
Per esaminare l’ipotesi di normalità multivariata Mardia (1970) ha sviluppato dei
coefficienti di curtosi e di asimmetria multivariata. Se la distribuzione delle p variabili è
normale multivariata, e se il campione è sufficientemente ampio (almeno 50 soggetti*) il
coefficiente di curtosi multivariata di Mardia dovrebbe essere minore o uguale a p(p+2).
Tramite i valori della distanza di Mahalanobis è possibile calcolare questo coefficiente nel
modo seguente:
N
2 2
i
(D )
K 
N
i 1
•- Seber, 1984
Pre Processing dei dati
Modulo
1.2
Normalità Multivariata
Calcolo delle distanze di Mahalanobis e produzione del Q-Q plot per il test di
normalità multivariata.
Calcolo del coefficiente di curtosi di Mardia.
Dopo aver in precedenza testato la
normalità delle distribuzioni delle
scala L, F e K, si testa l’ipotesi di
normalità
multivariata
della
distribuzione congiunta delle tre
variabili.
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Il Q-Q plot per la verifica della normalità bivariata
-
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Il Q-Q plot per la verifica della normalità bivariata
-
-
-
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Outliers Multivariati
-
Rif. Outliers multivariati
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Outliers Multivariati
-
-
-
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Multicollinearità
-
•- Fonti bibliografiche
Pre Processing dei dati
Modulo
1.2
Multicollinearità
-
-
-
•- Fonti bibliografiche