...

CAPITOLO SETTIMO GLI INDICI DI FORMA

by user

on
Category: Documents
39

views

Report

Comments

Transcript

CAPITOLO SETTIMO GLI INDICI DI FORMA
CAPITOLO SETTIMO
GLI INDICI DI FORMA
SOMMARIO: 1. Introduzione. - 2. Asimmetria. - 3. Grafico a scatola (box plot). - 4. Curtosi. - Questionario.
1. INTRODUZIONE
Dopo aver analizzato gli indici di posizione e di variabilità di una distribuzione di frequenza
analizziamo, in questo capitolo, alcuni aspetti della forma di una distribuzione, della quale si
considerano due caratteristiche: la simmetria e la curtosi.
Una curva di frequenza unimodale e simmetrica che assume la caratteristica forma a
campana (Fig. 1) è nota con la denominazione di curva normale o gaussiana. Si tratta della più
importante distribuzione statistica continua le cui caratteristiche saranno discusse in modo più
approfondito nei capitoli dedicati alle distribuzioni teoriche; per ora basti sapere che, per tale
distribuzione, media, mediana e moda coincidono.
y
0
( )
f µ = f ( Me ) = f ( Mo )
µ = Me = Mo
x
Fig. 1 - Curva normale
Fu proposta da Gauss nel 1809 nella teoria degli errori, ma è anche attribuita a Laplace (1812)
che ne definì le principali proprietà prima della trattazione più completa fatta da Gauss.
Anche solo graficamente, dal confronto della curva di frequenza di una qualsiasi distribuzione con la curva normale è possibile evincere i due aspetti fondamentali relativi alla forma della
distribuzione.
In questo capitolo spiegheremo nel dettaglio i concetti di asimmetria e di curtosi e analizzeremo alcuni indici di disnormalità o di forma.
2. ASIMMETRIA
L’asimmetria (in inglese skewness) è un termine statistico che indica l’assenza di specularità
di una distribuzione rispetto a qualsiasi asse verticale. Se in una distribuzione unimodale (Fig. 1)
136
Capitolo Settimo
esiste un valore a tale per cui si possa scrivere f ( x ) = g ( x − a ) allora la distribuzione è simmetrica
rispetto ad a. In tal caso Moda, Media e Mediana coincidono. Viceversa la coincidenza di questi
indici non garantisce la simmetria. Consideriamo la seguente distribuzione:
X
–4
0
3
1
f
2
4
3
3
Evidentemente la distribuzione non è simmetrica: tuttavia è facile verificare che Moda,
Media e Mediana sono nulle. Per cui la non coincidenza dei 3 indici è sintomo di asimmetria
mentre la coincidenza non garantisce la simmetria.
Rispetto alla curva normale è possibile evincere se una distribuzione presenta asimmetria, se
ha una coda più lunga; precisamente, se la coda più lunga è a sinistra, la distribuzione presenta
asimmetria negativa, se, invece, la coda più lunga è a destra, allora la distribuzione presenta
asimmetria positiva.
Le relazioni esistenti tra media, mediana e moda consentono di verificare se una distribuzione si
presenta simmetrica o asimmetrica; infatti, utilizzando la simbologia dei capitoli precedenti, si parla di:
— simmetria se µ = Me = Mo;
— asimmetria positiva se Mo < Me < µ , la distribuzione presenta il ramo destro più allungato
di quello sinistro, in altre parole presenta una coda verso destra;
— asimmetria negativa se µ < Me < Mo, la distribuzione presenta il ramo sinistro più allungato
di quello destro, e si dice che presenta una coda verso sinistra.
Graficamente, il confronto di una distribuzione con una curva normale avente la stessa
frequenza complessiva consente di evincere se una distribuzione presenta una coda più lunga.
y
0
y
µ = Me = Mo
(a)
x
0
y
Mo Me µ
x
(b)
0
µ Me Mo
x
(c)
Fig. 2 - Curva normale (a); curva asimmetrica a destra (b); curva asimmetrica a sinistra (c)
Diversi indici di asimmetria si basano sulle relazioni viste tra media, mediana e moda, alcuni
sono espressi nella stessa unità di misura del fenomeno investigato, altri sono numeri puri.
2.1 Indici assoluti
Due misure assolute sono fornite dalle seguenti differenze:
α 1 = µ − Me; α 2 = µ − Mo
(2.1)
Gli indici di forma
137
che sono nulle, positive o negative, a seconda che la distribuzione presenti, rispettivamente,
simmetria, asimmetria positiva o negativa.
Altra misura assoluta è fornita dalla differenza tra le distanze tra la mediana e quantili simmetrici
rispetto ad essa, in questo contesto esaminiamo le distanze intercorrenti tra la mediana ( Me = Q2 )
e i quartili:
α 3 = ( Q3 − Q2 ) − ( Q2 − Q1 ) = Q3 + Q1 − 2Q2
(2.2)
che è nulla, positiva o negativa, a seconda che la distribuzione presenti, rispettivamente simmetria,
asimmetria positiva o negativa.
2.2 Indici relativi
Per ovviare all’inconveniente di disporre di indici espressi nell’unità di misura del fenomeno,
le differenze appena viste sono state rapportate allo scarto quadratico medio della distribuzione,
ottenendo indici relativi di notevole importanza.
Rapportando la differenza tra media e mediana allo scarto quadratico medio, si ottiene il
seguente indice normalizzato:
α4 =
µ − Me
σ
(2.3)
il cui segno pone in rilievo la simmetria/asimmetria della distribuzione.
Rapportando, invece la differenza tra media e moda allo scarto quadratico medio si ottiene
l’indice di asimmetria di Pearson:
αP =
µ − Mo
σ
(2.4)
Un indice relativo di asimmetria proposto da Fisher, per una serie, ha la seguente espressione
analitica:
 xi − µ 


∑
σ 
i =1
n
γ1 =
3
n
(2.5)
L’espressione entro parentesi è definita scarto standardizzato, per cui l’indice di asimmetria
è pari alla media dei cubi degli scarti standardizzati.
Un altro indice di asimmetria è stato proposto da Yule e Bowley, ed ha la seguente espressione
analitica:
αY =
(Q
(Q
− Q2 ) − ( Q2 − Q1 ) Q3 + Q1 − 2Q2
=
Q3 − Q1
3 − Q2 ) + ( Q2 − Q1 )
3
ed è, praticamente, il rapporto tra la (2.2) e la differenza interquartile.
(2.6)
138
Capitolo Settimo
ESEMPIO 1
Dato il seguente insieme di numeri:
5, 7, 11, 22, 25, 24, 20, 14, 13, 8, 7, 5, 4, 1
determinare l’indice di asimmetria di Fisher.
L’espressione analitica dell’indice di asimmetria richiesto è fornita dalla (2.5), la cui applicazione richiede la conoscenza della media aritmetica e della deviazione standard degli n = 14 dati.
La media aritmetica è pari a:
µ=
5 + 7 + 11+ 22 + 25 + 24 + 20 + 14 + 13 + 8 + 7 + 5 + 4 + 1
= 11, 86
14
La deviazione standard è pari a:
σ=
( 5 − 11, 86 )2 + ( 7 − 11, 86 )2 + (11− 11, 86 )2 + … + ( 5 − 11, 86 )2 + ( 4 − 11, 86 )2 + (1− 11, 86 )2
14
= 7, 71
Pertanto, la media dei cubi degli scarti standardizzati, ovvero l’indice di asimmetria di Fisher, è:
3
3
3
3
 5 − 11, 86   7 − 11, 86 
 4 − 11, 86   1− 11, 86 
 7, 71  +  7, 71  + … +  7, 71  +  7, 71 
= 0,4
46
γ1 =
14
Ovviamente calcoli del genere sono troppo lunghi per cui illustriamo la modalità di determinazione dell’indice per l’insieme riportato nell’E SEMPIO attraverso un foglio Excel.
Per calcolare l’indice la procedura è la seguente:
✔
✔
✔
✔
Nelle celle dalla A2 alla A14 riportiamo la successione.
Nella cella A19 calcoliamo la media aritmetica della successione.
Nella cella A20 calcoliamo lo scarto quadratico medio della successione.
Nella cella B2 calcoliamo lo scarto standardizzato rispetto al primo dato della successione;a
tal fine digitiamo:
=(A2-$A$19)/$A$20
e trasciniamo la selezione fino alla cella B15, per ottenere tutti gli scarti standardizzati.
✔ Nella cella C2 calcoliamo il cubo dello scarto standardizzato rispetto al primo dato della
successione; a tal fine digitiamo:
=POTENZA(B2;3)
e trasciniamo la selezione fino alla cella B15, per ottenere tutti i cubi degli scarti
standardizzati.
✔ Nella cella C16 calcoliamo la somma di tali cubi.
139
Gli indici di forma
✔ Nella cella C21, dal rapporto tra tale somma (cella C16) e il numero dei dati (14), otteniamo
l’indice di asimmetria.
ESEMPIO 2
Sia data la distribuzione dei 125 atleti per classi di altezze di cui alla tabella 8 riportata nel
quinto capitolo, determinare:
a) l’indice di asimmetria di Fisher;
b) l’indice di asimmetria in termini di quartili.
a) La formula dell’indice di asimmetria di Fisher richiede l’impiego dello scarto quadratico medio
della distribuzione, il cui valore si desume dal seguente schema di calcolo:
x i - x i +1
171 - 175
176 - 180
181 - 185
186 - 190
191 - 195
196 - 200
Totale
ni
14
18
28
33
17
15
xi
173
178
183
188
193
198
x i ni
2.422
3.204
5.124
6.204
3.281
2.970
23.205
xi - µ
–13
–8
–3
2
7
12
( x i - µ )2
160
58
7
6
54
153
( x i - µ )2 ni
2.237
1.051
195
184
921
2.292
6.879
Schema 1
140
Capitolo Settimo
Dallo schema si desume che la media aritmetica della distribuzione è:
µ=
23.205
= 185, 64
125
la varianza è:
σ2 =
6.879
= 55, 03
125
e lo scarto quadratico medio è:
σ = 55, 03 = 7, 418
L’indice di asimmetria di Fisher è pertanto:
γ1 =
1 
(173 – 185, 64 )3 ⋅14 + (178 – 185, 64 )3 ⋅18 + (183 – 185, 64 )3 ⋅ 28 +
3 
7, 418
1
3
3
3
=
+ (188 – 185, 64 ) ⋅ 33 + (193 – 185, 64 ) ⋅ 17 + (198 – 185, 64 ) ⋅ 15  ⋅
125
1
=
[ –1.280, 064 ] ⋅ 1 = –0, 025
125
408,188
La distribuzione presenta lieve asimmetria negativa.
b) Della distribuzione data sono noti anche i tre quartili, essi sono, rispettivamente:
Q1 = 180, 292
Q 2 = Me = 185, 879
Q3 = 190, 721
Pertanto l’indice di asimmetria è:
αy =
190, 721− 2 ⋅ 185, 879 + 180, 292
= −0, 071
190, 721− 180, 292
3. GRAFICO A SCATOLA (BOX PLOT)
Il grafico a scatola, altrimenti detto box plot, è una tipologia di rappresentazione proposta
dallo statistico americano J.W. Tukey; essa si ottiene da una serie di dati o da un grafico a ramo
e foglia, da cui ricava i dati significativi trascurando quelli non importanti.
Il grafico è costruito nel modo seguente:
— si devono calcolare i tre quartili della distribuzione: Q1, Q2 = Me, Q3. Quindi, i suoi valori
minimo ( x min = Q0 ) e massimo ( x max = Q4 ) ;
— su un asse orientato, su cui si fissa un’unità di misura coincidente con quella del carattere
investigato, si individua un rettangolo (scatola/box) i cui estremi sono costituiti, rispettivamente, dal primo e dal terzo quartile, e la cui lunghezza è rappresentata, evidentemente, dalla
differenza interquartile (δ Q ) ;
— dalla scatola si traccia un segmento verticale che delimita la posizione della mediana;
— si tracciano due linee esterne alla scatola, dette baffi (whiskers), per questo motivo il diagramma
è detto anche box and whiskers plot. I baffi sono delimitati, rispettivamente, dai valori minimo
e massimo della distribuzione.
141
Gli indici di forma
Per una distribuzione di frequenza, il grafico in questione consente di evidenziare:
— la misura della dispersione rappresentata dalla differenza interquartile;
— informazioni relative alla forma della distribuzione, infatti, se le distanze tra ciascun quartile
e la mediana sono diverse tra loro, allora la distribuzione è asimmetrica;
— la presenza di outlier se si verifica uno dei due seguenti casi:
a) il valore osservato è inferiore alla quantità Q1 − 1, 5δ Q ;
b) il valore osservato è superiore alla quantità Q3 + 1, 5δ Q .
Il grafico consente, inoltre, di comparare 2 o più distribuzioni.
Se una distribuzione è simmetrica, allora la media aritmetica coincide con la mediana e, solo
in questo caso, è possibile evincere il valore della media aritmetica dal grafico.
Non è semplice costruire un box plot. Per dare un’idea del grafico ci serviremo di un esempio.
ESEMPIO
La tabella seguente riporta la distribuzione delle età degli operai di 3 reparti di un’azienda:
1
2
3
40
44
28
26
53
22
19
25
28
21
22
21
23
26
19
22
30
18
42
47
18
49
20
22
50
41
33
19
22
44
46
19
42
Tabella 1
Rappresentare le tre distribuzioni attraverso un box plot.
Per costruire il box plot si devono determinare, per ciascuna distribuzione, il valore minimo,
il primo quartile, la mediana, il terzo quartile e il valore massimo. Essi sono, rispettivamente:
— per il reparto 1:
Q1 = 22;
Q0 = 19;
Me = 26;
Q4 = 53;
Q3 = 34
Q1 = 20;
Q0 = 18;
Me = 23;
Q4 = 49;
Q3 = 36
Q1 = 21;
Q0 = 19;
Me = 33;
Q4 = 50;
Q3 = 43
— per il reparto 2:
— per il reparto 3:
142
Capitolo Settimo
Calcolati gli indici suddetti, su un prefissato asse si devono individuare delle barre in
corrispondenza della mediana Me e dei quartili Q1 e Q3. Successivamente, le barre sono chiuse
sino a formare una scatola.
60
50
*
*
*
*
*
*
2
3
40
30
20
10
*
*
Q1
Q0
Me
Q4
Q3
0
1
Fig. 3 - Box plot
Dal grafico si evince che, a parte i valori anomali presenti nelle tre distribuzioni (le tre età
massime), il reparto 3 è caratterizzato da maggiore dispersione dei dati intorno al valore mediano.
Di seguito spiegheremo come ottenere il grafico a scatola (o box plot) per la distribuzione riportata
nella tabella 1. Il foglio di lavoro, con i dati e con gli indici di posizione necessari, è il seguente:
Gli indici di forma
143
Si deve procedere, quindi, con la creazione guidata del grafico:
— selezionare le caselle dalla E8 alla H12;
— digitare il tasto
—
—
—
—
;
in «Tipo di grafico» scegliere «Linee»;
procedere con il tasto «Avanti>»;
selezionare «Serie in righe»;
digitare il tasto «Fine».
Il foglio è il seguente:
Dal grafico si devono rimuovere le linee che congiungono i valori minimi, con i quartili, le
mediane e i valori massimi.
A questo punto:
✔ selezionare ciascuna linea;
✔ posizionarsi sul menu «Formato»;
✔ scegliere «Serie di dati selezionati»;
✔ posizionarsi sul quadro «Motivo»;
✔ attivare l’opzione «Linea - Assente»;
144
Capitolo Settimo
✔ posizionarsi sul quadro «Opzioni»;
✔ selezionare le due voci «Linee di Min-Max» e «Barre cresc.-decresc.».
Il foglio Excel è il seguente:
Il grafico contiene una legenda che agevola l’interpretazione dei dati.
4. CURTOSI
Dal greco kurtos (gobba) la curtosi fa riferimento alla maggiore o minore gibbosità di una curva in
prossimità del suo massimo e, quindi, alla maggiore o minore lunghezza delle code. La curtosi assume
rilievo per una distribuzione di frequenza unimodale, la cui curva è di forma campanulare. Per valutare
questo aspetto della forma di una curva, la stessa è paragonata ad una curva normale (detta anche
mesocurtica - Fig. 4(a)) avente la stessa frequenza complessiva precisamente si dice che la curva è:
— leptocurtica o ipernormale (Fig. 4 (b)), se, rispetto alla curva normale, presenta un eccesso
di frequenza delle classi centrali, una frequenza minore delle classi intermedie e una
frequenza maggiore delle classi estreme; si tratta, quindi, di una distribuzione più alta al
centro e più bassa ai lati;
— platicurtica o iponormale (Fig. 4 (c)), se, rispetto alla curva normale, presenta una frequenza
minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle
intermedie; si tratta, quindi, di una distribuzione più bassa al centro e più alta ai lati.
145
Gli indici di forma
y
0
y
(a)
x
y
0
x
(b)
0
(c)
x
Fig. 4 - Curva normale (a); curva leptocurtica (b); curva palticurtica (c)
Per misurare la curtosi di una curva unimodale di forma campanulare è particolarmente utile
l’indice di curtosi di Pearson la cui espressione analitica, per una serie, è la seguente:
 xi − µ 


∑
σ 
i =1
n
β2 =
4
(4.1)
n
L’indice:
— vale 3 per una curva normale;
— è maggiore di 3 per una distribuzione leptocurtica;
— è inferiore a 3 per una distribuzione platicurtica.
Se si dispone della distribuzione di frequenza, esso è:
k
1 ∑
β 2 = 4 ⋅ i=1
σ
(x
– µ ) ni
4
i
(4.2)
k
∑n
i
i =1
Per ottenere una misura paragonabile con lo zero, Fisher ha proposto un indice che, per una
serie, si ottiene sottraendo all’espressione (4.1) il numero 3, ossia:
 xi − µ 


∑
σ 
i =1
n
γ 2 = β2 − 3 =
n
4
−3
(4.3)
Esso vale 0 per una curva normale, è positivo o negativo per una curva, rispettivamente, più
appuntita o meno appuntita di una curva normale.
Recentemente l’indice è stato criticato perché presuppone una distribuzione simmetrica e,
soprattutto, perché il suo valore dipende dal comportamento delle code della distribuzione.
146
Capitolo Settimo
ESEMPIO 1
Dato il seguente insieme di numeri:
5, 7, 11, 22, 25, 24, 20, 14, 13, 8, 7, 5, 4, 1
determinare l’indice di curtosi di Fisher.
Dell’insieme dato, abbiamo già determinato l’indice di asimmetria di Fisher nell’esempio 1 del
paragrafo secondo, in cui abbiamo calcolato la media ( µ = 11, 86 ) e la deviazione standard (σ = 7, 71).
Pertanto, l’indice di curtosi di Fisher, applicando la (4.3), è pari a:
4
4
4
4
 5 − 11, 86   7 − 11, 86 
 4 − 11, 86   1− 11, 86 
 7, 71  +  7, 71  + … +  7, 71  +  7, 71 
− 3 = −118
,
γ2 =
14
Di seguito illustriamo il modo per determinare l’indice di curtosi di Fisher per l’insieme riportato
nell’ESEMPIO attraverso un foglio Excel supponendo di non aver già calcolato gli indici statistici
esposti nella formula.
Per calcolare l’indice la procedura è la seguente:
✔
✔
✔
✔
Nelle celle dalla A2 alla A14 riportiamo la successione.
Nella cella A19 calcoliamo la media aritmetica della successione.
Nella cella A20 calcoliamo lo scarto quadratico medio della successione.
Nella cella B2 calcoliamo lo scarto standardizzato rispetto al primo dato della successione, digitiamo:
=(A2-$A$19)/$A$20
e trasciniamo la selezione fino alla cella B15, per ottenere tutti gli scarti standardizzati.
✔ Nella cella C2 calcoliamo la quarta potenza dello scarto standardizzato rispetto al primo
dato della successione, digitiamo:
=POTENZA(B2;4)
e trasciniamo la selezione fino alla cella B15, per ottenere tutte le potenze degli scarti
standardizzati.
✔ Nella cella C16 calcoliamo la somma di tali potenze.
Nella cella C21, dalla differenza tra il rapporto tra tale somma (cella C16) e il numero dei dati
(14) e il numero 3, otteniamo l’indice di curtosi.
147
Gli indici di forma
ESEMPIO 2
Dire se la distribuzione riportata nella tabella seguente è platicurtica o leptocurtica:
xi
ni
1
2
3
4
5
2
3
12
3
2
Totale
22
Tabella 2
Per determinare il grado di gibbosità della distribuzione rispetto alla distribuzione normale,
usiamo indifferentemente l’indice di curtosi di Fisher o l’indice di curtosi di Pearson.
Per ottenere l’indice di Fisher è necessario calcolare la media aritmetica e lo scarto
quadratico medio della distribuzione.
148
Capitolo Settimo
La media aritmetica è µ = 3 , mentre lo scarto quadratico medio, considerando che:
Q2 =
(1)2 ⋅ 2 + ( 2)2 ⋅ 3 + ( 3)2 ⋅ 12 + ( 4 )2 ⋅ 3 + ( 5)2 ⋅ 2
22
= 10
è pari a:
σ = 10 – ( 3) = 10 – 9 = 1
2
Pertanto, l’indice di curtosi di Fisher è:
γ2 =
4
4
4
4
4
1  (1– 3) ⋅ 2 + ( 2 – 3) ⋅ 3 + ( 3 – 3) ⋅ 12 + ( 4 – 3) ⋅ 3 + ( 5 – 3) ⋅ 2 

 – 3 = 3,18 – 3 = 0,18

22
(1)4 
Dato il suo valore positivo, ma prossimo allo 0, si può affermare che la distribuzione è lievemente
leptocurtica.
Questionario
1. In corrispondenza di quali indici statistici la curva normale assume il suo valore massimo?
(par. 1)
2. Se la mediana di una variabile statistica con asimmetria positiva è Me = 10, quali valori
possono assumere la media aritmetica e la moda della stessa?
(par. 2)
3. Per quali distribuzioni da un grafico a scatola si evince la media aritmetica?
(par. 3)
4. A parità di frequenza complessiva con una curva normale, in una curva iponormale in
corrispondenza di quali classi si riscontrano le frequenze maggiori?
(par. 4)
Fly UP