...

Lucidi 6 - Università degli Studi di Messina

by user

on
Category: Documents
28

views

Report

Comments

Transcript

Lucidi 6 - Università degli Studi di Messina
Indici di variabilità
Indicano l’attitudine di un carattere ad assumere valori diversi.
Un indice di variabilità deve essere nullo se e solo se le modalità del carattere sono
tutte uguali, cioè se non c’è dispersione; non si deve modificare se tutte le frequenze
vengono moltiplicate per una costante positiva e deve essere positivo qualora vi sia
variabilità; deve essere non negativo e deve aumentare al crescere della
disuguaglianza.
Gli indici più utilizzati sono:
• intervallo di variazione;
• differenza interquartile;
• scostamento semplice medio;
• devianza;
• varianza;
• momenti;
• scarto quadratico medio;
• differenze medie;
• coefficiente di variazione;
• covarianza.
Indici di variabilità assoluta
Indici di variabilità relativa
1
Intervallo di variazione
Il campo o intervallo di variazione, detto anche range, è definito
come la differenza tra il valore massimo e quello minimo
Intervallo di variazione = xN – x1
dove xN ed x1 indicano, rispettivamente, la modalità massima e
quella minima della distribuzione.
È facile rendersi conto che il campo di variazione è una misura molto
grossolana poiché esso dipende soltanto dai valori estremi senza
tenere conto dei valori intermedi che sono in generale i più numerosi.
2
Differenza interquartile
Un indice di variabilità meno grossolano del campo di variazione è la
differenza interquartile, che è uguale alla differenza tra il terzo ed il
primo quartile della distribuzione. Altri indici dello stesso tipo si
ottengono facendo la differenza tra il nono ed i primo decile o, più in
generale, fra due centili.
La differenza interquartile (alle volte si considera la semidifferenza
interquartile) non presenta gli inconvenienti del campo di variazione;
non tiene conto, però, di tutta l’informazione a disposizione.
3
Scostamento semplice medio
Lo scostamento semplice medio dalla media aritmetica è dato da:
SM 
x1  M n1  x2  M n2  ...  xn  M nn
N

n
 xi
i 1
 M ni
N
cioè è la media aritmetica dei valori assoluti degli scarti dalla media.
Lo scostamento non varia se ad ogni modalità si aggiunge una
costante, mentre viene moltiplicato per una costante se ogni modalità
è moltiplicata per una costante diversa da zero.
Spesso si considera lo scostamento semplice medio dalla mediana:
S Me 
x1  Me n1  x2  Me n2  ...  xn  Me nn
N

n
 xi
i 1
 Me ni
N
Poiché la mediana rende minima la somma dei valori assoluti degli
scostamenti è, cioè, un centro di grado 1, si avrà che:
S Me  SM  s
4
La varianza
La varianza o Quadrato Medio (MS da Mean Square), il cui simbolo
è s2, è la misura di quanto i dati siano distanti dalla loro media
aritmetica.
È pari alla media aritmetica dei quadrati degli scarti dei valori
osservati dalla loro media aritmetica ossia:


n
∑ xi  M 2
2
s  i 1
n
dati semplici
1 n
s  ∑xi  M 2 ni
N i 1
2
(dati ponderati)
Per devianza s’intende semplicemente la somma dei quadrati degli
scarti, ossia il numeratore della varianza.
5
La varianza: Teorema I (formula alternativa)
la varianza si può calcolare anche come differenza fra la
media quadratica al quadrato meno il quadrato della media
aritmetica.
s 2  M 22  M 2
infatti :
n
∑ xi  M  ni
i 1
N
n
n
2

2
 xi ni
i 1
N
n
 Mxi ni
1
  M 2 ni  2 i 1
N
N i 1

n
 xi ni
 M 22  M 2  2 M i 1
N
 M 22  M 2  2 M 2  M 22  M 2
6
La varianza: Teorema II
Se ogni modalità della distribuzione viene
moltiplicata per una costante a diversa da zero e si
aggiunge una costante b, la varianza viene
2 cioè:
moltiplicata
per
a
2
2 2
s ax  b  a s x
dove s x2 è la varianza della distribuzi one x
2
2
e s ax
è
la
varianza
della
distribuzi
one
ax

b
b
Dim. :
n
 axi  b  aM  b  ni
2
i 1
s ax
b 
2
N

n
a  xi  M 2 ni
2
i 1
N
7
La varianza: difetti
Come indice di variabilità ha un difetto di non
possedere la stessa unità di misura dei valori della
distribuzione; per es. considerando la distribuzione
delle stature degli abitanti di una regione espresse in
cm, sappiamo che le differenze dalla media aritmetica
sono dei valori espressi in cm, ma che elevandole al
quadrato otteniamo dei valori in cm2, cosicché anche
la corrispondente varianza esprimerà il valore in cm2.
per tale motivo è preferibile utilizzare come indice di
variabilità lo scarto quadratico medio (ossia la radice
quadrata della varianza).
8
Lo Scarto Quadratico Medio
Lo scarto quadratico medio (standard deviation) dalla media
aritmetica, il cui simbolo è s , è il più utilizzato degli indici di
variabilità. La sua espressione è:
s
s


n
∑ xi - M 2
i 1
Dati semplici
n


n
∑ xi - M 2 ni
i 1
n
 ni
i 1
Dati ponderati
cioè non è altro che la radice quadrata della varianza; è anche uguale
alla media quadratica degli scarti.
9
Lo Scarto Quadratico Medio: vantaggi
Le ragioni per cui si utilizza lo scarto quadratico medio sono di
varia natura:
• è più sensibile di altre misure di variabilità alla presenza di
modalità particolarmente alte o basse, cioè amplifica le
fluttuazioni intorno alla media delle modalità;
• si presta meglio di altri indici a elaborazioni matematiche;
• è uno dei parametri che, unitamente alla media, caratterizza la
distribuzione normale.
10
Difetti degli indici di variabilità assoluti
Tra i requisiti formali degli indici di variabilità vi è quello di essere
espressi nella stessa unità di misura delle osservazioni.
Essi pertanto non consentono di effettuare il confronto fra la
variabilità di distribuzioni espresse in unità di misura diverse; se si
tratta di unità di misura trasformabili, come ad es. cm e m, kg e
libbre, è semplice ottenere la misura della variabilità nell’unità di
misura di una delle due distribuzioni. Quando invece le due
distribuzioni sono espresse in unità di misura non trasformabili
non è possibile con gli indici visti finora confrontare la variabilità
delle distribuzioni.
Inoltre gli indici di variabilità assoluta non consentono il confronto di
distribuzioni che hanno medie diverse; essi sono influenzati
dall’intensità del carattere
11
Esempio devianza
Calcolare la devianza (SQ) dell’età, espressa in anni, di 6 bambini
iscritti ad una scuola di pianoforte:
5; 6; 7; 7; 8; 10.
si deve calcolare prima la media:
M
5  6  7  7  8  10 43
  7.16
6
6
ed in seguito la Somma dei Quadrati degli scarti di ogni valore dalla
media:
= (5 - 7.16)2+(6-7.16)2+(7-7.16)2+(7-7.16)2+(8-7.16)2+(10-7.16)2=
=4.665 + 1.346 + 0.026 + 0.026 + 0.706 + 8.066 = 14.835
12
Esempio
Si calcoli la varianza e lo scarto quadratico medio per la variabile X
rappresentante il numero di cani randagi presenti in 6 diversi rifugi.
X
Media= 13.5
n
∑xi - M 2
s 2  i 1
n

1297.5
 216.25
6
n
s
∑xi - x 2
i 1
n -1
 216.25 14.71
(xi-M)2
(xi-M)
14
0.5
0.25
3
-10.5
110.25
2
-11.5
132.25
45
31.5
992.25
11
-2.5
6.25
6
-7.5
56.25
81
0
1297.5
13
Coefficiente di variazione
Esprime quanto la deviazione standard s supera la media aritmetica M.
È un indice di variabilità relativa perché prescinde dall’unità di misura.
Il Coefficiente di Variazione (CV) è dato dal rapporto percentuale tra
lo scarto quadratico medio e la media aritmetica:
CV 
s
M
100
Altri indici relativi si ottengono dividendo lo scostamento semplice
medio dalla media per la media o lo scostamento semplice mediano
per la mediana.
14
Ancora sugli indici relativi di variabilità
Un altro modo per ottenere indici relativi di variabilità è quello di rapportare l’indice
al massimo dello stesso indice. Poiché il valore massimo teorico che possono
assumere gli indici di variabilità assoluta è infinitamente grande, è necessario
riferirsi ad un massimo in cui siano fissati il minimo ed il massimo delle modalità.
Per lo s,q,m. si suppone che sia noto il minimo delle modalità pari a l ed il massimo
L. si impone inoltre che la distribuzione massimante (quella con variabilità max)
abbia la stessa media della distribuzione data.
Per la distribuzione massimante si ha:
Modalità
l
L
frequenze
h
N-h
h si ricava imponendo che la media della distribuzione massimante sia M nota
l  h  L N  h 
M
N
e quindi :
h
N M  L 

lL
cioè lh  LN  Lh  NM
15
… Ancora sugli indici relativi di variabilità
per lo scarto quadratico medio si ha :
s Max 
l  M 2 h  L  M 2 N  h 
N
da cui, dopo alcuni passaggi, si ha :
s Max 
M  l L  M 
e quindi :
s
s Max

s
M  l L  M 
Tale indice varia tra 0 e 1: è nullo in assenza di variabilità ed è uguale ad 1 in caso di
variabilità massima, compatibilmente con i vincoli imposti.
In molte situazioni si può supporre che l=0 e quindi L=MN. In tal caso:
s
s max

s
M NM  M 

s
M N 1
16
Differenze medie
Col nome di differenze medie di un insieme di dati si intendono delle medie calcolate
sulle differenze fra ciascun dato e tutti gli altri, ossia delle differenze del tipo:
dij = xi – xj.
Dati n valori x1, x2, …, xn – supposti ordinati in modo crescente – si calcolano le
differenze fra ciascun termine e tutti gli altri, compreso se stesso. Si ottiene il quadro
delle differenze, i cui termini posti sulla diagonale principale sono nulli. Il numero
delle differenze è n2, di cui n nulle e quindi n2 - n = n (n - 1) sono diverse da zero.
x1
x2
… xi
xn
x1
x1-x1
x2-x1
… xi-x1
xn-x
x2
x1-x2
x2-x2
… xi-x2
xn-x2
:
:
:
… :
:
xi
x1-xi
x2-xi
… xi-xi
xn-xi
:
:
:
… :
:
xn
x1-xn
x2-xn
… xi-xn
xn-xn
La somma di tutte le n2 differenze è uguale a zero.
17
Tipi di differenze medie
In particolare si hanno:
• differenze medie assolute quelle che utilizzano le quantità
dij  xi  x j
• differenze quadratiche medie quelle che si basano su:


2
d  xi  x j 2
ij
Tali differenze possono essere:
• con ripetizione, quando contengono tutte le n2 differenze possibili,
quindi anche quelle ripetute;
• senza ripetizione, quando contengono solo le n (n-1) differenze
diverse.
18
Differenze medie assolute
Queste differenze media sono calcolate utilizzando le differenze in
valore assoluto :
dij  xi  x j
Se si considerano tutte le differenze assolute si ha la differenza
media assoluta con ripetizione, la cui espressione:
  xi  x j
R 
2
i, j  1,2,3...n 
n
Se, invece, si escludono le differenze con termini uguali, si ha la
differenza media assoluta senza ripetizione:

  xi  x j
nn  1
ovviamente  R  
i, j  1,2,3...n;
i  j
19
Differenze medie assolute (nel caso di dati ponderati)
Quando i dati sono ponderati anche le differenze andranno ponderate
e precisamente moltiplicate per il fattore ni nj. Se tali differenze
medie sono calcolate sui valori assoluti si avrà:
R 

  xi
 x j ni n j
n
  xi
2
 x j ni n j
nn  1
i, j  1,2,3...n 
i, j  1,2,3...n;
(con ripetizion e)
i  j
(senza ripetizion e)
20
Esempio: Differenze medie assolute
Calcolare il valore della differenza media assoluta con e senza
ripetizione sui seguenti dati:
xi= 1; 2; 4; 7; 11
2-1=1 4-1=3 7-1=6 11-1=10
4-2=2 7-2=5 11-2=9
7-4=3 1-4=10
11-7=4
totale
50
La somma dei valori assoluti di tutte le differenze sarà quindi:
21
Momenti
I momenti sono le grandezze più importanti di una
distribuzione, in quanto si prestano a riassumere tutte le
proprietà di dati.
• I momenti (m) – che non sono altro che una media delle kme
potenze di scarti – possono essere calcolati:
• da un’origine arbitraria A;
• dall’origine zero;
• dalla media aritmetica.
• I momenti di ordine k rispetto ad un punto A sono calcolati
per una serie di dati con:
n
mk 
k
 ( xi - A)
i 1
n
n
mk 
k
 ( xi - A)  ni
i 1
n
22
… se alla relazione precedente si pone A=0 si hanno i
momenti dall’origine zero
n
mk 
 ( xi - 0)  ni
n
k
i 1
n
k-ma

k
x
 ni
i 1
i
n
M
k
k
cioè la potenza
della media potenziata di ordine k.
Se a k assegniamo i valori 0, 1, 2, avremo:
k 0
k2
m0 
m2
n
 ni
i 1
n
n 2
 xi ni
 i 1
n
1
k 1
m1 
n
 xi ni
i 1
n

2

 Mx 
 
23
Momenti dalla media aritmetica
  xi     ni
n
k 
k
i 1
n
per k=0, 1, 2 si ottiene:
k 0
k2
0 
2
n
 ni
i 1
n
n
2
 ( xi -  )  ni
 i 1
n
k 1
1
s
1 

n
 xi
i 1
   ni
n
0
2
24
Covarianza
Che cos’è?
é la grandezza più usata per misurare la variabilità è la
covarianza.
A che cos’è uguale?
La covarianza di due variabili x ed y cov(xy), è la media
dei prodotti degli scarti di ciascuna variabile dalla propria
media:
n
cov( xy) 
n
 ( x
i 1 j 1
i
 x )  ( y j  y)
n
25
Esempio
Sia X il numero di cani
randagi per quartiere nella
città di Messina ed Y il
numero di gatti. Determinare
il covarianza tra le due
variabili.
Prima di tutto occorre
determinare la media sia di X
che di Y, successivamente si
procede al calcolo degli scarti
semplici ed infine si fa il
prodotto degli scarti. La
somma del prodotto degli
scarti è uguale alla
codevianza. Per ottenere la
covarianza occorre dividere
per la numerosità n, che in
questo caso è pari a 14.
Pertanto 1425,45 diviso 14 è
pari a 101.82 che rappresenta
la covarianza di XY.
X
Y
( xi - x)
( yi - y ) ( xi  x )( yi - y )
14
1
-5.14
-12.79
65.76
3
23
-16.14
9.21
-148.74
2
12
-17.14
-1.79
30.61
45
34
25.86
20.21
522.68
11
21
-8.14
7.21
-58.74
6
5
-13.14
-8.79
115.47
81
8
61.86
-5.79
-357.89
21
21
1.86
7.21
13.4
23
3
3.86
-10.79
-41.6
45
44
25.86
30.21
781.26
3
5
-16.14
-8.79
141.83
1
6
-18.14
-7.79
141.26
6
7
-13.14
-6.79
89.18
7
3
-12.14
-10.79
130.97
268
193
0.04
-0.06
1425.45
26
Fly UP