...

lezione 3 - medie

by user

on
Category: Documents
11

views

Report

Comments

Transcript

lezione 3 - medie
Valori Medi
Docente
Dott.ssa Domenica Matranga
Valori medi
Medie analitiche
- Media aritmetica
- Media armonica
- Media geometrica
- Media quadratica
- Moda
Medie di posizione
- Mediana
- Quantili
La media aritmetica è quel valore che
sostituito alle singole osservazioni ne
lascia inalterata la SOMMA
x1 + x 2 + ... + xk = M + M ... + M + = k * M
k
M=
∑ xi
i =1
k
Valori medi
Date N unità statistiche sulle quali si rileva un carattere X con le
seguenti modalità:
x1, x2, x3,……xk
la media aritmetica semplice è espressa da:
k
M=
x1 + x 2 + ......x k
=
k
∑ xi
i =1
k
Il valore assunto dalla media è espresso nella stessa unità di misura
in cui sono espresse le modalità xi del carattere.
(Ad es. Se si considerano le stature espresse in cm, la statura media sarà
espressa in cm)
Valori medi
Carattere
X
Frequenza
x1
n1
x2
n2
x3
n3
….
….
….
….
xk
nk
Totale
N
La media aritmetica ponderata dei dati
osservati è:
k
x1n1 + x2 n2 + ......xk nk
=
M=
N
con N =
∑xn
i i
i =1
N
k
∑ ni
i =1
Se la media coincide con una delle modalità viene detta “media
effettiva o reale”. Se non coincide con una delle modalità è detta
“media di conto”
Esempio
Esempio 1. In un campione di 30 studenti si rileva il voto di maturità. Si riporta
la distribuzione di frequenze assolute:
xi
ni
xi*ni
62
66
70
73
75
76
79
81
83
86
92
94
Totale
Media aritmetica
2
2
3
3
4
4
1
2
3
2
1
3
30
xi
124
132
210
219
300
304
79
162
249
172
92
282
2325
77.5
ni
62
66
70
73
75
76
79
81
83
86
92
94
Totale
fi
2
2
3
3
4
4
1
2
3
2
1
3
30
fi%
0.067
0.067
0.100
0.100
0.133
0.133
0.033
0.067
0.100
0.067
0.033
0.100
1.000
xi*fi
6.7
6.7
10.0
10.0
13.3
13.3
3.3
6.7
10.0
6.7
3.3
10.0
100.0
4.13
4.40
7.00
7.30
10.00
10.13
2.63
5.40
8.30
5.73
3.07
9.40
77.50
xi*fi%
413.3333
440
700
730
1000
1013.333
263.3333
540
830
573.3333
306.6667
940
7750.00
k
M=
∑ xi * ni
i =1
k
∑
i =1
ni
= 2325 : 30 = 77.5 M =
k
k
∑ xi * fi = 77.5
i =1
M=
∑ xi * fi %
i =1
100
7750
=
= 77.5
100
Esempio
Esempio 2. Distribuzione secondo la spesa delle Unità sanitarie. Calcolare la spesa
media medio
Si ipotizza che
tutte le unità di
Classe di
(valore
N. Unità
xi *ni
ogni classe siano
spesa (in
centrale
sanitarie ni
equidistribuite
migliaia di
classe) xi
al’interno della
euro)
classe
0-3
1,5
7.976
11.964
3-6
4,5
8.763
39.433,5
6-9
7,5
4.130
30.975
9-15
12
1.176
14.112
15-25
20
297
5.940
25-50
37,5
105
3.937,5
50-100
75
18
1.350
Oltre 100
125
3
325
22.468
108.087
Totale
M = 108.087 : 22.468 = 4,81 mila
Tuttavia si
perde
informazione
reddito medio
Esempio
Esempio 2 bis. Distribuzione secondo il reddito dei dichiaranti dei redditi
percepiti. Calcolare il reddito medio
Classe di
spesa (in
N. Unità ni
migliaia di
euro)
Ammontare
spesa Xi
(in migliaia di
euro)
Reddito medio
x i = X i ÷ ni
0-3
7.976
12.792
1,60
3-6
8.763
40.650
4,64
6-9
4.130
29.320
7,10
9-15
1.176
12.932
11,0
15-25
297
5.580
18,79
25-50
105
3.405
32,43
50-100
18
1.172
65,11
Oltre 100
3
532
177,33
Totale
22.468
106.383
M= 106.383 : 22.468 = 4,73 mila
Non è necessaria
nessuna ipotesi,
perché si
conosce
l’ammontare
totale della
classe
Il valore del
reddito medio è
più preciso
diverso dal reddito medio calcolato nell’es. 2
Proprietà della media aritmetica
a) la media è sempe un valore compreso tra il valore minimo e
massimo della distribuzione;
b) il prodotto N x M dà il totale del carattere della distribuzione;
c) la somma degli scarti dalla media aritmetica è zero
k
∑ (x
i =1
i
− M )= 0
k
∑ (xi − M )ni = 0
i =1
Esempio
In un campione di 5 famiglie si rilevano le seguenti ampiezze:
2, 3, 3, 4, 5
La media è 3,4
a) 2 < 3,4 < 5
b) 5 x 3,4= 17
c) (2-3,4) + (3-3,4) + (3-3,4) + (4-3,4) + (5-3,4) = 0
Proprietà della media aritmetica
d) E’ associativa
e) La somma dei quadrati degli scarti dalla media aritmetica è il
minimo della somma dei quadrati degli scarti da un qualsiasi
valore α:
k
∑ (xi − M )
i =1
2
k
≤ ∑ ( xi − α )
2
i =1
f)
È invariante per traslazioni, cioè per cambiamenti dell’origine:
M= μ
x1, x2….xk
x1+b, x2+b,….xk+b
M= μ + b
g)
È invariante per cambiamenti dell’unità di misura:
M= μ
x1, x2….xk
x1b, x2b,….xkb
M= μ b
La media geometrica è quel valore che
sostituito alle singole osservazioni ne
lascia inalterato il PRODOTTO
x1 * x 2 * ... * xk = M g * M g * ... * M g = M g k
Valori medi
Data la distribuzione:
x1, x2, x3,……xk
n1, n2, n3…..nk
in cui le xi sono tutte positive, la radice n-esima del prodotto delle xi
si definisce media geometrica semplice, espressa da:
M g = k x1 ⋅ x2 ⋅ ......xk
se n1= n2= n3=…..nk=1
La media geometrica ponderata è:
M g = N x1 1 ⋅ x2 n2 ⋅......x k
n
dove
N=
k
∑ ni
i =1
nk
Valori medi
La media geometrica può essere anche calcolata anche ricorrendo ai
logaritmi, essendo equivalente alla quantità:
n1 log x1 + n2 log x 2 + ...nk log x k
log M g =
N
PROPRIETA’
a) La media geometrica è non superiore alla media aritmetica (Mg≤M)
b) E’ non esterna all’intervallo (x1, xk), ossia compresa tra il valore
minimo e massimo della distribuzione
c) Non è invariante per le traslazioni
d) E’ invariante per cambiamenti dell’unità di misura:
Mg= γ
x1, x2….xk
x1b, x2b,….xkb
Mg=
γb
con b>0
Esempio: i numeri Indice
‡
‡
A base fissa: consentono di confrontare tutte le osservazioni di una serie storica ( o
geografica) con un’unica osservazione di riferimento
La variazione relativa= I-1
2000
2001
2002
2003
2004
2005
2006
2007
2008
xt
I = × 100
x0
R.O. Indice
Variazione %
123
1143 1.162601626
16.26
143 1.162601626
16.26
134 1.089430894
8.94
115
0.93495935
-6.50
162 1.317073171
31.71
140 1.138211382
13.82
132 1.073170732
7.32
139 1.130081301
13.01
Media geomet 1.121523041
12.2
Varizione med
Per calcolare la
variazione media nel
periodo 2000-2008
occorre calcolare la
Mg degli 8 indici a
base fissa
Esempio: i numeri Indice
‡
A base mobile: consentono di confrontare ciascuna osservazione di una serie storica ( o
geografica) con la precedente, assunta come osservazione di riferimento
xt
I=
×100
xt −1
‡
La variazione relativa= I-1
2000
2001
2002
2003
2004
2005
2006
2007
2008
R.O.
123
143
143
134
115
162
140
132
139
Indice
1.1626
1
0.9371
0.8582
1.4087
0.8642
0.9429
1.053
media geometrica
Variazione %
0.162601626
0
-0.06293706
-0.14179104
0.408695652
-0.13580247
-0.05714286
0.053030303
1.015403629
Per calcolare la
variazione annuale
media nel periodo
2000-2008 occorre
calcolare la Mg
degli 8 indici a base
mobile
Valori medi
Date N unità statistiche sulle quali si rileva un carattere X con le
seguenti modalità:
x1, x2, x3,……xk
la media armonica è espressa dal reciproco della media aritmetica
degli inversi:
Mar =
N
1
1
1
+
+ ....
x1 x 2
xk
In generale, data la distribuzione:
x1, x2, x3,……xk
n1, n2, n3…..nk
la media armonica è definita da:
Mar =
N
nk
n1 n2
+ + ....
x1 x2
xk
dove=
N=
k
∑ ni
i =1
Valori medi
La media armonica è non superiore alla media geometrica
ƒ E’ non esterna all’intervallo (x1, xk), ossia compresa tra il
valore minimo e massimo della distribuzione
ƒ Non è invariante rispetto alle traslazioni
ƒ E’ invariante per cambiamenti dell’unità di misura:
ƒ
x1, x2….xk
x1b, x2b,….xkb
Mar = α
Mar=
αb
In generale, vale la seguente relazione:
x1 ≤ Mar ≤ Mg ≤ M ≤ xk
Esempio
Esempio: il consumo medio di un
farmaco si ottiene dalla media
armonica dei tempi di durata del
farmaco C=1/D
tempo di
durata
10.5
11.7
12.5
11.9
12.1
10.7
12.3
11.8
10.9
11.6
11.56282
consumo
=1/tempo
0.095238
0.08547
0.08
0.084034
0.082645
0.093458
0.081301
0.084746
0.091743
0.086207
11.56282
Valori medi
Date N unità statistiche sulle quali si rileva un carattere X con le
seguenti modalità:
x1, x2, x3,……xk
la media quadratica è espressa da:
Mq =
x12 + x 22 + ...x k2
N
In generale, data la distribuzione:
x1, x2, x3,……xk
n1, n2, n3…..nk
la media quadratica è definita da:
Mq =
x12 n1 + x22 n2 + ...xk2 nk
N
dove=
N=
k
∑ ni
i =1
Media di potenze
Date N unità statistiche sulle quali si rileva un carattere X con le
seguenti modalità:
x1, x2, x3,……xk
(che sono numeri reali non nulli)
la media di potenze di ordine s è espressa da:
k
Ms = s
x1s + x2s + .... xks s
=
N
s
x
∑ i
i =1
N
Il numero s è un qualunque numero reale non nullo
Media di potenze
In generale, data la distribuzione:
x1, x2, x3,……xk
n1, n2, n3…..nk
la media di potenze di ordine s è definita da:
k
Ms = s
dove =
x1s n1 + x2s n2 + ....xks nk s
=
N
N=
k
∑ ni
i =1
s
x
∑ i ni
i =1
N
Media di potenze
La media di potenze di ordine s comprende infinite medie, tra cui la
media aritmetica, armonica, quadratica, e come limite, la media
geometrica.
Infatti:
Dalla formula
a) s = 1
b) s = -1
c) s = 2
d) s
lim Ms = Mg
s
0
Ms = s
x1s + x2s + ....xks
N
si ottiene la media aritmetica
si ottiene la media armonica
si ottiene la media quadratica
0 la media di potenze tende alla media geometrica, ossia:
Media di potenze
Le medie di potenze sono funzioni crescenti di s, ossia:
x1 ≤ …M-1 ≤ Mg ≤ M ≤ M2 ≤ …. ≤ xN
Quindi anche la media di potenze è non esterna all’intervallo (x1, xN)
Definizione di Wald di media
ƒ
Se le modalità del carattere sono uguali non si ha perdita di
informazione usando la media.
ƒ
Se le modalità del carattere sono diverse, come accade nei casi
concreti, la sintesi mediante la media comporta una perdita di
informazione o “danno” che, cresce all’aumentare delle differenze
tra la media e le modalità considerate.
Moda
™ La moda di un collettivo è quella modalità del carattere alla quale è
associata la massima frequenza.
Se la distribuzione è per classi di valori del carattere osservato (tutte
della stessa ampiezza) la classe modale è quella con la maggiore
frequenza. Se le classi hanno diversa ampiezza, si divide la
frequenza per l’ampiezza della classe e si sceglie il valore massimo
dei quozienti ottenuti, detti densità di frequenza
™ Se la distribuzione presenta una sola moda, è detta unimodale.
Se vi sono due mode è detta bimodale, se ve sono tre è
trimodale,…
™ La moda può essere individuata anche graficamente.
Ad es.: in un grafico a colonne o a nastri, la colonna più alta o il
nastro più lungo individua la moda della distribuzione.
Distribuzione uni-modale
25
20
15
10
5
0
Distribuzione bi-modale
30
25
20
15
10
5
0
Calcolo della moda
ES. Distribuzione per classi
Classi)
Frequenze Densità di
frequenza
<3
3138
1046
3-6
4084
1361
6-10
5740
1435
10-20
10269
1027
20-30
6302
630
30 e oltre
3237
324
Si sceglierà il
valore max tra le
densità di
frequenza.
La classe modale è
6-10 anni
Mediana
™ La mediana di una distribuzione è quella modalità del
carattere che divide la distribuzione in due parti uguali e che
nell’ordinamento delle modalità occupa il posto centrale.
™ Suddivide una distribuzione ordinata in due distribuzioni con
una numerosità pari
distribuzione totale.
al
50%
della
numerosità
della
™ La mediana rappresenta un centro intorno a cui si dispone la
distribuzione
Mediana
™ Il carattere deve essere almeno ordinato rettilineo
™ Per determinare la mediana occorrono le frequenze cumulate
™ Se la numerosità del collettivo è un numero dispari, la
mediana è quel valore che occupa il posto (N+1)/2; se n è
pari esisteranno due posti centrali (N/2) ed (N/2 +1).
Se ad entrambi corrisponde la stessa modalità, questa è la
mediana; se al posto (N/2) e al posto (N/2 +1) corrispondono
due modalità diverse esse saranno le due modalità mediane.
Esempio
Carattere - Frequenz Frequenza Frequenza
Voto
a assoluta cum ulata
relativa
62
2
2
0.067
66
2
4
0.067
70
3
7
0.100
73
3
10
0.100
75
4
14
0.133
76
4
18
0.133
79
1
19
0.033
81
2
21
0.067
83
3
24
0.100
86
2
26
0.067
92
1
27
0.033
94
3
30
0.100
Totale
30
1.000
Mediana = 76
Frequenza
relativa
cum ulata
0.067
0.133
0.233
0.333
0.467
0.600
0.633
0.700
0.800
0.867
0.900
1.000
Distribuzione per classi di valori
Mediana
Distribuzione per classi di valori del carattere osservato (classi della
stessa ampiezza). Si può individuare la classe mediana oppure
ipotizzando la distribuzione uniforme all’interno dell’intervallo si calcola
il valore puntuale della mediana.
Quindi:
Me = x( r )
x( r +1) − x r ⎛ N + 1 r −1 ⎞
+
− ∑ ni ⎟
⎜
nr
i =1
⎠
⎝ 2
Dove x(r) e x(r+1) sono gli estremi inferiore e superiore della classe
mediana ed nr la frequenza assoluta della classe mediana. Se N è pari,
si deve sostituire a (N+1)/2 una volta N/2 e una volta (N/2+1) e poi fare
la semisomma dei due valori mediani.
L’ultimo termine della formula rappresenta la frequenza cumulata della
classe che precede la classe mediana.
Distribuzione per classi di valori
Voto x i
60-|70
70-|80
80-|90
90-|100
fi
ni
Fi
7
12
7
4
30
0.233
0.400
0.233
0.133
1.000
0.233
0.633
0.867
1.000
Con la proporzione:
.23
70
Equivale alla formula:
.50
Me
.63
80
Me = 70 +
80 − 70
(0.5 − 0.23)
0.4
(80 − 70) : (Me − 70) = (.63 − .23) : (.50 − .23)
Quantili
Quantili
Un quantile-p, dove p ∈[0,1] è quel valore che divide una
distribuzione statistica in p parti uguali, ognuna delle quali
contiene la p-esima parte della numerosità della distribuzione
totale
E’ un numero più grande del 100 x p % dei valori osservati e più
piccolo del restante 100 (1-p) %.
Es. Un quantile di 0,1 deve essere un valore che lascia a sinistra
il 10% delle osservazioni e a destra il rimanente 90%
Quantili
™ Se p= 4
™ Se p=10
™ Se p=100
Quartili: dividono la distribuzione in quattro parti uguali
Decili: dividono la distribuzione in dieci parti uguali
Percentili: dividono la distribuzione in cento parti uguali
In generale si definisce α-percentile quel valore a destra del quale
cade (1- α)% dei casi e a sinistra l’ α% dei casi.
(p=0,01, 0,02…..0,99)
™ La mediana si può considerare il 2° quartile e il 50° percentile.
Quartili
Le quattro distribuzioni individuate dai quartili contengono ognuna il
25% della numerosità totale.
Così il 1° quartile contiene il 25% e la distribuzione rimanente è il
75% del totale
™Capacità di informazione delle medie
Tutte le medie sono capaci di fornire la stessa quantità di informazione
sulla distribuzione o la capacità informativa è diversa da una media
all’altra?
La capacità di informazione di una media è tanto maggiore quanto più
elevato è, nella gerarchia dei caratteri, il carattere con cui inizia la
validità della media, ossia quanto maggiore è il numero di relazioni o
operazioni che individuano il carattere.
Inoltre, con riferimento alla “robustezza” di una media si può affermare
che essa è tanto maggiore quanto più basso è il livello di misura del
carattere con cui inizia la validità della media (es. mediana più robusta
della media aritmetica)
Cautela nell’utilizzo della mediana
Studente
X
Y
Z
W
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
M
Me
23.65
18
24.35
30
30
30
18
18
La mediana non va bene quando la differenza tra due popolazioni è
rilevante proprio nel centro della distribuzione ordinata delle
modalità
Il box plot
Q3+1.5IR
3° quartile
mediana
1° quartile
Q1-1.5IR
Il box plot
è un grafico caratterizzato da tre elementi principali:
1. Una linea o un punto, che indicano la posizione del centro della
distribuzione (mediana);
2. Un rettangolo (box) la cui altezza indica la variabilità dei valori
“prossimi” alla media (IR= terzo quartile-primo quartile);
3. Due segmenti (baffi) che partono dai lati minori del rettangolo e che
terminano in corrispondenza del più piccolo e del più grande valore non
outlier.
4. Dei punti, detti outliers, che giacciono 1,5*IR al di sotto del primo
quartile e 1,5*IR al di sopra del terzo quartile
Rapporti statistici
1. di composizione: esprimono il rapporto tra la quantità relativa ad
una modalità e l’ammontare complessivo. Si applica alle
distribuzioni di quantità
2. di coesistenza: esprime il rapporto tra la frequenza (quantità)
relativa ad una modalità e la frequenza (quantità) relativa ad
una altra modalità. Esempio: rapporto di mascolinità Pm/Pf*100;
indice di vecchiaia P>=65/P<=14*100
3. di derivazione o tasso: numero di casi di un evento che si verifica
in un determinato periodo di tempo rapportato alla popolazione
totale di quel periodo. Esempi: tasso di mortalità M/P*1000;
quoziente di natalità N/P*1000; tasso di abortività ab/P*1000;
tasso di mortalità infantile M0-365/NV*1000
Fly UP