...

Media, Moda Mediana

by user

on
Category: Documents
22

views

Report

Comments

Transcript

Media, Moda Mediana
INDICI DI SINTESI DI UNA DISTRIBUZIONE STATISTICA
L’insieme delle informazioni sul fenomeno oggetto di analisi, ognuna riferita ad una
unità statistica, contiene tutte le informazioni disponibili sul collettivo statistico.
Tuttavia, poiché il numero n dei soggetti coinvolti nell’analisi è, generalmente,
elevato, l’esame diretto delle n misure non consente di cogliere appieno gli aspetti
salienti del fenomeno.
A tale scopo possono essere costruiti opportuni indici statistici di sintesi atti, appunto, a
sintetizzare la variabilità delle osservazioni individuali (la distribuzione statistica) in un
singolo valore numerico o in una sola modalità, che delineano alcuni aspetti essenziali
della distribuzione in esame.
Questi indici consentono un confronto tra le caratteristiche di distribuzioni diverse.
Possiamo individuare tre famiglie principali di “indici”:
 indici di tendenza centrale
 indici di variabilità o dispersione
 indici di forma
La sintesi effettuata mediante un solo valore, comporta una perdita di informazioni.
79
I VALORI MEDI
I valori medi sono strumenti di sintesi che descrivono l’ordine di grandezza del carattere
nell’insieme delle unità osservate (si parla anche di “tendenza centrale”…)
Nella famiglia delle medie si distinguono:

medie analitiche calcolate con operazioni algebriche sui valori del carattere
(caratteri quantitativi)

medie lasche o di posizione (moda, mediana, quantili), determinate in base alla loro
frequenza o alla posizione occupata nella graduatoria delle osservazioni individuali.
(mediana e quantili: caratteri espressi almeno in scala ordinale)
(moda: tutti i caratteri)
80
Media aritmetica (o,semplicemente, media)
La media aritmetica di un insieme di n valori x1 ,..., xn di un carattere quantitativo X è
pari alla somma dei valori divisa per la loro numerosità
ossia risulta dalla ripartizione equa dell’ammontare complessivo del carattere fra le unità
osservate. Pertanto, la media aritmetica di n osservazioni è:
Esempio 1
Valore delle entrate proprie di 5 enti locali collocati nel centro nord
EL
1
2
3
4
5
Totale
migl. di €
378698
428832
216197
228132
335070
1586929
Media aritmetica=
378698 428832+...+335070
5
 317386
82
Risponde alla domanda:
 Qual è la dimensione media dell’ammontare delle entrate negli enti del centro
nord? (generale)
 Qual è quell’ammontare delle entrate che a) se fosse assegnato a tutti gli enti
non altererebbe la dimensione totale del bilancio, OPPURE b) sarebbe
assegnato ad ogni ente, nel caso in cui l’ammontare totale delle entrate fosse
equidistribuito? (dettaglio)
x1 x2 . . . xn
1n
  xi .
xa 
n
n i1
Formalizziamo… :
n
Si noti che
 xi
è l’ammontare complessivo del carattere
i 1
83
 La media aritmetica soddisfa entrambi i criteri che abbiamo introdotto:
1) xmin  x  xmax
2) f 
n
n
n
 x , infatti  x   x  nx
i
i 1
i 1
i
i 1
Attenzione!!!

Il valore assunto dalla media aritmetica non è un numero puro ma è espresso
nell’unità di misura del fenomeno oggetto di studio

La media aritmetica può essere calcolata solo per fenomeni di tipo quantitativo
84
La media aritmetica è uno strumento di sintesi adatto in due situazioni fondamentali:
1. quando le modalità del carattere possono essere pensate come la redistribuzione di
un unico ammontare all’interno del collettivo
Esempio 1
Bilancio dell’UE (anno 1996): capitoli di spesa
Capitoli di spesa
Agricoltura
Ricerca
Azioni strutturali
Altre politiche interne
Azione esterne
Amministrazione
Fondo di sviluppo
Totale
milioni di €
40564
3380
26197
2536
5070
4225
2536
84508
Volendo calcolare una misura della
dimensione “media” dei capitoli di
spesa è naturale pensare a quel
valore che se fosse assegnato a tutti
i capitoli di spesa non altererebbe la
dimensione totale del bilancio.
(40564 3380 26197 2536 5070 4225 2536)
7
x  12072.6
x
85
2. quando i valori osservati del fenomeno possono essere pensati come
approssimazioni di un unico “valore vero”
Esempio 2
Misurazioni di Paul Newcombe (1879) sulla velocità della luce.
28
24
27
30
29
24
22
26
36
30
27
25
36
21
34
29
32
27
16
28
31
26
28
24
28
32
25
29
40
37
20
24
24
28
19
29
26
25
26
22
27
32
27
30
25
26
23
28
32
25
36
21
31
-2
23
28
23
16
29
39
27
33
32
33
36
Le misurazioni rappresentano
65 tentativi (con errore) di
misurare una stesso fenomeno,
il tempo impiegato dalla luce
(in millesimi di sec.) a
percorrere la distanza di 7400
metri.
La media aritmetica è quell’indice di posizione coerente con l’ipotesi di errori non
sistematici (ossia che sommano a 0)
n
x   xi / n  1774 / 65  27,29
j1
86
Proprietà della media aritmetica
1. La somma dei valori assunti da un insieme di n unità statistiche è uguale alla media
aritmetica moltiplicata per n
n
 xi
 nx
i1
2. La media aritmetica è il baricentro della distribuzione, ossia la somma degli scarti
dalla media aritmetica è 0
  xi  x 
n
0
i1
3. La somma dei quadrati degli scarti dei valori assunti da un insieme di n unità
statistiche dalla loro media aritmetica è minima
  xi
n
 c 2  min se c=x
i1
87
4. Se un collettivo di n unità statistiche è suddiviso in L sottoinsiemi disgiunti di
numerosità
n1 , n2 ,..., nh ,..., nL
x1 , x2 ,..., xh ,..., xL
per
cui
L
 nh
n
e
aventi
media
aritmetica
h1
allora
1 L
x   xh nh
n h1
5. La media aritmetica è un operatore lineare
1
M  aX  b   ax  b
con b numero reale qualsiasi e a diverso da 0
M  a  bX  cY   a  bx 
cy
1
Si noti che se la media è espressa in una certa unità di misura, la proprietà 5 consente di
ottenere la media in un’unità di misura diversa
88
Esempio (impiego della propr. 5)
Supponiamo di aver rilevato, qualche anno addietro, il prezzo in lire (X) di un certo bene
in corrispondenza di 4 punti vendita:
1000
1100
1250
x 1075
950
Vorremmo ora conoscere la media degli stessi prezzi in euro (Y) anziché in lire.
Sfruttando la proprietà 5:
 si noti che Y=X / 1936,27
(a= 1/1936,27 e b= 0)
 valor medio in Euro = 1075 / 1936,27 = 0,56
89
Media aritmetica – Popolazione divisa in gruppi (impiego della propr. 4)
Regione
Piemonte
Valle d'Aosta
Lombardia
Trentino A.A.
Veneto
Friuli V.G.
Liguria
Emilia Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
totale
Prod. Frumento
6838
0
3748
5
3942
335
30
16818
6153
5069
8430
4416
3799
3056
2593
8813
3379
1136
9268
1576
89404
Produzione di Frumento
(in Quintalix1000) nelle Regioni
italiane nel 1992
(Fonte: ISTAT)
90
Calcolo della media aritmetica
1 20
89404
x   xi 
 4470.2
n i1
20
Calcoliamo la produzione media per regione di frumento distintamente per Nord, Centro,
Sud e Isole.
Regioni Nord
Piemonte
Valle d'Aosta
Lombardia
Trentino A.A.
Veneto
Friuli V.G.
Liguria
Emilia Romagna
Totale
Prod. Frumento
6838
0
3748
5
3942
335
30
16818
31716
xnord
1 8
31716
  xi 
 3965.5
8 i1
8
91
Regioni Centro
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Somma
Prod. Frumento
6153
5069
8430
4416
3799
3056
30923
xcentro 
6
x

6
i
i1
xsudIsole
Analogamente per il Sud e le Isole
1

30923
6
 5154.8
1 6
26765
x
 4460.8
  i
6 i1
6
E’ facile verificare che la media delle medie pesate con le diverse numerosità (media
ponderata) coincide con la media calcolata sul collettivo di tutte le regioni:
3965.58 5154.86 4461.86
20
 4470.2
92
Media geometrica
La media geometrica di n valori distinti è data dalla radice n-esima del loro prodotto
xg 
n
n
x
i
 x0 ,
xi  0;
i 1
Per osservazioni raggruppate in una distribuzione di frequenze assolute, la media
geometrica è così definita:
xg 
k
n
xj
nj
 x0 ,
xj  0.
j 1
Media utilizzata soprattutto per “mediare” valori positivi generati da rapporti
103
Alcune proprietà della media geometrica
1. Il prodotto dei valori assunti da un insieme di n unità statistiche è uguale alla media
geometrica elevata alla potenza n-esima
n
x
i
n
 x1  x2  ... xn   xg
i1
 è opportuno utilizzare la Mg nel caso in cui si debba effettuare la media di rapporti
2. Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi
delle osservazioni
1 n
log  xi 
log x
 g   n 
i1
Questa proprietà è molto importante a fini calcolatori. Dopo averla impiegata, per
ottenere il valore della media geometrica è sufficiente effettuare l’antilogaritmo del
log xg
104
ES. 1 - Applicazione della media geometrica: calcolo del rendimento medio di un
investimento.
Supponiamo di aver investito 2 (milioni di €) nel ’99 e che l’investimento abbia avuto
tassi di rendimento variabili i99 , i00 , i01 , i02 nel corso di questi anni.
Il suo valore al 31/12/02 (il “montante”) sarà dato da
M  (1 i99 )(1 i00 )(1 i01 )(1 i02 )
Calcolando il tasso di rendimento “medio” è chiaro che penso a quel tasso che, se fosse
rimasto costante nei 4 anni mi darebbe lo stesso importo (investimento iniziale+interessi)
che ho oggi.
Questo tasso medio si ottiene calcolando la media geometrica dei fattori di
capitalizzazione 1  i

Supponiamo che i tassi siano stati:
i99  0.12, i00  0.09, i01  0.05, i02  0.02
105
Il montante relativo all’intero periodo considerato è
M  (1.12)(1.09)(1.05)(1.02) 1.307
Calcoliamo il fattore di capitalizzazione medio geometrico:
xg  4 1  0.12 1  0.09 1  0.051  0.02  
1.069
sostituendolo nella formula del calcolo del montante:
M *  (1.069)4  1.307
Se invece avessi calcolato un tasso medio aritmetico
1.12 1.09 1.05 1.02

 1.07
1 M (1 i)
4
una volta inserito nella formula del montante non avrei ritrovato il montante del periodo:
M *  (1.07)4 1.311
106
Esempio 2
Un certo prodotto acquistato in anni consecutivi è stato venduto ai seguenti prezzi (£):
anno (t)
1
2
3
4
prezzo
1300
2600
3200
4500
t-1it
=2600/1300=2
=3200/2600=1,231
=4500/3200=1,406
1300 (2) (1,231) (1,406) = 4500
Si vuole determinare di quanto è aumentato in media il prezzo nei tre anni:
x Ma = ( 2 + 1,231 + 1,406 ) / 3 = 1,546
???
1300 (1,546) (1,546) (1,546) = 4803,655
no
xg 
3  2 1, 2311,
1,513
406 
1300 (1,513)
(1,513) (1,513) = 4502,567
OK!
….a meno dell’approssimazione…
107
Esempio 3
I tassi annui di sviluppo della popolazione italiana dal 1981 al 1984 sono risultati pari a:
1981-1982
1982-1983
1983-1984
3,64%
3,29%
2,66%
si vuole determinare il tasso medio annuo di incremento della popolazione italiana nel
periodo 1981-1984
p1981 : popolazione italiana al 1981
p1981 (1+i)3 = p1981(1+0,0364)(1+0,0329)(1+0,0266)
p1981 (1+i)3 = p1981 (1,0990)
=(i+1)

x mg
=
3
1,0990 =1,0320
(1+i) è la media geometrica dei tre fattori 1,0364, 1,0329 e 1,0266:
valore che riproduce la variazione totale della popolazione nell’arco di tempo
considerato. Quindi nel triennio 1981-1984 la popolazione italiana è aumentata
mediamente del 3,2%.
108
LE MEDIE LASCHE O DI POSIZIONE
Utilizzano alcuni valori specifici della distribuzione, non coinvolgono tutte le
modalità di X
Moda
La moda è la modalità che nell’insieme delle osservazioni si presenta con la frequenza
più alta (freq. Assoluta, relativa, percentuale).
Esempio
Distribuzione delle famiglie secondo la spesa settimanale per pasti fuori casa
spesa
0-|10
10-|20
20-|30
30-|40
40-|50
Tot
nj
60
20
20
30
20
150
fj
0.40
0.13
0.13
0.20
0.13
1.00
Moda o valore modale
Risponde alla domanda:
Qual è la classe di spesa che caratterizza
il maggior numero di famiglie nel
collettivo delle 150?
109
 Può essere calcolata per qualsiasi tipo di carattere (qualitativo o quantitativo), ma…
per caratteri qualitativi sconnessi possiamo calcolare solo la moda.
 Può accadere che non identifichi un valore unico (distribuzioni pluri-modali) o che
non esista affatto.
 Se i dati non sono raggruppati in classi, oppure se le classi hanno la stessa ampiezza, il
calcolo della moda è immediato: è semplicemente la modalità più frequente.
Si noti, dunque, che, nella individuazione della moda, si considera solo una
modalità, quella più frequente
Se i dati sono raggruppati in classi di ampiezza disuguale è necessario fare la seguente
riflessione:
se una classe è molto ampia, la sua frequenza potrebbe risultare alta non tanto perché le
modalità che la compongono sono “tipiche” del fenomeno in esame ma semplicemente
perché contiene molte unità.
110
La moda dovrà allora essere definita come la classe di modalità con massima densità di
frequenza
fj
fj
hj  
a j x j1  x j
Esempio
Torniamo alla distribuzione della spesa settimanale per pasti fuori casa, relativa a 150
famiglie:
spesa
0 --| 10
10 --| 40
40 --| 50
tot
nj
aj
hj
60
70
20
150
10
30
10
0,040
0,016
0,013
La classe con frequenza più elevata è 10-|40. Tuttavia, sarebbe errato affermare che tale
classe è quella modale. Passando dalle frequenze (ass. o rel.) alle densità di freq. hi
troviamo che la classe modale è 0-|10
111
Mediana
La mediana è la modalità che occupa il posto centrale nella successione ordinata delle n
osservazioni individuali.
Si considerino, ad esempio, cinque enti locali (EL) con riferimento ai quali osserviamo il
valore dell’indice che misura l’incidenza degli Interessi passivi sulle entrate correnti
Interessi pass. su Entr. correnti
EL1
EL2
Ente locale
EL3
11,1
10,2
12
8,2
9,9
EL4
EL5
Ente locale
EL2
EL1
EL3
8,2
9,9
10,2
11,2
12
EL4
EL5
Ordiniamo gli enti in base al valore dell’indice:
Interessi passivi su Entr. correnti
Valore mediano
112
La mediana suddivide a metà la distribuzione ordinata delle modalità

 la quota di osservazioni in cui il carattere assume valore maggiore (successivo) o uguale alla
mediana è almeno pari al 50% del totale delle osservazioni

la quota di osservazioni in cui il carattere assume valore minore (precedente) o uguale alla
mediana è almeno pari al 50% del totale delle osservazioni
Con riferimento all’esempio precedente, risponde alla domanda:
Qual è quel valore x dell’indice rispetto al quale il 50% degli enti presenta un valore più
piccolo di x? -- Qual è quel valore che bipartisce in due il collettivo?

Presuppone che il carattere sia ordinabile (non è necessario che sia quantitativo)

Con riferimento a caratteri qualitativi ordinabili è possibile calcolare moda e
mediana (non, ad es., la media aritmetica)
113
Calcolo della mediana su un protocollo elementare
1. Si ordinano le unità rispetto alle modalità del carattere
2. Si verifica se il collettivo è formato da un numero n di unità dispari o pari
3. Si individua la posizione in graduatoria dell’unità centrale.
Se n è dispari la posizione è
n 1
2
Se n è pari la posizioni centrali sono due:
n
4. Se n è dispari la mediana è
2
n 1
2
e
M e  xn1
2
Se n è pari si hanno due mediane:
xn
2
e
xn
2
1

1
Per caratteri quantitativi si considera la mediana: M e   xn  xn 
1
2 2
2 
114
Esempio
Al fine di proporre ai consumatori una campagna pubblicitaria altamente informativa sul
contenuto nutrizionale di alcuni tipi di frutta, un’azienda ha commissionato una ricerca
per individuare il contenuto di vitamina C in g. per etto di alcuni dei frutti di più largo
consumo:
Frutto
Albicocca
Ananas
Anguria
Arancia
Banana
Ciliegia
Fico
Fragola
VitC
13
17
8
50
16
11
7
50
Frutto
Kiwi
Lampone
Melone
Mirtillo
Mora
Pesca
Prugna
VitC
85
251
35
15
19
4
5
Calcoliamo il contenuto mediano di vitamina C rispetto al collettivo di frutti.
115
rank
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
frutto
Pesca
Prugna
Fico
Anguria
Ciliegia
Albicocca
Mirtillo
Banana
Ananas
Mora
Melone
Arancia
Fragola
Kiwi
Lampone
VitC
4
5
7
8
11
13
15
16
17
19
35
50
50
85
251
Abbiamo ordinato le osservazioni (che sono in numero dispari): la mediana è uguale a 16
e corrisponde alla posizione 8 nell’insieme ordinato dei valori.
Il 50% dei tipi di frutta considerati ha un contenuto di vitamina C inferiore a quello della
banana (16) ed il 50% ha un contenuto superiore
116
Consideriamo dati analoghi anche per la vitamina A; in questo caso però non
disponiamo del valore relativo al kiwi: in questo caso le osservazioni sono 14 (pari)
Rank
1
2
3
4
Frutto
Mora
Fragola
Ananas
Lampone
VitA
2
5
8
13
5
6
7
8
9
10
11
12
13
14
Mirtillo
Fico
Prugna
Ciliegia
Pesca
Anguria
Banana
Arancia
Melone
Albicocca
13
15
16
19
34
37
45
70
190
360
Abbiamo 2 posizioni centrali (7 e 8) e
due valori “mediani” (16 e 19).
In questo caso ha senso proporre la loro
semisomma come valore “puntuale”
della mediana:
Me( X ) 
16  19
 17.5
2
117
Una proprietà importante della mediana: la robustezza
Calcoliamo le medie aritmetiche per i contenuti di Vitamina A e C e confrontiamoli con
le mediane
Vitamina A
Vitamina C
x
Me
59.07
39.07
17.5
16.0
In entrambi i casi i valori sono molto diversi. La mediana è poco sensibile (in statistica si
dice “robusta”) alla presenza di pochi valori lontani dal “grosso” della distribuzione
(albicocca e lampone) mentre la media aritmetica ne è influenzata.
Nei casi in cui poche unità hanno valori molto più grandi della maggioranza delle altre,
la mediana è un indicatore di posizione più sensato e “equo”.
118
Fly UP