...

STATISTICA: esercizi svolti su RAPPORTI STATISTICI E NUMERI

by user

on
Category: Documents
56

views

Report

Comments

Transcript

STATISTICA: esercizi svolti su RAPPORTI STATISTICI E NUMERI
STATISTICA: esercizi svolti su
RAPPORTI STATISTICI E NUMERI INDICI
1
1 RAPPORTI STATISTICI E NUMERI INDICI
1
2
RAPPORTI STATISTICI E NUMERI INDICI
1. La seguente tabella riporta il numero di studenti iscritti ai corsi di laurea della facoltà
di statistica di due città nell’anno accademico 1992/93:
Corso
S. Stat. Dem.
S. Stat. Att.
S. Stat. Econ.
Roma
802
443
1194
Trieste
228
189
534
Si valuti l’importanza numerica relativa dei diversi corsi di laurea, si confrontino i
risultati e si commentino. Si indichi inoltre quale tipo di rapporto statistico è stato
utilizzato.
Svolgimento
Al fine di valutare l’importanza numerica relativa dei diversi corsi di laurea presso
la facoltà di statistica di Roma, è opportuno utilizzare dei rapporti di composizione
(o di parte al tutto). Per il calcolo di quest’ultimi è necessario disporre del numero
totale di iscritti ai corsi di laurea della facoltà di statistica di Roma. Dalla tabella
fornita dal testo dell’esercizio otteniamo:
Corso
S. Stat. Dem.
S. Stat. Att.
S. Stat. Econ.
Tot.
Roma
802
443
1194
2439
I rapporti di composizione desiderati risultano quindi essere:
802
= 0.3288 per quanto riguarda il corso in Scienze Statistiche e Demogra2439
fiche;
443
•
= 0.1816 per quanto riguarda il corso in Scienze Statistiche ed Attuariali;
2439
1194
•
= 0.4895 per quanto riguarda il corso in Scienze Statistiche ed Economiche
2493
•
I risultati ottenuti ci dicono che presso la facoltà di statistica di Roma, il 32.88% degli
studenti è iscritto al corso di laurea in Scienze Statistiche e Demografiche, il 18.16%
degli studenti è iscritto al corso di laurea in Scienze Statistiche ed Attuariali mentre
il restante 48.95% è iscritto al corso di laurea in Scienze Statistiche ed Economiche.
Procedendo nello stesso modo anche per la facoltà di statistica di Trieste si ottiene:
Corso
S. Stat. Dem.
S. Stat. Att.
S. Stat. Econ.
Tot.
Trieste
228
189
534
951
1 RAPPORTI STATISTICI E NUMERI INDICI
3
I rapporti di composizione desiderati risultano essere:
228
= 0.2397 per quanto riguarda il corso in Scienze Statistiche e Demografiche;
951
189
•
= 0.1987 per quanto riguarda il corso in Scienze Statistiche ed Attuariali;
951
534
•
= 0.5615 per quanto riguarda il corso in Scienze Statistiche ed Economiche
951
•
I risultati ottenuti ci dicono che presso la facoltà di statistica di Trieste, il 23.97%
degli studenti è iscritto al corso di laurea in Scienze Statistiche e Demografiche, il
19.97% degli studenti è iscritto al corso di laurea in Scienze Statistiche ed Attuariali mentre il restante 56.15% è iscritto al corso di laurea in Scienze Statistiche ed
Economiche. In generale osserviamo che, in entrambe le facoltà, il corso di laurea
con un’importanza numerica relativa maggiore è quello in Scienze Statistiche ed Economiche seguito dal corso in Scienze Statisitche e Demografiche. Il corso in Scienze
Statistiche ed attuariali risulta invece essere quello con un’importanza numerica relativa minore in entrambe le facoltà. Osserviamo anche che l’importanza numerica
relativa del corso in Scienze statistiche e Demografiche è più alta presso la facoltà
di Roma mentre i corsi in Scienze Statistiche ed Attuariali e in scienze Statistiche
ed Economiche hanno un’importanza numerica relativa più elevata nella facoltà di
Trieste.
2. La seguente tabella riporta il numero di esami sostenuti nell’anno 2002 per il conseguimento delle patenti di guida (A-B-C-D-E-Speciali) nelle province di Milano e di
Roma e il numero di esaminandi risultati idonei (Fonte Ministero delle Infrastrutture
e dei Trasporti):
Provincia Esami Idonei
Milano
124398 93820
Roma
166641 130300
Si valuti in quale delle due province l’esito degli esami è stato migliore.
Si riconosca la natura del rapporto 124398/166641 e se ne interpreti il risultato.
Svolgimento
Per valutare in quale delle due provincie si è avuto il miglior esito degli esami, è
opportuno calcolare i seguenti rapporti di composizione:
n◦
n◦ di idonei in provincia di Milano
di esami svolti in provincia di Milano
n◦
n◦ di idonei in provincia di Roma
.
di esami svolti in provincia di Roma
Sulla base delle informazioni contenute nella tabella fornita dal testo dell’esercizio i
rapporti di composizione desiderati risultano essere:
93820
= 0.7542 per quanto riguarda la provincia di Milano;
124398
130300
•
= 0.7819 per quanto riguarda per quanto riguarda la provincia di Roma.
166641
•
1 RAPPORTI STATISTICI E NUMERI INDICI
4
I risultati ottenuti ci dicono che, nella provincia di Milano, il 75.42% degli esaminati
sono risultati idonei. Nella provincia di Roma tale percentuale sale invece al 78.19%.
Possiamo quindi concludere che l’esito degli esami è stato migliore nella provincia di
Roma.
Il rapporto statistico
124398
n◦ di esami svolti in provincia di Milano
=
= 0.7465
◦
n di esami svolti in provincia di Roma
166641
è un rapporto di coesistenza e ci informa che per ogni 100 esami sostenuti a in provincia di Roma, ne sono stati sostenuti circa 75 in provincia di Milano.
3. La seguente tabella riporta per alcune regioni il numero di incidenti stradali verificatesi in un anno e la lunghezza della rete stradale in chilometri:
Regioni
Piemonte
Lombardia
Friuli V.G.
Emilia Romagna
Umbria
Lazio
Campania
Basilicata
Sicilia
Sardegna
Incidenti
18840
47387
10268
31379
4520
53130
14251
1218
10283
5562
Lungh. Rete Stradale
30907
27943
5885
29038
6639
19063
16828
6415
20833
12132
Calcolare in quale regione si è avuta una maggiore densità di incidenti stradali e confrontarlo con l’analogo indice per la nazione, sapendo che in Italia si sono verificati
nell’anno considerato 292762 incidenti e che la lunghezza della rete stradale è pari a
303365 Km.
Svolgimento
Al fine di individuare la regione in cui si è avuta una maggiore densità di incidenti
stradali, è opportuno calcolare, relativamente ad ogni regione, il rapporto di densità:
n◦ di incidenti
.
lunghezza della rete stradale
Ad esempio, nel caso della regione Piemonte, tale rapporto è dato da
18840
= 0.6096
30907
1 RAPPORTI STATISTICI E NUMERI INDICI
5
e ci indica che in Piemonte, in un anno, si sono verificati 0.6096 incidenti stradali per
km di strada. Nel caso della regione Friuli Venezia Giulia il rapporto è dato da
10268
= 1.7448
5885
e ci indica che in Friuli Venezia Giulia, in un anno, si sono verificati 1.7448 incidenti
per km di strada. Procedendo analogamente per le restanti regioni si ottiene:
Regioni
Piemonte
Lombardia
Friuli V.G.
Emilia Romagna
Umbria
Lazio
Campania
Basilicata
Sicilia
Sardegna
Incidenti
18840
47387
10268
31379
4520
53130
14251
1218
10283
5562
Lungh. Rete Stradale
30907
27943
5885
29038
6639
19063
16828
6415
20833
12132
Rapporto di densità
0.6096
1.6958
1.7448
1.0806
0.6808
2.7871
0.8469
0.1899
0.4936
0.4585
Osservando i risultati riportati nella tabella concludiamo che la regione nella quale
si è avuta una maggiore densità di incidenti stradali è il Lazio. In tale regione, in un
anno, si sono verificati 2.7871 incidenti stradali per km di strada.
Per quanto riguarda l’Italia, il rapporto di densità è dato da
292762
= 0.9650
303365
e ci indica che in Italia, in un anno, si sono verificati 0.9650 incidenti per km di
strada. Questo risultato mostra che la densità di incidenti stradali in Lazio è circa
tre volte più alta di quella dell’Italia.
4. La seguente tabella riporta il numero di nati vivi nel 2004 ripartiti per sesso:
Sesso
Nati Vivi
Maschi
288850
Femmine
273749
Totale
562599
a) Sapendo che nel 2004 la popolazione in Italia era di 57888300 unità calcolare il
quoziente di natalità;
b) calcolare quanti maschi e femmine nascono ogni cento nati in Italia;
c) calcolare quanti maschi sono nati nel 2004 per ogni 100 femmine (indice di mascolinità); calcolare quante femmine sono nate nel 2004 per ogni 100 maschi (indice
1 RAPPORTI STATISTICI E NUMERI INDICI
6
di femminilità).
Svolgimento
Svolgimento punto a).
derivazione dato da:
Ricordiamo che il quoziente di natalità è un rapporto di
n◦ di nati vivi (avvenuti nell’anno)
Totale popolazione (rilevata nell’anno)
Sulla base dei dati forniti dal testo dell’esecizio, il quoziente di natalità per l’Italia
nel 2004 è pari a
562599
= 0.009719 .
57888300
Solitamente questo indice viene moltiplicato per 1000. In tal caso esso assume valore
pari a 9.719. Concludendo: in Italia, nel 2004, si sono avuti 9.719 nati vivi ogni mille
abitanti.
Svolgimento punto b). Al fine di calcolare quanti maschi e quante femmine nascono
ogni 100 nati vivi in Italia, è opportuno calcolare i seguenti rapporti di composizione
percentuali:
288850
maschi nati vivi
· 100 =
= 51.34
totale nati vivi
562599
273749
femmine nate vive
· 100 =
= 48.66
totale nati vivi
562599
Tali rapporti ci dicono che in Italia, nel 2004, sono nati circa 51 maschi ogni 100 nati
vivi e circa 49 femmine ogni 100 nati vivi.
Svolgimento punto c). Gli indici di mascolinità e di femminilità sono dei rapporti
di coesistenza percentuali rispettivamente dati da:
288850
n◦ di maschi nati vivi
· 100 =
· 100 = 105.52
◦
n di femmine nate vive
273749
n◦ di femmine nate vive
273749
· 100 =
· 100 = 94.77
◦
n di maschi nati vivi
288850
L’indice di mascolinità ci dice che in Italia, nel 2004, sono nati circa 106 maschi ogni
100 nate femmine. L’indice di femminilità ci dice invece che in Italia, nel 2004, sono
nate circa 95 femmine ogni 100 nati maschi.
5. La popolazione residente (in migliaia) nel comune di Milano dal 1991 al 1996 ha
avuto il seguente andamento:
1991
1368
1992
1359
1993
1334
1994
1322
1995
1306
1996
1304
Si costruiscano le serie dei numeri indici a base fissa (1991=100), base fissa (1999=100)
e base mobile. Si commentino i risultati ottenuti.
1 RAPPORTI STATISTICI E NUMERI INDICI
7
Svolgimento
Si indichino con P91 , P92 , ..., P96 rispettivamente la popolazione residente nel comune
di Milano negli anni 1991, 1992, ..., 1996. Secondo questa notazione, la serie dei numeri indici percentuali a base fissa (1991=100) e a base fissa (1993=100) sono date
rispettivamente da:
Ij,91 · 100 =
Pj
· 100
P91
j = (91, 92, .., 96)
Pj
· 100
j = (91, 92, .., 96)
P93
Utilizzando i dati riportati nel testo dell’esercizio abbiamo ad esempio che:
Ij,93 · 100 =
I92,91 · 100 =
1359
· 100 = 99.3421
1368
1334
· 100 = 97.5146
1368
L’indice I92,91 · 100 ci dice che la popolazione residente a Milano nel 1992 è diminuita
dello 0, 65% rispetto all’anno 1991. L’indice I93,91 · 100 ci dice che la popolazione
residente a Milano nel 1993 è diminuita del 2.48% rispetto all’anno 1991.
Per quanto riguarda i numeri indici a base fissa (1993=100) abbiamo ad esempio che:
I93,91 · 100 =
I91,93 · 100 =
1368
· 100 = 102.5487
1334
1359
· 100 = 101.8741
1334
L’indice I91,93 · 100 ci dice che la popolazione residente a Milano nel 1991 è più alta
del 2.5487% rispetto all’anno 1993. L’indice I92,93 · 100 ci dice che la popolazione
residente a Milano nel 1992 è più alta dell’1.8741% rispetto all’anno 1991.
I92,93 · 100 =
Secondo la notazione introdotta in precedenza, la serie dei numeri indici a base mobile
è data da:
Pj
Ij,j−1 · 100 =
· 100
j = (91, 92, .., 96)
Pj−1
Sulla base dei dati a nostra disposizione abbiamo ad esempio che:
I92,91 · 100 =
1359
· 100 = 99.3421
1368
1334
· 100 = 98.1604
1359
Il commento relativo a I92,91 · 100 è già stato riportato in precendenza. L’indice
I93,92 · 100 ci dice che la popolazione residente a Milano nel 1993 è diminuita dell’1.8396%
rispetto all’anno precedente.
I93,92 · 100 =
Nella tabella seguente riportiamo tutti gli indici di cui era richiesto il calcolo.
1 RAPPORTI STATISTICI E NUMERI INDICI
anno
1991
1992
1993
1994
1995
1996
8
popolazione NI(1991=100)
1368
100
1359
99.3421
1334
97.5146
1322
96.6374
1306
95.4678
1304
95.3216
NI(1993=100)
102.5487
1018741
100
99.1004
97.9010
97.7511
NI (bm)
—
99.3421
98.1604
99.1004
98.7897
99.8469
6. La seguente tabella riporta i numeri indici dei prezzi al consumo per l’intera collettività (fonte ISTAT 2005).
2000
112.8
2001
115,9
2002
118.8
2003
122.0
2004
124.7
Sapendo che la base degli indici è il 1995, commentare la serie dei numeri indici.
Svolgimento
a) 112.8: i prezzi al consumo per l’intera collettività del 2000 sono più alti del
12.8% rispetto a quelli del 1995.
b) 115.9: i prezzi al consumo per l’intera collettività del 2001 sono più alti del
15.9% rispetto a quelli del 1995.
c) 118.8: i prezzi al consumo per l’intera collettività del 2002 sono più alti del
18.8% rispetto a quelli del 1995.
d) 122.0: i prezzi al consumo per l’intera collettività del 2003 sono più alti del
22.0% rispetto a quelli del 1995.
e) 124.7: i prezzi al consumo per l’intera collettività del 2004 sono più alti del
24.7% rispetto a quelli del 1995.
7. I numeri indici a base mobile della popolazione censita dal 1861 al 1981 sono riportati
nella seguente tabella:
1861
—
1871
106.9
1881
105.8
1901
113.3
1911
109.3
1921
102.5
1931
108.4
1936
103.3
1951
112.0
1961
106.5
1971
106.9
1981
103.8
Commentare i numeri indici e calcolare i numeri indici a base fissa 1861 = 100 e
1981 = 100.
Svolgimento
Commentiamo i numeri indici a base mobile forniti dal testo dell’esercizio:
1 RAPPORTI STATISTICI E NUMERI INDICI
9
• la popolazione censita nel 1871 è più alta del 6.9% rispetto a quella censita nel
1861;
• la popolazione censita nel 1881 è più alta del 5.8% rispetto a quella censita nel
1871;
• la popolazione censita nel 1901 è più alta del 13.3% rispetto a quella censita nel
1881;
• la popolazione censita nel 1911 è più alta del 9.3% rispetto a quella censita nel
1901;
• la popolazione censita nel 1921 è più alta del 2.5% rispetto a quella censita nel
1911;
• la popolazione censita nel 1931 è più alta dell’8.4% rispetto a quella censita nel
1921;
• la popolazione censita nel 1936 è più alta del 3.3% rispetto a quella censita nel
1931;
• la popolazione censita nel 1951 è più alta del 12% rispetto a quella censita nel
1936;
• la popolazione censita nel 1961 è più alta del 6.5% rispetto a quella censita nel
1951;
• la popolazione censita nel 1971 è più alta del 6.9% rispetto a quella censita nel
1961;
• la popolazione censita nel 1981 è più alta del 3.8% rispetto a quella censita nel
1971.
Ricaviamo ora i numeri indici a base fissa 1861 = 100.
• I1871.1861 = 1.069: la popolazione censita nel 1871 è più alta del 6.9% rispetto a
quella censita nel 1861;
• I1881.1861 = I1881.1871 · I1871.1861 = 1.058 · 1.069 = 1.131:
la popolazione censita nel 1881 è più alta del 13.3% rispetto a quella censita nel
1861;
• I1901.1861 = I1901.1881 · I1881.1861 = 1.133 · 1.131 = 1.281:
la popolazione censita nel 1901 è più alta del 28.1% rispetto a quella censita nel
1861;
• I1911.1861 = I1911.1901 · I1901.1861 = 1.093 · 1.281 = 1.400:
la popolazione censita nel 1911 è più alta del 40% rispetto a quella censita nel
1861;
• I1921.1861 = I1921.1911 · I1911.1861 = 1.025 · 1.400 = 1.436:
la popolazione censita nel 1921 è più alta del 43.6% rispetto a quella censita nel
1861;
1 RAPPORTI STATISTICI E NUMERI INDICI
10
• I1931.1861 = I1931.1921 · I1921.1861 = 1.084 · 1.436 = 1.556:
la popolazione censita nel 1931 è più alta del 55.6% rispetto a quella censita nel
1861;
• I1936.1861 = I1936.1931 · I1931.1861 = 1.033 · 1.556 = 1.607:
la popolazione censita nel 1936 è più alta del 60.7% rispetto a quella censita nel
1861;
• I1951.1861 = I1951.1936 · I1936.1861 = 1.12 · 1.607 = 1.800:
la popolazione censita nel 1951 è più alta dell’80% rispetto a quella censita nel
1861;
• I1961.1861 = I1961.1951 · I1951.1861 = 1.065 · 1.800 = 1.917:
la popolazione censita nel 1961 è più alta del 91.7% rispetto a quella censita nel
1861;
• I1971.1861 = I1971.1961 · I1961.1861 = 1.069 · 1.917 = 2.05:
la popolazione censita nel 1971 è più alta del 105% rispetto a quella censita nel
1861;
• I1981.1861 = I1981.1971 · I1971.1861 = 1.038 · 2.05 = 2.128:
la popolazione censita nel 1981 è più alta del 112.8% rispetto a quella censita
nel 1861.
Ricaviamo ora i numeri indici a base fissa 1861 = 100, tralasciando, per brevità, i
relativi commenti.
• I1971.1981
x1971
I1971.1861
2.05
x1971
x
= 0.963 .
= x1861
=
=
=
1981
x1861
I1981.1861
2.128
x1861
In modo analogo si ricavano gli indici:
• I1961.1981 =
• I1951.1981 =
• I1936.1981 =
• I1931.1981 =
• I1921.1981 =
• I1911.1981 =
• I1901.1981 =
I1961.1861
I1981.1861
I1951.1861
I1981.1861
I1936.1861
I1981.1861
I1931.1861
I1981.1861
I1921.1861
I1981.1861
I1911.1861
I1981.1861
I1901.1861
I1981.1861
=
=
=
=
=
=
=
1.917
2.128
1.8
2.128
1.607
2.128
1.556
2.128
1.436
2.128
1.400
2.128
1.281
2.128
= 0.901;
= 0.846;
= 0.755;
= 0.731;
= 0.675;
= 0.658;
= 0.602;
1 RAPPORTI STATISTICI E NUMERI INDICI
I1881.1861
1.131
=
= 0.531;
I1981.1861
2.128
1.069
I1871.1861
=
= 0.502;
=
I1981.1861
2.128
I1861.1861
1
=
=
= 0.470.
I1981.1861
2.128
• I1881.1981 =
• I1871.1981
• I1861.1981
11
STATISTICA esercizi svolti su: TABELLE
STATISTICHE E RAPPRESENTAZIONI
GRAFICHE
1
2
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
1
TABELLE STATISTICHE E RAPPRESENTAZIONI
GRAFICHE
1.1
Esercizi
Numero
d’ordine
della
famiglia
Settore di attività
economica del
capofamiglia
(C.F.)
Titolo di
godimento
dell’abitazione
Titolo di
studio del
C.F.
Numero
di figli
Reddito
annuo lordo
(euro)
Età
del
C.F.
1
Industria
Affitto
Diploma
3
19841
29
2
Industria
Affitto
Laurea
2
18830
29
3
Agricoltura
Proprietà
Licenza Media
3
15971
26
4
Industria
Proprietà
Diploma
1
17361
31
5
Altra Attività
Proprietà
Laurea
0
23426
60
6
Industria
Affitto
Licenza Media
2
17220
30
7
Industria
Altro titolo
Licenza Media
3
17540
30
8
Industria
Affitto
Diploma
4
16980
45
9
Agricoltura
Proprietà
Senza titolo
5
15340
69
10
Agricoltura
Proprietà
Licenza Media
1
18270
56
11
Industria
Proprietà
Licenza Media
1
30733
50
12
Altra Attività
Affitto
Laurea
1
28760
55
13
Altra Attività
Altro titolo
Diploma
2
25320
52
14
Agricoltura
Affitto
Laurea
2
19221
57
15
Altra Attività
Proprietà
Laurea
2
27320
65
16
Industria
Proprietà
Laurea
0
23420
59
17
Industria
Affitto
Laurea
1
20280
48
18
Altra Attività
Affitto
Licenza Elem.
3
27531
59
19
Industria
Proprietà
Licenza Media
5
18330
46
20
Industria
Proprietà
Diploma
0
19750
48
3
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
Con riferimento ai dati della tabella precedente:
1. Definire la popolazione di riferimento e le unità statistiche.
Svolgimento
La popolazione di riferimento è l’insieme delle famiglie prese in esame e ciascuna di
esse rappresenta quindi una unità statistica.
2. Individuare i caratteri rilevati dall’indagine statistica e per ciascuno di essi indicare
di che tipo si tratta, elencare le modalità con cui si manifesta e la scala di misura di
tali modalità.
Svolgimento
É possibile riassumere il tutto nella seguente tabella:
Carattere
Modalità
Settore di
attività del
capofamiglia
Titolo di
godimento
dell’abitazione
Industria
Agricoltura
Altra Attività
Affitto
Proprietà
Altro titolo
Senza Titolo
Licenza elementare
Licenza media
Diploma
Laurea
Titolo
di studio
del capofamiglia
Numero di
figli
Reddito annuo
lordo (in euro)
Età del
capofamiglia (in anni)
0, 1, 2, 3, 4, 5
(25000, 31000)
{25, ..., 70}
Tipo
di
carattere
Scala di
misurazione
delle modalità
Qualitativo
Nominale
Qualitativo
Nominale
Qualitativo
Ordinale
Quantitativo
Discreto
Quantitativo
Continuo
Quantitativo
Discreto
Scala di
rapporti
Scala di
rapporti
Scala di
rapporti
3. Classificare i casi per ogni carattere individuato al punto precedente predisponendo
le tabelle delle frequenze assolute, relative, cumulate e retrocumulate (se opportuno)
di ognuno di essi.
Effettuare la rappresentazione grafica delle frequenze assolute e relative di ogni carattere. (NB: Per il carattere reddito ed il carattere età scegliere opportune classi di
modalità, giustificando la scelta).
4
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
Svolgimento
Analizziamo ora ciascun carattere individuato.
• “Settore di attività del capofamiglia”
Settore di
attività del
nj = freq. assolute
capofamiglia
Agricoltura
Industria
Altra Attività
Totale
nj
= freq. relative
N
4
11
5
20
0.2
0.55
0.25
1
In Figura (1) vediamo rappresentate le frequenze assolute, mentre in Figura (2)
e in Figura (3) le frequenze relative del carattere in esame.
11
5
4
A.
I.
A. A.
Fig. 1: Grafico delle frequenze assolute del carattere “Settore di attività del capofamiglia”.
0.55
0.25
0.2
A.
I.
A. A.
Fig. 2: Grafico delle frequenze relative del carattere “Settore di attività del capofamiglia”.
5
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
A. A.
0.55
0.25
I.
A.
0.2
Fig. 3: Aerogramma delle frequenze relative del carattere “Settore di attività del capofamiglia”.
Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala
di misurazione del carattere è nominale.
• “Titolo di godimento dell’abitazione”
Titolo di
godimento
nj = freq. assolute
dell’abitazione
Affitto
Proprietà
Altro Titolo
Totale
nj
= freq. relative
N
8
10
2
20
0.4
0.5
0.1
1
In Figura (4) vediamo rappresentate le frequenze assolute, mentre in Figura (5)
e in Figura (6)le frequenze relative del carattere in esame.
8
A.
10
P.
2
A. T.
Fig. 4: Grafico delle frequenze assolute del carattere “Titolo di godimento dell’abitazione”.
6
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
0.4
A.
0.5
0.1
A. T.
P.
Fig. 5: Grafico delle frequenze relative del carattere “Titolo di godimento dell’abitazione”.
0.5
A.
P.
0.4
A. T.
0.1
Fig. 6: Aerogramma delle frequenze relative del carattere “Titolo di godimento dell’abitazione”.
Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala
di misurazione del carattere è nominale.
• “Titolo di studio del capofamiglia”
Titolo di
studio del
nj = freq. assolute
capofamiglia
Senza Titolo
Licenza elementare
Licenza media
Diploma
Laurea
Totale
nj
= freq. relative
N
1
1
6
5
7
20
0.05
0.05
0.3
0.25
0.35
1
In Figura (7) vediamo rappresentate le frequenze assolute, mentre in Figura (8)
le frequenze relative del carattere in esame.
7
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
7
1
5
6
1
S.T. Lic. El. Lic. M.
L
D
Fig. 7: Grafico delle frequenze assolute del carattere “Titolo di studio del capofamiglia”.
0.05 0.05
0.3 0.25
S.T. Lic. El. Lic. M.
0.35
L
D
Fig. 8: Grafico delle frequenze relative del carattere “Titolo di studio del capofamiglia”.
In questo caso ha senso calcolare le frequenze cumulate e retrocumulate, in
quanto la scala di misurazione del carattere è ordinale. Completiamo perciò la
seguente tabella.
Titolo di
studio del
capofamiglia
Senza Titolo
Licenza elementare
Licenza media
Diploma
Laurea
Cj = freq. cumulate
Rj = freq. retrocumulate
1
2
8
13
20
20
19
18
12
7
• “Numero di figli”
Numero
di
nj = freq. assolute
figli
0
1
2
3
4
5
Totale
nj
= freq. relative
N
3
5
5
4
1
2
20
0.15
0.25
0.25
0.20
0.05
0.10
1
8
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
In Figura (9) vediamo rappresentate le frequenze assolute, mentre in Figura (10)
le frequenze relative del carattere in esame.
nj
5
4
3
2
1
1 2 3 4 5
0
figli
Fig. 9: Grafico delle frequenze assolute del carattere “Numero di figli”.
fj
0.25
0.20
0.15
0.10
0.05
0
1 2 3 4 5
figli
Fig. 10: Grafico delle frequenze relative del carattere “Numero di figli”.
Anche in questo caso ha senso calcolare le frequenze cumulate e retrocumulate, in quanto la scala di misurazione del carattere è ordinale. Vediamole nella
seguente tabella.
Numero
di
figli
0
1
2
3
4
5
Cj = freq. cumulate
Rj = freq. retrocumulate
3
8
13
17
18
20
20
17
12
7
3
2
9
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
• “Reddito annuo lordo (in Euro)”
Come suggerito dal testo, raggruppiamo il carattere in classi. Un modo possibile, cercando di equilibrare le frequenze delle classi, è il seguente:
Reddito
annuo
nj = freq. assolute
lordo
fino a 17000
17000 ⊣ 18500
18500 ⊣ 20000
20000 ⊣ 26000
oltre 26000
Totale
nj
= freq. relative
N
3
5
4
4
4
20
0.15
0.25
0.20
0.20
0.20
1
Per rappresentare graficamente il carattere “Reddito annuo lordo” è necessario
andare a calcolare le frequenze specifiche (fs ) e quindi si ha bisogno dell’ampiezza di ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è
ritenuto opportuno “chiudere” la prima classe a 15000, mentre l’ultima a 33000.
Reddito
annuo
Ampiezza della classe
lordo
15000 ⊣ 17000
2000
17000 ⊣ 18500
1500
18500 ⊣ 20000
1500
20000 ⊣ 26000
6000
26000 ⊣ 33000
7000
fs = freq. specifiche
0.0015
0.003̄
0.0026̄
0.0006̄
0.00057
In Figura (11) riportiamo il grafico del carattere “Reddito annuo lordo”.
10
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
fs
0.003
0.0026
0.0015
0.0006
0.00057
0
15000
17000
19000
21000
23000
26000
29000
31000
33000
€
Fig. 11: Grafico delle frequenze assolute del carattere “Reddito annuo lordo”.
Anche in questo caso ha senso calcolare le frequenze cumulate e retrocumulate,
in quanto la scala di misurazione del carattere è una scala di rapporti. Vediamole nella seguente tabella.
Reddito
annuo
Cj = freq. cumulate
lordo
15000 ⊣ 17000
3
17000 ⊣ 18500
8
18500 ⊣ 20000
12
20000 ⊣ 26000
16
26000 ⊣ 33000
20
Rj = freq. retrocumulate
20
17
12
8
4
La seconda frequenza cumulata (8) significa che 8 famiglie tra le 20 considerate
hanno un reddito annuo lordo minore o uguale a 18500 euro.
La seconda frequenza retrocumulata (17) significa che 17 famiglie tra le 20 considerate hanno un reddito annuo lordo maggiore a 17000 euro.
• “Età del capofamiglia”
Come suggerito dal testo, raggruppiamo il carattere in classi. Un modo possibile
è il seguente:
11
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
Età
del
nj = freq. assolute
capofamiglia
fino a 30
31|−|49
50|−|55
56|−|60
oltre 60
Totale
nj
= freq. relative
N
5
5
3
5
2
20
0.25
0.25
0.15
0.25
0.1
1
Per rappresentare graficamente il carattere “Età del capofamiglia” è necessario
andare a calcolare le frequenze specifiche (fs ) e quindi si ha bisogno dell’ampiezza di ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è
ritenuto opportuno “chiudere” la prima classe a 26, mentre l’ultima a 70.
Età
del
Ampiezza della classe
capofamiglia
26|−|30
5
31|−|49
19
50|−|55
6
56|−|60
5
61|−|70
10
fs = freq. specifiche
1
0.263
0.5
1
0.2
Possiamo ora disegnare il grafico del carattere “Età del capofamiglia”: lo riportiamo in Figura (12).
fs
1
0.5
0.26
0.2
0
25
30
35
40
45
50
55
60
65
70 anni
Fig. 12: Grafico delle frequenze assolute del carattere “Età del capofamiglia”.
12
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
Anche in questo caso ha senso calcolare le frequenze cumulate e retrocumulate,
in quanto la scala di misurazione del carattere è una scala di rapporti. Vediamole nella seguente tabella.
Età
del
Cj = freq. cumulate
capofamiglia
26|−|30
5
31|−|49
10
50|−|55
13
56|−|60
18
61|−|70
20
Rj = freq. retrocumulate
20
15
10
7
2
La quarta frequenza cumulata (18) significa che 18 famiglie tra le 20 considerate
hanno un capofamglia con un’età minore o uguale a 60 anni.
La quarta frequenza retrocumulata (7) significa che 7 famiglie tra le 20 considerate hanno hanno un capofamglia con un’età maggiore o uguale a 56 anni.
4. Costruire le tabelle a doppia entrata delle frequenze assolute e relative della coppia
di caratteri “settore di attività” e “numero di figli” e della coppia “età” e “reddito”.
Svolgimento
La tabella a doppia entrata delle frequenze assolute dei caratteri “settore di attività”
e “numero di figli” è la seguente:
Sett.attività
A
I
AA
TOTALE
Figli
0
1
2
3
4
5
TOTALE
0
1
1
1
0
1
4
2
3
2
2
1
1
11
1
1
2
1
0
0
5
3
5
5
4
1
2
20
Mentre la tabella a doppia entrata delle frequenze relative è:
13
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
Sett.attività
A
I
AA
TOTALE
Figli
0
1
2
3
4
5
TOTALE
0
0.05
0.05
0.05
0
0.05
0.2
0.1
0.15
0.1
0.1
0.05
0.05
0.55
0.05
0.05
0.1
0.05
0
0
0.25
0.15
0.25
0.25
0.2
0.05
0.1
1
La tabella a doppia entrata delle frequenze assolute dei caratteri “età” e “reddito” è
la seguente:
Età del C.F.
26|−|30 31|−|49 50|−|55 56|−|60 61|−|70
TOTALE
Reddito
15000 ⊣ 17000
17000 ⊣ 18500
18500 ⊣ 20000
20000 ⊣ 26000
26000 ⊣ 33000
TOTALE
1
2
2
0
0
5
1
2
1
1
0
5
0
0
0
1
2
3
0
1
1
2
1
5
1
0
0
0
1
2
3
5
4
4
4
20
Mentre la tabella a doppia entrata delle frequenze relative è:
Età del C.F.
26|−|30 31|−|49 50|−|55 56|−|60 61|−|70
TOTALE
Reddito
15000 ⊣ 17000
17000 ⊣ 18500
18500 ⊣ 20000
20000 ⊣ 26000
26000 ⊣ 33000
TOTALE
0.05
0.1
0.1
0
0
0.25
0.05
0.1
0.05
0.05
0
0.25
0
0
0
0.05
0.1
0.15
0
0.05
0.05
0.1
0.05
0.25
0.05
0
0
0
0.05
0.1
0.15
0.25
0.2
0.2
0.2
1
5. Con riferimento al carattere numero dei figli:
a) predisporre la tabella delle frequenze assolute, relative e specifiche supponendo
di riclassificare il carattere nelle classi fino ad 1, 2 ⊢⊣ 4 e 5 e oltre ;
b) per la distribuzione calcolata al punto a) effettuare la rappresentazione grafica
delle frequenze assolute e relative;
c) dedurre la percentuale di famiglie con almeno 3 figli e con al più 3 figli per la
distribuzione originaria e per la distribuzione riclassificata individuata al punto
a).
14
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
Svolgimento
a) Riclassificando il carattere “Numero di figli”, come indicato, otteniamo la seguente
tabella.
Numero
di
nj = freq. assolute
figli
fino a 1
2|−|4
5 e oltre
Totale
nj
= freq. relative
N
8
10
2
20
0.4
0.5
0.1
1
Calcoliamo ora le ampiezze delle classi, le frequenze specifiche assolute (fs ) e le
frequenze specifiche relative (frs ), dopo aver specificato gli estremi della prima
e dell’ultima classe in modo da avere rispettivamente 0|−|1 e 5|−|6.
Numero
di
figli
0|−|1
2|−|4
5|−|6
Ampiezza della classe
2
3
2
fs = freq. specifiche
assolute
4
3.3̄
1
frs = freq. specifiche
relative
0.2
0.16̄
0.05
b) In Figura (13) vediamo rappresentate le frequenze assolute, mentre in Figura
(14) le frequenze relative del carattere in esame.
fS
4
3
2
1
0
1 2 3 4 5 6 figli
Fig. 13: Grafico delle frequenze assolute del carattere “Numero di figli” raggruppato in classi.
15
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
frs
0.2
0.16
0.05
0
1 2 3 4 5 6 figli
Fig. 14: Grafico delle frequenze relative del carattere “Numero di figli” raggruppato in classi.
c) Considerando il carattere raggruppato in classi, per calcolare la percentuale di
famiglie con almeno 3 figli, basta sommare le lunghezze delle aste in corrispondenza dei valori maggiori o uguali a 3 e poi moltiplicare per 100 (vedi Figura
(14)):
0.16̄ + 0.16̄ + 0.05 + 0.05 = 0.43̄
(quindi 43.3̄%).
Se invece non consideriamo il raggruppamento in classi, sommando le lunghezze
delle aste in corrispondenza dei valori maggiori o uguali a 3 (vedi Figura (10))
e moltiplicando per 100, otteniamo:
0.20 + 0.05 + 0.10 = 0.40
(quindi 40%).
Per calcolare invece la percentuale di famiglie con al più 3 figli, dovremo sommare
le lunghezze delle aste in corrispondenza dei valori minori o uguali a 3 e poi
moltiplicare per 100. Quindi, considerando il carattere raggruppato in classi,
(vedi Figura (14)):
0.2 + 0.2 + 0.16̄ + 0.16̄ = 0.73̄
(quindi 73.3̄%)
mentre se consideriamo il carattere non raggruppato in classi (vedi Figura (10)):
0.15 + 0.25 + 0.25 + 0.20 = 0.85
(quindi 85%).
6. La seguente tabella riporta la distribuzione del carattere X numero di stanze di 120
abitazioni della provincia di Belluno.
numero di stanze
nj
1 2 3 4
5 22 32 35
5 6 7
16 7 2
8
1
Individuare la popolazione statistica e le unità statistiche. Indicare di che tipo di
carattere si tratta e la scala di misurazione delle modalità. Calcolare frequenze relative, cumulate relative ed assolute, retrocumulate relative ed assolute. Rappresentare
graficamente le frequenze assolute.
16
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
Svolgimento
La popolazione statistica è composta dalle 120 abitazioni della provincia di Belluno
prese in esame e quindi le unità statistiche sono proprio tali abitazioni.
Il carattere “numero di stanze” è un carattere quantitativo discreto e la scala di misurazione delle sue modalità è una scala di rapporti.
Le frequenze relative, cumulate (relative e assolute) e retrocumulate (relative e assolute) sono riassunte nella seguente tabella:
numero
nj
di
stanze
1
2
3
4
5
6
7
8
freq.
assolute
5
22
32
35
16
7
2
1
nj
N
freq.
relative
0.0416
0.183̄
0.26̄
0.2916̄
0.13̄
0.0583̄
0.016̄
0.0083̄
fj =
Cj
Fj
Rj
F̄j
freq.cumul.
assolute
5
27
59
94
110
117
119
120
freq.cumulate
relative
0.0416
0.225
0.4916̄
0.783̄
0.916̄
0.975
0.9916̄
1
freq.retrocumul.
assolute
120
115
93
61
26
10
3
1
freq.retrocumul.
relative
1
0.9583̄
0.775
0.5083̄
0.216̄
0.083̄
0.025
0.083̄
In Figura (15) sono rappresentate le frequenze assolute.
nj
35
22
16
7
2
0
1 2 3 4 5 6 7 8 Stanze
Fig. 15: Grafico delle frequenze assolute del carattere “numero di stanze”.
17
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
7. La seguente tabella riporta la distribuzione del carattere X fatturato (in milioni di
euro) di 1240 calzaturifici italiani nell’anno 1996.
Classi di fatturato fino a 0, 5 0, 5 −|1 1 −|5
nj
340
368
480
5 −|10 oltre 10
37
15
Individuare la popolazione statistica e le unità statistiche. Indicare di che tipo di
carattere si tratta e la scala di misurazione delle modalità. Calcolare frequenze relative, specifiche, cumulate relative ed assolute, retrocumulate relative ed assolute.
Rappresentare graficamente le frequenze assolute.
Svolgimento
La popolazione statistica è composta dai 1240 calzaturifici italiani presi in esame e
quindi le unità statistiche sono proprio tali calzaturifici.
Il carattere “fatturato” è un carattere quantitativo continuo e la scala di misurazione
delle sue modalità è una scala di rapporti.
Le frequenze relative, cumulate (relative e assolute) e retrocumulate (relative e assolute) sono riassunte nella seguente tabella:
classi
nj
di
fatturato
fino a 0.5
0.5 ⊣ 1
1⊣5
5 ⊣ 10
oltre 10
freq.
assolute
340
368
480
37
15
nj
N
freq.
relative
0.274
0.297
0.387
0.030
0.012
fj =
Cj
Fj
Rj
F̄j
freq. cumul.
assolute
340
708
1188
1225
1240
freq.cumulate
relative
0.274
0.571
0.958
0.988
1
freq.retrocumul.
assolute
1240
900
532
52
15
freq.retrocumul.
relative
1
0.726
0.429
0.041
0.012
Per rappresentare graficamente il carattere, essendo raggruppato in classi, è necessario
calcolare le frequenze specifiche. Riteniamo opportuno “chiudere” la prima e l’ultima
classe rispettivamente con i valori 0 e 15. Si ottengono dunque le classi 0 ⊣ 0.5 e
10 ⊣ 15:
classi
Ampiezza
di
nj
della
fatturato
classe
0 ⊣ 0.5 340
0.5
0.5 ⊣ 1 368
0.5
1⊣5
480
4
5 ⊣ 10
37
5
10 ⊣ 15
15
5
fs
frequenze
specifiche
680
736
120
7.4
3
In Figura (16) sono rappresentate le frequenze assolute.
In Figura (16), si è utilizzato il tratteggio per evidenziare il fatto che il grafico non è
in scala.
18
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
fs
736
680
120
7.4
3
0
1
5
10
15
fatturato
Fig. 16: Grafico delle frequenze assolute del carattere “fatturato”.
8. Gli esercizi alberghieri della provincia di Belluno sono stati classificati in base al
numero di camere per esercizio. I risultati dell’indagine sono riportati nella seguente
tabella:
numero di camere
numero esercizi
fino a 5 6|−|9 10|−|13 14|−|17 18|−|22 23|−|30 totale
20
20
20
24
25
16
125
Individuare la popolazione statistica e le unità statistiche. Indicare di che tipo di
carattere si tratta e la scala di misurazione delle modalità. Calcolare frequenze relative, specifiche, cumulate relative ed assolute, retrocumulate relative ed assolute.
Rappresentare graficamente le frequenze assolute.
Svolgimento
La popolazione statistica è composta dai 125 esercizi alberghieri della provincia di Belluno presi in esame e quindi le unità statistiche sono proprio tali esercizi alberghieri.
Il carattere “numero di camere” è un carattere quantitativo discreto e la scala di misurazione delle sue modalità è una scala di rapporti.
Le frequenze relative, cumulate (relative e assolute) e retrocumulate (relative e assolute) sono riassunte nella seguente tabella:
19
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
numero
nj
di
camere
fino a 5
6|−|9
10|−|13
14|−|17
18|−|22
23|−|30
freq.
assolute
20
20
20
24
25
16
nj
N
freq.
relative
0.16
0.16
0.16
0.192
0.2
0.128
fj =
Cj
Fj
Rj
F̄j
freq.cumul.
assolute
20
40
60
84
109
125
freq.cumulate
relative
0.16
0.32
0.48
0.672
0.872
1
freq.retrocumul.
assolute
125
105
85
65
41
16
freq.retrocumul.
relative
1
0.84
0.68
0.52
0.328
0.128
Per rappresentare graficamente il carattere, essendo raggruppato in classi, è necessario
calcolare le frequenze specifiche (si è ritenuto opportuno “chiudere” la prima classe a
0):
numero
di
camere
0|−|5
6|−|9
10|−|13
14|−|17
18|−|22
23|−|30
nj
20
20
20
24
25
16
Ampiezza
della
classe
6
4
4
4
5
8
fs
frequenze
specifiche
3.3̄
5
5
6
5
2
In Figura (17) sono rappresentate le frequenze assolute.
fs
6
5
3.3
2
0
5
10
15
20
25
30 camere
Fig. 17: Grafico delle frequenze assolute del carattere “numero di camere”.
20
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
9. I correntisti di una banca in possesso di titoli e senza titoli sono stati classificati in
base al loro saldo finale in migliaia di euro al 31/03/04 ottenendo la seguente tabella:
Classi di
Saldo Finale
0⊢5
5 ⊢ 10
10 ⊢ 50
50 e oltre
Totale
Clienti con
un conto titoli
100
40
30
10
180
Clienti senza
un conto titoli
40
160
80
20
300
Dopo aver indicato la tipologia del carattere saldo finale e la relativa scala di misurazione, si confrontino in un unico grafico le due distribuzioni di frequenze.
Svolgimento
Il carattere “saldo finale” è un carattere quantitativo continuo e la scala di misurazione
delle sue modalità è una scala di rapporti.
Per rappresentare in un unico grafico le distribuzioni di frequenze, dato che le numerosità dei due gruppi (clienti con un conto titoli e clienti senza un conto titoli) sono
differenti, è necessario calcolare le frequenze relative, rapportando ciascuna frequenza
con il suo totale di colonna.
Clienti con
un conto titoli
fj
0.5̄
0.2̄
0.16̄
0.05̄
1
Classi di
Saldo Finale
0⊢5
5 ⊢ 10
10 ⊢ 50
50 e oltre
Totale
Clienti senza
un conto titoli
fj
0.13̄
0.53̄
0.26̄
0.06̄
1
A questo punto possiamo calcolare le frequenze specifiche relative per le due distribuzioni.
Saldo Finale
Ampiezza della
classe
0⊢5
5 ⊢ 10
10 ⊢ 50
50 ⊢ 60
5
5
40
10
Clienti con
un conto titoli
frs
0.1̄
0.04̄
0.00416̄
0.005̄
Clienti senza
un conto titoli
frs
0.026̄
0.106̄
0.006̄
0.006̄
Le due distribuzioni di frequenze (relative) sono rappresentate in Figura (18).
21
1 TABELLE STATISTICHE E RAPPRESENTAZIONI GRAFICHE
f rs
0.1
= Clienti con un conto titoli
= Clienti senza un conto titoli
0.04
0.026
0.005
0
5
10
15
20
25
30
35
40
45
50
55
60
migliaia di €
Fig. 18: Grafico delle due distribuzioni di frequenze.
STATISTICA: esercizi svolti su
MODA, MEDIANA,
QUARTILI, DECILI e CENTILI
1
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
1
2
MODA, MEDIANA, QUARTILI, DECILI E CENTILI
1. Viene rilevato il tempo X (in secondi) necessario per l’esecuzione di 6 diverse procedure su uno stesso tipo di calcolatore:
Procedura
A
B
C
D
E
F
Tempo (X) 33,6 34,2 35,0 30,6 30,2 31,4
Calcolare moda, mediana e primo quartile del carattere X.
Svolgimento
La distribuzione riportata dal testo dell’esecizio è una distribuzione di unità in cui
non si presenta alcuna ripetizione delle intensità , di conseguenza la moda non esiste.
Per quanto riguarda il calcolo della mediana, si procede anzitutto ad ordinare in senso
non decrescente gli N = 6 valori forniti dal testo dell’esercizio. Si ottiene:
x(1) = 30, 2; x(2) = 30, 6; x(3) = 31, 4; x(4) = 33, 6; x(5) = 34, 2; x(6) = 35.
Dato che N è pari, si hanno le due posizioni centrali:
N
=3
2
N
+ 1 = 4.
2
A questo punto la mediana è data da:
x(3) + x(4)
31, 4 + 33, 6
=
= 32, 5.
2
2
Il valore assunto dalla mediana ci dice che nel 50% dei casi circa, il tempo necessario
per l’esecuzione di una procedura è inferiore a 32.5 secondi. Analogamente, nel 50%
dei casi circa, il tempo necessario per l’esecuzione di una procedura è superiore a 32.5
secondi.
Passiamo ora al calcolo del primo quartile.
Q1 = x(1, N+1 ) = x(1,75)
4
= x(1) + 0, 75(x(2) − x(1) )
= 30, 2 + 0, 75(30, 6 − 30, 2) = 30, 5
Il valore assunto dal primo quartile ci dice che nel 25% dei casi circa, il tempo
necessario per l’esecuzione di una procedura è inferiore a 30.5 secondi. Dunque nel
75% dei casi il tempo di esecuzione è superiore a 30.5 secondi.
2. In un asilo nido si è verificata un’epidemia di influenza. La distribuzione del carattere
giorni effettivi di assenza dall’asilo per la malattia sui 20 bambini colpiti dall’infezione
è riportata nella tabella sottostante dove il carattere è stato raggruppato in classi.
Numero giorni 1 ⊢⊣ 3
Frequenza
4
4 ⊢⊣ 5
6
6 ⊢⊣ 8
10
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
3
Calcolare la moda della distribuzione.
Svolgimento
Nel caso di distribuzioni con dati raggruppati in classi la determinazione della moda
si riduce all’individuazione della classe modale la quale si ha in corrispondenza della
frequenza specifica più elevata. E’ dunque necessario calcolare le frequenze specifiche:
Numero giorni Frequenza ampiezza classe frequenza specifica
1 ⊢⊣ 3
4
3
1, 33
4 ⊢⊣ 5
6
2
3
6 ⊢⊣ 8
10
3
3, 33
Dal confronto delle frequenze specifiche si conclude che la classe modale è 6 ⊢⊣ 8.
3. La seguente tabella riporta la distribuzione del carattere X numero di stanze di 120
abitazioni della provincia di Belluno.
numero di stanze
ni
1 2 3 4
5 22 32 35
5 6 7
16 7 2
8
1
Calcolare moda e mediana della distribuzione. Commentare i risultati ottenuti.
Quante sono le abitazioni con al più due camere? Che percentuale rappresentano?
Quante sono le abitazione con almeno tre camere? Che percentuale rappresentano?
Calcolare i quartili, il secondo e il settimo decile e il 59-mo centile della distribuzione.
Commentare i risultati ottenuti.
Svolgimento
Riportiamo di seguito alcune calcoli che ci saranno utili nello svolgimento dell’esecizio.
Numero di stanze ni
1
5
2
22
3
32
4
35
5
16
6
7
7
2
8
1
tot
120
ni
N
0, 0416
0, 1833
0, 2666
0, 2916
0, 1333
0, 0583
0, 0166
0, 0083
1
Freq. Cumulate Freq. Retrocum.
5
120
27
115
59
93
94
61
110
26
117
10
119
3
120
1
−
−
Dalla tabella sopra riportata appare chiaro che la moda si ha in corrispondenza
di X = 4. Si osservi che la moda ha una frequenza relativa pari a 0, 2916. Di
conseguenza essa non può ritenersi una buona sintesi in quanto rappresenta solo il
29% circa delle abitazioni.
Per quanto riguarda il calcolo della mediana, osserviamo che N è pari e di conseguenza
abbiamo due posizioni centrali:
N
= 60
2
N
+ 1 = 61.
2
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
4
Osservando le frequenze cumulate, si possono individuare le osservazioni che occupano
le posizioni centrali. Sulla base di queste osservazioni la mediana risulta essere:
x(60) + x(61)
4+4
=
= 4.
2
2
La mediana bi-ripartisce l’insieme delle abitazioni in due gruppi: il primo composto
da abitazioni che hanno un numero di stanze minore o uguale a 4, il secondo composto
da abitazioni che hanno un numero di stanze maggiore o uguale 4. Nel dettaglio, il
avalore assunto dalla mediana ci dice che:
• circa il 50% delle abitazioni considerate ha un numero di stanze al più pari a 4;
• circa il 50% delle abitazioni considerate ha un numero di stanze almeno pari a
4.
Il numero di abitazioni con al più due camere ci viene fornito dalla seconda frequenza
cumulata che è pari a 27. Esse rappresentano una quota delle abitazioni pari a
27
= 0, 225
120
che coincide con il 22, 5% delle abitazioni. Il numero di abitazioni con almeno tre
camere ci viene fornito dalla terza frequenza retrocumulata che è pari a 93. Esse
rappresentano una quota delle abitazioni pari a
93
= 0, 775
120
che coincide con il 77, 5% delle abitazioni.
Passiamo al calcolo dei quartili.
Q1 = x( 120+1 ) = x(30,25)
4
= x(30) + 0, 25[x(31) − x(30) ]
= 3 + 0, 25[3 − 3] = 3
Q2 = Me = x( 120+1 ) = x(60,5)
2
= x(60) + 0, 5[x(61) − x(60) ]
= 4 + 0, 5[4 − 4] = 4
Q3 = x(3· 120+1 ) = x(90,75)
4
= x(90) + 0, 75[x(91) − x(90) ]
= 4 + 0, 75[4 − 4] = 4
Il valore assunto da Q1 ci informa che circa il 25% delle abitazioni considerate ha un
numero di stanze al più pari a 3 e dunque circa il 75% delle abitazioni ha un numero
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
5
di stanze almeno pari a 3. Il valore assunto da Q2 ci informa che circa il 50% delle
abitazioni considerate ha un numero di stanze al più pari a 4 e dunque circa il 75%
delle abitazini considerate ha un numero di stanze almeno pari a 4. Tale informazione
è la medesima che ci viene fornita dalla mediana. Il valore assunto da Q3 ci informa
che circa il 75% delle abitazioni considerate ha un numero di stanze al più pari a 4 e
dunque circa il 25% delle abitazioni ha un numero di stanze almeno pari a 4.
Il secondo ed il settimo decile della distribuzione sono dati da:
D2 = x( 120+1 ) = x(24,2)
5
= x(24) + 0, 2[x(25) − x(24) ]
= 2 + 0, 2[2 − 2] = 2
D7 = x(7· 120+1 ) = x(84,7)
10
= x(84) + 0, 7[x(85) − x(84) ]
= 4 + 0, 7[4 − 4] = 4
Il valore assunto da D2 ci informa che circa il 10% delle abitazioni considerate ha un
numero di stanze al più pari a 2 e dunque circa il 90% delle abitazioni ha un numero
di stanze almeno pari a 2. Il valore assunto da D7 ci informa che circa il 70% delle
abitazioni considerate ha un numero di stanze al più pari a 4 e dunque circa il 30%
delle abitazioni ha un numero di stanze almeno pari a 4.
Il cinquantanovesimo centile della distribuzione è dato da:
C59 = x(59· 120+1 ) = x(71,39)
100
= x(71) + 0, 39[x(72) − x(71) ]
= 4 + 0, 39[4 − 4] = 4
Il valore assunto da C59 ci informa che circa il 59% delle abitazioni considerate ha un
numero di stanze al più pari a 4 e dunque circa il 41% delle abitazioni ha un numero
di stanze pari almeno pari a 4.
4. La seguente tabella riporta la distribuzione del carattere X fatturato (in miliardi di
lire) di 1240 calzaturifici italiani nell’anno 1996.
classi di fatturato fino a 0, 5 0, 5 ⊣ 1
ni
340
368
1⊣5
480
5 ⊣ 10 oltre 10
37
15
Calcolare moda e mediana della distribuzione. Commentare i risultati ottenuti.
Quanti calzaturifici hanno avuto un fatturato minore o uguale a un miliardo? Che
percentuale ha avuto un fatturato di almeno un miliardo? Quanti calzaturifici hanno
avuto un fatturato compreso tra 3 e 6,5 miliardi?
Calcolare i quartili, i primi cinque decili e i primi 3 centili della distribuzione.
Commentare i risultati ottenuti.
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
6
Svolgimento
Osserviano innanzi tutto che la distribuzione di frequenze in considerazione riguarda
un carattere quantitativo continuo con modalità raggruppate in classi.
Riportiamo di seguito alcuni calcoli che ci saranno utili nello svolgimento dell’esercizio.
Fatturato
fino a 0, 5
0, 5 ⊣ 1
1⊣5
5 ⊣ 10
oltre 10
ni
ni
Fr. Cum.
N
340 0,2741
340
368 0,2967
708
480 0,387
1188
37 0,029
1225
15 0,012
1240
Fr. Retrocum. Ampiezza Fr. Spec.
1240
0,5
680
900
0,5
736
532
4
120
52
5
7,4
15
10
1,5
Dalla tabella sopra riportata si osserva che la classe di fatturato in corrispondenza
della quale si ha la frequenza specifica più alta è 0, 5 ⊣ 1. Tale classe di fatturato
coincide con la classe modale.
Per quanto riguarda il calcolo della mediana, osserviamo che N = 1240 è un numero
pari e di conseguenza abbiamo due posizioni centrali
N
= 620
2
N
+ 1 = 621
2
le quali, come evidenziano le frequenze cumulate, cadono entrambe nella classe 0, 5 ⊣
1. Dato che il carattere quantitativo fatturato è continuo con modalità raggruppate
in classi, la mediana viene calcolata nel modo seguente1 :
N
aj
−
Me = lj +
− Cj−1
2
nj
0, 5
= 0, 88
= 0, 5 + [620 − 340]
368
Il valore assunto dalla mediana ci informa che circa il 50% dei calzaturifici ha un
fatturato minore o uguale a 0, 88 miliardi di lire. Di conseguenza, il rimanente 50%
circa ha un fatturato maggiore o uguale a 0.88 miliardi di lire.
Il numero di calzaturifici che hanno avuto un fatturato minore o uguale ad un miliardo
di lire ci viene fornito dalla seconda frequenza cumulata che è pari a 708.
Il numero di calzaturifici cha hanno avuto un fatturato di almeno un miliardo di lire
ci viene fornito dalla terza frequenza retrocumulata che è pari a 532. Possiamo quindi
concludere che la percentuale di calzaturifici che hanno avuto almeno un miliardo di
fatturato è pari a
532
· 100 = 42.8%.
1240
I calzaturifici che hanno avuto un fatturato compreso tra 3 e 6, 5 miliardi sono dati
da:
(5 − 3)120 + (6, 5 − 5)7, 4 = 251, 1
1
Zenga M. ; Lezioni di statistica descrittiva; pagina 99.
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
7
Tale risultato si basa sull’ipotesi che, all’interno di ogni classe di reddito, le frequenze
si distribuiscano in modo uniforme. Graficamente, il numero di cazaturifici che hanno
avuto un fatturato compreso tra 3 e 6, 5 miliardi coincide con l’area evidenziata nel
grafico:
fs
736
680
120
7.4
3
0
1
3
5 6.5
10
15
fatturato
Fig. 1: Grafico delle frequenze specifiche del carattere “Fatturato”.
Per quanto riguarda il calcolo dei quartili, determiniamo innanzi tutto le loro posizioni:
1241
1241
P os(Q1 ) =
= 310, 25
P os(Q2 ) = 2 ·
= 620, 5
4
4
1241
P os(Q3 ) = 3 ·
= 930, 75.
4
In base alle frequenze cumulate, le classi del primo, secondo e terzo quartile risultano
essere rispettivamente: fino a 0, 5; 0, 5 ⊣ 1; 1 ⊣ 5.
Nel caso della prima classe, sembra opportuno fissare a 0 il suo estremo inferiore. I
quartili risultano dunque essere:
Q1 = 0 + [310, 25 − 0 − 0, 5] ·
0, 5
= 0, 46
340
Q2 = Me = 0, 88
4
= 2, 852
480
Il valore assunto da Q1 ci informa che all’incirca il 25% dei calzaturifici ha avuto nel
1996 un fatturato minore o uguale a 0, 46 miliardi di lire. Il rimanente 75% circa
ha avuto un fatturato maggiore o uguale a 0, 46 miliardi di lire. Q2 coincide con la
mediana ed ha dunque il suo stesso significato. Il valore assunto da Q3 ci informa
che il 75% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 2, 852
miliardi di lire. Il rimanente 25% circa ha avuto un fatturato maggiore o uguale a
2, 852 miliardi di lire.
Q3 = 1 + [930, 75 − 708 − 0, 5] ·
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
8
Per quanto rigiarda il calcolo dei primi cinque decili, determiniamo innanzi tutto le
loro posizioni:
P os(D1 ) =
1241
= 124, 1
10
P os(D3) = 3 ·
1241
= 372, 3
10
P os(D2) = 2 ·
1241
= 248, 2
10
P os(D4 ) = 4 ·
1241
= 496, 4
10
1241
= 620, 5
10
Osservando le frequenze cumulate, le classi associate a tali posizioni sono rispettivamente: fino a 0, 5; fino a 0, 5; 0, 5 ⊣ 1; 0, 5 ⊣ 1; 0, 5 ⊣ 1. Utilizzando 0 come estremo
inferiore della prima classe, i primi cinque decili risultano essere:
P os(D5 ) = 5 ·
D1 = 0 + [124, 1 − 0 − 0, 5]
0.5
= 0, 182
340
0.5
= 0, 36
340
0.5
D3 = 0, 5 + [372, 3 − 340 − 0, 5]
= 0, 543
368
0.5
D1 = 0, 5 + [496, 4 − 340 − 0, 5]
= 0, 712
368
D1 = Me = 0, 88
D2 = 0 + [248, 2 − 0 − 0, 5]
Il valore assunto da D1 ci informa che il 10% dei calzaturifici ha avuto nel 1996 un
fatturato minore o uguale a 0, 182 miliardi di lire. Il restante 90% circa ha avuto
un fatturato maggiore o uguale a 0, 182 miliardi di lire. Il valore assunto da D2 ci
informa che il 20% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a
0, 36 miliardi di lire. Il restante 80% circa ha avuto un fatturato maggiore o uguale
a 0, 36 miliardi di lire. Il valore assunto da D3 ci informa che il 30% dei calzaturifici
ha avuto nel 1996 un fatturato minore o uguale a 0, 543 miliardi di lire. Il restante
70% circa ha avuto un fatturato maggiore o uguale a 0, 543 miliardi di lire. Il valore
assunto da D4 ci informa che il 40% dei calzaturifici ha avuto nel 1996 un fatturato
minore o uguale a 0, 712 miliardi di lire. Il restante 90% circa ha avuto un fatturato
maggiore o uguale a 0, 712 miliardi di lire. D5 coincide con la mediana ed ha dunque
il suo stesso significato.
Per quanto riguarda il calcolo dei primi tre centili, determiniamo innanzitutto le loro
posizioni:
P os(C1 ) =
1241
= 12, 41
100
P os(C3) = 3 ·
P os(C2) = 2 ·
1241
= 37, 23
100
1241
= 24, 82
100
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
9
Osservando le frequenze cumulate, la classe associata a tali posizioni è: fino a 0, 5.
Utilizzando 0 come estremo inferiore della prima classe, i primi tre centili risultano
essere:
0.5
C1 = 0 + [12, 41 − 0 − 0, 5]
= 0, 0175
340
0.5
C2 = 0 + [24, 82 − 0 − 0, 5]
= 0, 0358
340
0.5
C3 = 0, 5 + [37, 23 − 0 − 0, 5]
= 0, 0540
340
Il valore assunto da C1 ci informa che l’1% dei calzaturifici ha avuto nel 1996 un
fatturato minore o uguale a 0, 0175 miliardi di lire. Il rimanente 99% circa ha avuto
un fatturato maggiore o uguale a 0, 0175. Il valore assunto da C2 ci informa che il
2% dei calzaturifici ha avuto nel 1996 un fatturato minore o uguale a 0, 0358 miliardi
di lire. Il rimanente 98% circa ha avuto un fatturato maggiore o uguale a 0, 0358.
Il valore assunto da C3 ci informa che il 3% dei calzaturifici ha avuto nel 1996 un
fatturato minore o uguale a 0, 0540 miliardi di lire. Il rimanente 97% circa ha avuto
un fatturato maggiore o uguale a 0, 0540.
5. Gli esercizi alberghieri della provincia di Belluno sono stati classificati in base al
numero di camere per esercizio. I risultati dell’indagine sono riportati nella seguente
tabella:
numero di camere
numero esercizi
fino a 5
20
6 ⊢⊣ 9
20
10 ⊢⊣ 13
20
14 ⊢⊣ 17
24
18 ⊢⊣ 22
25
23 ⊢⊣ 30
16
totale
125
Calcolare la moda della distribuzione e commentare.
Svolgimento
La tabella fornita dal testo dell’esercizio riporta la distribuzione di frequenze di un
carattere quantitativo discreto con dati raggruppati in classi. In tal caso il calcolo
della moda si riduce all’individuazione della classe modale che si identifica in quella
con frequenza specifica maggiore. Nel caso della prima classe, sembra opportuno
fissare ad 1 il suo estremo inferiore. Alla luce di ciò calcoliamo le frequenze specifiche.
numero di camere
numero esercizi
ampiezza classe
freq. specifiche
fino a 5
20
5
4
6 ⊢⊣ 9
20
4
5
10 ⊢⊣ 13
20
4
5
14 ⊢⊣ 17
24
4
6
18 ⊢⊣ 22
25
5
5
23 ⊢⊣ 30
16
8
2
totale
125
La classe modale risulta quindi essere: 14 ⊢⊣ 17.
6. La seguente tabella riporta le distribuzioni degli impiegati civili dello stato secondo
la qualifica funzionale:
Qualifica
ni
II
III
IV
V
VI
VII
VIII Totale
58038 308249 287707 71974 52232 28081 12259 818540
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
10
Calcolare i quartili, i decili, il 96-esimo centile della distribuzione. Commentare i
risultati.
Svolgimento
La distribuzione di frequenze in considerazione riguarda un carattere qualitativo rilevato su scala ordinale. Al fine di calcolare i percentili richiesti dal testo dell’esercizio,
ricaviamo le frequenze cumulate.
Qualifica
II
III
IV
V
VI
VII
VIII
ni
Freq. Cumulate
58038
58038
308249
366287
287707
653994
71974
725968
52232
778200
28081
806281
12259
818540
Le posizioni dei quartili sono date da:
N +1
P os(Q1 ) =
= 204635, 25
4
N +1
= 409270, 5
P os(Q2) = 2 ·
4
N +1
= 613905, 75
P os(Q1 ) = 3 ·
4
Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che:
Q1 = III;
Q2 = Me = IV ;
Q3 = IV.
Tali valori ci dicono che:
• All’incirca il 25% degli impiegati civili dello stato ha una qualifica al più pari a
III. Pertanto il rimanente 75% circa ha una qualifica almeno pari a III.
• All’incirca il 50% degli impiegati civili dello stato ha una qualifica al più pari a
IV . Pertanto il rimanente 50% circa ha una qualifica almeno pari a IV .
• All’incirca il 75% degli impiegati civili dello stato ha una qualifica al più pari a
IV . Pertanto il rimanente 25% circa ha una qualifica almeno pari a IV .
Le posizioni dei decili sono date da:
N +1
P os(D1 ) =
= 81854
10
N +1
P os(D3) = 3 ·
= 245562
10
N +1
P os(D2 ) = 2 ·
= 163708
10
N +1
P os(D4 ) = 4 ·
= 327416
10
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
11
P os(D5) = 5 · 81854 = 409270
P os(D6 ) = 6 · 81854 = 491124
P os(D7) = 7 · 81854 = 572978
P os(D8 ) = 8 · 81854 = 654832
P os(D9 ) = 9 · 81854 = 736686
Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che:
D1 = III
D2 = III
D6 = IV
D3 = III
D7 = IV
D4 = III
D8 = V
D5 = Me = IV
D9 = V I
Tali valori ci dicono che:
• All’incirca il 10% degli impiegati civili dello stato ha una qualifica al più pari a
III. Il rimanente 90% circa ha una qualifica almeno pari a III.
• All’incirca il 20% degli impiegati civili dello stato ha una qualifica al più pari a
III. Il rimanente 80% circa ha una qualifica almeno pari a III.
• All’incirca il 30% degli impiegati civili dello stato ha una qualifica al più pari a
III. Il rimanente 70% circa ha una qualifica almeno pari a III.
• All’incirca il 40% degli impiegati civili dello stato ha una qualifica al più pari a
III. Il rimanente 60% circa ha una qualifica almeno pari a III.
• All’incirca il 50% degli impiegati civili dello stato ha una qualifica al più pari a
IV . Il rimanente 50% circa ha una qualifica almeno pari a IV .
• All’incirca il 60% degli impiegati civili dello stato ha una qualifica al più pari a
IV . Il rimanente 40% circa ha una qualifica almeno pari a IV .
• All’incirca il 70% degli impiegati civili dello stato ha una qualifica al più pari a
IV . Il rimanente 30% circa ha una qualifica almeno pari a IV .
• All’incirca il 80% degli impiegati civili dello stato ha una qualifica al più pari a
V . Il rimanente 20% circa ha una qualifica almeno pari a V .
• All’incirca il 90% degli impiegati civili dello stato ha una qualifica al più pari a
V I. Il rimanente 10% circa ha una qualifica almeno pari a V I.
La posizione del 96◦ percentile è data da:
P os(C96 ) = 96 ·
N +1
= 96 · 8185, 4 = 785798, 4
100
In base alle frequenze cumulate abbiamo che C96 = V II. Questo risultato ci dice che
circa il 96% degli impiegati civili dello stato ha una qualifica al più pari a V II. Il
rimanente 4% circa ha una qualifica almeno pari a V II.
7. La seguente tabella riporta la distribuzione del carattere X numero di stanze di 129
abitazioni di un quartiere milanese.
Numero di stanze
ni
1 2 3 4
10 35 40 21
5 6 7
10 6 4
8 9
2 1
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
12
Calcolare la moda, i quartili, il primo e il nono decile, il 73-esimo centile della
distribuzione. Commentare i risultati ottenuti.
Svolgimento
La distribuzione in considerazione riguarda un carattere quantitativo discreto rilevato
su scala di rapporti. Al fine del calcolo dei percentili richiesti dall’esercizio, calcoliamo
le frequenze cumulate.
Numero di stanze
1
2
3
4
5
6
7
8
9
tot
ni Freq. Cumulate
10
10
35
45
40
85
21
106
10
116
6
122
4
126
2
128
1
129
129
–
Dato che N = 129 è dispari, la posizione mediana è data da:
P os(Me) =
129 + 1
= 65.
2
Basandoci sulle frequenze cumulate calcolate in precedenza possiamo concludere che
Me = 3. Tale valore ci dice che circa il 50% delle abitazioni del quartiere milanese
in considerazione, hanno un numero di stanze minore o uguale a 3. Analogamente,
il valore della mediana ci dice che circa il 50% delle abitazioni del quartire milanese
in considerazione, hanno un numero di stanze maggiore o uguale a 3.
Le posizioni dei quartili sono date da:
N +1
P os(Q1 ) =
= 32, 5
4
N +1
P os(Q2 ) = 2 ·
= 65
4
N +1
P os(Q3 ) = 3 ·
= 97, 5
4
Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che:
Q1 = 2;
Q2 = Me = 3;
Q3 = 4.
Tali valori ci dicono che:
• All’incirca il 25% delle abitazioni del quartiere milanese in considerazione ha un
numero di stanze minore o uguale a 2. Il restante 75% circa ha un numero di
stanze maggiore o uguale a 2.
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
13
• All’incirca il 50% delle abitazioni del quartiere milanese in considerazione ha un
numero di stanze minore o uguale a 3. Il restante 50% circa ha un numero di
stanze maggiore o uguale a 3.
• All’incirca il 75% delle abitazioni del quartiere milanese in considerazione ha un
numero di stanze minore o uguale a 4. Il restante 25% circa ha un numero di
stanze maggiore o uguale a 4.
Le posizioni del primo e nono decile sono date da:
P os(D1 ) =
N +1
= 13
10
P os(D9 ) = 9 ·
N +1
= 117
10
Sulla base delle frequenze cumulate calcolate in precedenza possiamo concludere che
D1 = 2 e D9 = 6. Tali risultati ci dicono che:
• All’incirca il 10% delle abitazioni del quartiere milanese in considerazione ha un
numero di stanze minore o uguale a 2. Il restante 90% circa ha un numero di
stanze maggiore o uguale a 2.
• All’incirca il 90% delle abitazioni del quartiere milanese in considerazione ha un
numero di stanze minore o uguale a 6. Il restante 10% circa ha un numero di
stanze maggiore o uguale a 6.
La posizione del 73-esimo centile è data da:
P os(C73 ) = 73 ·
N +1
= 73 · 1, 3 = 94, 9
100
Sulla base delle frequenze cumulate abbiamo che C73 = 4. Tale valore ci dice che
circa il 73% delle abitazioni del quartiere milanese in considerazione ha un numero di
stanze minore o uguale a 4. Il restante 27% circa ha un numero di stanze maggiore
o uguale a 4.
8. La seguente tabella riporta il numero di incidenti stradali subiti dai possessori di
patente di un comune negli anni 1983 e 1984.
Numero incidenti
Frequenze
fino a 2
380
3⊢⊣4
305
5⊢⊣8
285
9⊢⊣11
84
12⊢⊣16
67
17⊢⊣19
24
20⊢⊣24
5
totale
1150
Calcolare la moda e commentare.
Svolgimento
La tabella fornita dal testo dell’esercizio riporta la distribuzione di frequenze di un
carattere quantitativo discreto con dati raggruppati in classi. In tal caso il calcolo
della moda si riduce all’individuazione della classe modale che si identifica in quella
con frequenza specifica maggiore. Calcoliamo dunque le frequenze specifiche dopo
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
14
aver evidentemente fissato in 0 l’estremo inferiore della prima classe.
Num. Incidenti
fino a 2
3⊢⊣4
5⊢⊣8
9⊢⊣11
12⊢⊣16
17⊢⊣19
20⊢⊣24
ni Ampiezza
380
3
305
2
285
4
84
3
67
5
24
3
5
5
Freq. Specifiche
126,67
152,5
71,25
28
13,4
8
1
La Classe modale risulta quindi essere 3⊢⊣4. Si può quindi affermare che il numero
di incidenti che, più comunemente, subiscono i possessori di patente nel comune in
considerazione è pari a 3 o a 4. Si osservi che la classe modale rappresenta solo il
26, 5% circa dell’intera popolazione ed è di conseguenza scarsamente rappresentativa
della stessa.
9. I dati nella tabella riportano la distribuzione di frequenza delle entrate provenienti
dai redditi soggetti ad imposta di una certa categoria di lavoratori del Canada (dati
espressi in migliaia di dollari $):
entrate
frequenze
0⊣2
250
2⊣4
1589
4⊣6
1768
6⊣8
1473
8⊣10
1172
10⊣15
1298
15⊣20
306
20⊣50
200
50⊣100
21
100⊣200
3
totale
8080
Calcolare:
i) la percentuale di entrate minori di 5000$;
ii) la percentuale delle entrate maggiori di 12000$;
iii) i quartili;
iv) l’entrata di reddito che è superata solo dal 10% delle entrate.
Svolgimento
Al fine dello svolgimento dell’esercizio saranno utili i risultati riportati nella seguente
tabella.
Entrate Frequenze
0⊣2
250
2⊣4
1589
4⊣6
1768
6⊣8
1473
8⊣10
1172
10⊣15
1298
15⊣20
306
20⊣50
200
50⊣100
21
100⊣200
3
totale
8080
Freq. Cumulate
250
1839
3607
5080
6252
7550
7856
8056
8077
8080
–
Freq. Retrocum. Freq. Spec.
8080
125
7830
794.5
6241
884
4473
736.5
3000
586
1828
259.6
530
61.2
224
6.6̄
24
0.42
3
0.03
–
i) Il numero di entrate minori di 5000$ è dato dalla somma delle:
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
15
• entrate minori o uguali a 4000$;
• entrate maggiori di 4000$ e minori o di 5000$.
Il valore del primo addendo ci viene fornito dalla seconda frequenza cumulata: 1839.
Il valore del secondo addendo viene individuato ipotizzando che le frequenze si distribuiscano uniformemente all’interno di ogni classe. Con questa ipotesi la frequenza
x associata alla sottoclasse 4-5 è sostanzialmente ottenuta ricorrendo alla frequenza
specifica della classe 4⊣6. La frequenza specifica associata alla classe 4⊣6 è pari a
884 e ci indica la fequenza che corrisponde ad ogni intervallo unitario della classe 4⊣6
(e dunque anche all’intervallo 4-5). Il numero di entrate maggiori di 4000 e minori o
di 5000 è dunque pari a 884 e di conseguenza il numero di entrate minori di 5000 è
2723. La percentuale di entrate minori di 5000$ è quindi pari a
2723
· 100 = 33, 7%.
8080
ii) il numero di entrate maggiori di 12000$ è dato dalla somma delle:
• entrate maggiori di 15000$;
• entrate maggiori di 12000$ e minori o uguali a 15000$.
Il valore del primo addendo ci viene fornito dalla settima frequenza retrocumulata:
530. Il valore del secondo addendo viene individuato ipotizzando che le frequenze
si distribuiscano uniformemente all’interno di ogni classe. Con questa ipotesi la frequenza x associata alla sottoclasse 12⊣15 è sostanzialmente ottenuta ricorrendo alla
frequenza specifica della classe 10⊣15. tale frequenza specifica è data da 259, 6 così
che la frequenza associata alla sottoclasse (di ampiezza 3) è data da:
3 · 259, 6 = 778, 8.
Il numero di entrate maggiori di 12000$ è quindi pari a 530 + 778, 8 = 1308, 8. La
percentuale di entrate maggiori a 12000$ è pari a
1308, 8
· 100 = 16, 2%.
8080
iii) Le posizioni delle tre entrate quartili sono date da:
P os(Q1 ) =
8081
= 2020, 25
4
8081
= 4040, 50
4
8081
P os(Q3 ) = 3 ·
= 6060, 75
4
Osservando le frequenze cumulate si può dunque stabilire che:
P os(Q2 ) = 2 ·
Q1 = x(2020,25) = 4 + (2020, 25 − 1839 − 0, 5) ·
2
= 4, 2045.
1768
1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI
16
2
= 6, 5879.
1473
2
= 8 + (6060, 75 − 5080 − 0, 5) ·
= 9, 6728.
1172
Q2 = x(4040,5) = 6 + (4040, 5 − 3607 − 0, 5) ·
Q3 = x(6060,75)
iv) L’entrata del reddito che è superata solo dal 10% delle entrate coincide con D9 .
La posizione del nono decile è data da:
P os(D9 ) = 9 ·
8081
= 7272, 9.
10
D9 = x(7272,9) = 10 + (7272, 9 − 6252 − 0, 5)
5
= 13, 9366.
1298
STATISTICA: esercizi svolti sulla
MEDIA ARITMETICA
1
1 MEDIA ARITMETICA
1
2
MEDIA ARITMETICA
1. La seguente tabella riporta il numero di persone divise per sesso che si sono presentate
durante l’anno 1997 presso un laboratorio d’analisi mediche per rilevare il livello di
colesterolemia nel sangue.
maschi
femmine
Gen
180
150
Feb
168
146
Mar
160
150
Apr Mag
160 158
149 143
Giu Lug
120 80
104 40
Ago
23
21
Set
132
122
Ott Nov Dic
102 156 96
104 147 98
Si calcoli la media mensile dei pazienti maschi e dei pazienti femmine che si sono
presentati al laboratorio.
Svolgimento
Il numero totale di pazienti maschi presentatisi nel 1997 per la rilevazione del livello
di colesterolemia è dato da:
180 + 168 + 160 + 158 + 120 + 80 + 23 + 132 + 102 + 156 + 96 = 1535.
La media mensile del numero di maschi presentatisi al laboratorio per l’esame in
questione è quindi data da:
1535
= 127.92
12
In media, nell’anno 1997, si sono presentati al laboratorio, per la rilevazione del livello
di colesterolemia, 127.92 pazienti maschi ogni mese. Più precisamente 127.92 indica
il numero ipotetico di pazienti maschi che si sarebbero presentati al laboratorio in
un mese, nell’ipotesi in cui il numero di pazienti maschi fosse stato uguale per tutti
i mesi.
Il numero totale di pazienti di sesso femminile presentatisi nel 1997 per la rilevazione
del livello di colesterolemia è dato da:
M1 (maschi) =
150 + 146 + 150 + 149 + 143 + 104 + 40 + 21 + 122 + 104 + 147 + 98 = 1374.
La media mensile del numero di femmine presentatisi al laboratorio per l’esame in
questione è quindi data da:
1374
= 114.5
12
In media, nell’anno 1997, si sono presentati al laboratorio, per la rilevazione del livello
di colesterolemia, 114.5 pazienti femmine ogni mese. Più precisamente 114.5 indica
il numero ipotetico di pazienti di sesso femminile che si sarebbero presentati al laboratorio in un mese, nell’ipotesi in cui il numero di pazienti di sesso femminile fosse
stato uguale per tutti i mesi.
Dal confronto tra le due medie osserviamo che, relativamente alla rilevazione del livello di colesterolemia, nel 1997, mediamente presso il laboratorio d’analisi si sono
presentati ogni mese più maschi che femmine.
M1 (f emmine) =
1 MEDIA ARITMETICA
3
2. Le temperature della neve in gradi Celsius di una nota località sciistica nel mese di
gennaio sono state le seguenti:
tj
gj
-4
6
-3
5
-2
8
-1
6
0
4
1
2
dove tj è la temperatura rilevata in gradi Celsius e gj è il numero di giorni in cui
si è registrata la temperatura tj . Si calcoli la temperatura media: in gradi Celsius, in gradi assoluti dove Tass = 273.15 + TCelsius e in gradi Fahrenheit, dove
TF ahr = 32 + 1.8 TCelsius .
Svolgimento
La seguente tabella riporta alcuni conti che ci saranno utili per lo svolgimento dell’esercizio.
tj gj tj · gj
-4 6
-24
-3 5
-15
-2 8
-16
-1 6
-6
0
4
0
1
2
2
tot 31
-59
La temperatura media in gradi Celsius è data da:
P6
M1 (TCelsius ) =
j=1 tj
P6
j=1
=
· gj
gj
−59
= −1.903
31
Nel periodo di osservazione, la temperatura media della neve nella nota località sciistica è stata pari −1.903 C ◦ . Più precisamente, −1.903 C ◦ indica la temperatura che
si sarebbe dovuta osservare nell’intero mese di gennaio nel caso in cui si fosse avuta
la stessa temperatura in ogni giorno.
Si osservi che le relazioni che ci permettono di passare dalle temperature in gradi
Celsius a quelle in gradi Fahrenheit e assoluti, sono lineari. In forza della proprietà
di linearità della media aritmetica1 le medie ricercate risultano:
M1 (TF ahrenheit ) = 32 + 1.8 · M1 (TCelsius )
= 32 + 1.8 · (−1.903) = 28.574
Nel periodo di osservazione, la temperatura media della neve nella nota località sciistica è stata pari a 28.574 gradi Fahrenheit. Più precisamente, 28.574 indica la
temperatura in gradi Fahrenheit che si sarebbe dovuta osservare nell’intero mese di
1
Zenga M., Lezioni di statistica descrittiva, pag. 122 (Quarta proprietà di M1 ).
1 MEDIA ARITMETICA
4
gennaio nel caso in cui si fosse avuta la stessa temperatura in ogni giorno.
M1 (Tassoluti ) = 273.15 + M1 (TCelsius )
= 273.15 + (−1.903) = 271.247
Nel periodo di osservazione, la temperatura media della neve nella nota località sciistica è stata pari a 271.247 gradi assoluti. Più precisamente, 271.247 indica la temperatura in gradi assoluti che si sarebbe dovuta osservare nell’intero mese di gennaio
nel caso in cui si fosse avuta la stessa temperatura in ogni giorno.
3. La distribuzione del reddito annuo in euro dei 1000 abitanti di un comune è la
seguente:
classi di reddito redditieri
1000 ` 5000
100
5000 ` 15000
400
15000 ` 35000
300
35000 ` 75000
200
Si calcoli il reddito medio degli abitanti del comune.
Svolgimento
Si tratta di calcolare la media aritmetica per una distribuzione di frequenza con dati
raggruppati in classi. In questo caso la media aritmetica viene calcolata ipotizzando
che la frequenza di ogni classe si concentri nel valore centrale della classe stessa.
classi di reddito
1000 ` 5000
5000 ` 15000
15000 ` 35000
35000 ` 75000
tot
redditieri (nj )
100
400
300
200
1000
Val. Centrale (xj )
3000
10000
25000
55000
–
nj · xj
300000
4000000
7500000
11000000
22800000
Il reddito medio è dato da:
4
M1 =
1 X
xj · nj
1000 j=1
22800000
= 22800
1000
Gli abitanti del comune in considerazione percepiscono in media un reddito annuo
pari a 22800. Più precisamente, 22800 indica il reddito che spetterebbe a ciscuno dei
residenti nel comune in considerazione nell’ipotesi in cui il reddito totale di tutti i
residenti nel comune fosse ripartito in parti uguali, ossia nell’ipotesi in cui ciascun
residente avesse lo stesso reddito.
=
1 MEDIA ARITMETICA
5
4. Le 500 imprese di un settore sono state classificate in base al numero di addetti come
segue:
classi di addetti
1`a9
n. aziende
25
n. addetti per classe 175
10`a19
56
890
20`a49
189
7175
50`a199
168
20328
200`a499
51
11357
≥ 500
11
7514
Calcolare il numero medio di addetti del settore, sia ricorrendo all’informazione fornita dalla terza riga della tabella, sia non ricorrendovi.
Svolgimento
Supponiamo dapprima di essere in possesso dell’informazione fornita dalla terza riga
della tabella. In tal caso possiamo risalire al numero complessivo di addetti all’interno
del settore industriale allo studio:
175 + 890 + 7175 + 20328 + 11357 + 7514 = 47439.
Alla luce di ciò, il numero medio di addetti per azienda impegnata nel settore risulta
pari a:
47439
= 94.878 .
M1 =
500
M1 = 94.878 indica il numero di addetti che sarebbero impiegati in ciascuna azienda
nell’ipotesi in cui il numero totale di addetti venisse ripartito in parti uguali tra tutte
le aziende del settore in considerazione, ossia nell’ipotesi in cui ciascuna azienda abbia
lo stesso numero di addetti.
In alternativa, saremmo potuti giungere al medesimo risultato calcolando in primo
luogo le medie del numero di addetti nelle aziende appartenenti a ciascuna delle
classi considerate ed in secondo luogo sfruttando la proprietà associativa 2 della media
aritmetica. A tal fine costruiamo la seguente tabella:
classi
nj
1`a9
10`a19
20`a49
50`a199
200`a499
≥ 500
25
56
189
168
51
11
totale addetti
per classe(xj · nj )
175
890
7175
20328
11357
7514
Numero medio di
addetti per azienda (xj )
7
15.893
37.963
121
222.688
653.091
Nella tabella sopra riportata, ad esempio, M1 (1) = 7 ci indica che, in media, all’interno delle 25 aziende con un numero di addetti tra 1 e 9, si hanno 7 addetti. Più
precisamente, 7 indica il numero di addetti che sarebbero impiegati all’interno delle
aziende appartenenti alla classe 1`a9 , nell’ipotesi in cui il numero totale di addetti
relativi a questa categoria di imprese fosse ripartito in parti uguali tra le imprese
2
Zenga M., Lezioni di statistica descrittiva, pag. 120 (Terza proprietà di M1 ).
1 MEDIA ARITMETICA
6
stesse, ossia nell’ipotesi in cui tutte le aziende appartenenti alla categoria in considerazione avessero lo stesso numero di addetti. Analogamente, M1 (4) = 121 ci indica
che mediamente, le 168 aziende aventi un numero di addetti compreso tra 50 e 199,
hanno 121 addetti. Più precisamente, 121 indica il numero di addetti che sarebbero
impiegati all’interno delle aziende con un numero di addetti tra 50 e 199, nell’ipotesi
in cui il numero totale di addetti relativi a questa categoria di imprese fosse ripartito
in parti uguali tra le imprese stesse, ossia nell’ipotesi in cui tutte le aziende appartenenti alla categoria in considerazione avessero lo stesso numero di addetti.
In forza della proprietà associativa della media aritmetica abbiamo che:
M1 =
=
(7 · 25) + (15.893 · 56) + (37.963 · 189) + (121 · 168) + (222.688 · 51) + (683.091 · 11)
500
47439
= 94.878
500
che coincide con quanto ricavato in precedenza. Si osservi che le medie aritmetiche di
ogni classe, xj , possono costituire un valore rappresentativo delle classi, come avviene
per i valori centrali (utilizzati ad esempio nell’esercizio precedente e utili nei contesti
in cui non si dispone di ulteriori informazioni sulle classi).
Come sopra precisato, se si suppone di non disporre dell’informazione fornita dalla
terza riga della tabella riportata dal testo dell’esercizio, dobbiamo calcolare la media
aritmetica per una distribuzione di frequenza con dati raggruppati in classi utilizzando i valori centrali delle classi stesse. In questo caso ipotizziamo cioè che le aziende
appartenenti alla medesima classe abbiano un’ugual numero di addetti, pari al valore
centrale della classe. E’ dunque necessario calcolare tali valori centrali e a tal fine
scegliamo di chiudere l’ultima classe con il valore 1000.
classi
nj
1`a9
10`a19
20`a49
50`a199
200`a499
500`a1000
25
56
189
168
51
11
Val. centrale
di classe
5
14.5
34.5
124.5
349.5
750
A questo punto la media artmetica risulta essere data da:
(5 · 25) + (14.5 · 56) + (34.5 · 189) + (124.5 · 168) + (349.5 · 51) + (750 · 11)
500
54448
=
= 108.896
500
M1 =
Si osservi che l’ipotesi che le aziende di ogni classe abbiano un’ugual numero di addetti, pari al valore centrale della classe a cui appartengono, ci ha portato ad individuare
un numero teorico complessivo di addetti pari a 54448, tale valore non coincide con
il totale effettivo 47439. Ignorando l’informazione contenuta nella terza riga della
1 MEDIA ARITMETICA
7
tabella del testo dell’esercizio, concludiamo che, mediamente, il numero di addetti
per azienda risulta pari a 108.896. Più precisamente 108.869 indica il numero di
addetti che sarebbero impiegati in ogni azienda nell’ipotesi in cui il numero teorico
complessivo di addetti venisse ripartito in parti uguali tra tutte le 500 aziende del
settore in considerazione, ossia nell’ipotesi in cui tutte le aziende del settore in considerazione avessero lo stesso numero di addetti.
5. Le medie aritmetiche dei voti riportati agli esami di maturità (in sessantesimi) in
quattro classi di un istituto superiore sono le seguenti
sezioni
voto medio
n. studenti
A
54
30
B
46
27
C
40
20
D
52
18
Totale
95
Si determini la media aritmetica dei voti di maturità per l’intero istituto.
Svolgimento
Sfruttando la proprietà associativa delle media aritmetica, la media dei voti di maturità per l’intero istituto risulta essere:
(54 · 30) + (46 · 27) + (40 · 20) + (52 · 18)
95
4598
= 48.4
=
95
M1 =
Mediamente, il voto di maturità degli studenti dell’istituto in considerazione è pari
a 48.4 sessantesimi. Se tutti i 95 studenti avessero meritato lo stesso voto, dunque,
ciascuno avrebbe idealmente un voto pari a 48.4 sessantesimi.
6. La seguente tabella riporta la distribuzione del numero di alberghi delle due località
turistiche A e B di un comprensorio, secondo le classi di fatturato annuale X (in
milioni di Euro):
classi di fatturato
N.ro di alberghi in A (nA
j )
B
N.ro di alberghi in B (nj )
fino a 1
15
25
1`3
24
51
3`5
85
67
5`10
48
59
10`20
40
31
20`40
29
31
Si calcoli il fatturato medio degli alberghi dell’intero comprensorio. Si verifichi che
per tale media vale la proprietà associativa, relativamente alle due località A e B.
Svolgimento
Dobbiamo calcolare la media aritmetica per una distribuzione di frequenze con dati
raggruppati in classi. Al fine dello svolgimento dell’esercizio, sembra ragionevole
1 MEDIA ARITMETICA
8
chiudere la prima classe con il valore 0. Nella seguente tabella riportiamo dei calcoli
che ci saranno utili in seguito.
B
Classi
nA
nB
Val. Centr. nj = nA
xcj · nj xcj · nA
xcj · nB
j
j
j + nj
j
j
di fatturato
xcj
0`1
15 25
0.5
40
20
7.5
12.5
1`3
24 51
2
75
150
48
102
3`5
85 67
4
152
608
340
268
5`10
48 59
7.5
107
802.5
360
442.5
10`20
40 31
15
71
1065
600
465
20`40
29 31
30
60
1080
870
930
tot
241 264
–
505
4445.5 2225.5
2220
Il fatturato medio aritmetico degli alberghi dell’intero comprensorio è dato da:
M1 =
4445.5
= 8.803.
505
Il valore 8.803 indica il fatturato di ogni albergo del comprensorio nell’ipotesi in cui
il fatturato di tutti gli alberghi venga ripartito in parti uguali tra gli alberghi.
Il fatturato medio aritmetico degli alberghi della località turistica A è dato da:
M1A =
2225.5
= 9.234.
241
Il valore 9.234 indica il fatturato di ogni albergo della località A nell’ipotesi in cui il
fatturato di tutti gli alberghi della località A venga ripartito in parti uguali tra quelli
della località stessa.
Il fatturato medio artmetico degli alberghi del della località turistica B è dato da:
M1B =
2220
= 8.409.
264
Il valore 8.409 indica il fatturato di ogni albergo della località B nell’ipotesi in cui il
fatturato di tutti gli alberghi della località B venga ripartito in parti uguali tra quelli
della località stessa.
Verifichiamo ora la proprietà associativa della media aritmetica la quale ci assicura
che il fatturato medio aritmetico degli alberghi dell’intero comprensorio è calcolabile
come media aritmetica ponderata dei fattuati medi aritmetici degli alberghi delle
località A e B con pesi pari alla numerosità degli alberghi nelle due località. In
formule:
(9.234 · 241) + (8.409 · 264)
M1 =
= 8.803
505
che coincide esattamente con il valore ricavato in precedenza.
7. Un carattere quantitativo X è stato rilevato sulle unità di una popolazione. La più
piccola modalità osservata è x(1) = 3, la più elevata modalità è x(n) = 30. Si risponda,
con opportune motivazioni, alle seguenti domande:
1 MEDIA ARITMETICA
9
a) è possibile che M1 (X) = 2.5 ?
b) Se Y è un altro carattere quantitativo legato ad X dalla relazione Y = 0.7 + 5X
quale tra le seguenti medie aritmetiche: 10, 100, 152, si ritiene che sia possibile
per Y ?
Svolgimento
Svolgimento punto a) Per la proprietà di internalità della media artimentica abbiamo
che
x(1) ≤ M1 ≤ x(n) .
Nel nostro caso si dovrebbe avere che
3 ≤ M1X ≤ 30
(1)
e di conseguenza M1 non può assumere il valore 2.5.
Svolgimento punto b) In forza della proprietà di linearità della media aritmetica
abbiamo che
M1Y = 0.7 + 5M1X
e di conseguenza
M1Y − 0.7
.
5
l’espressione appena ricavata abbiamo:
M1X =
Riscrivendo la (1) sostituendo a M1X
3≤
M1Y − 0.7
≤ 30.
5
Isolando M1Y nell’espressione appena riportata, otteniamo che la media del carattere
Y deve soddifare le seguenti disuguaglianze:
(3 · 5) + 0.7 ≤ M1Y ≤ (30 · 5) + 0.7
15.7 ≤ M1Y ≤ 150.7.
Grazie alle disuguaglianze sopra riportate concludiamo che tra i valori 10, 100, 152,
l’unico possibile per M1Y è 100.
STATISTICA: esercizi svolti su
MEDIA GEOMETRICA
MEDIA ARMONICA e
MEDIA QUADRATICA
1
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
1
2
MEDIA GEOMETRICA, ARMONICA, QUADRATICA
1. Calcolare la media aritmetica dei logaritmi dei seguenti valori:
2;
4;
8;
16;
32;
64;
128.
Dedurne quindi la media geometrica.
Svolgimento
Per calcolare la media aritmetica dei logaritmi dei valori indicati dal testo dell’esercizio, predisponiamo la seguente tabella (in cui si è fatto uso dei logaritmi
naturali):
xi
2
4
8
16
32
64
128
tot
log(xi )
0.6931
1.3863
2.0794
2.7725
3.4657
4.1589
4.8520
19.4081
Abbiamo dunque che:
M1 (log X) =
19.4081
= 2.7726.
7
Ricordiamo che la media aritmetica dei logaritmi di N valori positivi coincide con il
logaritmo della media geometrica1 , in formule:
M1 (log X) = log(M0 (X)).
Di conseguenza:
M0 (X) = eM1 (log X) .
Grazie a quest’ultima espressione abbiamo che:
M0 (X) = e2.7726 = 16.
La media geometrica dei valori riportati dal testo dell’esercizio è di conseguenza pari
a 16. Quale verifica della correttezza dei calcoli appena svolti, ricaviamo il valore di
M0 (X) utilizzando anche il procedimento diretto.
v
u 7
uY
7
xi
M0 (X) = t
i=1
1
Zenga M., Lezioni di statistica descrittiva, pag 131: prima proprietà della media geometrica.
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
3
√
7
=
2 · 4 · 8 · 16 · 32 · 64 · 128
√
7
=
2 · 22 · 23 · 24 · 25 · 26 · 27
√
7
=
228
28
= 2 7 = 24 = 16.
Che coincide con quanto ricavato in precedenza.
2. Le temperature della neve in gradi centigradi di una nota località sciistica nel mese
di agosto sono state le seguenti:
xj
nj
6
2
5
4
4
6
3
5
2
8
1
6
dove nj è il numero di giorni in cui si è registrata la temperatura xj in gradi centigradi. Calcolare la media geometrica della distribuzione.
Svolgimento
Il numero totale di giorni in cui è stata rilevata la temperatura della neve nella località
sciistica è dato da:
N = 2 + 4 + 6 + 5 + 8 + 6 = 31.
Indicando con k il numero delle modalità del carattere “temperatura in gradi centigradi” che si sono effettivamente osservate, la media geometrica della distribuzione è
data da:
v
u k
uY nj
N
xj
M0 = t
√
31
j=1
=
62 · 54 · 46 · 35 · 28 · 16
= 2.5796
Possiamo dunque concludere dicendo che la media geometrica delle temperature della
neve rilevate durante mese d’agosto nella nota località sciistica è pari a 2.5796 C ◦ .
3. Una classe di studenti che hanno frequentato il liceo insieme si trova alla cena di
classe ad un paio d’anni dalla maturità. Sia X il numero di esami sostenuti durante
i primi due anni di iscrizione all’università:
X
0 `a 1
n studenti
6
T otale esami sostenuti
4
◦
2 `a 4
10
27
5 `a 7
8
52
8 `a 9
4
33
Si valuti la media geometrica della distribuzione, sia ricorrendo all’informazione fornita dalla terza riga della tabella, sia non ricorrendovi.
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
4
Svolgimento
Si supponga in primo luogo di essere in possesso dell’informazione fornita dalla terza
riga della tabella riportata nel testo dell’esercizio. In tal caso è ragionevole sintetizzare ciascuna classe in cui è raggruppato il carattere “numero di esami sostenuti”
mediante la media aritmetica degli esami sostenuti dagli studenti che appartengono a
ciascuna delle classi stesse. Queste medie (xj ), insieme ad altri calcoli che ci saranno
utili nel seguito, sono riportate nella seguente tabella:
X
0 `a 1
2 `a 4
5 `a 7
8 `a 9
tot.
n◦ studenti
nj
6
10
8
4
28
Tot. esami
xj · nj
4
27
52
33
–
xj
0.6667
2.7
6.5
8.25
–
val. centrale
cj
0.5
3
6
8.5
–
La media geometrica calcolata sfruttando le informazioni della terza riga della tabella
è data da:
v
u 4
uY nj
0
t x
M0 = 28
j
j=1
p
28
=
(0.6667)6 · (2.7)10 · (6.5)8 · (8.25)4
= 3.0165
Supponendo invece di non essere in possesso delle informazioni contenute nella terza
riga della tabella, è ragionevole sintetizzare ciascuna classe mediante i loro valori
centrali cj . In questo caso la media geometrica risulta essere data da:
v
u 4
uY nj
00
t c
M0 = 28
j
j=1
p
28
=
(0.5)6 · (3)10 · (6)8 · (8.5)4
= 2.8907 .
4. L’importazione di grano in migliaia di tonnellate negli anni 1991 − 1997 è riportata
nella seguente tabella:
anno (j)
quantità (qj )
1991
1534
1992
2323
1993
2340
1994
2150
1995
2460
1996
2470
1997
2510
Si calcoli per il periodo considerato la variazione relativa media annua (o tasso di
variazione medio annuo) del fenomeno commentando opportunamente.
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
5
Svolgimento
Le variazioni relative annuali della quantità di grano importata sono date da:
Vj.j−1 =
qj
qj − qj−1
=
− 1 = Ij.j−1 − 1
qj−1
qj−1
j = 1991, 1992, ..., 1997.
Il loro calcolo è riportato nella seguente tabella:
Anno (j)
1991
1992
1993
1994
1995
1996
1997
quantità (qi )
1534
2323
2340
2150
2460
2470
2510
Ij.j−1
–
1.5143
1.0073
0.9188
1.1442
1.0041
1.0162
Vj.j−1
–
0.5143
0.0073
-0.0812
0.1442
0.0041
0.0162
Ad esempio, la variazione relativa V1992.1991 , dice che le importazioni di grano del
1992 sono state maggiori del 51.43% rispetto a quelle del 1991. V1994.1993 dice che
le importazioni di grano del 1994 sono state minori dell’8.12% rispetto a quelle del
1993. In modo analogo si commentano le altre variazioni relative annuali.
La variazione relativa media annua (o tasso di variazione medio annuo) della quantità
di grano importata, è data da:
( 1997
) 61
Y
−1
V̄ =
(1 + Vj.j−1 )
j=1991
(
=
1997
Y
) 16
Ij.j−1
−1
j=1991
= I¯ − 1
dove, come è possibile osservare, si è indicato con I¯ la media geometrica dei numeri
indici a base mobile Ij.j−1 .
Osserviamo inoltre che:
1997
Y
Ij.j−1 = I1997.1991 =
j=1991
q1997
.
q1991
La media geometrica I¯ dei numeri indici a base mobile, di conseguenza, è data da:
61
1
2510
I¯ = (I1997.1991 ) 6 =
= 1.0855
1534
Abbiamo dunque che:
V̄ =
2510
1534
16
− 1 = 1.0855 − 1 = 0.0855 .
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
6
La variazione relativa media annua della quantità di grano importata, risulta essere
pari a 0.0855. Essa ci indica che, mediamente, negli anni dal 91 al 97, si è osservata
una crescita annuale delle importazioni di grano pari all’ 8.55%.
5. La seguente tabella riporta il numero di autovetture nuove immatricolate nel periodo
gennaio-settembre 2005 (Fonte: Ministero delle Infrastrutture e dei Trasporti):
M ese
immatric.
Genn.
212568
Feb.
195518
Marzo
228104
Aprile
195388
Maggio
149229
Giugno
233901
Luglio
211227
Agosto
97048
Sett.
186759
Si calcoli la variazione relativa media mensile (o tasso di variazione medio mensile)
del fenomeno per il periodo considerato.
Svolgimento
La variazione relativa media mensile è data da
V̄ = I¯ − 1
dove con I¯ si è indicata la media geometrica dei numeri indici a base mobile la quale
risulta essere pari a:
1
186759 8
¯
= 0.9839 .
I=
212568
La variazione relativa media mensile risulta quindi:
V̄ =
186759
212568
18
− 1 = 0.9839 − 1 = −0.0161 .
Concludendo, la variazione relativa media mensile del numero di immatricolazioni,
risulta essere pari a −0.0161. Essa indica che, mediamente, nei mesi da gennaio a
settembre del 2005, si è osservata una diminuzione mensile delle immatricolazioni di
auto pari all’1.61%.
6. Su un collettivo di 5 addetti vengono analizzati il carattere X =‘numero di ore
lavorate nell’ultimo mese’ ed il carattere Y =‘numero di pezzi prodotti nell’ultimo
mese’:
Addetto
1
2
3
4
5
X
222 243 225 206 248
Y
1506 1602 1501 1493 1655
Si determini la media geometrica del numero di pezzi prodotti in un’ora.
Svolgimento
E’ necessario, partendo dai dati forniti dal testo dell’esercizio, calcolare il numero
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
7
medio zi di pezzi prodotti in un ora di lavoro da ciascuno dei cinque addetti. Il
calcolo di tali valori è riportato nella seguente tabella.
Addetto
1
2
3
4
5
xi
222
243
225
206
248
yi
1506
1602
1501
1493
1655
zi = yi \xi
6.78
6.59
6.67
7.25
6.67
La media geometrica del numero di pezzi prodotti in un’ora è data dunque da:
p
M0 (Z) = 5 (6.78) · (6.59) · (6.67) · (7.25) · (6.67)
= 6.79
In alternativa avremmo potuto ricavare il valore di M0 (Z) sfruttando la seguente
proprietà2 della media geometrica:
M0 (Y )
Y
.
M0
=
X
M0 (X)
Nel nostro caso abbiamo:
p
M0 (Y ) = 5 (1506) · (1602) · (1501) · (1493) · (1655) = 1550.048
p
M0 (X) = 5 (222) · (243) · (225) · (206) · (248) = 228.293.
Concludendo, abbiamo che
1550.048
Y
)=
= 6.79
X
228.293
che coincide con il risultato ottenuto in precedenza.
M0 (Z) = M0 (
7. Un carattere quantitativo viene rilevato su 5 individui ottenendo le seguenti osservazioni: 13, 5, 7, 26, 19. Si calcolino la media armonica e la media quadratica della
distribuzione.
Svolgimento
Nella seguente tabella sono riportati
cizio.
xi
13
5
7
26
19
tot
2
alcuni calcoli utili per lo svolgimento dell’eser1\xi
0.0769
0.2
0.1428
0.0385
0.0526
0.5109
x2i
169
25
49
676
361
1280
Zenga M., Lezioni di statistica descrittiva, pag. 134: seconda proprietà della media geometrica.
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
8
La media armonica della distribuzione è data da:
5
5
= 9.7872.
M−1 = P5 1 =
0.5109
i=1 x
i
La media quadratica della distribuzione è data da:
v
u 5
u1 X
M2 = t
x2
5 i=1 i
r
1280
=
5
√
256 = 16.
=
8. Si calcolino la media armonica e la media quadratica della seguente distribuzione:
xj
5 20 40 60 90
.
nj 20 40 60 50 30
Si calcolino inoltre media aritmetica e media geometrica verificando numericamente
la relazione di ordinamento:
M−1 ≤ M0 ≤ M1 ≤ M2 .
Svolgimento
Nella seguente tabella sono riportati alcuni calcoli utili per lo svolgimento dell’esercizio.
xj
5
20
40
60
90
Tot
nj
20
40
60
50
30
200
xj · nj
100
800
2400
3000
2700
9000
x−1
j
0.2
0.05
0.025
0.01667
0.0111
–
log(xj ) log(xj ) · nj
1.6094
32.1887
2.9957
119.8293
3.6889
221.3328
4.0943
204.7172
4.4998
134.9943
–
713.0623
x−1
j · nj
4
2
1.5
0.8333
0.3333
8.6667
La media aritmetica del carattere rilevato è data da:
5
1 X
9000
M1 =
xj · nj =
= 45.
200 j=1
200
La media goemetrica del carattere rilevato è data da:
5
M0 = exp
1 X
log(xj ) · nj
200 j=1
713.0623
= e 200
= e3.5653 = 35.3505.
!
x2j
25
400
1600
3600
8100
–
x2j · nj
500
16000
96000
180000
243000
535500
1 MEDIA GEOMETRICA, ARMONICA, QUADRATICA
9
La media armonica del carattere rilevato è data da:
200
−1
j=1 xj · nj
200
=
= 23.0769.
8.6667
M−1 = P5
La media quadratica del carattere rilevato è data da:
v
u
5
u 1 X
t
M2 =
x2 · nj
200 j=1 j
r
535500
= 51.7446.
=
200
E’ facile osservare che i valori medi appena ricavati soddifano la relazione d’ordine
riportata dal testo dell’esercizio. Infatti:
(M−1 = 23.0769) ≤ (M0 = 35.3505) ≤ (M1 = 45) ≤ (M2 = 51.7446) .
STATISTICA esercizi svolti sul PRINCIPIO
DI INVARIANZA DI CHISINI
1
1 PRINCIPIO DI INVARIANZA DI CHISINI
1
2
PRINCIPIO DI INVARIANZA DI CHISINI
1.1
Esercizi
1. Una banca ha applicato negli ultimi 12 anni ad un deposito vincolato i seguenti tassi
di interesse composto: 8.2% per 1 anno, 12.5% per 3 anni, 10.7% per 4 anni, 11.4%
per 2 anni e 9% per 2 anni. Determinare il tasso medio annuo che lascia inalterato il
valore del deposito al termine dei 12 anni.
Svolgimento
Calcolare il tasso medio annuo che lascia inalterato il valore del deposito al termine
dei 12 anni significa trovare il tasso che, se fosse stato applicato per tutti i 12 anni,
avrebbe portato ad ottenere lo stesso capitale (montante) finale.
É noto che, dato un capitale iniziale C0 e n tassi di interesse x1 , x2 , ..., xn applicati
in altrettanti periodi, il capitale (montante) finale CF in regime di capitalizzazione
composta è dato da
n
Y
CF = C0 (1 + x1 )(1 + x2 ) · · · (1 + xn ) = C0 (1 + xi ).
i=1
É noto inoltre che, considerato un generico tasso xi , la quantità 1 + xi si dice fattore
di capitalizzazione.
Pertanto il problema considerato può essere equivalentemente riformulato ricercando
il fattore di capitalizzazione medio annuo.
Il fattore di capitalizzazione medio annuo (1+ x̄) che lascia inalterato il capitale finale
devi quindi soddisfare la relazione
C0 ·
N
Y
i=1
N
Y
(1 + xi ) = C0 ·
(1 + x̄)
i=1
cioè
(1 + x̄)N =
N
Y
(1 + xi )
i=1
1 + x̄ =
da cui si ricava che
"
N
Y
i=1
# N1
(1 + xi )
# N1
N
Y
− 1.
x̄ =
(1 + xi )
"
i=1
1 PRINCIPIO DI INVARIANZA DI CHISINI
3
# N1
N
Y
Dalla relazione 1 + x̄ =
è facile riconoscere che il fattore di capitaliz(1 + xi )
"
i=1
zazione medio annuo è la media geometrica dei fattori di capitalizzazione annui.
Nel nostro caso, abbiamo tassi di interesse (e quindi fattori di capitalizzazione) applicati per più anni: mostreremo dunque che è necessario considerare la media geometrica ponderata dei fattori di capitalizzazione, con pesi pari agli anni di applicazione.
Si completa perciò la seguente tabella, calcolando i fattori di capitalizzazione annui
e il numero di anni nei quali sono stati applicati.
X = fattore di
capitalizzazione annuo
1+0.082=1.082
1+0.125=1.125
1+0.107=1.107
1+0.114=1.114
1+0.09=1.09
TOTALE
ni = anni
di applicazione
1
3
4
2
2
12
Il capitale (montante) finale è pertanto:
CF = C0 ·
5
Y
i=1
(1+xi )ni = C0 ·[(1.082)1 ·(1.125)3 ·(1.107)4 ·(1.114)2 ·(1.09)2 ] = C0 ·3.412.
La relazione che deve soddisfare il fattore di capitalizzazione medio annuo (1 + x̄) è
5
5
Y
Y
ni
C0 ·
(1 + xi ) = C0 ·
(1 + x̄)ni
i=1
cioè
i=1
5
Y
(1 + xi )ni = (1 + x̄)12
i=1
da cui si ricava
v
u 5
uY
12
1 + x̄ = t (1 + xi )ni
i=1
vale a dire la media geometrica ponderata dei fattori di capitalizzazione, con pesi
pari agli anni di applicazione.
Nel nostro caso, quindi
1 + x̄ =
√
12
3.412
1 PRINCIPIO DI INVARIANZA DI CHISINI
4
e quindi
1 + x̄ = 1.10768.
A questo punto possiamo ricavare il tasso di interesse medio annuo:
x̄ = 1.10768 − 1 = 0.10768
(= 10.768%).
2. Durante una mattinata, vengono rilevati gli incassi x1 , . . . , x5 (espressi in euro) di
cinque caselli autostradali. Il prezzo del pedaggio è unico e pari a 1.5 euro.
a) Si determini l’espressione generale dell’incasso medio che lascia invariato il numero
di pedaggi complessivamente pagati. Si riconosca il tipo di media determinata;
b) L’incasso medio dei cinque caselli risulta pari a 150 euro. Viene fatta poi una
rilevazione su altri dieci caselli per i quali l’incasso medio risulta pari a 425
euro. Qual è l’incasso medio dei 15 caselli considerati congiuntamente?
c) In riferimento ai 5 caselli precedentemente considerati, si dica, giustificando la
risposta, se la seguente affermazione sia o meno plausibile: “la media quadratica
degli incassi dei cinque caselli è pari a 136 euro”.
Svolgimento
a) Calcoliamo per prima cosa, l’espressione generale del numero di pedaggi
dell’i-esimo casello, ovvero
xi
1.5
e di conseguenza, il numero di pedaggi complessivi dei 5 caselli, è dato da
5
X
xi
.
1.5
i=1
Si vuole quindi cercare il valore dell’incasso medio x̄ tale che:
5
5
X
X
xi
x̄
=
1.5
1.5
i=1
i=1
cioè
5
X
i=1
da cui
5
X
i=1
xi =
5
X
x̄
i=1
xi = 5 · x̄.
Dall’ultima relazione, è possibile quindi ricavare l’espressione generale di x̄:
5
1 X
xi
x̄ = ·
5 i=1
1 PRINCIPIO DI INVARIANZA DI CHISINI
5
ed è possibile quindi affermare che la media aritmetica degli incassi dei 5 caselli
è il tipo di media cercato.
b) Per calcolare l’incasso medio dei 15 caselli considerati congiuntamente, si può
utilizzare la proprietà associativa della media aritmetica che afferma che la media
aritmetica totale è pari alla media aritmetica ponderata delle medie aritmetiche
parziali, con pesi uguali alle numerosità dei gruppi.
Si ottiene quindi:
150 · 5 + 425 · 10
5 + 10
5000
= 333.3̄
(euro).
=
15
M1 (tot) =
c) Per rispondere, basta ricordare che
M−1 ≤ M0 ≤ M1 ≤ M2
e quindi, sapendo che
M1 = 150
deve verificarsi necessariamente che
M2 ≥ 150,
ragion per cui non è possibile che la media quadratica degli incassi dei 5 caselli
sia pari a 136 euro.
3. Un’auto percorre 5 tratti di strada, ciascuno dei quali lungo 150 km con velocità
rispettivamente pari a
v1 = 50 km/h,
v2 = 100 km/h,
v3 = 60 km/h, v4 = 120 km/h, v5 = 90 km/h.
a) Qual’ è la velocità media che lascia inalterato il tempo complessivo impiegato a
percorrere tutti e 5 i tratti di strada?
b) Qual’ è la velocità media che lascia inalterato il consumo totale di carburante
sapendo che il consumo per km, c è legato alla velocità v dalla relazione c = k v 2 ,
dove k è una costante positiva?
Svolgimento
a) Il tempo impiegato dall’auto per percorrere l’i-esimo tratto di strada è
ti =
150
.
vi
1 PRINCIPIO DI INVARIANZA DI CHISINI
6
Il tempo totale impiegato per percorrere tutti e 5 i tratti sarà quindi dato da
ttot =
5
X
ti =
i=1
5
X
150
i=1
vi
5
X
1
= 150 ·
.
v
i=1 i
La velocità media v̄ che lascia inalterato il tempo utilizzato per percorrere tutti
i tratti di strada, deve pertanto soddisfare la seguente relazione
5
5
X
X
1
1
= 150 ·
150 ·
v
v̄
i=1
i=1 i
cioè
5
X
1
1
=5· .
v
v̄
i=1 i
Dalla precedente relazione si ricava
v̄ =
5
5
X
i=1
1
vi
.
Si può quindi affermare che la velocità media v̄ che lascia inalterato il tempo
utilizzato per percorrere tutti i tratti di strada è la media armonica delle velocità.
Nel nostro caso si ha pertanto
5
1
1
1
1
1
+
+
+
+
50 100 60 120 90
= 75.63.
v̄ =
b) Ricordando che la lunghezza di ogni tratto è 150 km, è possibile calcolare il
consumo di carburante per l’i-esimo tratto di strada (ci ):
ci = 150 k vi2 .
Il consumo totale è pertanto dato da
ctot =
5
X
i=1
ci =
5
X
i=1
150 k
vi2
= 150 k ·
5
X
vi2 .
i=1
La velocità media (v̄) che lascia inalterato il consumo totale deve soddisfare la
relazione
5
5
X
X
2
150 k ·
vi = 150 k ·
v̄ 2
i=1
i=1
1 PRINCIPIO DI INVARIANZA DI CHISINI
cioè
7
5
X
vi2 = 5 · v̄ 2 .
v̄ =
s
i=1
Dalla relazione precedente si ricava
P5
i=1
5
vi2
.
É facile riconoscere che la velocità media cercata è la media quadratica delle
velocità.
Nel nostro caso si ha:
r
502 + 1002 + 602 + 1202 + 902
5
= 87.86.
v̄ =
4. Su un gruppo di cinque clienti di un piccolo negozio che hanno effettuato acquisti
pagando mediante carta di credito, si rileva il carattere X= “somma spesa (in Euro)”:
x1 = 52.70
x2 = 48.30
x3 = 105.80
x4 = 152.75
x5 = 45.00.
Supponendo che il negoziante paghi, per ogni transazione, una commissione bancaria
pari al 3% dell’importo, si determini l’espressione e il valore numerico della media
di x1 , ..., x5 che lascia invariato il totale delle commissioni pagate dal negoziante. Si
indichi inoltre il tipo di media ottenuta.
Svolgimento
La commissione pagata dal negoziante per l’i-esimo pagamento tramite carta di
credito è data da
3
c i = xi ·
100
e quindi il totale delle commissioni pagate dal negoziante è
ctot =
5
X
i=1
5 5
X
3
3 X
ci =
xi ·
=
·
xi .
100
100
i=1
i=1
Il valor medio x̄ di x1 , ..., x5 che lascia inalterato il totale delle commissioni pagate
dal negoziante deve soddisfare la relazione
5
5
3 X
3 X
·
·
xi =
x̄
100 i=1
100 i=1
1 PRINCIPIO DI INVARIANZA DI CHISINI
cioè
8
5
X
i=1
xi = 5 · x̄.
Dalla precedente relazione si ricava l’espressione
x̄ =
5
1 X
·
xi .
5 i=1
Il valor medio x̄ di x1 , ..., x5 che lascia inalterato il totale delle commissioni pagate
dal negoziante è quindi la media aritmetica dei valori x1 , ..., x5 .
Nel nostro caso si ha quindi:
x̄ =
52.7 + 48.3 + 105.8 + 152.72 + 45
= 80.904.
5
5. Un risparmiatore investe un capitale di C euro ogni giorno per 50 giorni nell’acquisto
di azioni dello stesso tipo le cui quotazioni sono riportate in tabella:
qi
gi
2
15
3
5
5
10
6
20
dove qi indica la quotazione (prezzo in euro dell’azione) e gi il numero di giorni in cui
è stata rilevata la quotazione qi . Calcolare la quotazione media che lascia inalterato
il totale delle azioni acquistate durante i 50 giorni.
Svolgimento
Il numero di azioni acquistate dal risparmiatore in un giorno in cui è valida la
quotazione qi è
C
.
qi
Pertanto il numero di azioni acquistate in totale nei 50 giorni è
4
X
C
i=1
qi
· gi .
Dobbiamo quindi trovare la quotazione media q̄ che lascia inalterato il totale delle
azioni acquistate:
4
4
X
X
C
C
· gi
· gi =
q
q̄
i=1 i
i=1
cioè
4
C X
· gi = ·
gi
qi
q̄ i=1
4
X
C
i=1
1 PRINCIPIO DI INVARIANZA DI CHISINI
da cui si ottiene
9
4
X
C
1
· gi = · 50
C·
q
q̄
i=1 i
q̄ =
50
4
X
i=1
1
· gi
qi
ovvero q̄ è la media armonica ponderata delle quotazioni dell’azione con pesi pari ai
giorni.
Perciò:
50
1
1
1
1
· 15 + · 5 + · 10 + · 20
2
3
5
6
= 3.448.
q̄ =
STATISTICA esercizi svolti sulla
VARIABILITA’
1
1 VARIABILITA’
1
2
VARIABILITA’
1.1
Esercizi
1. La seguente tabella riporta il tempo (in giorni) impiegato da sei individui per il
consumo di una confezione di pasta da 250 grammi:
1
3
5
6
15
30 .
Si calcolino: lo scostamento medio dalla mediana, lo scostamento medio dalla media
aritmetica e lo scarto quadratico medio, commentando i risultati ottenuti.
Svolgimento
Per prima cosa, notiamo che i valori forniti dal testo sono già ordinati: per maggiore
chiarezza, comunque li riportiamo di seguito:
x(1) = 1
x(2) = 3
x(3) = 5
x(4) = 6
x(5) = 15
x(6) = 30.
Dato che il loro numero è pari (N = 6), si hanno due posizioni centrali:
N
=3
2
,
N
+ 1 = 4.
2
La mediana è pertanto:
x(3) + x(4)
5+6
=
= 5.5.
2
2
Il valore assunto dalla mediana dice che nel 50% dei casi circa, la durata di un pacchetto di pasta è minore di 5.5 giorni. Analogamente, nel 50% dei casi circa, la durata
di un pacchetto di pasta è superiore a 5.5 giorni.
La media aritmetica è data da
6
1X
1 + 3 + 5 + 6 + 15 + 30
M1 =
= 10.
xi =
6 i=1
6
Per calcolare lo scostamento medio dalla mediana e dalla media aritmetica e lo scarto
quadratico medio, è necessario completare la seguente tabella:
xi
1
3
5
6
15
30
Totale
|xi − M e|
4.5
2.5
0.5
0.5
9.5
24.5
42
|xi − M1 | (xi − M1 )2
9
81
7
49
5
25
4
16
5
25
20
400
50
596
1 VARIABILITA’
3
Si ha quindi che lo scostamento medio dalla mediana è
6
SM e
42
1X
|xi − M e| =
=7
=
6 i=1
6
e indica che mediamente le durate del pacchetto di pasta differiscono (si discostano)
dalla durata mediana di 7 giorni.
Lo scostamento medio dalla media aritmetica è:
6
SM 1
1X
50
=
= 8.3̄
|xi − M1 | =
6 i=1
6
e indica che mediamente le durate del pacchetto di pasta differiscono (si discostano)
dalla durata media di 8.3̄ giorni.
Lo scarto quadratico medio è:
v
r
u 6
u1 X
596
σ=t
= 9.967
(xi − M1 )2 =
6 i=1
6
e indica che mediamente le durate del pacchetto di pasta differiscono dalla durata
media di 9.967 giorni.
2. La seguente tabella fornisce il reddito annuo di sette individui:
individui
A B C D E
reddito (in migliaia di euro) 15 20 12 10 18
F
30
G
.
35
Calcolare lo scostamento medio dalla mediana, lo scostamento medio dalla media
aritmetica, lo scarto quadratico medio, la devianza e la varianza.
Svolgimento
Per prima cosa, ordiniamo in ordine crescente i valori forniti dal testo:
x(1) = 10
x(2) = 12
x(3) = 15
x(4) = 18
x(5) = 20
x(6) = 30
x(7) = 35.
Dato che il loro numero è dispari (N = 7), la posizione mediana è data da:
N +1
8
= = 4.
2
2
La mediana è pertanto:
x(4) = 18.
Il valore assunto dalla mediana dice che circa il 50% dei redditi (dei 7 individui presi
in esame) è minore di 18 (migliaia di euro). Analogamente, circa il 50% dei redditi
1 VARIABILITA’
4
(dei 7 individui presi in esame) è maggiore di 18 (migliaia di euro).
La media aritmetica è data da
7
1X
15 + 20 + 12 + 10 + 18 + 30 + 35
= 20.
M1 =
xi =
7 i=1
7
Per calcolare lo scostamento dalla mediana e dalla media aritmetica e lo scarto
quadratico medio, è necessario completare la seguente tabella:
|xi − M e|
3
2
6
8
0
12
17
48
xi
15
20
12
10
18
30
35
TOTALE
|xi − M1 | (xi − M1 )2
5
25
0
0
2
4
10
100
8
64
10
100
15
225
50
518
Si ha quindi che lo scostamento medio dalla mediana è
7
SM e
1X
48
=
|xi − M e| =
= 6.857
7 i=1
7
e indica che mediamente i redditi (dei 7 individui presi in esame) differiscono (si discostano) dal reddito mediano di 6.857 migliaia di euro.
Lo scostamento medio dalla media aritmetica è:
7
SM 1 =
50
1X
= 7.143
|xi − M1 | =
7 i=1
7
e indica che mediamente i redditi (dei 7 individui presi in esame) differiscono (si discostano) dal reddito medio di 7.143 migliaia di euro.
Lo scarto quadratico medio è:
v
r
u 7
u1 X
518
σ=t
= 8.6023
(xi − M1 )2 =
7 i=1
7
e indica che mediamente i redditi (dei 7 individui presi in esame) differiscono dal
reddito medio di 8.6023 migliaia di euro.
1 VARIABILITA’
5
Avendo calcolato lo scarto quadratico medio, è possibile calcolare la varianza elevandolo al quadrato:
7
518
1X
2
(xi − M1 )2 =
= 74.
σ =
7 i=1
7
Dalla tabella precedente, si ricava immediatamente anche la devianza:
Dev =
7
X
i=1
(xi − M1 )2 = 518.
3. La seguente tabella fornisce la distribuzione delle 100 famiglie di un quartiere secondo
il carattere X = “numero di figli”:
numero di figli
frequenze assolute
0
30
1
15
2
20
3
12
4
10
5
9
6
.
4
Determinare:
a) il campo di variazione;
b) la differenza interquartile;
c) la varianza con il metodo indiretto;
d) lo scostamento medio dalla media aritmetica;
e) lo scostamento medio dalla mediana.
Svolgimento
Come prima cosa, conviene riscrivere la tabella fornita dal testo nel seguente modo,
calcolando anche le frequenze cumulate:
N umero di f igli (xj ) nj
0
30
1
15
2
20
3
12
4
10
5
9
6
4
Totale
100
Cj
30
45
65
77
87
96
100
É possibile ora calcolare:
a) Il campo di variazione
x(N ) − x(1) = x(100) − x(1) = 6 − 0 = 6.
Tale valore indica che la lunghezza dell’intervallo in cui sono compresi i valori
del carattere X (numero di figli) è pari a 6.
1 VARIABILITA’
6
b) La differenza interquartile
Q3 − Q1 = x(3· N +1 ) − x( N +1 ) = x(75.75) − x(25.25) = 3 − 0 = 3.
4
4
Tale valore indica che il 50% delle famiglie analizzate hanno un numero di figli
compreso in un intervallo di ampiezza 3.
c) La varianza (con il metodo indiretto)
7
1 X 2
σ =
x nj − M12 = M22 − M12 .
N j=1 j
2
La seguente tabella
xj
0
1
2
3
4
5
6
TOT
nj
30
15
20
12
10
9
4
100
x j nj
0
15
40
36
40
45
24
200
x2j
0
1
4
9
16
25
36
x2j nj
0
15
80
108
160
225
144
732
permette di calcolare:
7
1 X
200
M1 =
=2
x j nj =
100 j=1
100
e
7
M22
732
1 X 2
x j nj =
= 7.32.
=
100 j=1
100
Quindi
σ 2 = 7.32 − (2)2 = 3.32
d) Lo scostamento medio dalla media aritmetica.
La seguente tabella
xj
0
1
2
3
4
5
6
TOT
nj
30
15
20
12
10
9
4
100
|xj − M1 | |xj − M1 | · nj
2
60
1
15
0
0
1
12
2
20
3
27
4
16
150
1 VARIABILITA’
7
permette di calcolare lo scostamento medio da M1 :
SM 1 =
7
150
1 X
·
= 1.5.
|xj − M1 | · nj =
100 j=1
100
Tale valore indica che mediamente il numero di figli (delle 100 famiglie prese in
esame) differisce (si discosta) dal loro valore medio di 1.5 figli.
e) Lo scostamento medio dalla mediana.
Per prima cosa, si calcola la mediana: ricordando che N = 100 e utilizzando le
frequenze cumulate precedentemente calcolate, si ha
M e = x( N +1 ) = x(50.5) = 2.
2
In questo caso, quindi M e = M1 = 2: si avrà di conseguenza che
SM e = SM1 = 1.5.
É possibile quindi affermare che mediamente il numero di figli (delle 100 famiglie
prese in esame) differisce (si discosta) dal loro valore mediano di 1.5 figli.
4. La seguente tabella riporta la distribuzione del carattere X= “numero di stanze” di
120 abitazioni della provincia di Belluno:
N umero di stanze (xj ) 1
nj
5
2
22
3
32
4
35
5
16
6
7
7 8
.
2 1
Calcolare il campo di variazione, la differenza interquartile, lo scarto quadratico medio
e lo scostamento medio dalla media aritmetica.
Svolgimento
Come prima cosa, conviene riscrivere la tabella fornita dal testo nel seguente modo,
calcolando anche le frequenze cumulate:
xj
1
2
3
4
5
6
7
8
TOTALE
nj
5
22
32
35
16
7
2
1
120
Cj
5
27
59
94
110
117
119
120
1 VARIABILITA’
8
É possibile ora calcolare:
a) Il campo di variazione
x(N ) − x(1) = x(120) − x(1) = 8 − 1 = 7.
Tale valore indica che la lunghezza dell’intervallo in cui sono compresi i valori
del carattere X (numero di stanze) è pari a 7.
b) La differenza interquartile
Q3 − Q1 = x(3· N +1 ) − x( N +1 ) = x(90.75) − x(30.25) = 4 − 3 = 1.
4
4
Tale valore indica che il 50% delle abitazioni prese in esame hanno un numero
di stanze compreso in un intervallo di ampiezza pari a 1.
c) Lo scarto quadratico medio e lo scostamento medio dalla media aritmetica.
Per prima cosa, è necessario calcolare la media aritmetica. Si completa pertanto
la seguente tabella.
xj
1
2
3
4
5
6
7
8
TOT
nj
5
22
32
35
16
7
2
1
120
x j nj
5
44
96
140
80
42
14
8
429
la quale, permette di calcolare:
8
M1 =
1 X
429
= 3.575
x j nj =
120 j=1
120
Completando la seguente tabella
xj
1
2
3
4
5
6
7
8
TOT
nj
5
22
32
35
16
7
2
1
120
|xj − M1 |
2.575
1.575
0.575
0.425
1.425
2.425
3.425
4.425
(xj − M1 )2
6.63
2.48
0.33
0.18
2.03
5.88
11.73
19.58
|xj − M1 | · nj
12.875
34.65
18.4
14.875
22.8
16.975
6.85
4.425
131.85
(xj − M1 )2 · nj
33.15
54.56
10.56
6.3
32.48
41.16
23.46
19.58
221.25
1 VARIABILITA’
9
è possibile calcolare lo scostamento medio da M1 :
SM 1
8
131.85
1 X
·
= 1.09875
|xj − M1 | · nj =
=
120 j=1
120
(mediamente il numero di stanze delle 120 abitazioni prese in esame differisce
dal valore medio di 1.09875 stanze)
e lo scarto quadratico medio:
v
r
u
8
u 1 X
221.25
σ=t
·
= 1.358
(xj − M1 )2 · nj =
120 j=1
120
(mediamente il numero di stanze delle 120 abitazioni prese in esame differisce
dal valore medio di 1.358 stanze).
5. La distribuzione del reddito annuo in euro dei 1000 abitanti di un comune è la
seguente:
classi di reddito redditieri
1000 |– 5000
100
5000 |– 15000
400
.
15000 |– 35000
300
35000 |– 75000
200
Si determini la varianza del reddito dei 1000 abitanti. Si verifichi numericamente la relazione tra lo scarto quadratico medio e lo scostamento medio dalla media aritmetica.
Svolgimento
Per prima cosa, è necessario calcolare la media aritmetica, completando la seguente
lj− + lj+
tabella, dove xj =
indica il valore centrale della j-esima classe:
2
classi di reddito
1000|–5000
5000|–15000
15000|– 35000
35000 |– 75000
TOTALE
xj
3000
10000
25000
55000
nj
100
400
300
200
1000
x j · nj
300000
4000000
7500000
11000000
22800000
Si ha quindi che:
4
1 X
22800000
M1 =
x j · nj =
= 22800.
N j=1
1000
Per calcolare la varianza, e lo scostamento medio da M1 è necessario completare la
seguente tabella:
1 VARIABILITA’
10
classi di reddito
1000|–5000
5000|–15000
15000|– 35000
35000 |– 75000
TOTALE
xj
3000
10000
25000
55000
nj
100
400
300
200
1000
|xj − M1 |
19800
12800
2200
32200
|xj − M1 | · nj
1980000
5120000
660000
6440000
14200000
(xj − M1 )2
392040000
163840000
4840000
1036840000
(xj − M1 )2 · nj
39204000000
65536000000
1452000000
207368000000
313560000000
Quindi lo scostamento medio dalla media aritmetica è pari a
SM 1 =
4
X
1
14200000
·
= 14200
|xj − M1 | · nj =
1000 j=1
1000
e tale valore indica che mediamente i redditi dei 1000 abitanti si discostano dal loro
valore medio di 14200 euro.
La varianza è pari a
4
1 X
313560000000
σ =
(xj − M1 )2 · nj =
= 313560000
1000 j=1
1000
2
e lo scarto quadratico medio è
v
r
u
4
u 1 X
313560000000
(xj − M1 )2 · nj =
= 17707.625
σ=t
1000 j=1
1000
e tale valore indica che mediamente i redditi dei 1000 abitanti si discostano dal loro
valore medio di 17707.625 euro.
É facile notare che i valori ottenuti verificano la relazione
14200 < 17707.625
e pertanto è soddisfatta la seguente relazione tra scarto quadratico medio e scostamento medio da M1 :
SM1 ≤ σ.
6. La distribuzione delle fatture di una grande azienda, emesse in un mese, secondo
l’importo in migliaia di euro è riportata nella seguente tabella:
classi d’importo
n. fatture
importo totale di classe
0–|50
8
304
50–|100
70
5600
100–|150
71
8946
.
150–|200
62
10540
200–|250
27
6210
250–|300
7
1960
300–|350
3
960
tot
248
1 VARIABILITA’
11
Calcolare lo scostamento medio dalla mediana; lo scostamento medio dalla media
aritmetica; la varianza e lo scarto quadratico medio. Verificare numericamente la
relazione esistente tra SMe , SM1 e σ.
Svolgimento
Per prima cosa, è necessario calcolare la mediana e la media aritmetica della distribuzione. Completiamo perciò la seguente tabella.
Classi d’importo
0–|50
50–|100
100–|150
150–|200
200–|250
250–|300
300–|350
TOTALE
nj
8
70
71
62
27
7
3
248
T ot. di classe (Tj )
304
5600
8946
10540
6210
1960
960
34520
Cj
8
78
149
211
238
245
248
La posizione mediana è data da
pos(M e) =
N +1
248 + 1
=
= 124.5.
2
2
Scorrendo la colonna delle frequenze cumulate, riconosciamo che la classe (100; 150]
è la classe mediana. Il valore della mediana è pertanto:
M e = x(124.5) = 100 + [124.5 − 78 − 0.5] ·
(150 − 100)
= 132.39.
71
Utilizzando l’informazione relativa ai totali di classe, il calcolo della media aritmetica
si può effettuare nel seguente modo:
M1 =
304 + 5600 + 8946 + 10540 + 6210 + 1960 + 960
34520
=
= 139.19.
248
248
Utilizzando l’informazione sui totali di classe, calcoliamo per ciascuna classe un valore
rappresentativo x′j , dividendo ciascun totale di classe per la frequenza della classe.
Completiamo la seguente tabella.
Classi d’importo
0–|50
50–|100
100–|150
150–|200
200–|250
250–|300
300–|350
TOTALE
nj
8
70
71
62
27
7
3
248
Tot. di classe
304
5600
8946
10540
6210
1960
960
x′j
38
80
126
170
230
280
320
|x′j − M e| |x′j − M e| · nj
94.4
755.2
52.39
3667.3
6.39
453.69
37.61
2331.82
97.61
2635.47
147.61
1033.27
187.61
562.83
11439.58
1 VARIABILITA’
12
Lo scostamento medio dalla mediana è quindi
SM e =
7
11439.58
1 X ′
·
= 46.127
|xj − M e| · nj =
248 j=1
248
e tale valore indica che mediamente gli importi delle fatture si discostano dal loro
valore mediano di 46.127 (migliaia di euro).
Completando la seguente tabella
Classi
0–|50
50–|100
100–|150
150–|200
200–|250
250–|300
300–|350
TOTALE
nj
8
70
71
62
27
7
3
248
x′j
38
80
126
170
230
280
320
|x′j − M1 |
101.19
59.19
13.19
30.81
90.81
140.81
180.81
|x′j − M1 | · nj
809.52
4143.3
936.49
1910.22
2451.87
985.67
542.43
11779.50
(x′j − M1 )2
10239.4161
3503.4561
173.9761
949.2561
8246.4561
19827.4561
32692.2561
(x′j − M1 )2 · nj
81915.33
245241.93
12352.30
58853.88
222654.31
138792.19
98076.77
857886.71
calcoliamo agevolmente lo scostamento medio dalla media aritmetica:
SM 1 =
7
11779.50
1 X ′
·
= 47.498
|xj − M1 | · nj =
248 j=1
248
e tale valore indica che mediamente gli importi delle fatture si discostano dal loro
valore medio di 47.498 (migliaia di euro).
La varianza è data da:
7
857886.71
1 X ′
= 3459.22,
(xj − M1 )2 · nj =
σ =
248 j=1
248
2
lo scarto quadratico medio
v
r
u
7
u 1 X
857886.71
σ=t
= 58.815
(x′j − M1 )2 · nj =
248 j=1
248
e possiamo interpretare tale valore dicendo che mediamente gli importi delle fatture
differiscono dal loro valore medio di 58.815 (migliaia di euro).
É possibile verificare infine che vale la relazione
infatti
SM e ≤ SM 1 ≤ σ
46.127 < 47.498 < 58.815.
1 VARIABILITA’
13
7. Sia X un carattere quantitativo con media aritmetica M1 (X) = 5 e scarto quadratico
medio σ(X) = 1.5. Sia Y un altro carattere quantitativo tale che Y = 0.5 − 2X.
Determinare la media aritmetica e la varianza di Y .
Svolgimento
Dalla proprietà di linearità della media aritmetica, segue immediatamente che
M1 (Y ) = 0.5 − 2 · M1 (X) = 0.5 − 2 · 5 = −9.5.
A questo punto, calcoliamo la varianza di X
σ 2 (X) = (1.5)2 = 2.25
e ricordiamo la proprietà della varianza che afferma che se tra i caratteri X e Y
sussiste una relazione del tipo
Y =a+b·X
allora tra le varianze di X e Y , vale la relazione:
σ 2 (Y ) = b2 · σ 2 (X).
Applicando tale proprietà, utilizzando i valori a = 0.5 e b = −2 si ricava la varianza
di Y :
σ 2 (Y ) = 22 · σ 2 (X) = 4 · 2.25 = 9.
8. In un reparto produttivo, vengono impiegate tre macchine alle quali lavorano, rispettivamente, 4, 5 e 3 operai. La seguente tabella riporta i dati relativi alla produzione
oraria (per operaio e per macchina):
produzione oraria macchina 1
produzione oraria macchina 2
produzione oraria macchina 3
48
56
52
49
56
51
48
57
51
47
57
55
Determinare la varianza della produzione oraria dell’intero sistema col metodo indiretto; determinare inoltre la varianza fra e nei gruppi e verificare la proprietà di
scomposizione della varianza totale.
Svolgimento
Come prima cosa, dividiamo i 12 operai in K = 3 gruppi, a seconda della macchina
a cui lavorano: si avrà quindi il primo gruppo (di numerosità N1 pari a 4) composto
dagli operai che lavorano alla prima macchina, il secondo gruppo (di numerosità N2
pari a 5) formato dagli operai che lavorano alla seconda macchina e infine il terzo
gruppo (di numerosità N3 pari a 3) a cui appartengono gli operai che lavorano alla
terza macchina. A ciascun operaio è associato un numero che rappresenta la sua
produzione oraria.
1 VARIABILITA’
14
É possibile a questo punto calcolare, per ciascun gruppo, la produzione oraria media
(ovvero le medie parziali):
X̄1 = M1 (1a macchina) =
192
48 + 49 + 48 + 47
=
= 48
4
4
59 + 59 + 57 + 57 + 55
281
=
= 56.2
5
5
154
52 + 51 + 51
=
= 51.3̄.
X̄3 = M1 (3a macchina) =
3
3
X̄2 = M1 (2a macchina) =
La proprietà associativa della media aritmetica permette di calcolare la media aritmetica totale (ovvero la produzione media oraria complessiva):
X̄ =
48 · 4 + 56.2 · 5 + 51.3̄ · 3
X̄1 · N1 + X̄2 · N2 + X̄3 · N3
= 52.25.
=
N1 + N2 + N3
12
Per determinare la varianza della produzione oraria complessiva con il metodo indiretto è necessario applicare la formula:
2
σtot
N
1 X 2
=
x − M12 = M22 − M12 .
N i=1 i
Si completa la seguente tabella:
Numero
macchina
1
2
3
TOT
xi
x2i
48
49
48
47
56
56
57
57
55
52
51
51
628
2304
2401
2304
2209
3136
3136
3249
3249
3025
2704
2601
2601
32919
Quindi:
12
M22
1 X 2 32919
= 2743.25.
x =
=
12 i=1 i
12
1 VARIABILITA’
15
A questo punto si ricava immediatamente la varianza totale:
2
σtot
= 2743.25 − (52.25)2 = 13.1875.
Calcoliamo ora la varianza fra le produzioni medie delle singole macchine (ovvero la
varianza fra i gruppi).
Si ha quindi:
σF2 =
K
1 X
[X̄j − X̄]2 · Nj
N j=1
3
2
1 X
X̄j − X̄ · Nj
=
12 j=1
(48 − 52.25)2 · 4 + (56.2 − 52.25)2 · 5 + (51.3̄ − 52.25)2 · 3
12
152.7833
=
= 12.732.
12
=
Per determinare la varianza nei gruppi, è necessario innanzitutto calcolare le varianze
parziali.
Si ha quindi (utilizzando il metodo indiretto per il calcolo della varianza), che la
varianza del primo gruppo è:
σ12
482 + 492 + 482 + 472
− (48)2 = 0.5
=
4
quella del secondo gruppo:
σ22 =
562 + 562 + 572 + 572 + 552
− (56.2)2 = 0.56
5
e infine per il terzo gruppo:
σ32 =
522 + 512 + 512
− (51.3̄)2 = 0.2̄.
3
Il calcolo della media aritmetica ponderata delle varianze parziali (varianza nei
gruppi), è pertanto:
2
σN
=
K
3
1 X 2
1 X 2
0.5 · 4 + 0.56 · 5 + 0.2̄ · 3
= 0.4556.
σj · Nj =
σj · Nj =
N j=1
N j=1
12
A questo punto è possibile verificare la scomposizione della varianza totale:
1 VARIABILITA’
16
2
σN
+
σF2
=
2
σtot
0.4556
+
12.732
=
13.1876 (∼
= 13.1875)
Calcolando i rapporti di composizione:
•
2
0.4556
σN
= 0.0345 (= 3.45%)
=
2
σtot
13.1876
•
σF2
12.732
= 0.9655 (= 96.55%)
=
2
σtot
13.1876
è possibile notare che la varianza nei gruppi è il 3.45% della varianza totale e che la
varianza fra i gruppi è il 96.55% della varianza totale.
Da tali considerazioni possiamo concludere che la produzione risulta molto omogenea
per ogni macchina (cioè operai che lavorano alla stessa macchina hanno più o meno
la stessa produttività) ed eterogenea fra le varie macchine (cioè operai lavoranti a
macchine diverse hanno produttività differenti). Le differenze di produttività tra gli
operai sono dunque principalmente imputabili al fatto che utilizzano diversi macchinari.
9. La seguente tabella riporta la distribuzione del numero di alberghi delle due località
turistiche A e B di un comprensorio, secondo le classi di fatturato annuale (in milioni
di Euro):
classi di fatturato
fino a 1
Numero di Alberghi in A
15
Numero di Alberghi in B
25
1 |– 3
24
51
3 |– 5
85
67
5 |– 10
48
59
10 |– 20
40
31
20 |– 40
29
31
Tot
241
264
Si verifichi la scomposizione della varianza del fatturato annuo degli alberghi del comprensorio, commentando il risultato ottenuto.
Svolgimento
Per prima cosa, dividiamo in K = 2 gruppi gli alberghi del comprensorio: ovviamente
avremo un primo gruppo (di numerosità N1 pari a 241) formato dagli alberghi della
località A e un secondo gruppo (di numerosità N2 pari a 264) composto dagli alberghi
della località B.
Completiamo quindi la seguente tabella per agevolare i calcoli successivi (con nA
j
e con nB
si
sono
indicate
rispettivamente
le
frequenze
degli
alberghi
della
località
j
A e quelle degli alberghi della località B corrispondenti alla j-esima classe, mentre
lj− + lj+
xj =
(j = 1, ..., 6) indica il valore centrale di ogni classe).
2
1 VARIABILITA’
17
Classi di
fatturato
0 |– 1
1 |– 3
3 |– 5
5 |– 10
10 |– 20
20 |– 40
Totale
xj
x2j
nA
j
nB
j
B
nA
j + nj
0.5
2
4
7.5
15
30
0.25
4
16
56.25
225
900
15
24
85
48
40
29
241
25
51
67
59
31
31
264
40
75
152
107
71
60
505
A questo punto è possibile calcolare la media aritmetica del fatturato per gli alberghi
della località A:
6
1 X
0.5 · 15 + 2 · 24 + 4 · 85 + 7.5 · 48 + 15 · 40 + 30 · 29
X̄1 =
x j · nA
= 9.234
j =
N1 j=1
241
e per gli alberghi della località B:
6
1 X
0.5 · 25 + 2 · 51 + 4 · 67 + 7.5 · 59 + 15 · 31 + 30 · 31
X̄2 =
x j · nB
= 8.409.
j =
N2 j=1
264
La media aritmetica del fatturato degli alberghi di tutto il comprensorio è quindi,
utilizzando la proprietà associativa della media aritmetica:
9.234 · 241 + 8.409 · 264
= 8.803.
X̄ =
241 + 264
É possibile ora calcolare la varianza del fatturato degli alberghi di tutto il comprenB
sorio, utilizzando le frequenze totali nA
j + nj (ed il procedimento indiretto):
2
σtot
6
1 X 2
B
2
=
x · [nA
j + nj ] − X̄
N j=1 j
0.25 · 40 + 4 · 75 + 16 · 152 + 56.25 · 107 + 225 · 71 + 900 · 60
− (8.803)2
505
= 78.422.
=
Calcoliamo ora:
• la varianza nei gruppi
Si deve innanzitutto calcolare la varianza parziale di ciascun gruppo:
σ12
6
1 X 2 A
=
x · n − X̄12
N1 j=1 j j
0.25 · 15 + 4 · 24 + 16 · 85 + 56.25 · 48 + 225 · 40 + 900 · 29
− (9.234)2
241
39259.75
=
− 85.267 = 77.64.
241
=
1 VARIABILITA’
σ22
18
6
1 X 2 B
x · n − X̄22
=
N2 j=1 j j
0.25 · 25 + 4 · 51 + 16 · 67 + 56.25 · 59 + 225 · 31 + 900 · 31
− (8.409)2
264
39475
− 70.711 = 78.81
=
264
=
2
e quindi la varianza nei gruppi (σN
):
2
σN
=
σ12 · N1 + σ22 · N2
77.64 · 241 + 78.81 · 264
= 78.252;
=
N1 + N2
505
• la varianza fra gruppi
Il calcolo della varianza fra i gruppi è invece:
[(X̄1 − X̄)2 · N1 + (X̄2 − X̄)2 · N2 ]
N1 + N2
[(9.234 − 8.803)2 · 241 + (8.409 − 8.803)2 · 264]
=
505
85.750
= 0.1698.
=
505
σF2 =
In base ai risultati ottenuti, si verifica la scomposizione:
2
σN
+
σF2
=
2
σtot
78.252
+
0.1698
=
78.4218 (∼
= 78.422).
Calcolando i rapporti di composizione:
2
σN
78.252
= 0.9978 (= 99.78%)
=
2
σtot
78.422
0.1698
σ2
= 0.0022 (= 0.22%)
• 2F =
σtot
78.422
•
è possibile notare che la varianza nei gruppi è il 99.78% della varianza totale e che
la varianza fra i gruppi è solo lo 0.22% della varianza totale.
Da tali considerazioni possiamo concludere che la distribuzione dei fatturati degli
alberghi delle località A e B è omogenea (varianza fra i gruppi molto piccola) e che in
entrambe le località esistono alberghi con fatturati molto diversi (varianza nei gruppi
molto grande). Le differenze tra i fatturati degli alberghi non sono dunque imputabili
alla diversa collocazione geografica (località A o B).
1 VARIABILITA’
19
10. Nel 1981 gli ospedali in Italia erano 1826 ripartiti per tipo come segue: ospedali
generali 1345, ospedali specialistici 295, ospedali psichiatrici 186. Per ogni ospedale
è stato rilevato il numero di posti letto ottenendo le informazioni seguenti:
n. medio di posti letto
scarto quadratico medio dei posti letto
osp. generali
318,51
445,96
osp. specialist.
215,58
259,54
osp. psichiatr.
407,22
.
477,84
Si determini il numero medio di posti letto per il complesso di ospedali e la varianza
della stessa variabile, commentando il risultato.
Svolgimento
In questo caso, riconosciamo K = 3 gruppi di numerosità N1 = 1345, N2 = 295 e
N3 = 186, formati rispettivamente dagli ospedali generali, dagli ospedali specialistici
e dagli ospedali psichiatrici.
Avendo le medie della variabile “numeri di posti letto” per ciascun gruppo, è possibile
calcolare la media aritmetica totale, utilizzando la proprietà associativa della media
aritmetica:
X̄ =
3
1 X
318.51 · 1345 + 215.58 · 295 + 407.22 · 186
567734.97
X̄j ·Nj =
=
= 310.917.
N j=1
1345 + 295 + 186
1826
Per calcolare la varianza totale, è necessario utilizzare la sua scomposizione in varianza nei gruppi più varianza fra i gruppi.
La varianza nei gruppi è perciò (indicando con σj2 la varianza del j-esimo gruppo):
2
σN
3
1 X 2
σ · Nj
=
N j=1 j
(445.96)2 · 1345 + (259.54)2 · 295 + (477.84)2 · 186
1826
329835109.2
=
= 180632.59.
1826
=
La varianza fra i gruppi è:
σF2 =
3
1 X
[X̄j − X̄]2 · Ni
N j=1
[318.51 − 310.917]2 · 1345 + [215.58 − 310.917]2 · 295 + [407.22 − 310.917]2 · 186
1826
4483855.323
=
= 2455.56.
1826
=
La varianza totale è quindi pari a:
1 VARIABILITA’
20
2
σtot
=
2
σN
183088.15
=
180632.59
σF2
+
+ 2455.56.
Calcolando i rapporti di composizione:
2
180632.59
σN
= 0.9866 (= 98.66%)
• 2 =
σtot
183088.15
σ2
2455.56
• 2F =
= 0.0134 (= 1.34%)
σtot
183088.15
è possibile notare che la varianza nei gruppi è il 98.66% della varianza totale e che
la varianza fra i gruppi è l’1.34% della varianza totale.
Da tali considerazioni possiamo concludere che ogni gruppo è molto eterogeneo al
suo interno (varianza nei gruppi alta): nell’ambito di ciascuna tipologia di ospedale
(generale, specialistico, psichiatrico) il numero di posti letto è molto variabile da ospedale a ospedale, mentre vi è una forte omogeneità tra le varie tipologie di ospedale
(bassa varianza fra i gruppi). Le differenze tra il numero di posti letto degli ospedali
non sono dunque imputabili alla diversa tipologia degli ospedali.
11. Il reddito annuo (in migliaia di euro) di sette individui è rispettivamente pari a 15,
20, 12, 10, 18, 30, 35. Determinare e interpretare la differenza media e con ripetizione
del reddito.
Svolgimento
Per agevolare i conti, completiamo la seguente tabella scrivendo nella cella (i, j), la
quantità |xi − xj |:
xj
xi
15
20
12
10
18
30
35
15
20
12
10
18
30
35
0
5
3
5
3
15
20
5
0
8
10
2
10
15
3
8
0
2
6
18
23
5
10
2
0
8
20
25
3
2
6
8
0
12
17
15
10
18
20
12
0
5
20
15
23
25
17
5
0
464
Si ottiene in questo modo che:
N X
N
X
S
1
1
∆=
=
·
· 464 = 11.048
|xi − xj | =
N (N − 1)
N (N − 1) i=1 j=1
7·6
1 VARIABILITA’
21
e tale valore indica che mediamente i redditi dei sette individui differiscono tra loro
per 11.048 migliaia di euro.
Inoltre
N
N
S
1 XX
1
∆R = 2 = 2 ·
|xi − xj | = 2 · 464 = 9.469.
N
N i=1 j=1
7
e tale valore indica che mediamente i redditi dei sette individui differiscono tra loro
(e con loro stessi) per 9.469 migliaia di euro.
Un ulteriore modo per calcolare il numeratore S delle differenze medie è dato da:
S =2·
N X
i
X
i=1 j=1
|x(i) − x(j) |.
Illustriamo il calcolo del numeratore S attraverso quest’ultima formula.
Per prima cosa, è necessario ordinare i valori xj :
x(1) = 10
x(2) = 12
x(3) = 15
x(4) = 18
x(5) = 20
x(6) = 30
x(7) = 35
e completare la parte sotto la diagonale principale della seguente tabella, scrivendo
nella cella (i, j) la quantità |x(i) − x(j) |.
x(j)
x(i)
10
12
15
18
20
30
35
10
12
15
18
20
30
35
0
2
5
8
10
20
25
0
3
6
8
18
23
0
3
5
15
20
0
2
12
17
0
10
15
0
5
0
Somme parziali
per riga
0
2
8
17
25
75
105
232
Si ha pertanto che
S =2·
N X
i
X
i=1 j=1
|x(i) − x(j) | = 2 · 232 = 464
e quindi, come volevasi dimostrare:
∆=
464
S
=
= 11.048
N (N − 1)
7·6
1 VARIABILITA’
22
∆R =
464
S
=
= 9.469.
N2
72
Giusto per completezza, viene riportato un ulteriore metodo di calcolo per il numeratore S.
Completando la seguente tabella:
j
1
2
3
4
5
6
7
x(j)
10
12
15
18
20
30
35
2j − N − 1 x(j) (2j − N − 1)
-6
-60
-4
-48
-2
-30
0
0
2
40
4
120
6
210
232
possiamo calcolare S nel seguente modo:
S =2·
7
X
j=1
x(j) (2j − N − 1) = 2 · 232 = 464
e quindi ritrovare gli stessi valori calcolati precedentemente per ∆ e ∆R .
12. La distribuzione del prezzo del pane al chilogrammo nei capoluoghi di 27 province
nel 1970 e nel 1989 è riportata nella seguente tabella:
prezzo lire al kg. 1970
frequenze
prezzo lire al kg. 1989
frequenze
700
1
2100
2
800
4
2500
3
900
2
2600
2
950
3
2950
4
1000
7
3000
6
1200
10
3600
10
tot
27
.
tot
27
a) Determinare la differenza media semplice e con ripetizione del prezzo del pane nel
1970;
b) Si può dire che dal 1970 al 1989 ci sia stato un aumento della variabilità del fenomeno?
Svolgimento
a) Ricordando che in questo caso N = 27, completiamo la seguente tabella che
agevolerà il calcolo delle differenze medie.
1 VARIABILITA’
23
xj
700
800
900
950
1000
1200
Totale
nj
1
4
2
3
7
10
27
Cj
1
5
7
10
17
27
2Cj − N − nj
-26
-21
-15
-10
0
17
nj (2Cj − N − nj )
-26
-84
-30
-30
0
170
xj nj (2Cj − N − nj )
-18200
-67200
-27000
-28500
0
204000
63100
Utilizzando la formula per il calcolo del numeratore S, la differenza media
semplice è quindi data da:
6
X
S
2
2
∆=
=
·
·63100 = 179.77.
xj nj (2Cj −N −nj ) =
N (N − 1)
N (N − 1) j=1
27 · 26
Tale valore indica che i prezzi del pane nei 27 capoluoghi nel 1970 differiscono
mediamente tra loro di 179.77 lire.
La differenza media con ripetizione è data da:
∆R =
6
2 X
2
S
=
·
· 63100 = 173.11.
x
n
(2C
−
N
−
n
)
=
j
j
j
j
N2
N 2 j=1
(27)2
Tale valore indica che i prezzi del pane nei 27 capoluoghi nel 1970 differiscono
mediamente tra loro (e con loro stessi) di 173.11 lire.
b) Osservando i valori del prezzo del pane nei due anni presi in esame, è facile rendersi conto che l’ordine di grandezza è differente, ragion per cui per confrontare
le variabilità dei prezzi del pane nei due anni (1970 e 1989) è necessario ricorrere
a indici relativi di variabilità.
Poichè al punto precedente abbiamo calcolato sulla distribuzione dei prezzi del
1970 gli indici ∆ e ∆R , la scelta più ovvia è quella di confrontare la variabilità
dei prezzi del 1970 e del 1989 con gli indici relativi:
∆
∆R
o
.
M1 M1
Per completezza, tuttavia, calcoliamo anche gli altri indici relativi noti:
σ
SM 1 SM e
,
e
.
M1 M1
M1
Calcoliamo perciò la mediana e la media aritmetica relative all’anno 1970:
M e(1970) = x( N +1 ) = x( 27+1 ) = x(14) = 1000
2
2
(1970)
M1
=
700 · 1 + 800 · 4 + 900 · 2 + 950 · 3 + 1000 · 7 + 1200 · 10
= 1020.37
27
1 VARIABILITA’
24
e la mediana e la media aritmetica relative all’anno 1989:
M e(1989) = x( N +1 ) = x( 27+1 ) = x(14) = 3000
2
2
2100 · 2 + 2500 · 3 + 2600 · 2 + 2950 · 4 + 3000 · 6 + 3600 · 10
= 3062.96
27
Si completa la seguente tabella, relativa all’anno 1970:
(1989)
M1
xj
700
800
900
950
1000
1200
Totale
=
nj
1
4
2
3
7
10
27
|xj − M e|
300
200
100
50
0
200
|xj − M e|nj
300
800
200
150
0
2000
3450
|xj − M1 |
320.37
220.37
120.37
70.37
20.37
179.63
|xj − M1 |nj
320.37
881.48
240.74
211.11
142.59
1796.3
3592.59
(xj − M1 )2
102636.94
48562.93
14488.94
4951.94
414.94
32266.94
(xj − M1 )2 nj
102636.94
194251.72
28977.88
14855.82
2904.58
322669.4
666296.34
grazie alla quale è possibile calcolare
(1970)
SM e
6
1 X
3450
= 127.7̄
=
|xj − M e(1970) | · nj =
N j=1
27
6
1 X
3592.59
(1970)
=
|xj − M1
| · nj =
= 133.059
N j=1
27
v
r
u
6
u1 X
666296.34
(1970) 2
(xj − M1
) · nj =
= 159.07.
=t
N j=1
27
(1970)
SM 1
σ (1970)
Completiamo l’analoga tabella relativa all’anno 1989:
xj
2100
2500
2600
2950
3000
3600
Totale
nj
2
3
2
4
6
10
27
|xj − M e|
900
500
400
50
0
600
|xj − M e|nj
1800
1500
800
200
0
6000
10300
|xj − M1 |
962.96
562.96
462.96
112.96
62.96
537.04
|xj − M1 |nj
1925.92
1688.88
925.92
451.84
377.76
5370.4
10740.72
(xj − M1 )2
927291.96
316923.96
214331.96
12759.96
3963.96
288411.96
grazie alla quale è possibile calcolare
(1989)
6
1 X
10300
= 381.48
|xj − M e(1989) | · nj =
N j=1
27
SM e
=
(1989)
SM 1
6
1 X
10740.72
(1989)
= 397.8
=
|xj − M1
| · nj =
N j=1
27
(xj − M1 )2 nj
1854583.92
950771.88
428663.92
51039.84
23783.76
2884119.6
6192962.92
1 VARIABILITA’
25
σ (1989)
v
r
u
6
u1 X
6192962.92
(1989)
= 478.92.
(xj − M1
)2 · nj =
=t
N j=1
27
Ricordiamo infine di aver calcolato, per l’anno 1970,
∆(1970) = 179.77
e
(1970)
∆R
= 173.11.
Completiamo l’analoga tabella (relativa all’anno 1989):
xj
2100
2500
2600
2950
3000
3600
nj
2
3
2
4
6
10
Cj
2
5
7
11
17
27
2Cj − N − nj
-25
-20
-15
-9
1
17
xj nj · (2Cj − N − nj )
-105000
-150000
-78000
-106200
18000
612000
190800
grazie alla quale possiamo calcolare
∆(1989) =
6
X
1
S
2 · 190800
=
·2
= 543.59
xj nj ·(2Cj −N −nj ) =
N (N − 1)
N (N − 1) j=1
27 · 26
e
(1989)
∆R
6
X
S
1
2 · 190800
= 2 = 2 ·2
= 523.45.
xj nj · (2Cj − N − nj ) =
N
N
272
j=1
Riassumiamo nella seguente tabella i valori calcolati sia per l’anno 1970 che per
l’anno 1989:
Me
M1
SM e
SM 1
σ
∆
∆R
Anno 1970
1000
1020.37
127.7̄
133.059
157.09
179.77
173.11
Anno 1989
3000
3062.96
381.48
397.805
478.92
543.59
523.45
É possibile a questo punto calcolare i seguenti indici relativi di variabilità:
1 VARIABILITA’
26
Anno 1970
Anno 1989
SM e
:
M1
127.7̄
= 0.1252 >
1020.37
381.48
= 0.1245
3062.96
SM 1
:
M1
133.059
= 0.1304 >
1020.37
397.805
= 0.1299
3062.96
157.09
= 0.1540 <
1020.37
478.92
= 0.1564
3062.96
∆
:
M1
179.77
= 0.1762 <
1020.37
543.59
= 0.1774
3062.96
∆R
:
M1
173.11
= 0.1696 <
1020.37
523.45
= 0.1708
3062.96
CV =
σ
:
M1
Il valore 0.1252 indica che lo scostamento dalla mediana del prezzo del pane nel
1970 è pari al 12.52% della media aritmetica.
Il valore 0.1245 indica che lo scostamento dalla mediana del prezzo del pane nel
1989 è pari al 12.45% della media aritmetica.
Il valore 0.1304 indica che lo scostamento dalla media aritmetica del prezzo del
pane nel 1970 è pari al 13.04% della media aritmetica.
Il valore 0.1299 indica che lo scostamento dalla media aritmetica del prezzo del
pane nel 1989 è pari al 12.99% della media aritmetica.
Il valore 0.1540 indica che lo scarto quadratico medio del prezzo del pane nel
1970 è pari al 15.40% della media aritmetica.
Il valore 0.1564 indica che lo scarto quadratico medio del prezzo del pane nel
1989 è pari al 15.64% della media aritmetica.
Il valore 0.1762 indica che la differenza media semplice del prezzo del pane nel
1970 è pari al 17.62% della media aritmetica.
Il valore 0.1774 indica che la differenza media semplice del prezzo del pane nel
1989 è pari al 17.74% della media aritmetica.
Il valore 0.1696 indica che la differenza media con ripetizione del prezzo del pane
nel 1970 è pari al 16.96% della media aritmetica.
Il valore 0.1708 indica che la differenza media con ripetizione del prezzo del pane
nel 1989 è pari al 17.08% della media aritmetica.
Attraverso il confronto dei valori assunti dagli indici relativi di variabilità calcolati, si può concludere che la variabilità del prezzo del pane dei 27 capoluoghi
1 VARIABILITA’
27
presi in esame nel 1989 non è sensibilmente aumentata rispetto al 1970.
13. La classificazione di due gruppi di ditte produttrici di olio d’oliva, che vendono rispettivamente il proprio prodotto a peso (gruppo A) e a volume (gruppo B), ha dato luogo
alle seguenti distribuzioni di frequenze:
gruppo A prezzo euro al kg
n. ditte
gruppo B prezzo euro al litro
n. ditte
2–|3
40
2–|3
100
3–|3,5
90
3–|3,5
80
3,5–|4
200
3,5–|4
70
4–|4,5
110
4–|4,5
30
4,5–|5
60
.
4,5–|5
20
Quale delle due distribuzioni presenta maggiore variabilità? Si effettui il confronto
utilizzando indici basati sullo scostamento medio dalla media aritmetica, sullo scostamento medio dalla mediana, sullo scarto quadratico medio e sulla differenza media
semplice.
Svolgimento
Per prima cosa, completiamo la seguente tabella per agevolare il calcolo della mediaB
na e della media aritmetica per ciascuno dei due gruppi (si indicano con nA
j e nj le
frequenze dei gruppi A e B, inoltre con N A si è indicata la numerosità complessiva del
lj− + lj+
B
gruppo A e con N quella del gruppo B, infine xj =
indica il valore centrale
2
di ogni classe).
classi di prezzo
2–|3
3–|3.5
3.5–|4
4–|4.5
4.5–|5
Totale
xj
2.5
3.25
3.75
4.25
4.75
nA
j
40
90
200
110
60
500
nB
j
100
80
70
30
20
300
CjA
40
130
330
440
500
CjB
100
180
250
280
300
x j nA
j
100
293
750
468
285
1895
x j nB
j
250
260
263
128
95
995
É possibile ora calcolare la mediana per ciascuno dei due gruppi:
0.5
M eA = x N A +1 = x( 500+1 ) = x(250.5) = 3.5 + [250.5 − 130 − 0.5] ·
= 3.8
2
2
200
0.5
M eB = x N B +1 = x( 300+1 ) = x(150.5) = 3 + [150.5 − 130 − 0.5] ·
= 3.3125
2
2
80
e le medie aritmetiche:
M1A
5
1895
1 X
x j nA
= 3.79
= A
j =
N j=1
500
1 VARIABILITA’
28
M1B
5
1 X
995
= B
x j nB
= 3.316̄.
j =
N j=1
300
Completiamo quindi la tabella relativa al gruppo A:
xj
2.5
3.25
3.75
4.25
4.75
Totale
nA
j
40
90
200
110
60
500
|xj − M eA |
1.3
0.55
0.05
0.45
0.95
|xj − M eA |nA
j
52
49.5
10
49.5
57
218
|xj − M1A |
1.29
0.54
0.04
0.46
0.96
|xj − M1A |nA
j
51.6
48.6
8
50.6
57.6
216.4
x2j
6.25
10.5625
14.0625
18.0625
22.5625
x2j nA
j
250
950.625
2812.5
1986.875
1353.75
7353.75
da cui ricaviamo
A
SM
e
5
1 X
218
= A
|xj − M eA | · nA
= 0.436
j =
N j=1
500
A
SM
=
1
5
216.4
1 X
A
A
|x
−
M
|
·
n
=
= 0.4328
j
1
j
N A j=1
500
v
r
u
5
X
u
√
1
7353.75
A 2
2 =
0.3434 = 0.586.
−
[M
]
=
x2j · nA
−
(3.79)
σA = t A
1
j
N j=1
500
Completiamo anche la seguente tabella (sempre relativa al gruppo A):
xj
2.5
3.25
3.75
4.25
4.75
nA
j
40
90
200
110
60
CjA
40
130
330
440
500
2CjA − N A − nA
j
-460
-330
-40
270
440
A
A
A
x j nA
j · (2Cj − N − nj )
-46000
-96525
-30000
126225
125400
79100
grazie alla quale possiamo calcolare
5
X
1
S
2 · 79100
A
A
A
= A A
·2
= 0.6341.
∆ = A A
x j nA
j ·(2Cj −N −nj ) =
N (N − 1)
N (N − 1) j=1
500 · 499
A
Calcoliamo ora le stesse grandezze per il gruppo B:
1 VARIABILITA’
xj
2.5
3.25
3.75
4.25
4.75
Totale
29
nB
j
100
80
70
30
20
500
|xj − M eB |
0.813
0.063
0.438
0.938
1.438
|xj − M eB |nB
j
81.3
5.04
30.66
28.14
28.76
173.9
|xj − M1B |
−0.816̄
0.06̄
0.43̄
0.93̄
1.43̄
|xj − M1B |nB
j
81.6̄
5.3̄
30.3̄
28
28.6̄
174
x2j
6.25
10.5625
14.0625
18.0625
22.5625
x2j nB
j
625
845
984.375
541.875
451.25
3447.5
da cui ricaviamo
B
SM
e
5
173.9
1 X
|xj − M eB | · nB
= 0.579
= B
j =
N j=1
300
B
SM
1
5
174
1 X
|xj − M1B | · nB
= 0.58
= B
j =
N j=1
300
v
r
u
5
X
u
√
1
3447.5
B 2
2 =
x2j · nB
−
[M
]
=
σB = t B
−
(3.31
6̄)
0.4914 = 0.701.
1
j
N j=1
300
Completiamo anche la seguente tabella (sempre relativa al gruppo B):
xj
2.5
3.25
3.75
4.25
4.75
nB
j
100
80
70
30
20
CjB
100
180
250
280
300
2CjB − N B − nB
j
-200
-20
130
230
280
B
B
B
x j nB
j · (2Cj − N − nj )
-50000
-5200
34125
29325
26600
34850
grazie alla quale possiamo calcolare
5
X
S
1
2 · 34850
B
B
B
∆ = B B
= B B
·2
= 0.777.
x j nB
j ·(2Cj −N −nj ) =
N (N − 1)
N (N − 1) j=1
300 · 299
B
É possibile a questo punto calcolare i seguenti indici relativi di variabilità:
1 VARIABILITA’
30
Gruppo A
SM e
:
M1
SM 1
:
M1
CV =
σ
:
M1
∆
:
M1
Gruppo B
<
0.579
= 0.1746
3.316̄
0.4328
= 0.1142 <
3.79
0.58
= 0.1749
3.316̄
0.586
= 0.1546
3.79
<
0.701
= 0.2114
3.316̄
0.6341
= 0.1673 <
3.79
0.777
= 0.2343
3.316̄
0.436
= 0.115
3.79
Confrontando i valori degli indici relativi di variabilità, si può concludere che presenta
maggiore variabilità la distribuzione delle ditte del gruppo B.
14. Nella seguente tabella sono riportate le distribuzioni per destinazione dei viaggi di
vacanza (V ) e dei viaggi di lavoro (W ) effettuati dagli italiani nel 1998 (dati in
migliaia):
Destinazione
V
W
Italia
67682 10944
Paesi UE
7238 1984 .
Resto d’Europa
1989
378
Resto del mondo 2236
501
Si valuti, con un opportuno indice basato sulle differenze medie, quale delle due distribuzioni V e W presenta la variabilità più elevata. Si interpretino i valori assunti
dall’indice per le due distribuzioni.
Svolgimento
Riconosciamo innanzitutto che abbiamo a che fare con una distribuzione di unità e
che la popolazione statistica è costituita da 4 unità (N = 4).
Per calcolare la differenza media per i viaggi di vacanza (V ), completiamo la seguente
tabella, in cui le osservazioni sono state ordinate in modo crescente secondo i valori
del carattere.
Destinazione
Resto d’Europa
Resto del mondo
Paesi EU
Italia
Totale
i
1
2
3
4
v(i)
1989
2236
7238
67682
79145
2i − N − 1 v(i) · (2i − N − 1)
-3
-5967
-1
-2236
1
7238
3
203046
202081
1 VARIABILITA’
31
Possiamo pertanto calcolare la differenza media:
4
X
2
2
·
· 202081 = 33680.17,
v(i) · (2i − N − 1) =
∆(V ) =
N (N − 1) i=1
4·3
la media aritmetica:
4
1X
79145
M1 (V ) =
= 19786.25
vi =
4 i=1
4
e quindi l’indice relativo di variabilità:
∆(V )
33680.17
=
= 1.702
M1 (V )
19786.25
che indica che la differenza media semplice del numero di viaggi di vacanza è il 170.2%
della corrispondente media aritmetica.
Consideriamo ora il carattere W :
Destinazione
Resto d’Europa
Resto del mondo
Paesi EU
Italia
Totale
i
1
2
3
4
w(i)
378
501
1984
10944
13807
2i − N − 1 w(i) · (2i − N − 1)
-3
-1134
-1
-501
1
1984
3
32832
33181
Possiamo pertanto calcolare la differenza media:
∆(W ) =
4
X
2
2
·
· 33181 = 5530.16̄,
w(i) · (2i − N − 1) =
N (N − 1) i=1
4·3
la media aritmetica:
4
1X
13807
M1 (W ) =
= 3451.75
wi =
4 i=1
4
e quindi l’indice relativo di variabilità:
5530.16
∆(W )
=
= 1.602.
M1 (W )
3451.75
che indica che la differenza media semplice del numero di viaggi di lavoro è il 160.2%
della corrispondente media aritmetica.
Riconoscendo che
∆(V )
∆(W )
= 1.702 > 1.602 =
M1 (V )
M1 (W )
si può concludere che la distribuzione V presenta maggiore variabilità.
1 VARIABILITA’
32
15. Una fabbrica produce tubi catodici televisivi di due tipi. Per il tipo A si ha una
durata media di 1495 ore e uno scarto quadratico medio di 280 ore. Per il tipo B si
ha una durata media di 1875 ore ed uno scarto quadratico medio di 310 ore. Fornire
una misura della variabilità relativa e commentare il risultato.
Svolgimento
Un indice di variabilità relativa per i tubi di tipo A è dato da:
280
σA
=
= 0.19
A
1495
M1
e tale valore indica che lo scarto quadratico medio della durata dei tubi del tipo A è
il 19% della corrispondente durata media.
Per quanto riguarda i tubi del tipo B si ha:
σB
310
= 0.17.
=
B
1875
M1
e tale valore indica che lo scarto quadratico medio della durata dei tubi del tipo B è
il 17% della corrispondente durata media.
Riconoscendo che
σB
σA
=
0.19
>
0.17
=
M1A
M1B
si può concludere che la distribuzione delle durate dei tubi catodici del gruppo A
presenta maggiore variabilità rispetto a quella del gruppo B.
STATISTICA esercizi svolti sulla
CONCENTRAZIONE
1
1 CONCENTRAZIONE
1
2
CONCENTRAZIONE
1.1
Esercizi
1. Il reddito annuo (in migliaia di euro) di 7 fratelli è il seguente:
individui
A
reddito (in migliaia di euro) 15
B
20
C
12
D
10
E
18
F
30
G
.
35
Tracciare il diagramma di Lorenz e interpretare il punto della spezzata di coordinate
(p3 ; q3 ). Determinare il rapporto di concentrazione R di Gini commentando opportunamente il risultato ottenuto.
Svolgimento
Per determinare le coordinate della spezzata di Lorenz, è necessario completare la
seguente tabella, in cui sono stati ordinati i valori xi in ordine non decrescente ed è
stata aggiunta la prima riga corrispondente al punto fittizio (0; 0). Per facilitare il
completamento della tabella, conviene anche calcolare:
T =
7
X
xj = 10 + 12 + 15 + 18 + 20 + 30 + 35 = 140.
i=1
i
0
1
2
3
4
5
6
7
xi
0
10
12
15
18
20
30
35
140
Pi
0
1
2
3
4
5
6
7
Qi
0
10
22
37
55
75
105
140
pi = PNi
0
0.143
0.286
0.429
0.571
0.714
0.851
1
qi = QTi
0
0.071
0.157
0.264
0.393
0.536
0.750
1
3.171
In Figura (1) è rappresentato il diagramma di Lorenz per la distribuzione dei redditi
dei 7 fratelli.
É possibile interpretare il punto di coordinate (p3 ; q3 ) = (0.429; 0.264), affermando
che al 42.9% dei fratelli con reddito minore spetta il 26.4% del reddito totale (dei
sette fratelli).
Per calcolare il rapporto di concentrazione di Gini, si ricorda che
N
−1
N
−1
X
X
2
2
R=
·
·
(pi − qi ) = 1 −
qi .
N − 1 i=1
N − 1 i=1
1 CONCENTRAZIONE
3
q
1
0.5
(p3 ;q 3)
0.5
0
1 p
Fig. 1: Diagramma di Lorenz per la distribuzione dei redditi dei 7 fratelli.
Dalla precedente tabella si ricava che
N
X
qi = 3.171, pertanto
i=1
N
−1
X
qi = 3.171 − 1 = 2.171,
i=1
e quindi
R=1−
N
−1
X
2
2
·
· 2.171 = 0.2763̄.
qi = 1 −
N − 1 i=1
7−1
Tale valore indica che la concentrazione è pari al 27.63̄% del valore massimo teorico.
2. L’ufficio metereologico dell’aeronautica ha fornito i seguenti dati relativi alla piovosità
mensile (in mm) in Italia nel periodo che va da dicembre 1991 a novembre 1992:
mesi
D G F M A M G L A S
O
N
.
mm pioggia 81 66 53 120 78 60 45 30 10 45 104 108
Tracciare il diagramma di Lorenz; determinare e commentare il rapporto di concentrazione R di Gini.
Svolgimento
É necessario completare la seguente tabella, in cui sono stati ordinati (in ordine non
1 CONCENTRAZIONE
4
decrescente) i valori xi ed è stata aggiunta la prima riga per il punto fittizio (0, 0).
Per facilitare il completamento della tabella, conviene anche calcolare:
T =
12
X
xi = 81 + 66 + 53 + 120 + 78 + 60 + 45 + 30 + 10 + 45 + 104 + 108 = 800
i=1
e riconoscere che N = 12.
mm pioggia Pi = i
0
10
30
45
45
53
60
66
78
81
104
108
120
800
0
1
2
3
4
5
6
7
8
9
10
11
12
Qi
0
10
40
85
130
183
243
309
387
468
572
680
800
pi =
Pi
N
0
0.083
0.167
0.250
0.333
0.417
0.500
0.583
0.667
0.750
0.833
0.917
1
6.5
qi =
Qi
T
0
0.013
0.050
0.106
0.163
0.229
0.304
0.386
0.484
0.585
0.715
0.850
1
4.885
In Figura (2) è rappresentato il diagramma di Lorenz.
Per calcolare il rapporto di concentrazione di Gini, si ricorda che
N
−1
N
−1
X
X
2
2
R=
·
·
(pi − qi ) = 1 −
qi .
N − 1 i=1
N − 1 i=1
Dalla precedente tabella si ricava che
N
X
qi = 4.885, pertanto
i=1
N
−1
X
qi = 4.885 − 1 = 3.885,
i=1
e quindi
R=1−
N
−1
X
2
2
·
· 3.885 = 0.2936.
qi = 1 −
N − 1 i=1
12 − 1
Tale valore indica che la concentrazione è pari al 29.36% del valore massimo teorico.
1 CONCENTRAZIONE
5
q
1
0.5
0
0.5
1 p
Fig. 2: Diagramma di Lorenz per il carattere “mm di pioggia”.
3. I redditi, espressi in migliaia di euro, di 7 individui sono:
x(1) = 20, x(2) = 25, x(3) = 41, x(4) = 46, x(5) = 60, x(6) = 85, x(7) = 120.
Indicata con X la variabile reddito, si supponga che lo stato introduca un’imposta
pari al:
• 2% del reddito per coloro che percepiscono un reddito X ≤ 25;
• 15% del reddito per coloro che percepiscono un reddito 25 < X ≤ 60;
• 28% del reddito per coloro che percepiscono un reddito X > 60.
Confrontare tramite l’ausilio di un adeguato indice, la concentrazione dei redditi prima e dopo il prelievo fiscale. Stabilire inoltre (senza effettuare calcoli) come varia la
concentrazione, rispetto alla situazione iniziale, nei casi in cui:
a) lo stato introduce un’imposta pari al 15% del reddito;
b) lo stato impone una tassa fissa di 5 mila euro.
Svolgimento
Innanzitutto completiamo la seguente tabella per poter calcolare il rapporto di concentrazione di Gini prima della tassazione. Come di consueto i valori xi sono stati
1 CONCENTRAZIONE
6
ordinati, è stato aggiunto il punto fittizio (0,0) ed è stata calcolata la quantità
T
(prima)
=
7
X
xi = 20 + 25 + 41 + 46 + 60 + 85 + 120 = 397.
i=1
xi
Pi = i
Qi
0
20
25
41
46
60
85
120
397
0
1
2
3
4
5
6
7
0
20
45
86
132
192
277
397
pi =
Pi
N
0
0.143
0.286
0.429
0.571
0.714
0.857
1
4
qi =
Qi
T
0
0.050
0.113
0.217
0.332
0.484
0.698
1
2.894
p i − qi
0
0.093
0.173
0.212
0.239
0.23
0.159
0
1.106
Per calcolare il rapporto di concentrazione di Gini, si utilizza la seguente formula:
R
(prima)
N
−1
X
2
=
·
(pi − qi ).
N − 1 i=1
Dalla precedente tabella si ricava che
N
−1
X
N
X
(pi − qi ) =
(pi − qi ) = 1.106, pertanto
i=1
R
(prima)
i=1
N
−1
X
2
2
·
· 1.106 = 0.369.
(pi − qi ) =
=
N − 1 i=1
7−1
Tale valore indica che prima della tassazione, la concentrazione è pari al 36.9% del
valore massimo teorico.
A questo punto, è necessario calcolare i redditi che rimangono ai 7 individui, dopo
aver pagato la tassa. Indichiamoli con yi con i = 1, 2, ..., 7:
2
100
2
= 25 − 25 ·
100
15
= 41 − 41 ·
100
15
= 46 − 46 ·
100
y(1) = 20 − 20 ·
= 19.6
y(2)
= 24.5
y(3)
y(4)
= 34.85
= 39.1
1 CONCENTRAZIONE
7
15
= 51
100
28
= 85 − 85 ·
= 61.2
100
28
= 120 − 120 ·
= 86.4
100
y(5) = 60 − 60 ·
y(6)
y(7)
Completiamo quindi la seguente tabella, dopo aver calcolato il reddito totale dopo la
tassazione:
7
X
(dopo)
T
=
yi = 19.6 + 24.5 + 34.85 + 39.1 + 51 + 61.2 + 86.4 = 316.65.
i=1
yi
Pi = i
Qi
pi =
0
19.6
24.5
34.85
39.1
51
61.2
86.4
316.65
0
1
2
3
4
5
6
7
0
19.6
44.1
78.95
118.05
169.05
230.25
316.65
Pi
N
0
0.143
0.286
0.429
0.571
0.714
0.857
1
4
qi =
Qi
T
0
0.062
0.139
0.249
0.373
0.534
0.727
1
3.084
p i − qi
0
0.081
0.147
0.18
0.198
0.18
0.13
0
0.916
Per calcolare il rapporto di concentrazione di Gini, si utilizza la seguente formula:
R
(dopo)
N
−1
X
2
=
·
(pi − qi ).
N − 1 i=1
Dalla precedente tabella si ricava che
N
−1
X
i=1
(pi − qi ) =
N
X
(pi − qi ) = 0.916, pertanto il
i=1
rapporto di concentrazione, dopo la tassazione è dato da
R
(dopo)
N
−1
X
2
2
·
· 0.916 = 0.3053̄.
(pi − qi ) =
=
N − 1 i=1
7−1
Tale valore indica che dopo la tassazione, la concentrazione è pari al 30.53̄% del valore
massimo teorico.
Confrontando i valori assunti dal rapporto di concentrazione di Gini prima e dopo la
tassazione, si deduce che il valore della concentrazione dei redditi è diminuito dopo
la tassazione, infatti
R(prima) = 0.369 > 0.3053̄ = R(dopo) .
Osserviamo adesso che
1 CONCENTRAZIONE
8
a) se lo stato introduce un’imposta pari al 15% del reddito, i redditi dopo tale
tassazione sono equivalenti all’85% dei redditi prima della tassazione. In altre parole, per determinare i redditi dopo tale tassazione, bisogna moltiplicare
i redditi iniziali (cioè prima della tassazione) per 0.85. Tale trasformazione è
chiaramente una trasformazione di scala. Ricordando ora che un requisito di un
indice di concentrazione è l’invarianza per trasformazioni di scala, si può quindi
concludere che la concentrazione prima e dopo la tassazione resta invariata.
b) Se invece lo stato impone una tassa fissa di 5 mila euro, i redditi dopo la tassazione si ricavano sottraendo a ciascun reddito iniziale (cioè prima della tassazione) una quantità costante pari a 5 mila euro. Ricordando il requisito di un
indice di concentrazione che afferma che se tutti i valori xi vengono aumentati di
una stessa quantità h > 0, l’indice di concentrazione diminuisce (e di converso se
tutti i valori vengono diminuiti di un valore costante h > 0, l’indice aumenta),
possiamo affermare che l’applicazione di una tassa del genere porterebbe ad un
aumento della concentrazione dei redditi.
4. La rilevazione di un carattere trasferibile X ha dato luogo alla seguente distribuzione
di frequenze:
xi
ni
1
1
2
1
3
1
5
2
6
3
8
1
9
2
10
4
13
1
15
1
22
1
24
1
26
.
1
Supponendo di riclassificare il carattere X nelle classi:
0 ⊣ 3 3 ⊣ 6 6 ⊣ 10 10 ⊣ 20 20 ⊣ 30
si tracci il diagramma di Lorenz e si determini il rapporto di concentrazione con riferimento:
a) alla distribuzione originaria;
b) alla distribuzione per classi nel caso in cui si ritenga noto l’ammontare in ciascuna
classe;
c) alla distribuzione per classi nel caso in cui non si ritenga noto l’ammontare in
ciascuna classe.
Commentare i risultati.
Svolgimento
Per prima cosa, analizziamo la situazione originaria.
Completiamo perciò la seguente tabella, dopo aver calcolato:
N=
13
X
nj = 20
j=1
e
T =
13
X
j=1
xj · nj = 200.
1 CONCENTRAZIONE
9
xj
nj
x j · nj
Pj
Qj
1
2
3
5
6
8
9
10
13
15
22
24
26
Totale
1
1
1
2
3
1
2
4
1
1
1
1
1
20
1
2
3
10
18
8
18
40
13
15
22
24
26
200
1
2
3
5
8
9
11
15
16
17
18
19
20
1
3
6
16
34
42
60
100
113
128
150
174
200
xj
1
2
3
5
6
8
9
10
13
15
22
24
26
Totale
Pj
N
0.05
0.1
0.15
0.25
0.4
0.45
0.55
0.75
0.80
0.85
0.90
0.95
1
pj =
Qj
T
0.005
0.015
0.03
0.08
0.17
0.21
0.3
0.5
0.565
0.64
0.75
0.87
1
qj =
(1)
(2)
(3)
(4)
nj (pj−1 − qj−1 ) (pj − qj ) (2) + (3) (4) · (1)
1
0
0.045
0.045
0.045
1
0.045
0.085
0.13
0.13
1
0.085
0.12
0.205
0.205
2
0.12
0.17
0.29
0.58
3
0.17
0.23
0.40
1.20
1
0.23
0.24
0.47
0.47
2
0.24
0.25
0.49
0.98
4
0.25
0.25
0.50
2
1
0.25
0.235
0.485
0.485
1
0.235
0.21
0.445
0.445
1
0.21
0.15
0.36
0.36
1
0.15
0.08
0.23
0.23
1
0.08
0
0.08
0.08
20
7.21
Il diagramma di Lorenz per la distribuzione originaria è riportato in Figura (3).
1 CONCENTRAZIONE
10
q
1
0.5
0
0.5
1 p
Fig. 3: Diagramma di Lorenz per la distribuzione originaria.
É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando
la formula:
s
X
1
R =
·
[(pj−1 − qj−1 ) + (pj − qj )]nj
N − 1 j=1
13
X
1
·
[(pj−1 − qj−1 ) + (pj − qj )]nj
=
20 − 1 j=1
=
1
· 7.21 = 0.3795.
20 − 1
Tale valore indica che la concentrazione nella situazione originaria è pari al 37.95%
del valore massimo teorico.
Vediamo ora la situazione in cui il carattere è raggruppato in classi, ritenendo
noto l’ammontare in ciascuna classe.
Dopo aver determinato le frequenze per ciascuna classe, completiamo la seguente
tabella.
1 CONCENTRAZIONE
11
Ammontare
di classe
6
28
66
28
72
200
Classi
nj
0–| 3
3–| 6
6–| 10
10–| 20
20–| 30
Totale
3
5
7
2
3
20
Classi
0–| 3
3–| 6
6–| 10
10–| 20
20–| 30
Totale
(1)
(2)
nj (pj−1 − qj−1 )
3
0
5
0.12
7
0.23
2
0.25
3
0.21
20
Pj
Qj
3
8
15
17
20
6
34
100
128
200
Pj
N
0.15
0.4
0.75
0.85
1
pj =
Qj
T
0.03
0.17
0.5
0.64
1
qj =
(3)
(4)
(pj − qj ) (2) + (3) (4) · (1)
0.12
0.12
0.36
0.23
0.35
1.75
0.25
0.48
3.36
0.21
0.46
0.92
0
0.21
0.63
7.02
Il diagramma di Lorenz per la distribuzione raggruppata in classi (considerando i
totali di classe) è riportato in Figura (4).
q
1
0.5
0
0.5
1 p
Fig. 4: Diagramma di Lorenz della distribuzione raggruppata in classi, considerando noti i totali
di classe.
É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando
la formula:
5
X
1
1
·
· 7.02 = 0.36947.
[(pj−1 − qj−1 ) + (pj − qj )]nj =
R=
N − 1 j=1
20 − 1
1 CONCENTRAZIONE
12
Tale valore indica che tenendo in considerazione l’ammontare di classe, la concentrazione è pari al 36.947% del valore massimo teorico.
Vediamo ora la situazione in cui il carattere è raggruppato in classi, ritenendo
non noto l’ammontare in ciascuna classe.
l− + l+
è il valore centrale della j-esima
Completiamo la seguente tabella, in cui xj =
2
classe.
Classi
xj
nj
x j · nj
Pj
Qj
0–| 3
3–| 6
6–| 10
10–| 20
20–| 30
Totale
1.5
4.5
8
15
25
3
5
7
2
3
20
4.5
22.5
56
30
75
188
3
8
15
17
20
4.5
27
83
113
188
Classi
0–| 3
3–| 6
6–| 10
10–| 20
20–| 30
Totale
(1)
(2)
nj (pj−1 − qj−1 )
3
0
5
0.1261
7
0.2564
2
0.3085
3
0.2489
20
Pj
N
0.15
0.4
0.75
0.85
1
pj =
Qj
T
0.0239
0.1436
0.4415
0.6011
1
qj =
(3)
(4)
(pj − qj ) (2) + (3) (4) · (1)
0.1261
0.1261
0.3783
0.2564
0.3825
1.912
0.3085
0.5649
3.9543
0.2489
0.5574
1.1148
0
0.2489
0.7467
8.1061
Il diagramma di Lorenz per la distribuzione raggruppata in classi (non considerando
i totali di classe) è riportato in Figura (5).
É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando
la formula:
R=
5
X
1
1
·
· 8.1061 = 0.4266.
[(pj−1 − qj−1 ) + (pj − qj )]nj =
N − 1 j=1
20 − 1
Tale valore indica che non considerando l’ammontare di classe, la concentrazione è
pari al 42.66% del valore massimo teorico.
1 CONCENTRAZIONE
13
q
1
0.5
0
0.5
1 p
Fig. 5: Diagramma di Lorenz della distribuzione raggruppata in classi, considerando NON noti i
totali di classe.
q
1
Totali di classe noti
Totali di classe NON noti
0.5
0
0.5
1 p
Fig. 6: Confronto dei diagrammi di Lorenz, considerando noti e considerando non noti i totali di
classe.
In Figura (6) è possibile confrontare i diagrammi di Lorenz per i due casi precedentemente trattati (totali di classe noti e totali di classe non noti). Il grafico sottolinea il risultato già riscontrato: la situazione che presenta maggiore concentrazione
corrisponde a quella in cui si considerano non noti i totali di classe.
1 CONCENTRAZIONE
14
5. I clienti di un negozio alimentare sono stati classificati nelle seguenti classi di spesa:
spesa (in euro) 0 ⊣ 20
numero clienti
198
20 ⊣ 40
106
40 ⊣ 70
57
70 ⊣ 120
21
totale
.
382
Tracciare il diagramma di Lorenz e determinare un opportuno indice di concentrazione.
Svolgimento
Completiamo la seguente tabella, in cui xj =
classe.
l− + l+
è il valore centrale della j-esima
2
Classi
xj
nj
x j · nj
Pj
Qj
0–| 20
20–| 40
40–| 70
70–| 120
Totale
10
30
55
95
198
106
57
21
382
1980
3180
3135
1995
10290
198
304
361
382
1980
5160
8295
10290
Classi
0–| 3
3–| 6
6–| 10
10–| 20
20–| 30
Totale
(1)
(2)
nj (pj−1 − qj−1 )
3
0
5
0.1261
7
0.2564
2
0.3085
3
0.2489
20
Pj
N
0.5183
0.7958
0.9450
1
pj =
Qj
T
0.1924
0.5015
0.8061
1
qj =
(3)
(4)
(pj − qj ) (2) + (3) (4) · (1)
0.1261
0.1261
0.3783
0.2564
0.3825
1.912
0.3085
0.5649
3.9543
0.2489
0.5574
1.1148
0
0.2489
0.7467
8.1061
Il diagramma di Lorenz è riportato in Figura (7).
É possibile a questo punto calcolare il rapporto di concentrazione di Gini, utilizzando
la formula:
s
X
1
R =
·
[(pj−1 − qj−1 ) + (pj − qj )]nj
N − 1 j=1
5
X
1
·
=
[(pj−1 − qj−1 ) + (pj − qj )]nj
20 − 1 j=1
1
· 8.1061
20 − 1
= 0.4266.
=
1 CONCENTRAZIONE
15
q
1
0.5
0.5
0
1 p
Fig. 7: Diagramma di Lorenz.
Tale valore indica che la concentrazione è pari al 42.66% del valore massimo teorico.
6. La spesa per l’abbigliamento X, espressa in euro, di 260 famiglie, registrata nel primo
semestre 2003 è stata la seguente:
classi di spesa
numero di famiglie
totale spesa per classe
0 ⊣ 200
20
2200
200 ⊣ 400
30
8400
400 ⊣ 500
40
17600
500 ⊣ 600
50
28000
600 ⊣ 700
70
44800
Rappresentare il diagramma di Lorenz.
Calcolare inoltre il rapporto di concentrazione di Gini, utilizzando la relazione con la
differenza media semplice.
Svolgimento
Completiamo la seguente tabella, utilizzando l’informazione relativa ai totali di classe.
700 ⊣ 800
50
.
36500
1 CONCENTRAZIONE
16
Pj
N
0.077
0.192
0.346
0.538
0.808
1
pj =
Classi di spesa
nj
T otali di classe
Pj
Qj
0 ⊣ 200
200 ⊣ 400
400 ⊣ 500
500 ⊣ 600
600 ⊣ 700
700 ⊣ 800
20
30
40
50
70
50
260
2200
8400
17600
28000
44800
36500
137500
20
50
90
140
210
260
2200
10600
28200
56200
101000
137500
Qj
T
0.016
0.077
0.205
0.409
0.735
1
qj =
Possiamo adesso rappresentare il diagramma di Lorenz: è riportato in Figura (8).
q
1
0.5
0
0.5
1 p
Fig. 8: Diagramma di Lorenz per il carattere X.
Per determinare la differenza media semplice, completiamo la seguente tabella, sempre utilizzando l’informazione relativa ai totali di classe.
Classi di
spesa
0 ⊣ 200
200 ⊣ 400
400 ⊣ 500
500 ⊣ 600
600 ⊣ 700
700 ⊣ 800
Totali di classe
(= xj nj )
2200
8400
17600
28000
44800
36500
137500
nj
Cj
2Cj − N − nj
xj nj · [2Cj − N − nj ]
20
30
40
50
70
50
260
20
50
90
140
210
260
-240
-190
-120
-30
90
210
-528000
-1596000
-2112000
-840000
4032000
7665000
6621000
1 CONCENTRAZIONE
17
Calcoliamo ora la differenza media semplice, utilizzando la formula:
s
X
2
·
xj nj · (2Cj − N − nj )
∆ =
N (N − 1) j=1
6
X
2
·
=
xj nj · (2Cj − N − nj )
260 · 259 j=1
2
· 6621000
260 · 259
= 196.643.
=
Per calcolare la media aritmetica, basta calcolare:
M1 =
2200 + 8400 + 17600 + 28000 + 44800 + 36500
= 528.846.
260
Possiamo a questo punto calcolare il rapporto di concentrazione di Gini:
R=
196.643
∆
= 0.1859.
=
2M1
2 · 528.846
Tale valore indica che la concentrazione è pari al 18.59% del valore massimo teorico.
STATISTICA: esercizi svolti sulla
ASIMMETRIA
1
1 ASIMMETRIA
1
2
ASIMMETRIA
1. Il reddito annuo (in migliaia di euro) di sette individui è rispettivamente pari a 15,
20, 12, 10, 18, 30, 35. Stabilire se la distribuzione è simmetrica. In caso contrario
calcolare le asimmetrie puntuali rispetto alla mediana, fornire un indice del verso di
asimmetria.
Svolgimento
Si ricorda innanzitutto che condizione necessaria (ma non sufficiente) affinché un
insieme di valori x1 , x2 , ..., xN sia simmetrico rispetto a M è che:
M = M1 = Me .
Nel nostro caso, ordinando in senso crescente i valori dei redditi dei sette individui si
ha:
x(1) = 10; x(2) = 12; x(3) = 15; x(4) = 18; x(5) = 20; x(6) = 30; x(7) = 35 .
Essendo N = 7 dispari, si ha che:
Me = x( N+1 ) = x(4) = 18 .
2
Di seguito si calcola la media aritmetica dei sette redditi:
7
1X
140
M1 =
x(i) =
= 20 .
7 i=1
7
Dato che Me = 18 6= 20 = M1 , la condizione necessaria affinché la distribuzione
x(1) , x(2) , ..., x(7) sia simmetrica non è soddisfatta. Possiamo quindi concludere che
la distribuzione in considerazione è asimmetrica. Per indagare sulle caratteristiche
di tale asimmetria, si procede con il calcolo delle asimmetrie puntuali rispetto alla
mediana:
Aj (Me) = x(j) + x(7−j+1) − 2 · Me
j = 1, 2, ..., 7 .
A tal fine è utile il seguente prospetto:
j x(j) x(7−j+1)
1 10
35
2 12
30
3 15
20
4 18
18
5 20
15
6 30
12
7 35
10
tot 140
140
Aj (Me)
10 + 35 − 36 = +9
12 + 30 − 36 = +6
15 + 20 − 36 = −1
18 + 18 − 36 = 0
20 + 15 − 36 = −1
30 + 12 − 36 = +6
35 + 10 − 36 = +9
28
1 ASIMMETRIA
3
Quale indice del verso di asimmetria, utilizziamo la media aritmetica delle asimmetrie
puntuali:
7
28
1X
Aj (Me) =
= 4 = 2 · (M1 − Me) .
M1 {A(Me)} =
7 j=1
7
Il valore assunto dall’indice informa che le asimmetrie puntuali sono in media pari a
4. In tal caso, le asimmetrie puntuali positive prevalgono su quelle negative e di conseguenza possiamo asserire che la distribuzione dei sette redditi presenta asimmetria
positiva.
Per indagare ulteriormente sull’entità di tale asimmetria, è utile calcolare l’indice
normalizzato di asimmetria:
1≤
M1 − Me
≤1 .
SM e
Al fine di calcolare SM e , predisponiamo la seguente tabella:
xj |xj − Me|
15
3
20
2
12
6
10
8
18
0
30
12
35
17
tot
46
Si ha dunque che:
7
SM e =
1X
46
|xj − Me| =
= 6.5714 .
7 j=1
7
M1 − Me
20 − 18
=
= 0.3043 .
SM e
6.5714
Il valore dell’indice segnala una modesta asimmetria positiva, pari al 30.43% del suo
massimo valore (positivo).
1 ASIMMETRIA
4
2. Il numero di giorni di degenza in ospedale per un intervento effettuato su 8 individui
sono stati rispettivamente: 12, 9, 10, 15, 8, 13, 20, 9. Si calcolino le asimmetrie
puntuali rispetto alla mediana, si valuti il verso e l’intensità di asimmetria attraverso
opportuni indici.
Svolgimento
Ordinando in senso crescente la durata delle degenze otteniamo:
x(1) = 8; x(2) = x(3) = 9; x(4) = 10; x(5) = 12; x(6) = 13; x(7) = 15; x(8) = 20 .
Per valutare la presenza di asimmetria nella distribuzione dei giorni di degenza e
comprenderne la natura, è utile analizzare le asimmetrie puntuali. Quest’ultime
vengono ricavate agevolmente predisponendo la seguente tabella:
j x(j) x(8−j+1) x(j) + x(8−j+1) − 2 · Me = Aj (Me)
1
8
20
8 + 20 − 22 = +6
2
9
15
9 + 15 − 22 = +2
3
9
13
9 + 13 − 22 = 0
4 10
12
10 + 12 − 22 = 0
5 12
10
12 + 10 − 22 = 0
6 13
9
13 + 9 − 22 = 0
7 15
9
15 + 9 − 22 = +2
8 20
8
20 + 8 − 22 = +6
tot 96
96
16
Si ricorda che la presenza di asimmetria positiva può derivare da due differenti
situazioni:
• le asimmetrie puntuali dalla mediana sono tutte positive o nulle;
• le asimmetrie puntuali dalla mediana di segno positivo prevalgono su quelle di
segno negativo.
Nel nostro caso, la distribuzione delle 8 degenze presenta asimmetria positiva in
quanto tutte le asimmetrie puntuali sono maggiori o uguali a zero. Per valutare
l’ordine di grandezza delle asimmetrie puntuali è possibile ricorrere all’indice:
M1 {A(Me)} = 2(M1 − Me) .
Essendo N = 8 pari, si ha che:
o
1n
x( N ) + x( N +1)
2
2
2
10 + 12
1
=
x(4) + x(5) =
= 11 .
2
2
Me =
Si ha inoltre che:
8
M1
1X
96
=
xj =
= 12 .
8 j=1
8
1 ASIMMETRIA
5
Si ha dunque che:
M1 {A(Me)} = 2(M1 − Me) = 2(12 − 11) = 2.
Il valore assunto dall’indice informa che le asimmetrie puntuali sono in media pari a
2 e di conseguenza, come mostrato in precedenza, la distribuzione della durata delle
8 degenze presenta asimmetria positiva.
Per indagare ulteriormente sull’entità di tale asimmetria, è utile ricorrere all’indice
normalizzato di asimmetria:
1≤
M1 − Me
≤1 .
SM e
Al fine di calcolare SM e , predisponiamo la seguente tabella:
xj |xj − Me|
12
1
9
2
10
1
15
4
8
3
13
2
20
9
9
2
tot
24
Si ha dunque che:
8
SM e
1X
24
=
|xj − Me| =
=3 .
8 j=1
8
M1 − Me
12 − 11
=
= 0.3̄ .
SM e
3
Il valore dell’indice segnala una modesta asimmetria positiva, pari ad
massimo valore (positivo).
1
3
del suo
3. Su 7 famiglie è stato rilevato il numero X di figli e la superficie Y in m2 dell’abitazione
ottenendo i seguenti dati:
xi
yi
2
3
1
5 4 0 2
.
97 110 102 98 65 40 80
a) Si calcolino, per il carattere X, le asimmetrie puntuali dalla mediana e si valuti
il verso di asimmetria;
b) si calcolino, per il carattere Y , le asimmetrie puntuali dalla mediana e si valuti
il verso di asimmetria;
1 ASIMMETRIA
6
c) si confrontino gli indici del verso di asimmetria per le distribuzioni dei due
caratteri X e Y .
Svolgimento
Svolgimento punto a) Ordinando in senso crescente le modalità del carattere X si
ottiene:
x(1) = 0; x(2) = 1; x(3) = x(4) = 2; x(5) = 3; x(6) = 4; x(7) = 5.
La mediana del carattere X è pari a:
Me = x( 7+1 ) = x(4) = 2 .
2
Le asimmetrie puntuali relative alla distribuzione del carattere X si ricavano agevolmente predisponendo la seguente tabella:
j x(j) x(7−j+1) x(j) + x(7−j+1) − 2 · Me = Aj (Me)
1
0
5
0 + 5 − 4 = +1
2
1
4
1 + 4 − 4 = +1
3
2
3
2 + 3 − 4 = +1
4
2
2
2+2−4 =0
5
3
2
3 + 2 − 4 = +1
6
4
1
4 + 1 − 4 = +1
7
5
0
5 + 0 − 4 = +1
tot 17
17
6
Si osservi che le asimmetrie puntuali risultano essere tutte positive o nulle e di conseguenza la distribuzione del carattere X presenta asimmetria positiva. In particolare:
M1 {A(Me)} =
6
= 0.8571
7
I valori assunti da tali indici informano che, le asimmetrie puntuali sono in media
pari a 0.8571.
Svolgimento punto b) Ordinando in senso crescente le modalità osservate del carattere
Y si ottiene:
y(1) = 40; y(2) = 65; y(3) = 80; y(4) = 97; y(5) = 98; y(6) = 102; y(7) = 110.
La mediana del carattere Y è pari a:
Me = y( 7+1 ) = y(4) = 97 .
2
Le asimmetrie puntuali relative alla distribuzione del carattere Y si ricavano agevol-
1 ASIMMETRIA
7
mente predisponendo la seguente tabella:
j
1
2
3
4
5
6
7
tot
y(j) y(7−j+1) y(j) + y(7−j+1) − 2 · Me = Aj (Me)
40
110
40 + 110 − 194 = −44
65
102
65 + 102 − 194 = −27
80
98
80 + 98 − 194 = −16
97
97
97 + 97 − 194 = 0
98
80
98 + 80 − 194 = −16
102
65
102 + 65 − 194 = −27
110
40
110 + 40 − 194 = −44
592
592
−174
Si osservi che le asimmetrie puntuali risultano essere tutte negative o nulle e di
conseguenza la distribuzione del carattere Y presenta asimmetria negativa. In particolare:
−174
= −24.8571 ;
M1 {A(Me)} =
7
Il valore assunto da tale indice informa che le asimmetrie puntuali sono in media pari
a −24.8571. Vi è di conseguenza una certa asimmetria negativa.
Svolgimento punto c) Dato che l’indice 2(M1 − Me) è espresso nella stessa unità
di misura del carattere che si sta analizzando, al fine di effettuare un confronto tra
gli indici del verso di asimmetria della distribuzione del numero di figli e di quella
della superficie dell’abitazione, è necessario procedere ad una normalizzazzione. In
primo luogo si procede al calcolo dell’indice normalizzato di asimmetria nel caso della
distribuzione del carattere X:
1≤
M1 (X) − Me(X)
≤1 .
SM e(X)
Al fine di calcolare SM e(X) , predisponiamo la seguente tabella:
xj |xj − Me(X)|
2
0
3
1
1
1
5
3
4
2
0
2
2
0
tot
9
Si ha dunque che:
7
1X
9
SM e (X) =
|xj − Me(X)| =
.
7 j=1
7
M1 (X) =
2+3+1+5+4+0+2
17
=
.
7
7
1 ASIMMETRIA
8
17
−2
3
1
M1 (X) − Me(X)
7
=
= =
.
9
SM e(X)
9
3
7
Il valore dell’indice segnala una modesta asimmetria positiva, pari ad 31 del suo massimo valore.
Si procede ora al calcolo dell’indice normalizzato di asimmetria nel caso della distribuzione del carattere Y :
1≤
M1 (Y ) − Me(Y )
≤1 .
SM e(Y )
Al fine di calcolare SM e(Y ) , predisponiamo la seguente tabella:
yj |yj − Me(Y )|
97
0
110
13
102
5
98
1
65
32
40
57
80
17
tot
125
Si ha dunque che:
7
SM e(Y ) =
1X
125
|yj − Me(Y )| =
.
7 j=1
7
M1 (Y ) =
592
.
7
592
− 97
M1 (Y ) − Me(Y )
592 − 679
= 7
=
= 0.696 .
125
SM e (Y )
125
7
Il valore dell’indice segnala una buona asimmetria negativa, pari al 69.6% del suo
massimo valore (negativo).
Concludendo, la distribuzione del numero dei figli presenta asimmetria positiva mentre la distribuzione della superficie dell’abitazione presenta asimmetria negativa. Il
valore degli indici normalizzati appena ricavati infoma inoltre che la distribuzione del
numero di figli presenta un’asimmetria meno spiccata rispetto a quella che caratterizza la distribuzione della superficie dell’abitazione.
1 ASIMMETRIA
9
4. A sette teenager è stato domandato il numero di compact disc X acquistati negli
ultimi sei mesi ottenendo i seguenti valori: 15, 7, 1, 22, 35, 9, 16. Stabilire se la
distribuzione del carattere X è simmetrica e fornire un opportuno indice del verso di
asimmetria commentando i risultati.
Svolgimento
Ordinando in senso decrescete le modalità osservate del carattere X si ottiene:
x(1) = 1; x(2) = 7; x(3) = 9; x(4) = 15; x(5) = 16; x(6) = 22; x(7) = 35.
Un primo indizio sulla simmetria della distribuzione del carattere X, può essere
ottenuto confrontando i valori di media aritmetica e mediana di X. La mediana del
carattere X è data da:
Me = x( 7+1 ) = x(4) = 15 .
2
La media aritmetica del carattere X è data da:
7
1X
1 + 7 + 9 + 15 + 16 + 22 + 35
105
M1 =
xj =
=
= 15 .
7 j=1
7
7
Si osservi che M1 = Me = 15. Tale risultato fornisce un “indizio di simmetria” della
distribuzione di X. Con questo si intende dire che l’uguaglianza tra media aritmetica
e mediana non esclude la simmetria della distribuzione di X (cosa che sarebbe invece
accaduta se si fosse avuto M1 6= Me). Ciò deriva dal fatto che M1 = Me è condizione
necessaria ma non sufficiente per la simmetria della distribuzione di X. La presenza
di simmetria è invece assicurata se tutte le asimmetrie puntuali sono nulle. Nella
seguente tabella si riporta il calcolo delle asimmetrie puntuali:
j x(j) x(7−j+1) x(j) + x(7−j+1) − 2 · Me = Aj (Me)
1
1
35
1 + 35 − 30 = +6
2
7
22
7 + 22 − 30 = −1
3
9
16
9 + 16 − 30 = −5
4 15
15
15 + 15 − 30 = 0
5 16
9
16 + 9 − 30 = −5
6 22
7
22 + 7 − 30 = −1
7 35
1
35 + 1 − 30 = +6
tot 105
105
0
Come si osserva dalla tabella sopra riportata, le asimmetrie puntuali non sono tutte
nulle e di conseguenza la distribuzione del carattere X non presenta simmetria. Il
fatto che, nonostante ciò, si abbia l’uguaglianza tra media aritmetica e mediana di
X, deriva dal fatto che le asimmetrie positive bilanciano quelle negative. In questo
caso si ha:
M1 {A(Me)} = 0 .
Per avere comunque informazioni sul verso di asimmetria è necessario utilizzare
l’indice M1 {(X − Me)3 }. Al fine del calcolo di questo ultimo indice, predisponiamo
1 ASIMMETRIA
10
la seguente tabella:
x(j) x(j) − Me (x(j) − Me)3
1
−14
−2744
7
−8
−512
9
−6
−216
15
0
0
16
1
1
22
7
343
35
20
8000
tot
0
4872
Si ha dunque che:
7
M1 (X − Me)
3
4872
1X
(x(j) − Me)3 =
= 696 .
=
7 j=1
7
Il valore assunto dall’indice informa che la distribuzione del carattere X presenta una
tendenza all’asimmetria positiva.
Dato che M1 = Me, non è possibile ricorrere all’indice di asimmetria normalizzato
per ricavare ulteriori informazioni.
5. Data la seguente distribuzione di frequenze del carattere X:
xi
ni
3 5 7
2 7 4
9 11 Totale
,
3 1
17
stabilire se è simmetrica. In caso di risposta negativa calcolare un indice che fornisca
una misura del verso di asimmetria.
Svolgimento
Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio
è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria
per la simmetria: M1 = Me. Di seguito riportiamo un prospetto utile al calcolo di
Me e M1 :
xi ni xi · ni Ci
3 2
6
2
5 7
35
9
7 4
28
13
9 3
27
16
11 1
11
17
tot 17 107 −−
Si ha che:
5
1 X
107
M1 =
xi · ni =
= 6.2941 .
17 i=1
17
Me = x( 17+1 ) = x(9) = 5 .
2
1 ASIMMETRIA
11
Da quanto appena svolto emerge che M1 6= Me e di conseguenza la distribuzione di
frequenze riportata nel testo dell’esercizio non è simmetrica come suggerisce anche il
seguente grafico:
n
ni
7
4
3
2
1
3
5
7
9
11
xi
In alternativa, si ricorda che una distribuzione di frequenze di un carattere quantitativo discreto è simmetrica se per ogni c > 0, si verifica che la frequenza in corrispondenza di x = Me + c, indicata con n(Me + c), è uguale alla frequenza in corrispondenza
di x = Me − c, indicata con n(Me − c). Nel nostro caso, ad esempio, si ha:
c Me − c Me + c n(Me − c) n(Me + c) n(Me − c) − n(Me + c)
2
3
7
2
4
−2
4
1
9
0
3
−3
6
−1
11
0
1
−1
Pe qualsiasi altro valore di c la differenza n(Me − c)−n(Me+c) risulta essere pari a 0.
Come si osserva, per valori di c pari a 2, 4 e 6, le frequenze n(Me − c) e n(Me+c) non
sono identiche e di conseguenza la distribuzione in considerazione non è simmetrica.
Al fine di valutare il verso di asimmetria della distribuzione ricorriamo all’indice:
M1 {A(Me)} = 2 · (M1 − Me) = 2 · (6.2941 − 5) = 2.5882 .
Il valore assunto dall’indice informa che le asimmetrie puntuali sono in media pari
a 2.2882 e di conseguenza la distribuzione di frequenze in considerazione presenta
asimmetria positiva. Per indagare ulteriormente sull’entità di tale asimmetria, è
utile ricorrere all’indice normalizzato di asimmetria:
1≤
M1 − Me
≤1 .
SM e
1 ASIMMETRIA
12
Al fine di calcolare SM e , predisponiamo la seguente tabella:
xi ni |xi − Me| |xi − Me| · ni
3 2
2
4
5 7
0
0
7 4
2
8
9 3
4
12
11 1
6
6
tot 17
−−
30
Si ha dunque che:
5
SM e
1 X
30
=
|xi − Me|ni =
= 1.7647 .
17 i=1
17
6.2941 − 5
1.2941
M1 − Me
=
=
= 0.7333 .
SM e
1.7647
1.7647
Il valore dell’indice segnala una discreta asimmetria positiva, pari al 73.33% del suo
massimo valore.
6. Data la distribuzione del seguente carattere continuo X:
classi
freq.
0⊢2 2⊢4 4⊢6 6⊢8 8⊢9
3
4
6
9
7
9 ⊢ 10 10 ⊢ 12 12 ⊢ 14
9
8
2
Totale
,
48
stabilire se la distribuzione è simmetrica e in caso contrario fornire un indice del verso
di asimmetria.
Svolgimento
Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio
è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria
per la simmetria: M1 = Me.
Di seguito riportiamo un prospetto utile al calcolo di Me e M1 :
ni val.centr. di classe xi · ni Ci
xi
0⊢2
3
1
3
3
2⊢4
4
3
12
7
4⊢6
6
5
30
13
6⊢8
9
7
63
22
8⊢9
7
8.5
59.5 29
9 ⊢ 10 9
9.5
85.5 38
10 ⊢ 10 8
11
88
46
12 ⊢ 12 2
13
26
48
tot
48
−−
367 −−
classi
1 ASIMMETRIA
13
Alla luce di ciò si ha che:
8
367
1 X
xi · ni =
= 7.6458 .
M1 =
48 i=1
48
Per quanto riguara il calcolo della mediana si ha che
48 + 1
N +1
=
= 24.5
2
2
e dunque la classe mediana è 8 ⊢ 9. Il valore della mediana è dato quindi dato da:
Me = 8 + [24.5 − 22 − 0.5] ·
1
= 8 + 0.2857 = 8.2857 .
7
Si osservi che M1 6= Me e di conseguenza la distribuzione di frequenze riportata nel
testo dell’esercizio non è simmetrica.
In alternativa, la simmetria della distribuzione di X può essere verificata ricordando
che la distribuzione di un carattere quantitativo continuo, come quello che stiamo
analizzando, è simmetrica se per ogni c > 0, si verifica che la frequenza specifica
in corrispondenza di x = Me − c, indicata con fs (Me − c), è uguale alla frequenza
specifica in corrispondenza di x = Me + c, indicata con fs (Me + c). Il calcolo delle
frequenze specifiche è riportato nella seguente tabella:
classe ni ampiezza di classe fs
0⊢2
3
2
1.5
2⊢4
4
2
2
4⊢6
6
2
3
6⊢8
9
2
4.5
8⊢9
7
1
7
9 ⊢ 10 9
1
9
10 ⊢ 12 8
2
4
12 ⊢ 14 2
2
1
Si osservi che, per c = 2, si ha:
fs (Me + 2) = fs (10.2857) = 4 ;
fs (Me − 2) = fs (6.2857) = 4.5 .
Dato che fs (Me + 2) 6= fs (Me − 2), si ha che la distribuzione fornita dal testo
dell’esercizio non è simmetrica.
L’asimmetria della distribuzione in considerazione è osservabile anche dal grafico della
distribuzione di frequenza che di seguito riportiamo.
1 ASIMMETRIA
14
fs
9
7
4,5
4
3
2
1.5
1
2
4
6
8
9
10
12
14
x
Al fine di valutare il verso di asimmetria della distribuzione in considerazione, si
utilizza l’indice:
2 · (M1 − Me) = 2 · (7.6458 − 8.2857) = 2 · (−0.6399) = −1.2798 .
Il valore assunto dall’indice informa che la distribuzione in considerazione presenta
asimmetria negativa come osservabile dal grafico riportato in precedenza.
1 ASIMMETRIA
15
7. Data la distribuzione del seguente carattere continuo X:
classi
freq.
0 ⊣ 6 6 ⊣ 8 8 ⊣ 10 10 ⊣ 12 12 ⊣ 14 14 ⊣ 16 16 ⊣ 22
4
15
26
40
32
6
7
Totale
,
130
stabilire se la distribuzione è simmetrica.
Svolgimento
Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio
è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria
per la simmetria: M1 = Me. Di seguito riportiamo un prospetto utile al calcolo di
Me e M1 e contenente altre informazioni che saranno utili nel seguito:
classi
0⊣6
6⊣8
8 ⊣ 10
10 ⊣ 12
12 ⊣ 14
14 ⊣ 16
16 ⊣ 22
tot
ampiezza ni val.centr. di classe xi · ni
di classe
xi
6
4
3
12
2
15
7
105
2
26
9
234
2
40
11
440
2
32
13
416
2
6
15
90
6
7
19
133
−−
130
−−
1430
Ci
fs
4
0.66
19
7.5
45
13
85
20
117 16
123
3
130 1.166
−− −−
Alla luce di ciò si ha che:
7
1 X
1430
M1 =
xi · ni =
= 11 .
130 i=1
130
Per quanto riguara il calcolo della mediana si ha che
130 + 1
N +1
=
= 65.5
2
2
e dunque la classe mediana è 10 ⊢ 12. Il valore della mediana è dato da:
Me = 10 + [65.5 − 45 − 0.5] ·
2
= 10 + 1 = 11 .
40
Si osservi che M1 = Me = 11. Tale risultato, fornisce solo un “indizio di simmetria”
della distribuzione senza permetterci di concludere che la stessa è simmetrica. Ciò
deriva dal fatto che M1 = Me è condizione necessaria ma non sufficiente per la
simmetria di una distribuzione.
Per verificare l’effettiva presenza di simmetria, si ricorda che la distribuzione di un
carattere quantitativo continuo, come quello che stiamo analizzando, è simmetrica se
per ogni c > 0, si verifica che la frequenza specifica in corrispondenza di x = Me − c,
indicata con fs (Me − c), è uguale alla frequenza specifica in corrispondenza di x =
1 ASIMMETRIA
16
Me + c, indicata con fs (Me + c).
Si scelga, ad esempio, c = 2. In tal caso si ha che:
fs (11 − 2) = fs (9) = 13 ;
fs (11 + 2) = fs (13) = 16 .
Dato che fs (Me − 2) 6= fs (Me + 2), si ha che la distribuzione fornita dal testo
dell’esercizio non è simmetrica. L’asimmetria della distribuzione in considerazione è
osservabile anche guardando il grafico della distribuzione di frequenza che di seguito
riportiamo.
fs
20
16
13
7,5
3
1,166
0.66
6
8
10 12 14
16
22
x
1 ASIMMETRIA
17
8. I clienti di un negozio alimentare sono stati classificati secondo la spesa (in euro)
ottenendo i seguenti dati:
classi di spesa
freq.
totale spesa
0 ⊣ 20 20 ⊣ 40 40 ⊣ 70 70 ⊣ 120 Totale
198
106
57
21
382 .
3564
2491
3135
2100
11290
Stabilire se la distribuzione è simmetrica e in caso contrario fornire un indice del
verso di asimmetria.
Svolgimento
Al fine di verificare se la distribuzione di frequenze riportata nel testo dell’esercizio
è simmetrica, verifichiamo innanzitutto che sia soddisfatta la condizione necessaria
per la simmetria: M1 = Me. Di seguito riportiamo un prospetto utile al calcolo di
Me e M1 :
classi
ni tot. classe (ti ) Ci
0 ⊣ 20 198
3564
198
20 ⊣ 40 106
2491
304
40 ⊣ 70 57
3135
361
70 ⊣ 120 21
2100
382
tot
382
11290
−−
Alla luce di ciò si ha che:
11290
= 29.555 .
382
Per quanto riguarda il calcolo della mediana si ha che
M1 =
N +1
383
=
= 191.5
2
2
e dunque la classe mediana è 0 ⊢ 20. Il valore della mediana è dato da:
Me = 0 + [191.5 − 0 − 0.5] ·
20
= 19.293 .
198
Dato che M1 6= Me, la distribuzione della spesa dei clienti del negozio di alimentari
è asimmetrica. Si ha inoltre che:
2 · (M1 − Me) = 2 · (29.555 − 19.293) = 2 · 10.262 = 20.524 .
Di conseguenza la distribuzione della spesa dei clienti del negozio di alimentari presenta asimmetria positiva. Per indagare ulteriormente sull’entità di tale asimmetria,
è utile calcolare l’indice normalizzato di asimmetria:
1≤
M1 − Me
≤1 .
SM e
1 ASIMMETRIA
18
Al fine di calcolare SM e , predisponiamo la seguente tabella:
classi
ni
0 ⊣ 20 198
20 ⊣ 40 106
40 ⊣ 70 57
70 ⊣ 120 21
tot
382
tot. classe (ti ) xi =
3564
2491
3135
2100
11290
ti
|xi − Me| |xi − Me| · ni
ni
18
23.5
55
100
196.5
1.293
4.207
35.707
80.707
256.014
445.942
2035.299
1694.847
4432.102
Si ha dunque che:
4
SM e
1 X
4432.102
=
|xi − Me| · ni =
= 11.6024
382 i=1
382
M1 − Me
29.555 − 19.293
=
= 0.8845.
SM e
11.6024
Il valore dell’indice segnala una elevata asimmetria positiva, pari all’88.45% del suo
massimo valore (positivo).
Fly UP