...

Dipendenza in media - Scuola di Economia e Statistica

by user

on
Category: Documents
18

views

Report

Comments

Transcript

Dipendenza in media - Scuola di Economia e Statistica
STATISTICA: esercizi svolti sulla
DIPENDENZA IN MEDIA
1
1 LA DIPENDENZA IN MEDIA
1
2
LA DIPENDENZA IN MEDIA
1. La popolazione in migliaia di unità occupata in Piemonte nel 1985 per reddito annuo
Y (migliaia di euro) e per settore di attività economica A è riportata nella seguente
tabella:
Settore
Reddito
Fino a 15
15 a 30
30 a 45
45 a 65
Totale
Agricoltura
50
90
20
1
161
Industria
116
140
200
280
736
Altre attività
Totale
326
471 .
480
481
1758
160
241
260
200
861
a) Determinare la media aritmetica e la varianza per ciascuna distribuzione parziale
del reddito assumendo 10 come valore centrale per la classe di reddito Fino a
15 ;
b) determinare media e varianza del reddito per la distribuzione totale e verificare la
proprietà associativa della media aritmetica e la scomposizione della varianza;
c) esiste indipendenza in media di Y da A? In caso di risposta negativa fornire una
misura del grado di dipendenza e commentare.
Svolgimento
Svolgimento punto a) Nella seguente tabella riportiamo i calcoli utili per ricavare le
medie parziali del carattere “Reddito Annuo”:
Reddito
(valori centrali)
yi
10
22.5
37.5
55
Totale
Agricoltura
Industria
ni1 yi · ni1
50
500
90
2025
20
750
1
55
161 3330
ni2 yi · ni2
116 1160
140 3150
200 7500
280 15400
736 27210
Altre Attività
ni3
160
241
260
200
861
yi · ni3
1600
5422.5
9750
11000
27772.5
Le medie parziali del carattere “Reddito Annuo” risultano essere:
3330
• ȳ1 =
= 20.68: la popolazione piemontese occupata nel settore agricolo,
161
durante l’anno 1985, ha avuto un reddito medio annuo pari a 20.68 migliaia di
euro. Più precisamente 20.68 indica il reddito annuo che sarebbe spettato, nel
1985, a ciascun agricoltore se il reddito annuo totale degli agricoltori fosse stato
suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun agricoltore
avesse avuto lo stesso reddito;
1 LA DIPENDENZA IN MEDIA
3
27210
• ȳ2 =
= 36.97: la popolazione piemontese occupata nel settore industriale,
736
durante l’anno 1985, ha avuto un reddito medio annuo pari a 36.97 migliaia di
euro. Più precisamente 36.97 indica il reddito annuo che sarebbe spettato nel
1985 ad un impiegato nell’indistria, se il reddito annuo totale degli impiegati in
questo settore fosse stato suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi
in cui ciascun occupato nell’industria avesse avuto lo stesso reddito;
27772.5
= 32.26: la popolazione piemontese occupata in altre attività,
• ȳ3 =
861
durante l’anno 1985, ha avuto un reddito medio annuo pari a 32.26 migliaia
di euro. Più precisamente 32.26 indica il reddito annuo che sarebbe spettato
nel 1985 ad un impiegato nelle altre attività, se il reddito annuo totale degli
impiegati in questi settori fosse stato suddiviso in parti uguali tra gli stessi,
ossia nell’ipotesi in cui ciascun occupato in altre attività avesse avuto lo stesso
reddito.
Osserviamo che i salari medi variano al mutare dell’attività economica svolta. Possiamo dunque concludere che il “Reddito Annuo” non è indipendente in media dal
“Settore di Attività Economica”.
Calcoliamo le varianze delle distribuzioni parziali utilizzando il metodo indiretto:
σj2
4
1 X 2
yi · nij − ȳj2
=
n.j i=1
j = 1, 2, 3.
Al fine di agevolare i calcoli, predisponiamo la seguente tabella:
Reddito
(valori centrali)
yi
10
22.5
37.5
55
Totale
Agricoltura
Industria
yi2
yi2
ni1
50
90
20
1
161
· ni1
5000
45562.5
28125
3025
81712.5
ni2
116
140
200
280
736
· ni2
11600
70875
281250
847000
1210725
Le varianze parziali risultano essere:
σ12 =
σ22 =
σ32 =
81712.5
− 20.682 = 79.74
161
1210725
− 36.972 = 278.22
736
1108631.25
− 32.262 = 247.15
861
Altre Attività
ni3
160
241
260
200
861
yi2 · ni3
16000
122006.25
365625
605000
1108631.25
1 LA DIPENDENZA IN MEDIA
4
Svolgimento punto b) La seguente tabella riporta i conti che facilitano il calcolo della
media e della varianza dell’intera popolazione:
yi
ni.
yi · ni.
yi2 · ni.
10
326
3260
32600
22.5
471 10597.5 238443.75
37.5
480 18000
675000
55
481 26455
1455025
T otale 1758 58312.5 2401068.75
Il reddito medio aritmetico per l’intera popolazione risulta essere:
4
1 X
ȳ =
yi · ni.
N i=1
58312.5
= 33.17
1758
La popolazione piemontese occupata, nel 1985, ha avuto un reddito medio pari a
33.17 migliaia di euro. Più precisamente 33.17 indica il reddito che sarebbe spettato
nel 1985 ad un occupato in Piemonte, se il reddito totale degli occupati fosse stato
suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun occupato avesse
avuto lo stesso reddito.
Di seguito calcoliamo il valore di ȳ sfuttando la proprietà associativa della media
aritmetica:
=
3
1 X
ȳj · n.j
ȳ =
N j=1
1
[(20.68 · 161) + (36.97 · 736) + (32.26 · 861)]
1758
= 33.17
=
Il valore appena ricavato coincide con quanto calcolato in precedenza e la proprietà
associativa della media aritmetica risulta così verificata.
La varianza della popolazione totale (calcolata con il metodo indiretto) risulta essere:
σ
2
4
1 X 2
y · ni . − ȳ 2
=
N i=1 i
2401068.75
− 33.172 = 265.56 .
1758
Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi:
=
DN
N
3
1 X 2
=
σ · n.j
N j=1 j
1
[(79.74 · 161) + (278.22 · 736) + (247.15 · 861)]
1758
= 244.83 .
=
1 LA DIPENDENZA IN MEDIA
5
La varianza tra le medie parziali risulta essere:
DF
N
=
3
1 X
(ȳj − ȳ)2 · n.j
N j=1
1
[(20.68 − 33.17)2 · 161 + (36.97 − 33.17)2 · 736 + (32.26 − 33.17)2 · 861]
1758
36456.85
=
= 20.74 .
1758
=
La varianza totale risulta di conseguenza pari a
DT
N
DN
DF
+
N
N
= 244.83 + 20.74 = 265.57
=
che coincide con quanto ricavato in precedenza.
Svolgimento punto c) Come già osservato, dato che le medie parziali del reddito variano al mutare del settore di attività economica, possiamo concludere che il “Reddito
Annuo” non è indipendente in media dal “Settore di Attività Economica”.
Dato che nel caso di indipendenza in media si ha ȳ1 = ȳ2 = ȳ3 = ȳ, al fine di quantificare l’allontanamento dall’indipendenza in media è del tutto naturale utilizzare un
indice basato sugli scarti |ȳi − ȳ|. Uno di questi indici è:
) 21
3
1 X
(|ȳj − ȳ|)2 · n.j
M2 (|ȳj − ȳ|) =
N j=1
r
√
DF
=
= 20.74 = 4.55
N
(
Il valore assunto dall’indice informa che, mediamente, le medie parziali differiscono
dalla media totale di 4.55 migliaia di euro.
Al fine di valutare il grado di dipendenza in media, utilizziamo il rapporto di correlazione di K. Pearson:
2
η(Y
/A)
DF
DF
=
= N
DT
DT
N
20.74
=
= 0.078 .
265.57
Il valore dell’indice informa che la variabilità fra le medie parziali, rappresenta il
7.8% della variabilità totale. L’indice è pari al 7.8% del suo massimo valore assumibile (corrispondente al caso di massima connessione) e ci permette di concludere che
il carattere “Reddito Annuo” è debolmente dipendente in media dal carattere “Settore
di Attività Economica”.
1 LA DIPENDENZA IN MEDIA
6
2. La seguente tabella riporta i dati relativi a 74 alberghi di una nota località sciistica
classificati in base al numero di stanze (carattere X) e alla categoria (carattere Y ):
Categoria
Stanze
Fino a 10
11 `a 20
oltre 20
Alta
Bassa
10
16
5
15
20
8
.
a) Calcolare le medie e le varianze totali e parziali del carattere X verificando la
proprietà associativa della media aritmetica e la scomposizione della varianza;
b) calcolare le distribuzioni condizionate di frequenze relative del carattere X e
stabilire, in base ad esse, se esiste indipendenza distributiva tra i due caratteri;
c) fornire un indice che valuti il grado di dipendenza in media del carattere X dal
carattere Y .
Svolgimento
Al fine di calcolare la media e la varianza del carattere X, supponiamo di chiudere
le classi “Fino a 10” e “oltre 20” rispettivamente con i valori 1 e 30, ottenendo così le
classi:
1 `a 10
e
21 `a 30 .
Sulla base di queste ipotesi è possibile ricavare i valori centrali di ciascuna delle classi
in cui sono raggrupate le modalità di X. Il loro valore, insieme ad altri calcoli, è
riportato nella seguente tabella:
Stanze
(valori centrali)
xi
5.5
15.5
25.5
Totale
Alta
ni1
10
16
5
31
xi · ni1
55
248
127.5
430.5
Bassa
x2i · ni1
302.5
3844
3251.25
7397.75
ni2
15
20
8
43
xi · ni2
82.5
310
204
596.5
Totale
x2i · ni2
453.75
4805
5202
10460.75
ni·
25
36
13
74
xi · ni·
137.5
558
331.5
1027
x2i · ni·
756.25
8649
8453.25
17858.5
La media aritmetica del carattere X è data da:
3
1 X
x̄ =
xi · ni.
N i=1
=
1027
= 13.878 .
74
In media, i 74 alberghi hanno 13.878 stanze. Più precisamente 13.878 indica il numero
ipotetico di stanze di ogni albergo nell’ipotesi in cui tutti gli alberghi avessero un
1 LA DIPENDENZA IN MEDIA
7
ugual numero di stanze (a parità del numero totale delle stesse).
Calcoliamo a questo punto le medie parziali del carattere X.
x̄1
3
1 X
xi · ni1
=
n.1 i=1
=
430.5
= 13.887 .
31
In media, i 31 alberghi di alta categoria hanno 13.887 stanze. Più precisamente 13.887
indica il numero ipotetico di stanze di ogni albergo di alta categoria nell’ipotesi in
cui tutti gli alberghi di questa categoria avessero un ugual numero di stanze (a parità
del numero totale delle stesse all’interno della categoria in considerazione).
x̄2
3
1 X
=
xi · ni2
n.2 i=1
=
596.5
= 13.872 .
43
In media, i 43 alberghi di bassa categoria hanno 13.872 stanze. Più precisamente
13.872 indica il numero ipotetico di stanze di ogni albergo di bassa categoria nell’ipotesi in cui tutti gli alberghi di questa categoria avessero un ugual numero di
stanze (a parità del numero totale delle stesse all’interno della categoria in considerazione).
Verifichiamo la proprietà associativa della media aritmetica:
x̄ =
=
2
1 X
x̄j · n.j
N j=1
(13.887 · 31) + (13.872 · 43)
= 13.878
74
che coincide con quanto ricavato in precedenza.
La varianza del carattere X è data da:
σ2 =
=
3
1 X 2
x · ni. − x̄2
N i=1 i
17858.5
− 13.8782 = 48.732 .
74
Le varianze parziali del carattere X risultano essere:
σ12
3
1 X 2
=
xi · ni1 − x̄21
n.1 i=1
=
7397.75
− 13.8872 = 45.788 .
31
1 LA DIPENDENZA IN MEDIA
8
σ22
3
1 X 2
=
xi · ni2 − x̄22
n.2 i=1
=
10460.75
− 13.8722 = 50.841 .
43
Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi:
DN
N
2
1 X 2
=
σ · n.j
N j=1 j
=
(45.788 · 31) + (50.841 · 43)
= 48.724 .
74
Calcoliamo la varianza tra le medie parziali:
DF
N
2
1 X
=
(x̄j − x̄)2 · n.j
N j=1
(13.887 − 13.878)2 · 31 + (13.872 − 13.878)2 · 43
=
74
∼
= 0 .
La varianza totale risulta di conseguenza pari a:
DT
N
DN
DF
=
+
N
N
∼
= 48.724 .
σ2 =
La discrepanza tra il valore appena ottenuto e quello ricavato in precedenza, è attribuibile ad approssimazioni e possiamo dunque ritenere verificata la scomposizione
della varianza.
Svolgimento punto b) Le distribuzioni condizionate di frequenze relative del carattere
X sono riportate nella seguente tabella:
Categoria
Stanze
Fino a 10
11 `a 20
oltre 20
tot
Alta
Bassa
0.323
0.516
0.161
1
0.349
.
0.465
0.186
1
Dato che, se i due caratteri in considerazione fossero indipendenti in distribuzione, le
distribuzioni condizionate di fequenze relative sarebbero identiche, si può concludere
che tra i caratteri X e Y non vi è indipendenza distributiva.
Svolgimento punto c) Le medie parziali del carattere X calcolate in precedenza non
1 LA DIPENDENZA IN MEDIA
9
sono identiche e di conseguenza X non è indipendente in media da Y . Tuttavia il
loro valore è molto simile e ciò è indice del fatto che il grado di dipendenza in media
di X da Y dovrebbe essere basso. Al fine di valutare oggettivamente il grado di
dipendenza in media, utilizziamo il rapporto di correlazione di K. Pearson:
2
η(X/Y
)
DF
DF
0 ∼
=
= N ∼
=
=0 .
DT
DT
48.732
N
Il valore assunto dall’indice è approssimativamente pari a 0 e vale a dire al valore che
lo stesso assumerebbe nel caso in cui X fosse indipendente in media da Y . Il valore
assunto dall’indice informa che il grado di dipendenza in media è basso a tal punto
che X può sostanzialmente ritenersi indipendente in media da Y .
3. Mille alunni di una scuola superiore sono stati classificati in base al rendimento
scolastico, X, ed al numero di libri extra-scolastici letti, Y . Da tale rilevazione è
emerso quanto segue:
• il 70% degli alunni ha un rendimento medio-basso; di questi il 60% legge in
media due libri, il 30% ne legge in media 3 ed il restante 10% ne legge in media
4;
• il 30% degli alunni ha un rendimento medio-alto; di questi il 20% legge in media
due 3 libri, il 40% ne legge in media 4 e un altro 40% ne legge in media 5.
a) Costruire la distribuzione congiunta delle frequenze assolute dei due caratteri, X
e Y;
b) senza effettuare calcoli, dire se esiste indipendenza distributiva fra Y ed X e
motivare la risposta;
c) verificare se esiste indipendenza in media di Y da X e in caso di risposta negativa
valutare il grado di dipendenza in media attraverso un indice adeguato.
Svolgimento
Svolgimento punto a) Dalle informazioni che vengono fornite dal testo dell’esercizio
abbiamo che che:
• il numero totale di studenti classificati è N = 1000;
• il carattere “Rendimento Scolastico” assume le due modalità medio-basso (MB)
e medio-alto (MA);
30
70
= 700
e
n(M A) = 1000 ·
= 300;
• n(M B) = 1000 ·
100
100
• il carattere “N◦ di libri extrascolastici mediamente letti ogni mese” assume le
modalità {2; 3; 4; 5};
60
60
• n(M B, 2) = n(M B)
= 700 ·
= 420;
100
100
1 LA DIPENDENZA IN MEDIA
10
30
30
= 700 ·
= 210;
100
100
10
10
• n(M B, 4) = n(M B)
= 700 ·
= 70;
100
100
• n(M B, 5) = 0;
• n(M B, 3) = n(M B)
• n(M A, 2) = 0;
20
20
= 300 ·
= 60;
100
100
40
40
= 300 ·
= 120;
• n(M A, 4) = n(M A)
100
100
40
40
• n(M A, 5) = n(M A)
= 300 ·
= 120.
100
100
I risultati appena ottenuti sono riportati nella seguente tabella di contingenza:
• n(M A, 3) = n(M A)
X\Y
MB
MA
Totale
2
420
0
420
3
210
60
270
4
70
120
190
5
0
120
120
Totale
700
.
300
1000
Svolgimento punto b) Si osservi che, nella precedente tabella, le coppie di modalità
(M B, 5) e (M A, 2) hanno una frequenza congiunta pari a zero. Osserviamo inoltre
che, ad esempio, n(M B) 6= 0 e n(5) 6= 0. Di conseguenza
n(M B) · n(5)
6= 0.
N
Nel caso della coppia di modalità (M B, 5), la frequenza congiunta osservata n(M B, 5)
non coincide con la frequenza congiunta teorica del caso di indipendenza distributiva
n̂(M B, 5). Possiamo quindi concludere che i caratteri X e Y non sono indipendenti
in distribuzione.
Svolgimento punto c) Al fine di verificare se esite indipendenza in media di Y da X,
calcoliamo le medie parziali di Y.
n̂(M B, 5) =
(2 · 420) + (3 · 210) + (4 · 70) + 0
= 2.5 ;
700
0 + (3 · 60) + (4 · 120) + (5 · 120)
ȳ(M A) =
= 4.2; .
300
(2 · 420) + (3 · 270) + (4 · 190) + (5 · 120)
ȳ =
= 3.01 ;
1000
Dato che le medie parziali del carattere Y non sono uguali, il carattere Y non è indipendente in media dal carattere X. Al fine di quantificare il grado della dipendenza
in media di Y da X, calcoliamo il rapporto di correlazione di K.Pearson. Preliminarmente al calcolo di quest’indice, è necessario ricavare i valori della devianza totale e
della devianza fra le medie parziali. Quest’ultima è data da:
ȳ(M B) =
DF = (2.5 − 3.1)2 · 700 + (4.2 − 3.01)2 · 300
= 606.9 .
1 LA DIPENDENZA IN MEDIA
11
La devianza totale è data da:
DT = [(2)2 · 420 + (3)2 · 270 + (4)2 · 190 + (5)2 · 120] − (3.01)2 · 1000
= 10150 − 9060.1 = 1089.9 .
Il rapporto di correlazione di K.Pearson, di conseguenza, risulta:
DF
DT
606.9
= 0.5568 .
=
1089.9
Il valore dell’indice informa che la variabilità fra le medie parziali, rappresenta il
55.68% della variabilità totale. L’indice è pari al 55.68% del suo massimo valore
assumibile (corrispondente al caso di massima connessione) e di conseguenza vi è un
buon grado di dipendenza in media del carattere Y dal carattere X .
2
η(Y
/X) =
4. La rilevazione congiunta su 190 famiglie del livello di reddito familiare annuo, X, e
della spesa annua (in migliaia di euro) destinata a viaggi e vacanze, Y , ha fornito il
seguente risultato:
X\Y
Basso
Medio
Alto
Totale
0a2
45
20
0
65
2a5
20
35
20
75
5a7
5
10
35
50
Totale
70
65 .
55
190
a) Valutare, qualora possibile, il grado di dipendenza in media di Y da X e quella
di X da Y attraverso un adeguato indice.
b) Stabilire senza effettuare calcoli se i caratteri X e Y possono ritenersi indipendenti
in distribuzione.
Svolgimento
Svolgimento punto a) Osserviamo innanzitutto che non è possibile valutare il grado di
dipendenza in media di X da Y in quanto il carattere X è qualitativo. Concentriamo
quindi l’attenzione sullo studio della dipendenza in media di Y da X. A tal fine
verifichiamo se Y è indipendente in media da X confrontando i valori delle medie
parziali di Y. Per facilitare il loro calcolo, predisponiamo la seguente tabella:
Y
(valori centrali)
yi
1
3.5
6
Totale
Basso
ni1
45
20
5
70
yi · ni1
45
70
30
145
Medio
ni2
20
35
10
65
yi · ni2
20
122.5
60
202.5
Alto
ni3
0
20
35
55
yi · ni3
0
70
210
280
Totale
ni· yi · ni·
65
65
75 262.5
50
300
190 627.5
1 LA DIPENDENZA IN MEDIA
12
Le medie parziali del carattere Y sono date da:
ȳ1 =
145
= 2.07
70
202.5
= 3.11
65
280
ȳ3 =
= 5.09
55
627.5
= 3.30
ȳ =
190
Come possiamo osservare, le medie parziali non sono tra loro uguali e di conseguenza
Y non è indipendente in media da X. A questo punto è interessante valutare il grado
della dipendenza in media di Y da X. A tal fine calcoliamo il rapporto di correlazione
di K.Pearson. Preliminarmente al calcolo di quest’indice, è necessario ricavare i valori
della devianza totale e della devianza fra le medie parziali. Quest’ultima è data da:
ȳ2 =
DF = (2.07 − 3.3)2 · 70 + (3.11 − 3.3)2 · 65 + (5.09 − 3.3)2 · 55
= 105.90 + 2.35 + 176.23 = 284.48 .
La devianza totale è data da:
DT = (1 − 3.3)2 · 65 + (3.5 − 3.3)2 · 75 + (6 − 3.3)2 · 50
= 343.85 + 3.00 + 364.50 = 711.35 .
Il rapporto di correlazione di K.Pearson è di conseguenza dato da:
DF
DT
284.48
=
= 0.3999 .
711.35
2
η(Y
/X) =
Il valore dell’indice informa che la variabilità fra le medie parziali rappresenta il
39.99% della variabilità totale. L’indice è pari al 39.99% del suo massimo valore
assumibile (corrispondente al caso di massima connessione) e di conseguenza vi è un
contenuto grado di dipendenza in media del carattere Y dal carattere X .
Svolgimento punto b) Tra i caratteri in considerazione non vi è indipendenza distributiva in quanto Y non è indipendente in media da X.
Fly UP