Dipendenza in media - Scuola di Economia e Statistica
by user
Comments
Transcript
Dipendenza in media - Scuola di Economia e Statistica
STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA 1 1 LA DIPENDENZA IN MEDIA 1 2 LA DIPENDENZA IN MEDIA 1. La popolazione in migliaia di unità occupata in Piemonte nel 1985 per reddito annuo Y (migliaia di euro) e per settore di attività economica A è riportata nella seguente tabella: Settore Reddito Fino a 15 15 a 30 30 a 45 45 a 65 Totale Agricoltura 50 90 20 1 161 Industria 116 140 200 280 736 Altre attività Totale 326 471 . 480 481 1758 160 241 260 200 861 a) Determinare la media aritmetica e la varianza per ciascuna distribuzione parziale del reddito assumendo 10 come valore centrale per la classe di reddito Fino a 15 ; b) determinare media e varianza del reddito per la distribuzione totale e verificare la proprietà associativa della media aritmetica e la scomposizione della varianza; c) esiste indipendenza in media di Y da A? In caso di risposta negativa fornire una misura del grado di dipendenza e commentare. Svolgimento Svolgimento punto a) Nella seguente tabella riportiamo i calcoli utili per ricavare le medie parziali del carattere “Reddito Annuo”: Reddito (valori centrali) yi 10 22.5 37.5 55 Totale Agricoltura Industria ni1 yi · ni1 50 500 90 2025 20 750 1 55 161 3330 ni2 yi · ni2 116 1160 140 3150 200 7500 280 15400 736 27210 Altre Attività ni3 160 241 260 200 861 yi · ni3 1600 5422.5 9750 11000 27772.5 Le medie parziali del carattere “Reddito Annuo” risultano essere: 3330 • ȳ1 = = 20.68: la popolazione piemontese occupata nel settore agricolo, 161 durante l’anno 1985, ha avuto un reddito medio annuo pari a 20.68 migliaia di euro. Più precisamente 20.68 indica il reddito annuo che sarebbe spettato, nel 1985, a ciascun agricoltore se il reddito annuo totale degli agricoltori fosse stato suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun agricoltore avesse avuto lo stesso reddito; 1 LA DIPENDENZA IN MEDIA 3 27210 • ȳ2 = = 36.97: la popolazione piemontese occupata nel settore industriale, 736 durante l’anno 1985, ha avuto un reddito medio annuo pari a 36.97 migliaia di euro. Più precisamente 36.97 indica il reddito annuo che sarebbe spettato nel 1985 ad un impiegato nell’indistria, se il reddito annuo totale degli impiegati in questo settore fosse stato suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun occupato nell’industria avesse avuto lo stesso reddito; 27772.5 = 32.26: la popolazione piemontese occupata in altre attività, • ȳ3 = 861 durante l’anno 1985, ha avuto un reddito medio annuo pari a 32.26 migliaia di euro. Più precisamente 32.26 indica il reddito annuo che sarebbe spettato nel 1985 ad un impiegato nelle altre attività, se il reddito annuo totale degli impiegati in questi settori fosse stato suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun occupato in altre attività avesse avuto lo stesso reddito. Osserviamo che i salari medi variano al mutare dell’attività economica svolta. Possiamo dunque concludere che il “Reddito Annuo” non è indipendente in media dal “Settore di Attività Economica”. Calcoliamo le varianze delle distribuzioni parziali utilizzando il metodo indiretto: σj2 4 1 X 2 yi · nij − ȳj2 = n.j i=1 j = 1, 2, 3. Al fine di agevolare i calcoli, predisponiamo la seguente tabella: Reddito (valori centrali) yi 10 22.5 37.5 55 Totale Agricoltura Industria yi2 yi2 ni1 50 90 20 1 161 · ni1 5000 45562.5 28125 3025 81712.5 ni2 116 140 200 280 736 · ni2 11600 70875 281250 847000 1210725 Le varianze parziali risultano essere: σ12 = σ22 = σ32 = 81712.5 − 20.682 = 79.74 161 1210725 − 36.972 = 278.22 736 1108631.25 − 32.262 = 247.15 861 Altre Attività ni3 160 241 260 200 861 yi2 · ni3 16000 122006.25 365625 605000 1108631.25 1 LA DIPENDENZA IN MEDIA 4 Svolgimento punto b) La seguente tabella riporta i conti che facilitano il calcolo della media e della varianza dell’intera popolazione: yi ni. yi · ni. yi2 · ni. 10 326 3260 32600 22.5 471 10597.5 238443.75 37.5 480 18000 675000 55 481 26455 1455025 T otale 1758 58312.5 2401068.75 Il reddito medio aritmetico per l’intera popolazione risulta essere: 4 1 X ȳ = yi · ni. N i=1 58312.5 = 33.17 1758 La popolazione piemontese occupata, nel 1985, ha avuto un reddito medio pari a 33.17 migliaia di euro. Più precisamente 33.17 indica il reddito che sarebbe spettato nel 1985 ad un occupato in Piemonte, se il reddito totale degli occupati fosse stato suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun occupato avesse avuto lo stesso reddito. Di seguito calcoliamo il valore di ȳ sfuttando la proprietà associativa della media aritmetica: = 3 1 X ȳj · n.j ȳ = N j=1 1 [(20.68 · 161) + (36.97 · 736) + (32.26 · 861)] 1758 = 33.17 = Il valore appena ricavato coincide con quanto calcolato in precedenza e la proprietà associativa della media aritmetica risulta così verificata. La varianza della popolazione totale (calcolata con il metodo indiretto) risulta essere: σ 2 4 1 X 2 y · ni . − ȳ 2 = N i=1 i 2401068.75 − 33.172 = 265.56 . 1758 Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi: = DN N 3 1 X 2 = σ · n.j N j=1 j 1 [(79.74 · 161) + (278.22 · 736) + (247.15 · 861)] 1758 = 244.83 . = 1 LA DIPENDENZA IN MEDIA 5 La varianza tra le medie parziali risulta essere: DF N = 3 1 X (ȳj − ȳ)2 · n.j N j=1 1 [(20.68 − 33.17)2 · 161 + (36.97 − 33.17)2 · 736 + (32.26 − 33.17)2 · 861] 1758 36456.85 = = 20.74 . 1758 = La varianza totale risulta di conseguenza pari a DT N DN DF + N N = 244.83 + 20.74 = 265.57 = che coincide con quanto ricavato in precedenza. Svolgimento punto c) Come già osservato, dato che le medie parziali del reddito variano al mutare del settore di attività economica, possiamo concludere che il “Reddito Annuo” non è indipendente in media dal “Settore di Attività Economica”. Dato che nel caso di indipendenza in media si ha ȳ1 = ȳ2 = ȳ3 = ȳ, al fine di quantificare l’allontanamento dall’indipendenza in media è del tutto naturale utilizzare un indice basato sugli scarti |ȳi − ȳ|. Uno di questi indici è: ) 21 3 1 X (|ȳj − ȳ|)2 · n.j M2 (|ȳj − ȳ|) = N j=1 r √ DF = = 20.74 = 4.55 N ( Il valore assunto dall’indice informa che, mediamente, le medie parziali differiscono dalla media totale di 4.55 migliaia di euro. Al fine di valutare il grado di dipendenza in media, utilizziamo il rapporto di correlazione di K. Pearson: 2 η(Y /A) DF DF = = N DT DT N 20.74 = = 0.078 . 265.57 Il valore dell’indice informa che la variabilità fra le medie parziali, rappresenta il 7.8% della variabilità totale. L’indice è pari al 7.8% del suo massimo valore assumibile (corrispondente al caso di massima connessione) e ci permette di concludere che il carattere “Reddito Annuo” è debolmente dipendente in media dal carattere “Settore di Attività Economica”. 1 LA DIPENDENZA IN MEDIA 6 2. La seguente tabella riporta i dati relativi a 74 alberghi di una nota località sciistica classificati in base al numero di stanze (carattere X) e alla categoria (carattere Y ): Categoria Stanze Fino a 10 11 `a 20 oltre 20 Alta Bassa 10 16 5 15 20 8 . a) Calcolare le medie e le varianze totali e parziali del carattere X verificando la proprietà associativa della media aritmetica e la scomposizione della varianza; b) calcolare le distribuzioni condizionate di frequenze relative del carattere X e stabilire, in base ad esse, se esiste indipendenza distributiva tra i due caratteri; c) fornire un indice che valuti il grado di dipendenza in media del carattere X dal carattere Y . Svolgimento Al fine di calcolare la media e la varianza del carattere X, supponiamo di chiudere le classi “Fino a 10” e “oltre 20” rispettivamente con i valori 1 e 30, ottenendo così le classi: 1 `a 10 e 21 `a 30 . Sulla base di queste ipotesi è possibile ricavare i valori centrali di ciascuna delle classi in cui sono raggrupate le modalità di X. Il loro valore, insieme ad altri calcoli, è riportato nella seguente tabella: Stanze (valori centrali) xi 5.5 15.5 25.5 Totale Alta ni1 10 16 5 31 xi · ni1 55 248 127.5 430.5 Bassa x2i · ni1 302.5 3844 3251.25 7397.75 ni2 15 20 8 43 xi · ni2 82.5 310 204 596.5 Totale x2i · ni2 453.75 4805 5202 10460.75 ni· 25 36 13 74 xi · ni· 137.5 558 331.5 1027 x2i · ni· 756.25 8649 8453.25 17858.5 La media aritmetica del carattere X è data da: 3 1 X x̄ = xi · ni. N i=1 = 1027 = 13.878 . 74 In media, i 74 alberghi hanno 13.878 stanze. Più precisamente 13.878 indica il numero ipotetico di stanze di ogni albergo nell’ipotesi in cui tutti gli alberghi avessero un 1 LA DIPENDENZA IN MEDIA 7 ugual numero di stanze (a parità del numero totale delle stesse). Calcoliamo a questo punto le medie parziali del carattere X. x̄1 3 1 X xi · ni1 = n.1 i=1 = 430.5 = 13.887 . 31 In media, i 31 alberghi di alta categoria hanno 13.887 stanze. Più precisamente 13.887 indica il numero ipotetico di stanze di ogni albergo di alta categoria nell’ipotesi in cui tutti gli alberghi di questa categoria avessero un ugual numero di stanze (a parità del numero totale delle stesse all’interno della categoria in considerazione). x̄2 3 1 X = xi · ni2 n.2 i=1 = 596.5 = 13.872 . 43 In media, i 43 alberghi di bassa categoria hanno 13.872 stanze. Più precisamente 13.872 indica il numero ipotetico di stanze di ogni albergo di bassa categoria nell’ipotesi in cui tutti gli alberghi di questa categoria avessero un ugual numero di stanze (a parità del numero totale delle stesse all’interno della categoria in considerazione). Verifichiamo la proprietà associativa della media aritmetica: x̄ = = 2 1 X x̄j · n.j N j=1 (13.887 · 31) + (13.872 · 43) = 13.878 74 che coincide con quanto ricavato in precedenza. La varianza del carattere X è data da: σ2 = = 3 1 X 2 x · ni. − x̄2 N i=1 i 17858.5 − 13.8782 = 48.732 . 74 Le varianze parziali del carattere X risultano essere: σ12 3 1 X 2 = xi · ni1 − x̄21 n.1 i=1 = 7397.75 − 13.8872 = 45.788 . 31 1 LA DIPENDENZA IN MEDIA 8 σ22 3 1 X 2 = xi · ni2 − x̄22 n.2 i=1 = 10460.75 − 13.8722 = 50.841 . 43 Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi: DN N 2 1 X 2 = σ · n.j N j=1 j = (45.788 · 31) + (50.841 · 43) = 48.724 . 74 Calcoliamo la varianza tra le medie parziali: DF N 2 1 X = (x̄j − x̄)2 · n.j N j=1 (13.887 − 13.878)2 · 31 + (13.872 − 13.878)2 · 43 = 74 ∼ = 0 . La varianza totale risulta di conseguenza pari a: DT N DN DF = + N N ∼ = 48.724 . σ2 = La discrepanza tra il valore appena ottenuto e quello ricavato in precedenza, è attribuibile ad approssimazioni e possiamo dunque ritenere verificata la scomposizione della varianza. Svolgimento punto b) Le distribuzioni condizionate di frequenze relative del carattere X sono riportate nella seguente tabella: Categoria Stanze Fino a 10 11 `a 20 oltre 20 tot Alta Bassa 0.323 0.516 0.161 1 0.349 . 0.465 0.186 1 Dato che, se i due caratteri in considerazione fossero indipendenti in distribuzione, le distribuzioni condizionate di fequenze relative sarebbero identiche, si può concludere che tra i caratteri X e Y non vi è indipendenza distributiva. Svolgimento punto c) Le medie parziali del carattere X calcolate in precedenza non 1 LA DIPENDENZA IN MEDIA 9 sono identiche e di conseguenza X non è indipendente in media da Y . Tuttavia il loro valore è molto simile e ciò è indice del fatto che il grado di dipendenza in media di X da Y dovrebbe essere basso. Al fine di valutare oggettivamente il grado di dipendenza in media, utilizziamo il rapporto di correlazione di K. Pearson: 2 η(X/Y ) DF DF 0 ∼ = = N ∼ = =0 . DT DT 48.732 N Il valore assunto dall’indice è approssimativamente pari a 0 e vale a dire al valore che lo stesso assumerebbe nel caso in cui X fosse indipendente in media da Y . Il valore assunto dall’indice informa che il grado di dipendenza in media è basso a tal punto che X può sostanzialmente ritenersi indipendente in media da Y . 3. Mille alunni di una scuola superiore sono stati classificati in base al rendimento scolastico, X, ed al numero di libri extra-scolastici letti, Y . Da tale rilevazione è emerso quanto segue: • il 70% degli alunni ha un rendimento medio-basso; di questi il 60% legge in media due libri, il 30% ne legge in media 3 ed il restante 10% ne legge in media 4; • il 30% degli alunni ha un rendimento medio-alto; di questi il 20% legge in media due 3 libri, il 40% ne legge in media 4 e un altro 40% ne legge in media 5. a) Costruire la distribuzione congiunta delle frequenze assolute dei due caratteri, X e Y; b) senza effettuare calcoli, dire se esiste indipendenza distributiva fra Y ed X e motivare la risposta; c) verificare se esiste indipendenza in media di Y da X e in caso di risposta negativa valutare il grado di dipendenza in media attraverso un indice adeguato. Svolgimento Svolgimento punto a) Dalle informazioni che vengono fornite dal testo dell’esercizio abbiamo che che: • il numero totale di studenti classificati è N = 1000; • il carattere “Rendimento Scolastico” assume le due modalità medio-basso (MB) e medio-alto (MA); 30 70 = 700 e n(M A) = 1000 · = 300; • n(M B) = 1000 · 100 100 • il carattere “N◦ di libri extrascolastici mediamente letti ogni mese” assume le modalità {2; 3; 4; 5}; 60 60 • n(M B, 2) = n(M B) = 700 · = 420; 100 100 1 LA DIPENDENZA IN MEDIA 10 30 30 = 700 · = 210; 100 100 10 10 • n(M B, 4) = n(M B) = 700 · = 70; 100 100 • n(M B, 5) = 0; • n(M B, 3) = n(M B) • n(M A, 2) = 0; 20 20 = 300 · = 60; 100 100 40 40 = 300 · = 120; • n(M A, 4) = n(M A) 100 100 40 40 • n(M A, 5) = n(M A) = 300 · = 120. 100 100 I risultati appena ottenuti sono riportati nella seguente tabella di contingenza: • n(M A, 3) = n(M A) X\Y MB MA Totale 2 420 0 420 3 210 60 270 4 70 120 190 5 0 120 120 Totale 700 . 300 1000 Svolgimento punto b) Si osservi che, nella precedente tabella, le coppie di modalità (M B, 5) e (M A, 2) hanno una frequenza congiunta pari a zero. Osserviamo inoltre che, ad esempio, n(M B) 6= 0 e n(5) 6= 0. Di conseguenza n(M B) · n(5) 6= 0. N Nel caso della coppia di modalità (M B, 5), la frequenza congiunta osservata n(M B, 5) non coincide con la frequenza congiunta teorica del caso di indipendenza distributiva n̂(M B, 5). Possiamo quindi concludere che i caratteri X e Y non sono indipendenti in distribuzione. Svolgimento punto c) Al fine di verificare se esite indipendenza in media di Y da X, calcoliamo le medie parziali di Y. n̂(M B, 5) = (2 · 420) + (3 · 210) + (4 · 70) + 0 = 2.5 ; 700 0 + (3 · 60) + (4 · 120) + (5 · 120) ȳ(M A) = = 4.2; . 300 (2 · 420) + (3 · 270) + (4 · 190) + (5 · 120) ȳ = = 3.01 ; 1000 Dato che le medie parziali del carattere Y non sono uguali, il carattere Y non è indipendente in media dal carattere X. Al fine di quantificare il grado della dipendenza in media di Y da X, calcoliamo il rapporto di correlazione di K.Pearson. Preliminarmente al calcolo di quest’indice, è necessario ricavare i valori della devianza totale e della devianza fra le medie parziali. Quest’ultima è data da: ȳ(M B) = DF = (2.5 − 3.1)2 · 700 + (4.2 − 3.01)2 · 300 = 606.9 . 1 LA DIPENDENZA IN MEDIA 11 La devianza totale è data da: DT = [(2)2 · 420 + (3)2 · 270 + (4)2 · 190 + (5)2 · 120] − (3.01)2 · 1000 = 10150 − 9060.1 = 1089.9 . Il rapporto di correlazione di K.Pearson, di conseguenza, risulta: DF DT 606.9 = 0.5568 . = 1089.9 Il valore dell’indice informa che la variabilità fra le medie parziali, rappresenta il 55.68% della variabilità totale. L’indice è pari al 55.68% del suo massimo valore assumibile (corrispondente al caso di massima connessione) e di conseguenza vi è un buon grado di dipendenza in media del carattere Y dal carattere X . 2 η(Y /X) = 4. La rilevazione congiunta su 190 famiglie del livello di reddito familiare annuo, X, e della spesa annua (in migliaia di euro) destinata a viaggi e vacanze, Y , ha fornito il seguente risultato: X\Y Basso Medio Alto Totale 0a2 45 20 0 65 2a5 20 35 20 75 5a7 5 10 35 50 Totale 70 65 . 55 190 a) Valutare, qualora possibile, il grado di dipendenza in media di Y da X e quella di X da Y attraverso un adeguato indice. b) Stabilire senza effettuare calcoli se i caratteri X e Y possono ritenersi indipendenti in distribuzione. Svolgimento Svolgimento punto a) Osserviamo innanzitutto che non è possibile valutare il grado di dipendenza in media di X da Y in quanto il carattere X è qualitativo. Concentriamo quindi l’attenzione sullo studio della dipendenza in media di Y da X. A tal fine verifichiamo se Y è indipendente in media da X confrontando i valori delle medie parziali di Y. Per facilitare il loro calcolo, predisponiamo la seguente tabella: Y (valori centrali) yi 1 3.5 6 Totale Basso ni1 45 20 5 70 yi · ni1 45 70 30 145 Medio ni2 20 35 10 65 yi · ni2 20 122.5 60 202.5 Alto ni3 0 20 35 55 yi · ni3 0 70 210 280 Totale ni· yi · ni· 65 65 75 262.5 50 300 190 627.5 1 LA DIPENDENZA IN MEDIA 12 Le medie parziali del carattere Y sono date da: ȳ1 = 145 = 2.07 70 202.5 = 3.11 65 280 ȳ3 = = 5.09 55 627.5 = 3.30 ȳ = 190 Come possiamo osservare, le medie parziali non sono tra loro uguali e di conseguenza Y non è indipendente in media da X. A questo punto è interessante valutare il grado della dipendenza in media di Y da X. A tal fine calcoliamo il rapporto di correlazione di K.Pearson. Preliminarmente al calcolo di quest’indice, è necessario ricavare i valori della devianza totale e della devianza fra le medie parziali. Quest’ultima è data da: ȳ2 = DF = (2.07 − 3.3)2 · 70 + (3.11 − 3.3)2 · 65 + (5.09 − 3.3)2 · 55 = 105.90 + 2.35 + 176.23 = 284.48 . La devianza totale è data da: DT = (1 − 3.3)2 · 65 + (3.5 − 3.3)2 · 75 + (6 − 3.3)2 · 50 = 343.85 + 3.00 + 364.50 = 711.35 . Il rapporto di correlazione di K.Pearson è di conseguenza dato da: DF DT 284.48 = = 0.3999 . 711.35 2 η(Y /X) = Il valore dell’indice informa che la variabilità fra le medie parziali rappresenta il 39.99% della variabilità totale. L’indice è pari al 39.99% del suo massimo valore assumibile (corrispondente al caso di massima connessione) e di conseguenza vi è un contenuto grado di dipendenza in media del carattere Y dal carattere X . Svolgimento punto b) Tra i caratteri in considerazione non vi è indipendenza distributiva in quanto Y non è indipendente in media da X.