VERIFICA DI IPOTESI Riprendiamo il secondo esempio introduttivo
by user
Comments
Transcript
VERIFICA DI IPOTESI Riprendiamo il secondo esempio introduttivo
VERIFICA DI IPOTESI Riprendiamo il secondo esempio introduttivo. Esempio 2 L’industria che produce sfere ha garantito ai suoi clienti un diametro medio pari a 10mm e uno scarto quadratico medio parti a 1mm. Il diametro medio delle sfere del campione è risultato pari a 9,95mm con scarto quadratico medio pari a 0,87 mm. In base a questi risultati campionari, possiamo dire che l’industria sta rispettando gli standard? Prendiamo, ad esempio, la media. Quello che vogliamo verificare è l’ipotesi che µ =10mm contro l’ipotesi che µ 6=10mm. La media campionaria è diversa da 10mm, ma dobbiamo tener conto del fatto che, anche se valesse l’ipotesi µ = 10mm, le medie sui c.c.s. che possiamo estrarre dalla popolazione delle sfere non saranno mai esattamente uguali a 10mm. La domanda quindi è: la media campionaria è sufficientemente distante da 10mm per farci ritenere che l’ipotesi µ = 10mm sia inverosimile e quindi da rifiutare? Analogo discorso per lo scarto quadratico medio. In questo caso vogliamo verificare l’ipotesi σ = 1mm contro l’ipotesi σ 6= 1mm e dobbiamo decidere se il valore campionario 0,87mm è abbastanza lontano da 1mm per indurci a rifiutare l’ipotesi σ = 1mm oppure no. 44 In generale, sia θ il parametro di interesse. Indichiamo con H0 l’ipotesi da noi formulata, chiamata IPOTESI NULLA, che assume la forma H0 : θ = θ 0 dove θ0 è un valore da noi specificato. Indichiamo con H1 l’ipotesi contrapposta a H0, chiamata IPOTESI ALTERNATIVA. L’ipotesi H1 può assumere la forma H1 : θ 6= θ0 in questo caso si parla di ipotesi alternativa BILATERALE oppure la forma H 1 : θ > θ0 o H 1 : θ < θ0 Negli ultimi due casi si parla di ipotesi alternativa UNILATERALE. Combinando l’ipotesi nulla e l’ipotesi alternativa si ottiene un SISTEMA DI IPOTESI. Nell’esempio introduttivo, avevamo due sistemi di ipotesi: uno per la media ( H0 : µ = 10 H1 : µ 6= 10 e uno per lo scarto quadratico medio ( H0 : σ = 1 H1 : σ 6= 1 entrambi con ipotesi alternativa bilaterale. 45 Una verifica di ipotesi è una procedura statistica che ci permette di utilizzare le informazioni campionarie per saggiare un sistema di ipotesi, ossia per decidere se accettare H0 (e quindi rifiutare H1) o se rifiutare H0 (e quindi accettare H1). Ogni volta che decidiamo se accettare o rifiutare H0 sulla base delle osservazioni campionarie possiamo commettere due errori. ERRORE DI I TIPO: Rifiutiamo H0 quando H0 è vera ERRORE DI II TIPO: Accettiamo H0 quando H1 è vera Si indica con α la probabilità di commettere un errore di I tipo α = P (Rifiuto H0|H0) e con β la probabilità di commettere un errore di II tipo β = P (Accetto H0|H1) Teoricamente, vorremmo una procedura di verifica di ipotesi in cui entrambe le probabilità siano basse, ma ciò non è possibile in quanto al diminuire dell’una l’altra aumenta. Si pensi, ad esempio, ad una procedura che accetta H0 qualunque sia il campione osservato. In questo caso α = 0 ma β è evidentemente molto alto. Per contro, se decidiamo di rifiutare sempre H0, allora β = 0 ma α è molto alto. Dobbiamo quindi trovare un compromesso. Poiché H0 è un’ipotesi che formuliamo noi, che nasce da 46 una nostra congettura, le diamo una posizione privilegiata e ci proteggiamo contro un errore di I tipo, fissando a priori α ad un valore piuttosto piccolo. Il valore scelto per α viene chiamato LIVELLO DI SIGNIFICATIVITA’. Si parla in questo caso di TEST DI IPOTESI O VERIFICA DI IPOTESI AL LIVELLO DI SIGNIFICATIVITA’ α. Valori tipici per α sono 0,01 o 0,05. Vedremo come trovare una procedura statistica per verificare un sistema di ipotesi, rispettando il vincolo sul livello di significatività. L’idea di base è la seguente 1. Si identifica uno stimatore T per θ 2. Se H0 è vera T tenderà ad assumere valori che sono prossimi a θ0. Pertanto, se la realizzazione campionaria di T è “sufficientemente distante” da θ0 (nella direzione indicata da H1) si deciderà di accettare H1, altrimenti si accetta H0. 3. Per stabilire in modo rigoroso che cosa si intende per “sufficientemente distante” da θ0 si sfrutta il livello di significatività del test. 47 ESEMPI DI VERIFICA DI IPOTESI ⋄ VERIFICA DI IPOTESI SU µ CON σ 2 NOTA Sia x1, x2, . . . , xn un c.c.s. realizzazione di X1, X2, . . ., Xn i.i.d. N (µ, σ 2). Supponiamo di conoscere σ 2, ma di non conoscere µ, la media di popolazione. Vogliamo verificare al livello di significatitività α il sistema di ipotesi ( H 0 : µ = µ0 H1 : µ > µ0 Partiamo dalla stima di µ tramite la media del c.c.s. osservato, x̄. Se vale H0 ci aspettiamo che x̄ non si discosti di molto da µ0; per contro, se vale H1 ci aspettiamo che x̄ sia più grande di µ0. Allora, sembra ragionevole rifiutare H0 (e quindi accettare H1) se x̄ − µ0 > c dove c è una soglia critica con la quale definiamo di quanto x̄ deve essere maggiore di µ0 per decidere di rifiutare H0. Per determinare c dobbiamo ricordare che vogliamo un test al livello di significatività α, ossia tale che α = P (Rifiuto H0|H0) ma P (Rifiuto H0|H0) = P (X̄ − µ0 > c|µ = µ0) 48 quindi dobbiamo scegliere c in modo tale che P (X̄ − µ0 > c|µ = µ0) = α Sappiamo che σ2 X̄ ∼ N (µ, ) n ma se H0 è vera, e quindi µ = µ0, σ2 X̄ ∼ N (µ0, ) n e X̄ − µ0 q ∼ N (0, 1) σ2 n Allora, c X̄ − µ0 α = P (X̄−µ0 > c|µ = µ0) = P q > q |µ = µ0 = e quindi ossia σ2 n σ2 n c = 1 − Φ q σ2 n c Φ q = 1 − α σ2 n c q σ2 n 49 = z1−α da cui r σ2 c = z1−α n Concludiamo che si deve rifiutare l’ipotesi H0 e accettare l’ipotesi H1, al livello di significatività α, se r σ2 x̄ − µ0 > z1−α n o, equivalentemente, se x̄ − µ0 q > z1−α σ2 n Si accetta invece H0 e si rifiuta H1 se x̄ − µ0 q ≤ z1−α σ2 n La quantità X̄ − µ0 q σ2 n 1. è chiamata statistica test; 2. se sostituiamo a µ0 il generico µ, coincide con la quantità usata per costruire l’intervallo di confidenza di livello 1 − α per µ quando σ 2 è noto. 50 Per H1 : µ > µ0 rigettiamo H0 se x̄ − µ0 q > z1−α σ2 n ossia per valori elevati della statistica test. Se H1 : µ < µ0, mentre rimane inalterata H0, risulta naturale rifiutare H0 per valori piccoli della statistica test. Più precisamente, il vincolo sul livello di significatività, impone di rigettare H0 se x̄ − µ0 q < −z1−α σ2 n Se H1 : µ 6= µ0, è ragionevole rifiutare H0 per valori sia elevati che piccoli della statistica test, ossia se x̄ − µ 0 q >c σ2 n Ancora una volta dobbiamo scegliere la soglia c in modo da rispettare il vincolo sul livello di significatività del test: X̄ − µ0 P q > c |µ = µ0 = α σ2 n e quindi X̄ − µ0 P q ≤ c |µ = µ0 = 1 − α = σ2 n 51 X̄ − µ0 = P −c ≤ q ≤ c |µ = µ0 σ2 n e quindi c = z1−α/2. Allora, per H1 : µ 6= µ0 rifiutiamo H0 (e accettiamo H1) se x̄ − µ 0 q > z1−α/2 σ2 n mentre accettiamo H0 (e rifiutiamo H1) se x̄ − µ 0 q ≤ z1−α/2 σ2 n 52 Esempio L’ufficio qualità di uno stabilimento che produce pasta alimentare intende controllare se il peso dichiarato nella confezione di 500gr risponda al vero oppure se il processo di confezionamento dà luogo ad un peso medio superiore. Poiché sul processo influisce una pluralità di fattori è ragionevole assumere che il peso di una confezione sia una v.c. normale. Inoltre, da studi precedenti risulta che la varianza della popolazione è 42,5gr2. In un campione di 25 confezioni, l’ufficio qualità trova che il peso medio è 503,7gr. Usare questi dati per sottoporre a verifica l’ipotesi di interesse dell’ufficio qualità ad un livello α = 0, 01. Disponiamo di un c.c.s. di pesi (in gr) x1, x2, . . . , x25 da una N (µ, 42, 5). Sappiamo che x̄ =503,7gr. Il sistema di ipotesi di interesse è ( H0 : µ = 500 H1 : µ > 500 La statistica test è x̄ − µ0 503, 7 − 500 q q = 2, 83 = 42,5 25 σ2 n Rifiutiamo H0 se 2,83> z1−α = z0,99 = 2, 326. La condizione è soddisfatta quindi possiamo accettare H1 e concludere che il peso medio delle confezioni µ è maggiore di 500 gr. Se fossimo stati interessati a verificare se il peso me53 dio è inferiore a 500gr, allora H1 : µ < 500 e avremmo rifiutato H0 se 2,83< −z0,99 = −2, 326. La condizione non è soddisfatta, quindi in questo caso H0 viene accettata. Si intuisce da questo che accettare o rifiutare H0 dipende anche dall’ipotesi alternativa contemplata. Con il sistema di ipotesi ( H0 : µ = 500 H1 : µ < 500 gli unici casi considerati sono µ ≤ 500 e all’interno di questi casi, H0 è più verosimile, in base ai dati raccolti, di H1. Se fossimo stati interessati a verificare se il peso medio è diverso da 500gr, allora H1 : µ 6= 500 e avremmo rifiutato H0 se |2, 83| = 2, 83 > z1−α/2 = z0,995 = 2, 576. La condizione è soddisfatta quindi avremmo rifiutato H0 e accettato H1. Si noti che l’intervallo di confidenza di livello 1 − 0, 01 = 0, 99 per µ è in questo caso ! r 42, 5 = (500, 34; 507, 06) gr 503, 7 ± 2, 576 25 L’intervallo non include il valore 500gr e questo è sufficiente per rifiutare H0, a favore di H1 : µ 6= 500, al livello 0, 01. Questo ragionamento può essere generalizzato. Se costruiamo un intervallo di confidenza di livello 54 1−α per un parametro θ di interesse e l’intervallo ottenuto non include un valore prefissato θ0, possiamo immediatamente rifiutare l’ipotesi nulla del sistema ( H0 : θ = θ 0 H1 : θ 6= θ0 al livello α. Viceversa, se l’intervallo di confidenza di livello 1 − α per θ include θ0, allora possiamo accettare H0 al livello α. In altri termini, l’intervallo di confidenza di livello 1− α per θ include tutti i valori θ0 per cui accetteremmo l’ipotesi nulla H0 : θ = θ0 al livello α contro l’ipotesi H1 : θ 6= θ0. 55 IL LIVELLO DI SIGNIFICATIVITA’ OSSERVATO (O p–VALUE) Riprendiamo il sistema di ipotesi ( H 0 : µ = µ0 H1 : µ > µ0 Come visto, si rifiuta H0 al livello di significatività α se x̄ − µ0 q > z1−α σ2 n ossia, graficamente, α z1−α | {z Accetto H0 56 }| {z } Rifiuto H0 CASO A: RIFIUTO H0 area<α z1−α x − µ0 σ2 n CASO B: ACCETTO H0 area>α x − µ0 z1−α σ2 n 57 Allora, equivalentemente, Accetto H0, se l’area della N (0, 1) a destra di x̄−µ q 0 σ2 n è > α Rifiuto H0 , se l’area della N (0, 1) a destra di è < α L’area della N (0, 1) a destra di Vale: x̄−µ q 0 σ2 n x̄−µ q 0 σ2 n è x̄ − µ0 1 − Φ q = p − value σ2 n più piccolo è il p–value più H0 è inverosimile. più grande è il p–value più i dati danno sostegno ad H0. rifiutiamo H0 al livello di significatività α se p– value< α. accettiamo H0 al livello di significatività α se p– value> α. Il concetto di p–value può essere esteso a qualsiasi sistema di ipotesi. I software statistici e non conducono la verifica di ipotesi producendo come risultato il p–value del test, che dovrà essere interpretato come sopra specificato. 58 CON σ 2 IGNOTA Siamo nella stessa situazione del caso precedente, ma ora anche la varianza σ 2 è ignota. Vogliamo saggiare il sistema di ipotesi ( H 0 : µ = µ0 H1 : µ > µ0 al livello di significatività α. Nel caso precedente si rifiutava H0 se x̄ − µ0 q > z1−α σ2 n ma ora questa condizione non è direttamente utilizzabile, dato che dipende dall’ignota varianza. Cosı̀ come fatto per gli intervalli di confidenza, possiamo sostituire σ 2 con la sua stima non distorta S ′2 e rifiutare H0 a favore di H1 se x̄ − µ0 q >c S ′2 n dove c è una costante che dobbiamo determinare in modo da rispettare il vincolo sul livello di significatività. Più precisamente, c deve essere tale che X̄ − µ0 > c|µ = µ0 = α P q 2 S′ n 59 o, equivalentemente, X̄ − µ0 ≤ c|µ = µ0 = 1 − α P q 2 S′ n Sappiamo che, se vale H0, ossia µ = µ0, X̄ − µ0 q ∼ tn−1 S ′2 n da cui concludiamo che c = tn−1;1−α . Allora, rifiutiamo H0 (e accettiamo H1) al livello α se x̄ − µ0 q > tn−1;1−α S ′2 n Se la condizione non è soddisfatta accettiamo H0 (e rifiutiamo H1). Se H1 : µ < µ0, allora rifiutiamo H0 (e accettiamo H1) al livello α, se è soddisfatta la condizione x̄ − µ0 q < −tn−1;1−α S ′2 n Se H1 : µ 6= µ0, allora rifiutiamo H0 (e accettiamo H1) al livello α, se è soddisfatta la condizione x̄ − µ 0 q 2 > tn−1;1−α/2 S′ n (si veda l’analogia con il caso σ 2 nota). 60 Esempio L’importo medio delle fatture emesse negli anni passati è di 33 euro. Un campione casuale di 330 fatture emesse quest’anno dalla stessa azienda fa riportare un importo medio di 30 euro. Tramite un test di livello 0,05 stabilire se questo risultato costituisce una prova che l’importo medio delle fatture è diminuito, sapendo che la deviazione standard campionaria (corretta) è di 2,2 euro e che gli importi delle fatture seguono una distribuzione normale. Abbiamo un c.c.s. x1, x2, . . . , x330 di importi di fatture da una N (µ, σ 2), dove µ descrive la media degli importi di tutte le fatture emesse quest’anno e σ 2 la corrispondente varianza. Sappiamo che x̄ = 30 euro e S ′=2,2 euro. Vogliamo verificare il sistema di ipotesi ( H0 : µ = 33 H1 : µ < 33 al livello 0,05. La statistica test risulta pari a x̄ − µ0 30 − 33 q = q = −24, 47 S ′2 n 2,22 330 . Rifiutiamo H0 se -24,47< −tn−1;1−α = −t329;0,95 = −z0,95 = −1, 64. La condizione è evidentemente soddisfatta, quindi rifiutiamo H0 al livello 0,05 e accettiamo H1 (si è verificata una riduzione dell’importo medio delle fatture emesse). 61 ⋄ VERIFICA DI IPOTESI SU UNA PROPORZIONE p Sia x1, x2, . . . , xn un c.c.s. da una Be(p), con p ignota. Vogliamo verificare il sistema di ipotesi ( H0 : p = p 0 H1 : p > p 0 al livello di significatività α. E’ ragionevole rifiutare H0 se p̂ − p0 > c dove c deve essere tale che P (p̂ − p0|p = p0) = α Per n sufficientemente grande, se vale H0 (p = p0), p (1 − p ) 0 0 . p̂ ∼ N p0 , n Allora, p̂ − p0 α = P (p̂−p0|p = p0) = P q p0 (1−p0 ) n e quindi >q c . = 1 − Φ q c q p0 (1−p0 ) n 62 p0 (1−p0 ) n = z1−α c p0 (1−p0 ) n . |p = p0 = ossia r p0(1 − p0) n Pertanto, rifiutiamo H0 al livello α se r p0(1 − p0) p̂ − p0 > z1−α n ossia se p̂ − p0 q > z1−α c = z1−α p0 (1−p0 ) n ATTENZIONE: Questo test vale solo per n grande (in pratica per np̂, n(1 − p̂) ≥ 5). Se H1 : p < p0, si rifiuta H0 al livello α se p̂ − p0 q p0 (1−p0 ) n < −z1−α Se H1 : p 6= p0, si rifiuta H0 al livello α se p̂ − p 0 > z1−α/2 q p0(1−p0) n 63 Esempio Un partito politico ha ricevuto nelle ultime elezioni il 35% dei voti. Quattro anni dopo, da un sondaggio d’opinione basato su 300 intervistati si è trovato che il 32% degli intervistati ha dichiarato di essere disposto a votare per quel partito. Ci si chiede se, rispetto al risultato elettorale, la situazione del partito è peggiorata. Abbiamo 300 osservazioni x1, . . . , x300 da Be(p), dove ( 1 se l’i-esimo intervistato vota per il partito xi = 0 se l’i-esimo intervistato non vota per il partito e p rappresenta la vera proporzione di elettori che votano per il partito. Si vuole verificare il sistema di ipotesi ( H0 : p = 0, 35 H1 : p < 0, 35 La statistica test è 0, 32 − 0, 35 q = −1, 09 0,35·0,65 300 Si rifiuta H0 se -1,09< −z1−α . In questo esercizio, però, α non è stato specificato; decidiamo di fissarlo a α = 0, 05. Rifiutiamo quindi H0 se −1, 09 < −1, 645. La condizione non è verificata quindi accettiamo H0 e concludiamo che la situazione del partito non è peggiorata al livello di significatività α = 0, 05. 64 ⋄ VERIFICA DI IPOTESI SULLA DIFFERENZA TRA LE MEDIE DI DUE POPOLAZIONI NORMALI Ritorniamo al problema del confronto tra due popolazioni, già affrontato nella stima intervallare. Abbiamo due c.c.s.: x1, x2, . . . , xn1 sono realizzazioni di X1, X2, . . . , Xn1 i.i.d. N (µ1, σ12); y1, y2, . . . , yn2 sono realizzazioni di Y1, Y2, . . . , Yn2 i.i.d. N (µ2, σ22); I due campioni sono tra loro indipendenti. Vogliamo valutare le differenze tra le due popolazioni, facendo un confronto tra µ1 e µ2. In particolare, supponiamo di voler sottoporre a verifica il seguente sistema di ipotesi ( H 0 : µ 1 = µ2 H1 : µ1 > µ2 al livello di significatività α. σ12 E σ22 SONO NOTE Iniziamo assumendo che le due varianze σ12 e σ22 siano note. E’ ragionevole rifiutare H0 se x̄ − ȳ > c Per rispettare il vincolo sul livello di significatività, c deve essere tale che P (X̄ − Ȳ > c|µ1 = µ2) = α 65 In generale, X̄ − Ȳ q 2 ∼ N (µ1 − µ2, 1) σ22 σ1 n1 + n2 ma sotto H0 (µ1 = µ2) Allora, X̄ − Ȳ q 2 ∼ N (0, 1) σ22 σ1 n1 + n2 α = P (X̄ − Ȳ > c|µ1 = µ2) = c c X̄ − Ȳ q q = P q 2 > |µ = µ = 1−Φ 1 2 σ1 σ12 σ12 σ22 σ22 σ22 n1 + n2 n1 + n2 n1 + n2 e quindi ossia c q σ12 n1 + c = z1−α σ22 n2 s = z1−α σ12 σ22 + n1 n2 Pertanto, rifiutiamo H0 al livello α se s σ12 σ22 + x̄ − ȳ > z1−α n1 n2 o, equivalentemente, se x̄ − ȳ q 2 > z1−α σ1 σ22 n1 + n2 66 Se H1 : µ1 < µ2, rifiutiamo H0 al livello α se x̄ − ȳ q 2 < −z1−α σ1 σ22 n1 + n2 Se H1 : µ1 6= µ2, rifiutiamo H0 al livello α se x̄ − ȳ > z1−α/2 q 2 σ1 σ22 n1 + n2 67 Esempio Un ricercatore che lavora alle dipendenze di un’industria produttrice di lampadine elettriche afferma di aver trovato un nuovo tipo di filamento che prolunga la durata delle lampadine. Dato che il nuovo filamento è considerevolmente più costoso di quello attualmente in uso, l’industria intende, prima di adottarlo, avere il conforto di una verifica sperimentale. Viene allora formulata l’ipotesi nulla che la durata media, µ1, delle lampadine dotate del nuovo filamento sia uguale alla durata media, µ2, delle lampadine del vecchio tipo, con l’ipotesi alternativa µ1 − µ2 > 0. Per verificare le ipotesi, vengono osservati due campioni dei due tipi di lampadine, entrambi di ampiezza 31. Le medie dei due campioni risultano essere x̄ = 1195, 16 ore e ȳ = 1180, 05 ore Nell’ipotesi che le durate delle lampadine seguano una distribuzione normale con varianza pari a 118,13 per il nuovo filamento e 124,34 per il vecchio filamento si verifichi H0 contro H1 al livello α = 0, 01. La statistica test è 1195, 16 − 1180, 05 q = 5, 4 124,34 118,13 31 + 31 Rifiutiamo l’ipotesi nulla se 5,4> z1−α = z0,99 = 2, 326. La condizione è soddisfatta, per cui concludiamo che il nuovo filamento migliora la qualità delle lampadine rispetto al vecchio. 68 σ12 E σ22 SONO IGNOTE Veniamo ora al caso in cui le due varianze σ12 e σ22 non sono note. Il sistema di ipotesi che vogliamo verificare al livello ( α è H 0 : µ 1 = µ2 H1 : µ1 > µ2 Per arrivare ad una soluzione “trattabile” di questo problema dobbiamo assumere (come già fatto nella stima intervallare) che σ12 = σ22 = σ 2. La statistica test nel caso precedente era x̄ − ȳ q 2 σ1 σ22 + n1 n2 che per σ12 = σ22 = σ 2 diventa x̄ − ȳ r 1 1 σ 2 n1 + n2 Tuttavia, questa statistica test non è direttamente utilizzabile, essendo σ 2 ignoto. Come fatto nella stima intervallare, sostituiamo σ 2 con Sp2. E’ ragionevole rifiutare H0 se x̄ − ȳ r >c Sp2 n11 + n12 dove c deve essere tale che X̄ − Ȳ > c|µ = µ P r =α 1 2 Sp2 n11 + n12 69 In generale, (X̄ − Ȳ ) − (µ1 − µ2) r ∼ tn1+n2−2 Sp2 n11 + n12 ma sotto H0 (µ1 = µ2) r Allora, (X̄ − Ȳ ) ∼ tn1+n2−2 Sp2 n11 + n12 c = tn1+n2−2;1−α e rifiutiamo H0 al livello α se x̄ − ȳ r > tn1+n2−2;1−α Sp2 n11 + n12 Se H1 : µ1 < µ2, si rifiuta H0 al livello α se r x̄ − ȳ < −tn1+n2−2;1−α Sp2 n11 + n12 Se H1 : µ1 6= µ2, si rifiuta H0 al livello α se x̄ − ȳ r > tn1+n2−2;1−α/2 Sp2 1 + 1 n1 n2 Per n1+n2 ≥ 32 possiamo approssimare tn1+n2−2;1−α con z1−α . 70 Esempio Un campione di 20 comuni governati dall’alleanza A mostra che essi spendono una somma media di 87,5¿ annue per ciascun contribuente in spese di amministrazione, con una deviazione standard di 12,5¿, mentre una simile indagine su un campione di 15 comuni governati dall’alleanza B trova una media di 79¿ con deviazione standard campionaria di 15¿. E’ giustificabile l’ipotesi che non vi sia differenza significativa tra A e B per quanto riguarda le spese comunali di amministrazione? Indichiamo con µ1 la spesa media per contribuente nei comuni dell’alleanza A e con µ2 la spesa media per contribuente nei comuni dell’alleanza B. Vogliamo verificare il sistema di ipotesi ( H 0 : µ 1 = µ2 H1 : µ1 6= µ2 Se assumiamo che le spese di amministrazione nei due comuni siano normalmente distribuite con uguale varianza σ 2, allora la statistica test è 87, 5 − 79 q S2 1 + 1 p 20 15 Non viene specificato se le due deviazioni standard riportate dal testo siano quelle associate alla varianza corretta oppure no. Supponiamo che siano quelle associate alla varianza campionaria non corretta. In 71 questo caso, Sp2 20 · 12, 52 + 15 · 152 = = 196, 97 20 + 15 − 2 Sostituendo 196,97 nell’espressione della statistica test, si deriva il valore 1,77. Se conduciamo il test al livello α = 0, 1, allora t33;0,95 = 1, 6924 e H0 verrebbe rifiutata; mentre, se conduciamo la verifica di ipotesi al livello α = 0, 05, allora t33,0,975 = 2, 0345 e H0 sarebbe accettata. Questo implica che le osservazioni danno solo una moderata indicazione contro l’ipotesi nulla. 72 ⋄ TEST DI INDIPENDENZA IN UNA TABELLA A DOPPIA ENTRATA Supponiamo di aver rilevato su un campione di n unità estratte casualmente da una popolazione di interesse due variabili X e Y e di aver riassunto in una tabella a doppia entrata le informazioni raccolte sul campione. In statistica descrittiva abbiamo visto che un indice appropriato per misurare il grado di dipendenza tra X e Y è l’indice χ2 r X s X (nij − n∗ij )2 2 χ = ∗ n ij i=1 j=1 dove nij sono le frequenze osservate e n∗ij le frequenze teoriche sotto l’ipotesi di indipendenza tra le due variabili: n∗ij = ni· · n·j /n. Abbiamo anche visto che se χ2 = 0 le due variabili sono indipendenti e che maggiore è il valore dell’indice maggiore è l’associazione tra X e Y . Dobbiamo però tener conto del fatto che stiamo lavorando solo con un campione di unità estratte dalla popolazione di riferimento e non con l’intera popolazione. Questo significa che, anche se X e Y sono esattamente indipendenti nella popolazione di riferimento, sul campione possiamo osservare un valore di χ2 > 0. Allora, dato un certo valore dell’indice χ2 calcolato sul campione casuale estratto, come facciamo a decidere se X e Y sono indipendenti? In altri termini, vogliamo verificare il sistema di ipotesi ( H0 : X e Y sono indipendenti H1 : X e Y non sono indipendenti 73 al livello di significatività α. E’ ragionevole rifiutare H0 se χ2 > c dove, per il livello di significatività del test, c deve essere tale che P (χ2 > c|X e Y sono indipendenti) = α Si può dimostrare che per n sufficientemente grande, se vale H0, . χ2 ∼ χ2(r−1)·(s−1) dove r è il numero di righe della tabella a doppia entrata (il numero di modalità di X) e s è il numero di colonne della tabella a doppia entrata (il numero di modalità di Y ). In pratica, si è visto che questa approssimazione è piuttosto buona se n∗ij ≥ 5. Deduciamo che c = χ2(r−1)·(s−1);1−α Rifiutiamo, quindi, H0 e concludiamo al livello α che le due variabili non sono indipendenti se χ2 > χ2(r−1)·(s−1);1−α Se la condizione non è verificata, accettiamo H0. 74 Esempio Si consideri la seguente tabella relativa a un campione di persone classificate secondo il grado di istruzione e i diversi atteggiamenti sulla guerra contro la Serbia del ’99. Contrario Incerto Favorevole Totale Licenza Media 64 120 40 224 Maturità 56 103 26 185 Laurea 38 72 15 125 Totale 158 295 81 534 1. Considerando solo i diplomati, si verifichi l’ipotesi che la percentuale di favorevoli alla guerra sia il 20% contro l’alternativa che sia minore, ad un livello α = 0, 1. Indichiamo con p la vera frazione di diplomati favorevoli alla guerra. Vogliamo verificare il sistema di ipotesi ( H0 : p = 0, 2 H1 : p < 0, 2 al livello α = 0, 1. Sappiamo che la condizione di rifiuto di H0 è p̂ − 0, 2 q 0,2·(1−0,2) n < −z1−α dove p̂ è la frazione osservata di diplomati che sono favorevoli alla guerra p̂ = 26 = 0, 14 185 75 e n è il numero complessivo dei diplomati n = 185. Sostituendo i valori ottenuti nella statistica test, si ottiene il valore -2,04 che, confrontato con −z0,9 = −1, 28, porta a rifiutare H0 e ad accettare H1. 2. Si sottoponga a test l’ipotesi che l’atteggiamento verso la guerra sia indipendente dal grado di istruzione al livello α = 0, 05. Calcoliamo l’indice chi-quadrato. A questo fine, costruiamo la tabella delle frequenze teoriche Contrario Licenza Media 66,28 Maturità 54,74 Laurea 36,99 Incerto Favorevole 123,75 33,98 102,2 28,06 69,05 18,96 L’indice chi-quadrato risulta pari a χ2 = 2, 43. Se confrontiamo il valore ottenuto con χ2(3−1)·(3−1);0,95 = 9, 49, concludiamo che possiamo accettare l’ipotesi di indipendenza delle due variabili al livello α = 0, 05. 76 Esercizio Un economista vuole stimare il reddito medio degli abitanti di una cittadina mediante un intervallo al livello di confidenza del 95%. La distribuzione del reddito si suppone approssimativamente normale, con varianza σ 2 nota da precedenti studi. L’economista esamina un campione casuale di 100 abitanti. 1. Se l’economista avesse scelto un livello di confidenza del 99%, quale numerosità del campione gli avrebbe dato lo stesso margine di errore? (cioè la stessa ampiezza dell’intervallo?) Ricordiamo che l’ampiezza di un intervallo di confidenza è funzione della numerosità campionaria n e del livello di confidenza. A parità di tutto il resto, l’ampiezza diminuisce al crescere di n e aumenta al crescere di 1−α. Quindi, se da 1−α = 0, 95 si passa a 1 − α=0,99 l’ampiezza aumenta, ma per compensare questo aumento possiamo far crescere n. Sia R la variabile casuale che descrive il reddito di un abitante della cittadina. In base alle ipotesi del problema, R ∼ N (µ, σ 2) con σ 2 nota. Un intervallo di confidenza per µ al livello 95% con n = 100 è ! r r 2 2 σ σ , x̄ + 1, 96 x̄ − 1, 96 100 100 L’ampiezza dell’intervallo è 2 · 1, 96 77 σ 10 Se l’intervallo avesse livello di confidenza 99%, al posto di 1,96 avremmo z0,995 = 2, 576 e l’ampiezza dell’intervallo, per una numerosità campionaria n generica, sarebbe σ 2 · 2, 576 √ n Allora, affinché i due intervalli abbiano uguale ampiezza σ σ 2 · 1, 96 = 2 · 2, 576 √ 10 n Risolvendo l’equazione ottenuta rispetto ad n si ottiene n = 173 (arrotondando). 2. Se σ 2, la varianza della popolazione fosse stata la metà, quale numerosità del campione gli avrebbe dato lo stesso margine di errore (cioè la stessa ampiezza dell’intervallo) mantenendo 1 − α = 0, 95? Se σ 2 diminuisce l’ampiezza diminuisce, per compensare questa riduzione e mantenere inalterata l’ampiezza dell’intervallo dobbiamo ridurre n. L’intervallo di confidenza di livello 95% per µ con una varianza di popolazione pari a σ 2/2 e una numerosità campionaria n generica è r ! r 2 σ σ2 , x̄ + 1, 96 x̄ − 1, 96 2n 2n L’ampiezza dell’intervallo è σ 2 · 1, 96 √ 2n 78 Allora, per avere la stessa ampiezza dell’intervallo con n = 100 e varianza pari a σ 2, deve essere σ σ 2 · 1, 96 = 2 · 1, 96 √ 10 2n Risolvendo l’equazione rispetto a n si deriva n = 50. 79 Esercizio La seguente tabella riporta i furti commessi da donne scoperti in un grande magazzino in un anno, a seconda del settore merceologico e dell’età della colpevole. Settore Abbigliamento Bigiotteria Profumi 7–15 312 710 248 Età 15–21 913 377 211 > 21 3367 208 341 1. Stimare la probabilità p che se viene compiuto un furto in una bigiotteria l’età della colpevole sia nella fascia 15–21. Abbiamo visto che una stima corretta di una probabilità è la corrispondente frazione calcolata sul campione osservato. In questo caso, il numero di furti in bigiotteria complessivamente è pari a 1295. Tra questi furti 377 sono commessi da persone di età compresa tra 15 e 21 anni. La frazione cercata è allora 377 p̂ = = 0, 29 1295 2. Trovare un intervallo di confidenza di livello 95% per p. 1−α = 0, 95 α = 0, 05 1−α/2 = 0, 975 z0,975 = 1, 96 L’intervallo cercato è ! r r 0, 29 · (1 − 0, 29) 0, 29 · (1 − 0, 29) ; 0, 29 + 1, 96 = 0, 29 − 1, 96 1295 1295 80 = (0, 265; 0, 315) 3. Si accetta al livello 5% l’ipotesi che p = 0, 3 contro l’ipotesi che p 6= 0, 3? Sı̀, perché 0,3 è incluso nel precedente intervallo di livello 95%. 81 Esercizio La confindustria vuole valutare l’impatto di una nuova legge che prevede sgravi fiscali per le assunzioni parttime. Per stimare l’aumento medio delle ore di lavoro prodotte dall’introduzione della nuova legislazione, estrae un campione casuale di 20 piccole e medie imprese. La media campionaria dell’aumento risulta essere pari a 3,9 ore alla settimana con deviazione standard campionaria pari a 2,5 ore. 1. Si determini l’intervallo di confidenza dell’aumento medio di ore di lavoro alla settimana, con livello di confidenza al 90%. Indichiamo con µ la media dell’aumento delle ore di lavoro e con σ 2 la varianza dell’aumento. Sia µ che σ 2 sono ignoti. Per poter costruire un intervallo di confidenza per µ abbiamo bisogno di fare un’ipotesi di normalità per l’aumento delle ore di lavoro. Gli ingredienti necessari per costruire l’intervallo sono x̄ = 3, 9 S 2 = 2, 55 e quindi 2, 52 · 20 = 6, 58 S = 19 dove si è supposto che la deviazione standard campionaria specificata nel testo sia quella associata a S 2, ′2 1 − α = 0, 9 1 − α/2 = 0, 95 t19;0,95 = 1, 729 82 Allora, l’intervallo richiesto è ! r 6, 58 = (2, 91; 4, 89) ore 3, 9 ± 1, 729 20 2. Si determini tale intervallo nell’ipotesi che con gli stessi dati le imprese intervistate siano 120. Per il nuovo intervallo, abbiamo . t119;0,95 = z0,95 = 1, 645 Allora, r 3, 9 ± 1, 645 6, 58 120 ! = (3, 52; 4, 29) ore L’intervallo è più corto, come ci potevamo aspettare, dato che all’aumentare della numerosità campionaria, a parità di tutto il resto, si riduce l’ampiezza dell’intervallo. 3. Si dica quale numerosità dovrebbe avere il campione per ridurre di 1/4 l’ampiezza dell’intervallo trovato al punto precedente. L’ampiezza dell’intervallo del punto precedente è 0,77. Allora, l’ampiezza del nuovo intervallo deve essere 0,77-0,77/4=0,58. Vogliamo determinare la numerosità campionaria n in modo tale che il nuovo intervallo abbia ampiezza 0,58. Per ridurre la dimensione dell’intervallo, a parità di tutto il resto, la numerositè deve aumentare, quindi n > 120. Il nuovo intervallo 83 è r 3, 9 ± 1, 645 con ampiezza 6, 58 n r ! 6, 58 n Risolvendo rispetto a n l’equazione r 6, 58 2 · 1, 645 = 0, 58 n 2 · 1, 645 si deriva n = 212 (arrotondando). 84