Vedremo ora come rendere pi`u esatta questa nozione legata alla
by user
Comments
Transcript
Vedremo ora come rendere pi`u esatta questa nozione legata alla
Vedremo ora come rendere più esatta questa nozione legata alla precisione con un altro strumento della statistica inferenziale che prende il nome di intervallo di confidenza. 1. Intervalli di confidenza Abbiamo appena visto che la media campionaria X̄n è un buon stimatore della media incognita e siamo stati in grado di mostrarne anche la sua distribuzione in presenza di grandi campioni anche nel caso di variabili casuali bernoulliane. Spesso però non è sufficiente, come già ricordato, fornire solo un risultato numerico ma è più opportuno garantirsi contro eventuali deviazioni, positive o negative, dal vero valore. Si introducono quindi gli intervalli di confidenza per i parametri. Ad esempio, gli intervalli di confidenza per la media forniscono un campo di variazione (centrato sulla media campionaria) all’interno del quale ci si aspetta di trovare il parametro incognito µ. Questa affermazione non è formalmente corretta, ma chiariremo fra poco i termini della questione. Ad ogni intervallo di confidenza viene associato un livello di confidenza (1 − α) che rappresenta il grado di attendibilità del nostro intervallo. Se X1 , X2 , . . . , Xn è un campione i.i.d. di variabili casuali gaussiane di media incognita µ e varianza σ 2 , sappiamo che la media campionaria X̄n è una variabile aleatoria Gaussiana di media µ e varianza σ 2 /n. Il nostro scopo è ora quello di determinare un intervallo di valori (a, b) che contenga il valore incognito µ. Vorremmo poter scrivere P (a < µ < b) = 1 − α ma questa scrittura è priva di senso, poiché l’argomento di P (·) non è un evento: µ, benché incognito, è pur sempre un numero, lo stesso vale per gli estremi dell’intervallo a e b. Perché abbia significato l’intervallo occorre introdurre un elemento di aleatorietà, quindi ricorriamo al seguente espediente introducendo la media campionaria nel seguente modo ! X̄n − µ P a< <b =1−α σ √ n che corrisponde a scrivere P (a < Z < b) = 1 − α con Z ∼ N (0, 1). A questo punto, osservando il disegno della Figura ?? possiamo pensare di scegliere come a il valore z α2 e come b il valore z1− α2 . Infatti, scegliendo in questo modo a e b otteniamo che ! X̄n − µ P z α2 < < z1− α2 = 1 − α . σ √ n Con il valore zα/2 abbiamo indicato quel valore tale per cui Φ(zα/2 ) = α/2, cioè il valore z tale per cui, se effettuiamo il calcolo dell’area sotto la curva Gaussiana fino al punto z otteniamo un’area Φ(z) pari a α/2. A questo punto osserviamo che, per la simmetria della distribuzione Gaussiana, scelto zp come quel valore tale per cui Φ(zp ) = p, si ha sempre 1 2 α α 1−α 2 2 zα z1−α 0 2 2 Figura 1. L’area sotto la curva è pari a 1 − α e nelle code rimane α/2 da ciascuna parte. zp = −z1−p . Nel nostro caso sarà z α2 = −z1− α2 . Dunque possiamo riscrivere l’espressione di sopra come segue P −z1− α2 < X̄n − µ √σ n ! < z1− α2 = 1−α. Questo è un intervallo −z1− α2 , z1− α2 per la variabile casuale normale standard Z = X̄n −µ √σ n di probabilità 1 − α. Svolgiamo ora i calcoli necessari per arrivare ad un intervallo in 1. INTERVALLI DI CONFIDENZA 3 termini della media µ P −z1− α2 < X̄n − µ √σ n ! < z1− α2 =P =P =P =P σ σ −z1− α2 √ < X̄n − µ < z1− α2 √ n n σ σ −z1− α2 √ − X̄n < −µ < z1− α2 √ − X̄n n n σ σ z1− α2 √ + X̄n > µ > −z1− α2 √ + X̄n n n σ σ X̄n − z1− α2 √ < µ < X̄n + z1− α2 √ n n dove, nella disequazione, abbiamo moltiplicato per per −1. In sostanza potremmo scrivere che µ∈ X̄n ± z1− α2 √σ , n σ √ n sottratto X n e moltiplicato ancora e siamo fiduciusi che questo accada nell’(1 − α)% dei casi, cioè nell’(1 − α)% dei campioni estratti. Se ci rammentiamo che µ è un numero e che la variabile casuale è X̄n ci rendiamo subito conto che l’intervallo di confidenza è un intervallo i cui estremi sono aleatori (X̄n ± z1− α2 √σn ). Il livello di confidenza può quindi essere visto come la frequenza di questi intervalli aleatori che contengono il valore incognito µ. Ecco perché è scorretto parlare del livello di confidenza come della probabilità che il nostro parametro sia contenuto nell’intervallo. Intervallo di confidenza per la media (σ 2 nota) Sia X una variabile casuale di media µ e varianza σ 2 . Se X1 , X2 , . . . , Xn è un campione i.i.d. estratto da X allora l’intervallo di confidenza per µ di livello 1 − α si scrive nella seguente forma σ µ ∈ X̄n ± z1− α2 √ n Accade di frequente che non si conosca il valore della varianza σ 2 . Ciò vuol dire che siamo costretti a calcolare una sua stima attraverso lo stimatore s̄2n . In tal caso l’intervallo di confidenza assume la seguente forma 4 Intervallo di confidenza per la media (σ 2 incognita) Sia X una variabile casuale di media µ e varianza σ 2 (incognita). Se X1 , X2 , . . . , Xn è un campione i.i.d. estratto da X allora l’intervallo di confidenza per µ di livello 1 − α può essere scritto nella seguente forma r ! s̄2n (n−1) µ ∈ X̄n ± t1− α 2 n (n−1) Le uniche differenze sono l’utilizzo di s̄2n anziché σ 2 e il valore t1−α/2 . Quel valore di t si deve cercare nella tavola della tabella ?? che riporta i valori della t di Student1. La distribuzione t di Student è molto simile ad una Gaussiana per forma ma è leggermente più allargata con code alte. L’ultimo caso che ci rimane da analizzare è il caso della proporzione campionaria. Se Pn le Xi sono tutte bernouliane di parametro p incognito, allora sappiamo che i=1 Xi ∼ Bin(n, p). Per la variabile casuale Binomiale abbiamo già visto che vale l’approssimazione alla variabile casuale Gaussiana se siamo in presenza di grandi campioni. Lo stimatore p̂n è sostanzialmente una Binomiale moltiplicata per il fattore 1/n. Senza entrare nei dettagli si può ricavare che, per n elevato, p̂n − p Z=q ∼ N (0, 1) p(1−p) n Se effettuiamo tutti i passaggi per la determinazione dell’intervallo di confidenza per p arriviamo al seguente risultato r p∈ p̂n ± z1− α2 p(1 − p) n ! che, come si può notare, non è possibile calcolare in alcun caso essendo p incognito. Se si sostituisce il valore p con la sua stima p̂n si può mostrare che vale ancora l’approssimazione alla variabile Gaussiana e quindi l’intervallo di confidenza per p si ottiene come riportato di seguito. 1Student è lo pseudonimo usato da William Gosset quando per la prima voltà pubblicò il risultato relativo alla variabile casuale che ne porta il nome. Fu, stranamente, l’azienda Guinness Brewery per cui lavorava, ad imporgli l’utilizzo di uno pseudonimo per la pubblicazione dei sui studi. 1. INTERVALLI DI CONFIDENZA 5 Intervallo di confidenza per la la proporzione Sia X una variabile casuale di Bernoulli di media p. Se X1 , X2 , . . . , Xn è un campione i.i.d. estratto da X allora l’intervallo di confidenza per p di livello 1 − α può essere scritto nella seguente forma ! r p̂n (1 − p̂n ) p ∈ p̂n ± z1− α2 n 1.1. La giusta scelta dell’ampiezza campionaria. Si può notare che l’ampiezza di un intervallo di confidenza dipende da due quantità: l’ampiezza campionaria n e il livello di confidenza 1 − α. Infatti, se indichiamo con L(n, α) la lunghezza di un intervallo di confidenza, ad esempio per la media, abbiamo che σ σ σ L(n, α) = X̄n + z1− α2 √ − X̄n − z1− α2 √ = 2z1− α2 √ n n n ricordando che la lunghezza di un intervallo (a, b) è pari a b − a. Come si vede L(n, α) non dipende dal valore assunto da X̄n , infatti l’intervallo avrà sempre la stessa ampiezza a parità di ampiezza campionaria n e livello di confidenza 1 − α, l’unica cosa che cambia è il centro dell’intervallo che corrisponde al valore X̄n . Questo implica che alcune volte l’intervallo conterrà il vero valore incognito µ ma altre volte no. La frequenza degli intervalli che contengono il valore µ è proprio il livello di confidenza. Per capire come questo possa accadere si può pensare ad un bersaglio con al centro il valore di µ. Se lanciamo una freccia questa andrà a colpire un punto del bersaglio X̄n . Se attrono al punto X̄n costruiamo un cerchio di raggio L(n, α)/2, tale cerchio a volte conterrà µ a volte no. Si veda in proposito il disegno in Figura ??. Tornando all’ampiezza dell’intervallo si nota che all’aumentare dell’ampiezza campionaria n, l’intervallo si restringe poiché √1n converge a zero. Se teniamo fisso n ed aumentiamo il livello di confidenza α, l’intervallo di allarga per il fatto che z1−α/2 cresce al crescere di 1 − α/2. Spesso, nella pratica statistica, è invece opportuno disporre di intervalli di confidenza che non siano troppo ampi, cioè si richiede all’intervallo di avere una lunghezza massima C fermo restando un prefissato livello di confidenza 1 − α. Il problema risiede quindi nel calcolare il numero minimo di osservazioni campionarie n necessarie a raggiungere l’obiettivo. Questo obiettivo si raggiunge in modo semplice nel caso dell’intervallo per la media, infatti si richiede di trovare n tale per cui L(n, α) < C, dunque σ L(n, α) = 2z1− α2 √ < C n implica che 2z1− α2 √ σ < n C 6 ......................................................................... ................. ............. ............. ........... ........... ......... ........ ......... . . . .................................. . . . . . . . . ........ ...... . ....... ..... . . . . . . . ....... . . . . . . ...... ....... ..... .... . . . . . . . . . . . . ...... ..... ... .... . . . . ...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......................... ...... ... .................. . . ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... ... ............. ... ................... . . . . ...... . . . . . . . . ......... ... ....... .... ..... . . . . . . . . . . . . . . . . ........ ..... ... ... ..... ... . . . . . . ..... . . . . . . . . . ....... ... .... ... ... ..... . . . . . . . . . . . . . ...... ..... ... . .... . .... . . . . . . ..... . . . . . . ... ...... . .. ... . . ..... . . . . . . . . . . . . ...... .. ..... .. .... .... . . . . . . . . . . . ..... .... ... ... ................................................... ... . . . ... . . . . . . . . . . . ... . . . . . . . . . . ........... ..... ... ....... ... . .. ... . . . . . . . . . . . . . . . . . . . . . . . ..... ... ... .. . ............ .. ...... . . . . . . . . . . . . . ... . . . . ....... ..... ........... .. . .... . . ... . . . . . . . . . . . ...... .... .. ........ ... . ... . . . . . . . . . . . . . . . ...... ... ... ... ... . .. . . . . . ... . . . . . . . . ... . ..... ... ... . . .... .. . . . . . . . ... . . . . . . . . . ... ..... ..... .. . . . .... ... . . . ... . . . . . . . . . . . ... ..... ..... .. ... ... . . . . . ... .. . . . . . . . . . . . . ....... .......................................... ... ... ... . . . .... . . . . . .. . . . . . . . . . . . . . . . . . . . . ... ........... ....... ... ..... .... .. . ......... . . . . . ... . . .. . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . ...... ... .. .... . .. ... . .. . . . . . . . . . . ... ......... ... .... .. .. . ... . . . . . . . ... ... ... ... .. .. .. . . .. . . . . . . ... ... ... ... .. .. .. . . . . .... . . ... .. ... ... ............................... . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . ... . .... . . . .......... ................ ... ... ... . ...... . .. . . . . . . . ... . . . . ... . . ... . . . . ... ... .. ...... . .... ......... .... . . . . ... . . . . . . . . ... . . . .... ... . . ..... ..... ... ... ... . .... .... ... . . . . . . . . . . . . . . . ... ... ... .... .... ... .. . ... ... ... . . . . . . . . . ... . ... . .... ... ... ... ... ... .. ... ... ... . . . . . . . . . . . . . ... . ... . . . . . ... . . . .............. .. ... ... ............. ... .. ... .. .. . . . . . . . . ... . . ... . . . . ... . ........ ... .. ... ... ........ ... .. . .. . . . . . ... . . ... . . . . ... ... ... ... ....... ..... ... .... .... . .. . .. . . ... ... ... . . . ... . ... ... ..... .... ... .... .... . . ... . . . . .... ..... .... . . ... ... ... ... ... .. ... ... . .. . ... . . ... ... ... . . . . ... . . ... .... . .. .. . . ... .. .. . ... . ... ... ... ... . . . . . . . .... ... .. . .. ... ... ... ... ... .. . . .. ... . .. . . . . . . . . . . ..... ... .. .. . . ... . ... ... ... ... . .. .. . .. . . . . . . . . . . . . ......... . ... ... ... . ... ... .. ........ ...... ... ... ... ... ... ... ... ... ... ... .. ....... ... .......... .. ... ... ... ... ... ... ......................................... ... ... ... ... .. .. .. ... ... ... ... ..... ... ... ... ..... .. ... . .. .. . . . . ... . . . . . ... . ... ... . . . . . . ..... .. . .... ... ... ...... .. ..... ... ... ... ... ... ... ..... .......... ......... ...... ... ... ... ..... ... ... ... ... ............. ....... ...... ... ... ... . .. ........... ... ... ... ....... ... ... ........... .................. .. ... . . . . . . . . . . . . . . . . . . . . . . . ................ ............... ... ... ... ... . ....... ... ... ... ... ... ... ... ... .. ... ... .... ... ... ... ... .. ... ... ..... .... ... ... ... ... ... ..... ... .... . . . . ... . ... . . . . . . . . . . . ...... ... ... . . ... ....... ...... ..... ... ... ... ... ... .......... ....... ..... .. ..... ... .................................................... ... ... ..... ... ..... ........... ... ... ... ... ..... ... ..... ....... ......... . . . ... . . . . ... . . . . . . . . . . . . . . ..... ...... .... ... .. ... .... ...... ... ... ..... ... ... .......... ...... .... ... ..... ... ...... ........ ... ...... ..... ... .... .... ...... ... ....... ... ..... ... ... ....... ..... . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . ..... ........ ... ... .. ........ .......... ..... ..... ... ... ... ... .......... ............. ..... ..... .... ... ... .................................................................. ..... ..... ..... .... . ... ......... ..... ..... .. . ..... ...... . . . . . . . . . . . ..... . . ...... ... ....... ..... .. ...... ..... ...... ... ..... ....... .... ..... ..... ....... .... ....... ... ..... ..... ....... ........ ... ..... .. ....... ..... . . . . . . . . . . . . . . . . . . . . ......... ...... . ... ......... ........... ...... ...... ... .. .......... .............. ..... ...... ... .............. .............................. ..... ...... ............................................ ... ...... ...... ... ....... ... ............ . . .... ....... ............ ........ ..... ........... ........ ..... ....... ......... ...... ............. .......... ....... ....................... . ............ . . . . . . . . . . . . . . . . . . ................ ............................................................................................................... 1 X̄n 2 3 X̄n X̄n µ 4 X̄n X̄n 5 Figura 2. Tiro al bersaglio con la media campionaria. Al centro del bersaglio c’è la media incognita µ. I cerchi con al centro X̄n sono gli intervalli di confidenza di ampiezza costante, cioè di raggio L(n, α)/2. Come si nota alcuni intervalli (cerchi) non contengono il valore µ (si tratta degli intervalli 1, 2 e 5) altri invece lo contengono (gli intervalli 3 e 4). Si può interpretare il livello di confidenza 1 − α come la frequenza degli intervalli che contengono il valore incognito µ. e dunque σ 2 n > 2z1− α2 C Il prossimo esercizio fornisce un esempio di calcolo della giusta ampiezza campionaria. Esercizio 1. In un esame di psicologia vengono misurati i tempi di reazione di n = 100 individui e si riscontra un tempo medio di reazione pari a 1 secondo. Dagli studi precedenti sul fenomeno, sappiamo che lo scarto quadratico medio è pari a σ = 0.05 secondi. Occupiamoci ora dei seguenti problemi: a) determiniamo un intervallo di confidenza per il tempo medio di reazione µ al livello 95% e b) stabiliamo quale deve essere il numero minimo di osservazioni campionarie n per avere un’ampiezza dell’intervallo pari al più a 0.02 secondi ad un livello di confidenza pari al 99%. 1. INTERVALLI DI CONFIDENZA 7 Usiamo la formula dell’intervallo di confidenza che abbiamo ricavato poco sopra: σ σ (1) P =1−α X̄n − z1− α2 √ , X̄n + z1− α2 √ n n In questo caso 1 − α = 0.95 e quindi α = 0.05. Dobbiamo determinare i due valori z1− α2 e −z1− α2 = z α2 , cioè z0.975 = 1.96 e z0.025 = −1.96. Quindi, l’intervallo di confidenza si calcola come segue σ 0.05 X̄n ± z1− α2 √ = 1 ± 1.96 √ = 1 ± 1.96 · 0.005 = 1 ± 0.0098 n 100 cioè, possiamo scrivere che µ ∈ (0.9902 , 1.0098) ad un livello di confidenza pari al 95%. In questo caso l’intervallo di confidenza è ampio 1.0098 − 0.9902 = 0.0196 ' 0.02 secondi. Rispondiamo ora al quesito b). Quanto deve essere n se vogliamo un intervallo di valori di ampiezza al più pari a 0.02 secondi e ad un livello di confidenza pari a 1 − α = 0.99? Usiamo ancora la formula (??). La lunghezza dell’intervallo di confidenza si calcola come differenza tra il valore dell’estremo superiore e quella inferiore, cioè σ σ σ X n + z1− α2 √ − X n − z1− α2 √ = 2 · z1− α2 √ n n n Noi vogliamo che l’ampiezza sia pari a 0.02 o anche meno, quindi risolviamo l’equazione σ 0.02 ≥ 2 · z1− α2 √ n rispetto ad n e otteniamo σ 2 n ≥ 2z1− α2 0.02 poiché vogliamo 1 − α = 0.99 ricaviamo z1− α2 = z0.995 = 2.58 quindi 2 0.05 n ≥ 2 · 2.58 = 12.92 = 166.41 0.02 cioè n ≥ 167. Quindi, se aumentiamo il livello di confidenza dal 95% al 99% per avere un intervallo al più di ampiezza 0.02 dobbiamo passare da 100 a 167 osservazioni campionarie. 8 Schema riassuntivo sugli intervalli di confidenza Di fronte ad un problema che riguarda tale argomento si deve sempre scomporre il problema per punti e seguire queste semplici regole: 1) Non farsi prendere dal panico! Associare ad α il giusto valore. Ad esempio, se è richiesto un intervallo di confidenza di livello 95%, α si ottiene dalla relazione 0.95 = 1 − α, per cui nell’esempio sarà pari a 0.05. 2) Se si tratta di un intervallo sulla proporzione p (variabili di partenza Ber(p)): i) se n < 30 non è possibile calcolare in modo corretto l’intervallo per p; ii) se n > 30 l’intervallo di confidenza assume la forma ! r p̂n (1 − p̂n ) p ∈ p̂n ± z1− α2 n 3) Si tratta di un intervallo sulla media µ (variabili di partenza N (µ, σ 2 )): i) σ 2 è nota: allora l’intervallo assume la forma σ µ ∈ x̄n ± √ z1− α2 n n P 1 (xi − x̄n )2 . L’intervallo assume la forma ii) σ 2 viene stimato con s̄2n = n−1 i=1 seguente s̄n (n−1) µ ∈ x̄n ± √ t1− α 2 n p 2 dove s̄n = s̄n . Se n è molto elevato si utilizza il valore di z1− α2 al posto di (n−1) t1− α . 2 4) Si tratta di un intervallo di confidenza sulla media µ con n molto elevato e le variabili di partenza anche di tipo non gaussiano: allora si procede come per il (n−1) punto ii) di 3) utilizzando, chiaramente, z1− α2 al posto di t1− α . 2 1. INTERVALLI DI CONFIDENZA 9 1.2. Esercizi riepilogativi. Esercizio 2. Si è misurata la pressione sistolica del sangue di 90 maschi sani ottenendo una media campionaria pari a 128.9 mm di mercurio e una deviazione standard di 17 mm di mercurio. Assumendo che questi dati costituiscano le realizzazioni di un campione casuale di misurazioni della pressione del sangue, a) calcolare un intervallo di confidenza al 95% per la pressione media; b) determinare la lunghezza di tale intervallo; c) se aumentassimo il livello di confidenza al 99% la lunghezza dell’intervallo aumenterebbe o diminuirebbe? (Giustificare adeguatamente le risposte). d) quanto sarebbe lungo l’intervallo di confidenza al 95% se i valori della media e della deviazione standard campionarie ottenuti fossero relative ad un campione di dimensione 360? Questo esercizio è analogo al successivo quindi, per i dettagli, si rimanda all’esercizio seguente (più completo e riassuntivo) p mentre riportiamo qui brevemente solo i calcoli. Per semplicità indichiamo con s̄n = s̄2n . Un intervallo di confidenza con livello di confidenza (n−1) 1 − α per la media in questo caso è dato da µ = xn ± √s̄nn t1− α . 2 a) In corrispondenza dei dati e di α = 0.05 otteniamo l’intervallo (125.33 , 132.47). (89) b) La lunghezza dell’intervallo è 2 √s̄90 t = 7.14 90 0.975 c) Aumentando il livello di confidenza aumenta la lunghezza dell’intervallo in quanto aumenta la probabilità che il parametro (media) appartenga all’intervallo. Infatti (89) facendo i calcoli si ottiene 2 √s̄90 t = 9.43. 90 0.995 (359) d) In questo caso la lunghezza dell’intervallo è 2 √s̄360 t = 3.51 e quindi diminuisce. 360 0.975 Esercizio 3. Il peso, espresso in grammi, di alcuni granelli di polvere identificati su una piastra di silicio si suppone distribuito come una variabile casuale normale di parametri µ e σ 2 . I dati sono riportati di seguito: 0.39 0.68 0.82 1.35 1.38 1.62 1.70 1.71 1.85 2.14 2.89 3.69 Dopo aver determinato una stima per µ si costruiscano gli intervalli di confidenza per la media al livello 95% e 99% a) supponendo σ 2 = 0.85; b) supponendo σ 2 ignota; Calcoliamo la media campionaria x̄n . n 1X 0.39 + 0.68 + · · · + 3.69 x̄n = xi = = 1.685 n i=1 12 10 e per l’intervallo di confidenza utilizziamo la formula (valida quando σ 2 è nota) σ µ ∈ x̄n ± √ z1− α2 n quindi a) r µ∈ 1.685 ± 0.085 z1− α2 12 ! Se vogliamo l’intervallo di livello 95% poniamo α = 0.05 e quindi calcoliamo z1−0.025 = z0.975 = 1.96 mentre per il livello 99% sarà α = 0.01 e quindi calcoliamo z1−0.005 = z0.995 = 2.57. Infine otteniamo i due intervalli sostituendo i valori di z1− α2 µ ∈ (1.16 , 2.21) di livello 95% µ ∈ (1.00 , 2.37) di livello 99% e come si vede l’intervallo di livello di confidenza più alto è più esteso. b) Supponiamo ora che la varianza non sia nota e stimiamola quindi attraverso il campione utilizzando la statistica s̄2n n 1 X s̄2n = (xi − x̄n )2 = 0.85 n − 1 i=1 Essendo la varianza incognita si deve ricorrere all’uso della variabile casuale t di Student con n − 1 gradi di libertà, cioè l’intevallo di confidenza si ottiene attraverso la formula ! r s̄2n (n−1) t α µ ∈ x̄n ± n 1− 2 Nei due casi i valori della t di Student sono (11) (11) t1− 0.05 = t0.975 = 2.201 2 e (11) (11) t1− 0,01 = t0.995 = 3.106 2 Infine, sostituendo i valori si ottiene µ ∈ (1.10 , 2.27) di livello 95% µ ∈ (0.86 , 2.51) di livello 99% che come si vede sono più ampi dei corrispondenti intervalli calcolati in precedenza. Esercizio 4. Dopo la chiusura dei seggi, gli elettori, chiamati ad esprimersi su un quesito referendario, attendono con ansia l’esito della consultazione. 1. INTERVALLI DI CONFIDENZA 11 a) Lo spoglio parziale di n schede (che supponiamo rappresentative del totale delle schede) ha fornito il seguente risultato: SI NO 51 % 49 % Determinare gli intervalli di confidenza al 95% e al 99% della percentuale di SI supponendo n = 2500. b) Sulla base di questi risultati, si calcoli la probabilità che il SI vinca con n = 2500, n = 1000 ed n = 500. c) Una società di ricerche di mercato ha diffuso invece risultati discordanti sostenendo che il suo campione rappresentativo di ampiezza n imprecisata fornisce le seguenti stime molto più incerte: SI NO 50.5 % 49.5 % Per quali valori di n si potrebbe annunciare la vittoria dei SI con un errore inferiore all’ 1% ? Siamo in uno schema di Bernoulli se ipotizziamo che gli elettori si eprimano in modo indipedente gli uni dagli altri e se pensiamo alla popolazione di tutti gli elettori come ad una popolazione molto ampia in modo tale che la probabilità di estrarre un elettore di un tipo (SI) piuttosto che un altro (NO) non vari da un’estrazione alla successiva. Quindi ogni elettore è una variabile casuale di Bernoulli di parametro p = “proporzione di SI nella popolazione”. Sappiamo che p̂ − p qn ∼Z n grande p̂n (1−p̂n ) n P dove p̂n = n1 ni=1 Xi = X̄n è la proporzione dei SI nel campione. Quindi l’intervallo di confidenza assume la forma ! r p̂n (1 − p̂n ) p ∈ p̂n ± z1− α2 n dove per α = 0.05 → z0.975 = 1.96 e α = 0.01 → z0.995 = 2.57 quindi p ∈ (0.49 , 0.53) di livello 95% p ∈ (0.48 , 0.54) di livello 99% Per Pn rispondere al quesito b) usiamo direttamente la variabile casuale Binomiale Y = n i=1 Xi . Quindi i SI vincono se raggiungono almeno la metà più uno dei voti, cioè da 2 in poi. Prima di continuare con i calcoli ricordiamo ancora una volta che Y − n p̂n p ∼Z n p̂n (1 − p̂n ) n grande 12 Dobbiamo calcolare n P Y > 'P 2 Z>p n 2 − n p̂n ! n p̂n (1 − p̂n ) √ (0.5 − 0.51) =1−Φ n√ 0.51 · 0.49 √ = 1 − Φ −0.02 n √ = Φ(0.02 n) Quindi Φ(1) = 0.84 n = 2500 n P Y > ' Φ(0.63) = 0.74 n = 1000 2 Φ(0.45) = 0.67 n = 500 Per l’ultimo punto c) riccoriamo alla formula che abbiamo derivato poco sopra ponendola pari a 0.99% : √ (0.5 − 0.505) n P Y > =P Z > n√ = 0.99 2 0.505 · 0.495 cioè si deve risolvere rispetto ad n l’equazione √ (0.5 − 0.505) z0.01 = n √ 0.505 · 0.495 dunque √ −0.005 −2.33 ' n 0.5 √ n ' 233 e infine n = 2332 = 54289 Quindi occorre avere un campione enormemente più grande di quelli ipotizzati. Esercizio 5. La misura del tasso di colesterolo nel sangue di 100 individui scelti a caso ha fornito i seguenti risultati: x̄n = 1,55 g/l, s̄n = 0,5 g/l. Si fornisca un intervallo di confidenza al livello 75% per il tasso medio di colesterolo nel sangue della popolazione. Questo esercizio ricalca il precedente. L’unica variante è il livello di confidenza dell’intervallo. L’intervallo di confidenza avrà quindi la seguente struttura n−1 s̄n µ ∈ x̄n ± t1− α √ 2 n Poiché n è molto grande, si ricorre all’approssimazione della t di Student con la Gaussiana, quindi l’intervalo sarà della forma s̄n α µ ∈ x̄n ± z1− 2 √ n 1. INTERVALLI DI CONFIDENZA 13 e quindi µ ∈ 1.55 ± 1.15 0.5 10 cioè µ ∈ (1.49 , 1.61) di livello 75%. Esercizio 6. Sia p la proporzione di fumatori per una certa popolazione. Su un campione di 1000 individui estratti a caso da questa popolazione, si contano 284 fumatori. Si fornisca un intervallo di confidenza per p al livello 95%. Anche in questo caso è un intervallo di confidenza sulle proporzioni, quindi si applica la formula ! r p̂n (1 − p̂n ) z1− α2 p ∈ p̂n ± n dove, in questo caso, p̂n = 284 . 1000 Quindi p ∈ (0.26 , 0.31) di livello 95%.