...

Vedremo ora come rendere pi`u esatta questa nozione legata alla

by user

on
Category: Documents
11

views

Report

Comments

Transcript

Vedremo ora come rendere pi`u esatta questa nozione legata alla
Vedremo ora come rendere più esatta questa nozione legata alla precisione con un altro
strumento della statistica inferenziale che prende il nome di intervallo di confidenza.
1. Intervalli di confidenza
Abbiamo appena visto che la media campionaria X̄n è un buon stimatore della media incognita e siamo stati in grado di mostrarne anche la sua distribuzione in presenza
di grandi campioni anche nel caso di variabili casuali bernoulliane. Spesso però non è
sufficiente, come già ricordato, fornire solo un risultato numerico ma è più opportuno
garantirsi contro eventuali deviazioni, positive o negative, dal vero valore. Si introducono
quindi gli intervalli di confidenza per i parametri. Ad esempio, gli intervalli di confidenza
per la media forniscono un campo di variazione (centrato sulla media campionaria) all’interno del quale ci si aspetta di trovare il parametro incognito µ. Questa affermazione non
è formalmente corretta, ma chiariremo fra poco i termini della questione.
Ad ogni intervallo di confidenza viene associato un livello di confidenza (1 − α) che
rappresenta il grado di attendibilità del nostro intervallo. Se X1 , X2 , . . . , Xn è un campione
i.i.d. di variabili casuali gaussiane di media incognita µ e varianza σ 2 , sappiamo che la
media campionaria X̄n è una variabile aleatoria Gaussiana di media µ e varianza σ 2 /n.
Il nostro scopo è ora quello di determinare un intervallo di valori (a, b) che contenga il
valore incognito µ. Vorremmo poter scrivere
P (a < µ < b) = 1 − α
ma questa scrittura è priva di senso, poiché l’argomento di P (·) non è un evento: µ,
benché incognito, è pur sempre un numero, lo stesso vale per gli estremi dell’intervallo
a e b. Perché abbia significato l’intervallo occorre introdurre un elemento di aleatorietà,
quindi ricorriamo al seguente espediente introducendo la media campionaria nel seguente
modo
!
X̄n − µ
P a<
<b =1−α
σ
√
n
che corrisponde a scrivere
P (a < Z < b) = 1 − α
con Z ∼ N (0, 1). A questo punto, osservando il disegno della Figura ?? possiamo pensare
di scegliere come a il valore z α2 e come b il valore z1− α2 . Infatti, scegliendo in questo modo
a e b otteniamo che
!
X̄n − µ
P z α2 <
< z1− α2 = 1 − α .
σ
√
n
Con il valore zα/2 abbiamo indicato quel valore tale per cui Φ(zα/2 ) = α/2, cioè il valore
z tale per cui, se effettuiamo il calcolo dell’area sotto la curva Gaussiana fino al punto z
otteniamo un’area Φ(z) pari a α/2. A questo punto osserviamo che, per la simmetria della
distribuzione Gaussiana, scelto zp come quel valore tale per cui Φ(zp ) = p, si ha sempre
1
2
α
α
1−α
2
2
zα
z1−α
0
2
2
Figura 1. L’area sotto la curva è pari a 1 − α e nelle code rimane α/2 da
ciascuna parte.
zp = −z1−p . Nel nostro caso sarà z α2 = −z1− α2 . Dunque possiamo riscrivere l’espressione
di sopra come segue
P
−z1− α2 <
X̄n − µ
√σ
n
!
< z1− α2
= 1−α.
Questo è un intervallo −z1− α2 , z1− α2 per la variabile casuale normale standard Z =
X̄n −µ
√σ
n
di probabilità 1 − α. Svolgiamo ora i calcoli necessari per arrivare ad un intervallo in
1. INTERVALLI DI CONFIDENZA
3
termini della media µ
P
−z1− α2 <
X̄n − µ
√σ
n
!
< z1− α2
=P
=P
=P
=P
σ
σ
−z1− α2 √ < X̄n − µ < z1− α2 √
n
n
σ
σ
−z1− α2 √ − X̄n < −µ < z1− α2 √ − X̄n
n
n
σ
σ
z1− α2 √ + X̄n > µ > −z1− α2 √ + X̄n
n
n
σ
σ
X̄n − z1− α2 √ < µ < X̄n + z1− α2 √
n
n
dove, nella disequazione, abbiamo moltiplicato per
per −1. In sostanza potremmo scrivere che
µ∈
X̄n ± z1− α2
√σ ,
n
σ
√
n
sottratto X n e moltiplicato ancora
e siamo fiduciusi che questo accada nell’(1 − α)% dei casi, cioè nell’(1 − α)% dei campioni
estratti.
Se ci rammentiamo che µ è un numero e che la variabile casuale è X̄n ci rendiamo
subito conto che l’intervallo di confidenza è un intervallo i cui estremi sono aleatori (X̄n ±
z1− α2 √σn ). Il livello di confidenza può quindi essere visto come la frequenza di questi
intervalli aleatori che contengono il valore incognito µ. Ecco perché è scorretto parlare
del livello di confidenza come della probabilità che il nostro parametro sia contenuto
nell’intervallo.
Intervallo di confidenza per la media (σ 2 nota)
Sia X una variabile casuale di media µ e varianza σ 2 . Se X1 , X2 , . . . , Xn è un campione
i.i.d. estratto da X allora l’intervallo di confidenza per µ di livello 1 − α si scrive nella
seguente forma
σ
µ ∈ X̄n ± z1− α2 √
n
Accade di frequente che non si conosca il valore della varianza σ 2 . Ciò vuol dire che
siamo costretti a calcolare una sua stima attraverso lo stimatore s̄2n . In tal caso l’intervallo
di confidenza assume la seguente forma
4
Intervallo di confidenza per la media (σ 2 incognita)
Sia X una variabile casuale di media µ e varianza σ 2 (incognita). Se X1 , X2 , . . . , Xn è un
campione i.i.d. estratto da X allora l’intervallo di confidenza per µ di livello 1 − α può
essere scritto nella seguente forma
r !
s̄2n
(n−1)
µ ∈ X̄n ± t1− α
2
n
(n−1)
Le uniche differenze sono l’utilizzo di s̄2n anziché σ 2 e il valore t1−α/2 . Quel valore di
t si deve cercare nella tavola della tabella ?? che riporta i valori della t di Student1. La
distribuzione t di Student è molto simile ad una Gaussiana per forma ma è leggermente
più allargata con code alte.
L’ultimo caso che ci rimane da analizzare è il caso della proporzione campionaria.
Se
Pn
le Xi sono tutte bernouliane di parametro p incognito, allora sappiamo che i=1 Xi ∼
Bin(n, p). Per la variabile casuale Binomiale abbiamo già visto che vale l’approssimazione
alla variabile casuale Gaussiana se siamo in presenza di grandi campioni. Lo stimatore
p̂n è sostanzialmente una Binomiale moltiplicata per il fattore 1/n. Senza entrare nei
dettagli si può ricavare che, per n elevato,
p̂n − p
Z=q
∼ N (0, 1)
p(1−p)
n
Se effettuiamo tutti i passaggi per la determinazione dell’intervallo di confidenza per p
arriviamo al seguente risultato
r
p∈
p̂n ± z1− α2
p(1 − p)
n
!
che, come si può notare, non è possibile calcolare in alcun caso essendo p incognito. Se si
sostituisce il valore p con la sua stima p̂n si può mostrare che vale ancora l’approssimazione
alla variabile Gaussiana e quindi l’intervallo di confidenza per p si ottiene come riportato
di seguito.
1Student
è lo pseudonimo usato da William Gosset quando per la prima voltà pubblicò il risultato
relativo alla variabile casuale che ne porta il nome. Fu, stranamente, l’azienda Guinness Brewery per cui
lavorava, ad imporgli l’utilizzo di uno pseudonimo per la pubblicazione dei sui studi.
1. INTERVALLI DI CONFIDENZA
5
Intervallo di confidenza per la la proporzione
Sia X una variabile casuale di Bernoulli di media p. Se X1 , X2 , . . . , Xn è un campione
i.i.d. estratto da X allora l’intervallo di confidenza per p di livello 1 − α può essere scritto
nella seguente forma
!
r
p̂n (1 − p̂n )
p ∈ p̂n ± z1− α2
n
1.1. La giusta scelta dell’ampiezza campionaria. Si può notare che l’ampiezza
di un intervallo di confidenza dipende da due quantità: l’ampiezza campionaria n e il
livello di confidenza 1 − α. Infatti, se indichiamo con L(n, α) la lunghezza di un intervallo
di confidenza, ad esempio per la media, abbiamo che
σ
σ
σ
L(n, α) = X̄n + z1− α2 √ − X̄n − z1− α2 √
= 2z1− α2 √
n
n
n
ricordando che la lunghezza di un intervallo (a, b) è pari a b − a. Come si vede L(n, α)
non dipende dal valore assunto da X̄n , infatti l’intervallo avrà sempre la stessa ampiezza
a parità di ampiezza campionaria n e livello di confidenza 1 − α, l’unica cosa che cambia
è il centro dell’intervallo che corrisponde al valore X̄n . Questo implica che alcune volte
l’intervallo conterrà il vero valore incognito µ ma altre volte no. La frequenza degli
intervalli che contengono il valore µ è proprio il livello di confidenza. Per capire come
questo possa accadere si può pensare ad un bersaglio con al centro il valore di µ. Se
lanciamo una freccia questa andrà a colpire un punto del bersaglio X̄n . Se attrono al
punto X̄n costruiamo un cerchio di raggio L(n, α)/2, tale cerchio a volte conterrà µ a
volte no. Si veda in proposito il disegno in Figura ??.
Tornando all’ampiezza dell’intervallo si nota che all’aumentare dell’ampiezza campionaria n, l’intervallo si restringe poiché √1n converge a zero. Se teniamo fisso n ed
aumentiamo il livello di confidenza α, l’intervallo di allarga per il fatto che z1−α/2 cresce
al crescere di 1 − α/2.
Spesso, nella pratica statistica, è invece opportuno disporre di intervalli di confidenza
che non siano troppo ampi, cioè si richiede all’intervallo di avere una lunghezza massima
C fermo restando un prefissato livello di confidenza 1 − α. Il problema risiede quindi
nel calcolare il numero minimo di osservazioni campionarie n necessarie a raggiungere
l’obiettivo. Questo obiettivo si raggiunge in modo semplice nel caso dell’intervallo per la
media, infatti si richiede di trovare n tale per cui L(n, α) < C, dunque
σ
L(n, α) = 2z1− α2 √ < C
n
implica che
2z1− α2
√
σ
< n
C
6
.........................................................................
.................
.............
.............
...........
...........
.........
........
.........
.
.
.
..................................
.
.
.
.
.
.
.
.
........
...... .
.......
.....
.
.
.
.
.
.
.
.......
.
.
.
.
.
.
......
.......
.....
....
.
.
.
.
.
.
.
.
.
.
.
.
......
.....
...
....
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..........................
......
...
..................
.
.
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
... .............
...
...................
.
.
.
.
......
.
.
.
.
.
.
.
.
.........
...
.......
....
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
.....
...
...
..... ...
.
.
.
.
.
.
.....
.
.
.
.
.
.
.
.
.
.......
...
.... ...
...
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
......
.....
...
.
....
.
....
.
.
.
.
.
.
.....
.
.
.
.
.
.
...
......
.
..
...
.
.
.....
.
.
.
.
.
.
.
.
.
.
.
.
......
..
.....
..
....
....
.
.
.
.
.
.
.
.
.
.
.
.....
....
...
...
................................................... ...
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
...........
.....
...
.......
...
.
..
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
...
...
..
. ............
..
......
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.......
.....
...........
..
.
....
.
.
...
.
.
.
.
.
.
.
.
.
.
.
......
....
..
........
...
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
...
...
... ...
.
..
.
.
.
.
.
...
.
.
.
.
.
.
.
.
...
.
.....
...
...
.
.
....
..
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
...
.....
.....
..
.
.
.
....
...
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
...
.....
.....
..
...
...
.
.
.
.
.
...
..
.
.
.
.
.
.
.
.
.
.
.
.
.......
.......................................... ...
...
...
.
.
.
....
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...........
....... ...
..... ....
..
.
.........
.
.
.
.
.
...
.
.
..
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
...
..
....
.
..
...
.
..
.
.
.
.
.
.
.
.
.
.
...
.........
...
....
..
..
.
...
.
.
.
.
.
.
.
... ...
...
...
..
..
..
.
.
..
.
.
.
.
.
.
...
... ...
...
..
..
..
.
.
.
.
....
.
.
... ..
...
...
...............................
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
...
.
....
.
.
.
..........
................
... ...
...
.
......
.
..
.
.
.
.
.
.
.
...
.
.
.
.
...
.
.
...
.
.
.
.
...
... ..
......
.
.... .........
....
.
.
.
.
...
.
.
.
.
.
.
.
.
...
.
.
.
....
...
.
.
.....
.....
...
... ...
.
....
....
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
...
....
....
... ..
.
...
...
...
.
.
.
.
.
.
.
.
.
...
.
...
.
....
...
...
...
...
... ..
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
...
.
.
.
.
.
...
.
.
.
.............. ..
...
... .............
... ..
...
..
..
.
.
.
.
.
.
.
.
...
.
.
...
.
.
.
.
...
.
........
... ..
...
...
........
...
..
.
..
.
.
.
.
.
...
.
.
...
.
.
.
.
...
...
...
... .......
.....
...
.... ....
.
..
.
..
.
.
...
...
...
.
.
.
...
.
...
... .....
....
...
.... ....
.
.
...
.
.
.
.
....
.....
....
.
.
...
...
...
... ...
..
...
...
.
..
.
...
.
.
...
...
...
.
.
.
.
...
.
.
... ....
. ..
..
.
.
...
..
..
.
...
.
...
...
...
...
.
.
.
.
.
.
.
.... ...
..
.
.. ...
...
...
...
...
..
.
.
..
...
.
..
.
.
.
.
.
.
.
.
.
.
..... ...
.. ..
.
.
...
.
...
...
...
...
.
..
..
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
...
...
...
.
...
...
..
........
......
...
...
...
...
...
...
...
...
...
...
..
.......
... ..........
..
...
...
...
...
...
...
.........................................
...
...
...
...
..
..
..
...
...
...
...
.....
...
...
...
.....
..
...
.
..
..
.
.
.
.
...
.
.
.
.
.
...
.
...
...
.
.
.
.
.
.
..... ..
.
....
...
...
...... ..
.....
...
...
...
...
...
...
.....
.......... .........
......
...
...
...
.....
...
...
...
...
.............
.......
......
...
...
...
.
..
...........
...
...
...
.......
...
...
........... ..................
..
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
................ ...............
...
...
...
...
.
.......
...
...
...
...
...
...
...
...
..
...
...
....
...
...
...
...
..
...
...
.....
....
...
...
...
...
...
.....
...
....
.
.
.
.
...
.
...
.
.
.
.
.
.
.
.
.
.
.
......
...
...
.
.
...
.......
......
.....
...
...
...
...
...
..........
.......
.....
..
.....
...
....................................................
...
...
.....
...
.....
...........
...
...
...
...
.....
...
.....
.......
.........
.
.
.
...
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
...... ....
...
..
...
....
......
...
...
.....
...
...
..........
......
....
...
.....
...
...... ........
...
......
.....
...
....
....
......
...
.......
...
.....
...
...
.......
.....
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
........
...
...
..
........
..........
.....
.....
...
...
...
...
..........
.............
.....
.....
....
...
...
..................................................................
.....
.....
.....
....
.
... .........
.....
.....
..
.
.....
......
.
.
.
.
.
.
.
.
.
.
.
.....
.
.
......
...
.......
.....
..
......
.....
...... ...
.....
.......
....
.....
.....
....... ....
.......
...
.....
.....
.......
........
...
.....
..
.......
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
......
.
...
.........
...........
......
......
...
..
..........
..............
.....
......
...
..............
..............................
.....
......
............................................
...
......
......
...
.......
... ............
.
.
....
.......
............
........
.....
...........
........
.....
.......
.........
......
.............
..........
.......
.......................
.
............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
................
...............................................................................................................
1
X̄n
2
3
X̄n
X̄n
µ
4
X̄n
X̄n
5
Figura 2. Tiro al bersaglio con la media campionaria. Al centro del bersaglio
c’è la media incognita µ. I cerchi con al centro X̄n sono gli intervalli di confidenza
di ampiezza costante, cioè di raggio L(n, α)/2. Come si nota alcuni intervalli
(cerchi) non contengono il valore µ (si tratta degli intervalli 1, 2 e 5) altri invece
lo contengono (gli intervalli 3 e 4). Si può interpretare il livello di confidenza
1 − α come la frequenza degli intervalli che contengono il valore incognito µ.
e dunque
σ 2
n > 2z1− α2
C
Il prossimo esercizio fornisce un esempio di calcolo della giusta ampiezza campionaria.
Esercizio 1. In un esame di psicologia vengono misurati i tempi di reazione di
n = 100 individui e si riscontra un tempo medio di reazione pari a 1 secondo. Dagli
studi precedenti sul fenomeno, sappiamo che lo scarto quadratico medio è pari a σ = 0.05
secondi. Occupiamoci ora dei seguenti problemi: a) determiniamo un intervallo di confidenza per il tempo medio di reazione µ al livello 95% e b) stabiliamo quale deve essere il
numero minimo di osservazioni campionarie n per avere un’ampiezza dell’intervallo pari
al più a 0.02 secondi ad un livello di confidenza pari al 99%.
1. INTERVALLI DI CONFIDENZA
7
Usiamo la formula dell’intervallo di confidenza che abbiamo ricavato poco sopra:
σ
σ
(1)
P
=1−α
X̄n − z1− α2 √ , X̄n + z1− α2 √
n
n
In questo caso 1 − α = 0.95 e quindi α = 0.05. Dobbiamo determinare i due valori z1− α2
e −z1− α2 = z α2 , cioè z0.975 = 1.96 e z0.025 = −1.96. Quindi, l’intervallo di confidenza si
calcola come segue
σ
0.05
X̄n ± z1− α2 √ = 1 ± 1.96 √
= 1 ± 1.96 · 0.005 = 1 ± 0.0098
n
100
cioè, possiamo scrivere che µ ∈ (0.9902 , 1.0098) ad un livello di confidenza pari al 95%.
In questo caso l’intervallo di confidenza è ampio 1.0098 − 0.9902 = 0.0196 ' 0.02 secondi.
Rispondiamo ora al quesito b). Quanto deve essere n se vogliamo un intervallo di valori
di ampiezza al più pari a 0.02 secondi e ad un livello di confidenza pari a 1 − α = 0.99?
Usiamo ancora la formula (??). La lunghezza dell’intervallo di confidenza si calcola come
differenza tra il valore dell’estremo superiore e quella inferiore, cioè
σ
σ
σ
X n + z1− α2 √ − X n − z1− α2 √
= 2 · z1− α2 √
n
n
n
Noi vogliamo che l’ampiezza sia pari a 0.02 o anche meno, quindi risolviamo l’equazione
σ
0.02 ≥ 2 · z1− α2 √
n
rispetto ad n e otteniamo
σ 2
n ≥ 2z1− α2
0.02
poiché vogliamo 1 − α = 0.99 ricaviamo z1− α2 = z0.995 = 2.58 quindi
2
0.05
n ≥ 2 · 2.58
= 12.92 = 166.41
0.02
cioè n ≥ 167. Quindi, se aumentiamo il livello di confidenza dal 95% al 99% per avere un
intervallo al più di ampiezza 0.02 dobbiamo passare da 100 a 167 osservazioni campionarie.
8
Schema riassuntivo sugli intervalli di confidenza
Di fronte ad un problema che riguarda tale argomento si deve sempre scomporre il
problema per punti e seguire queste semplici regole:
1) Non farsi prendere dal panico! Associare ad α il giusto valore. Ad esempio, se
è richiesto un intervallo di confidenza di livello 95%, α si ottiene dalla relazione
0.95 = 1 − α, per cui nell’esempio sarà pari a 0.05.
2) Se si tratta di un intervallo sulla proporzione p (variabili di partenza Ber(p)):
i) se n < 30 non è possibile calcolare in modo corretto l’intervallo per p;
ii) se n > 30 l’intervallo di confidenza assume la forma
!
r
p̂n (1 − p̂n )
p ∈ p̂n ±
z1− α2
n
3) Si tratta di un intervallo sulla media µ (variabili di partenza N (µ, σ 2 )):
i) σ 2 è nota: allora l’intervallo assume la forma
σ
µ ∈ x̄n ± √ z1− α2
n
n
P
1
(xi − x̄n )2 . L’intervallo assume la forma
ii) σ 2 viene stimato con s̄2n = n−1
i=1
seguente
s̄n (n−1)
µ ∈ x̄n ± √ t1− α
2
n
p
2
dove s̄n = s̄n . Se n è molto elevato si utilizza il valore di z1− α2 al posto di
(n−1)
t1− α .
2
4) Si tratta di un intervallo di confidenza sulla media µ con n molto elevato e le
variabili di partenza anche di tipo non gaussiano: allora si procede come per il
(n−1)
punto ii) di 3) utilizzando, chiaramente, z1− α2 al posto di t1− α .
2
1. INTERVALLI DI CONFIDENZA
9
1.2. Esercizi riepilogativi.
Esercizio 2. Si è misurata la pressione sistolica del sangue di 90 maschi sani ottenendo una media campionaria pari a 128.9 mm di mercurio e una deviazione standard
di 17 mm di mercurio. Assumendo che questi dati costituiscano le realizzazioni di un
campione casuale di misurazioni della pressione del sangue,
a) calcolare un intervallo di confidenza al 95% per la pressione media;
b) determinare la lunghezza di tale intervallo;
c) se aumentassimo il livello di confidenza al 99% la lunghezza dell’intervallo aumenterebbe o diminuirebbe? (Giustificare adeguatamente le risposte).
d) quanto sarebbe lungo l’intervallo di confidenza al 95% se i valori della media e
della deviazione standard campionarie ottenuti fossero relative ad un campione
di dimensione 360?
Questo esercizio è analogo al successivo quindi, per i dettagli, si rimanda all’esercizio
seguente (più completo e riassuntivo)
p mentre riportiamo qui brevemente solo i calcoli. Per
semplicità indichiamo con s̄n = s̄2n . Un intervallo di confidenza con livello di confidenza
(n−1)
1 − α per la media in questo caso è dato da µ = xn ± √s̄nn t1− α .
2
a) In corrispondenza dei dati e di α = 0.05 otteniamo l’intervallo (125.33 , 132.47).
(89)
b) La lunghezza dell’intervallo è 2 √s̄90
t
= 7.14
90 0.975
c) Aumentando il livello di confidenza aumenta la lunghezza dell’intervallo in quanto
aumenta la probabilità che il parametro (media) appartenga all’intervallo. Infatti
(89)
facendo i calcoli si ottiene 2 √s̄90
t
= 9.43.
90 0.995
(359)
d) In questo caso la lunghezza dell’intervallo è 2 √s̄360
t
= 3.51 e quindi diminuisce.
360 0.975
Esercizio 3. Il peso, espresso in grammi, di alcuni granelli di polvere identificati su
una piastra di silicio si suppone distribuito come una variabile casuale normale di parametri µ e σ 2 . I dati sono riportati di seguito:
0.39 0.68 0.82 1.35 1.38 1.62
1.70 1.71 1.85 2.14 2.89 3.69
Dopo aver determinato una stima per µ si costruiscano gli intervalli di confidenza per
la media al livello 95% e 99%
a) supponendo σ 2 = 0.85;
b) supponendo σ 2 ignota;
Calcoliamo la media campionaria x̄n .
n
1X
0.39 + 0.68 + · · · + 3.69
x̄n =
xi =
= 1.685
n i=1
12
10
e per l’intervallo di confidenza utilizziamo la formula (valida quando σ 2 è nota)
σ
µ ∈ x̄n ± √ z1− α2
n
quindi
a)
r
µ∈
1.685 ±
0.085
z1− α2
12
!
Se vogliamo l’intervallo di livello 95% poniamo α = 0.05 e quindi calcoliamo
z1−0.025 = z0.975 = 1.96 mentre per il livello 99% sarà α = 0.01 e quindi calcoliamo
z1−0.005 = z0.995 = 2.57. Infine otteniamo i due intervalli sostituendo i valori di
z1− α2
µ ∈ (1.16 , 2.21) di livello 95%
µ ∈ (1.00 , 2.37) di livello 99%
e come si vede l’intervallo di livello di confidenza più alto è più esteso.
b) Supponiamo ora che la varianza non sia nota e stimiamola quindi attraverso il
campione utilizzando la statistica s̄2n
n
1 X
s̄2n =
(xi − x̄n )2 = 0.85
n − 1 i=1
Essendo la varianza incognita si deve ricorrere all’uso della variabile casuale t
di Student con n − 1 gradi di libertà, cioè l’intevallo di confidenza si ottiene
attraverso la formula
!
r
s̄2n (n−1)
t α
µ ∈ x̄n ±
n 1− 2
Nei due casi i valori della t di Student sono
(11)
(11)
t1− 0.05 = t0.975 = 2.201
2
e
(11)
(11)
t1− 0,01 = t0.995 = 3.106
2
Infine, sostituendo i valori si ottiene
µ ∈ (1.10 , 2.27) di livello 95%
µ ∈ (0.86 , 2.51) di livello 99%
che come si vede sono più ampi dei corrispondenti intervalli calcolati in precedenza.
Esercizio 4. Dopo la chiusura dei seggi, gli elettori, chiamati ad esprimersi su un
quesito referendario, attendono con ansia l’esito della consultazione.
1. INTERVALLI DI CONFIDENZA
11
a) Lo spoglio parziale di n schede (che supponiamo rappresentative del totale delle
schede) ha fornito il seguente risultato:
SI
NO
51 % 49 %
Determinare gli intervalli di confidenza al 95% e al 99% della percentuale di SI
supponendo n = 2500.
b) Sulla base di questi risultati, si calcoli la probabilità che il SI vinca con n = 2500,
n = 1000 ed n = 500.
c) Una società di ricerche di mercato ha diffuso invece risultati discordanti sostenendo che il suo campione rappresentativo di ampiezza n imprecisata fornisce le
seguenti stime molto più incerte:
SI
NO
50.5 % 49.5 %
Per quali valori di n si potrebbe annunciare la vittoria dei SI con un errore
inferiore all’ 1% ?
Siamo in uno schema di Bernoulli se ipotizziamo che gli elettori si eprimano in modo
indipedente gli uni dagli altri e se pensiamo alla popolazione di tutti gli elettori come ad
una popolazione molto ampia in modo tale che la probabilità di estrarre un elettore di un
tipo (SI) piuttosto che un altro (NO) non vari da un’estrazione alla successiva. Quindi
ogni elettore è una variabile casuale di Bernoulli di parametro p = “proporzione di SI
nella popolazione”. Sappiamo che
p̂ − p
qn
∼Z
n grande
p̂n (1−p̂n )
n
P
dove p̂n = n1 ni=1 Xi = X̄n è la proporzione dei SI nel campione. Quindi l’intervallo di
confidenza assume la forma
!
r
p̂n (1 − p̂n )
p ∈ p̂n ±
z1− α2
n
dove per α = 0.05 → z0.975 = 1.96 e α = 0.01 → z0.995 = 2.57 quindi
p ∈ (0.49 , 0.53) di livello 95%
p ∈ (0.48 , 0.54) di livello 99%
Per
Pn rispondere al quesito b) usiamo direttamente la variabile casuale Binomiale Y =
n
i=1 Xi . Quindi i SI vincono se raggiungono almeno la metà più uno dei voti, cioè da 2
in poi. Prima di continuare con i calcoli ricordiamo ancora una volta che
Y − n p̂n
p
∼Z
n p̂n (1 − p̂n )
n grande
12
Dobbiamo calcolare
n
P Y >
'P
2
Z>p
n
2
− n p̂n
!
n p̂n (1 − p̂n )
√ (0.5 − 0.51)
=1−Φ
n√
0.51 · 0.49
√ = 1 − Φ −0.02 n
√
= Φ(0.02 n)
Quindi

Φ(1) = 0.84
n = 2500
n 
P Y >
' Φ(0.63) = 0.74 n = 1000

2
Φ(0.45) = 0.67 n = 500
Per l’ultimo punto c) riccoriamo alla formula che abbiamo derivato poco sopra ponendola
pari a 0.99% :
√ (0.5 − 0.505)
n
P Y >
=P Z > n√
= 0.99
2
0.505 · 0.495
cioè si deve risolvere rispetto ad n l’equazione
√ (0.5 − 0.505)
z0.01 = n √
0.505 · 0.495
dunque
√ −0.005
−2.33 ' n
0.5
√
n ' 233
e infine
n = 2332 = 54289
Quindi occorre avere un campione enormemente più grande di quelli ipotizzati.
Esercizio 5. La misura del tasso di colesterolo nel sangue di 100 individui scelti a
caso ha fornito i seguenti risultati: x̄n = 1,55 g/l, s̄n = 0,5 g/l. Si fornisca un intervallo
di confidenza al livello 75% per il tasso medio di colesterolo nel sangue della popolazione.
Questo esercizio ricalca il precedente. L’unica variante è il livello di confidenza dell’intervallo. L’intervallo di confidenza avrà quindi la seguente struttura
n−1 s̄n
µ ∈ x̄n ± t1− α √
2
n
Poiché n è molto grande, si ricorre all’approssimazione della t di Student con la Gaussiana,
quindi l’intervalo sarà della forma
s̄n
α
µ ∈ x̄n ± z1− 2 √
n
1. INTERVALLI DI CONFIDENZA
13
e quindi
µ ∈ 1.55 ± 1.15
0.5
10
cioè
µ ∈ (1.49 , 1.61) di livello 75%.
Esercizio 6. Sia p la proporzione di fumatori per una certa popolazione. Su un
campione di 1000 individui estratti a caso da questa popolazione, si contano 284 fumatori.
Si fornisca un intervallo di confidenza per p al livello 95%.
Anche in questo caso è un intervallo di confidenza sulle proporzioni, quindi si applica
la formula
!
r
p̂n (1 − p̂n )
z1− α2
p ∈ p̂n ±
n
dove, in questo caso, p̂n =
284
.
1000
Quindi
p ∈ (0.26 , 0.31) di livello 95%.
Fly UP