...

VERIFICA DI IPOTESI Riprendiamo il secondo esempio introduttivo

by user

on
Category: Documents
19

views

Report

Comments

Transcript

VERIFICA DI IPOTESI Riprendiamo il secondo esempio introduttivo
VERIFICA DI IPOTESI
Riprendiamo il secondo esempio introduttivo.
Esempio 2
L’industria che produce sfere ha garantito ai suoi clienti
un diametro medio pari a 10mm e uno scarto quadratico medio parti a 1mm. Il diametro medio delle sfere
del campione è risultato pari a 9,95mm con scarto quadratico medio pari a 0,87 mm. In base a questi risultati
campionari, possiamo dire che l’industria sta rispettando
gli standard? Prendiamo, ad esempio, la media. Quello
che vogliamo verificare è l’ipotesi che µ =10mm contro
l’ipotesi che µ 6=10mm. La media campionaria è diversa
da 10mm, ma dobbiamo tener conto del fatto che, anche se valesse l’ipotesi µ = 10mm, le medie sui c.c.s.
che possiamo estrarre dalla popolazione delle sfere non
saranno mai esattamente uguali a 10mm. La domanda
quindi è: la media campionaria è sufficientemente distante da 10mm per farci ritenere che l’ipotesi µ = 10mm
sia inverosimile e quindi da rifiutare? Analogo discorso
per lo scarto quadratico medio. In questo caso vogliamo
verificare l’ipotesi σ = 1mm contro l’ipotesi σ 6= 1mm e
dobbiamo decidere se il valore campionario 0,87mm è abbastanza lontano da 1mm per indurci a rifiutare l’ipotesi
σ = 1mm oppure no.
44
In generale, sia θ il parametro di interesse. Indichiamo
con H0 l’ipotesi da noi formulata, chiamata IPOTESI
NULLA, che assume la forma
H0 : θ = θ 0
dove θ0 è un valore da noi specificato. Indichiamo con
H1 l’ipotesi contrapposta a H0, chiamata IPOTESI
ALTERNATIVA. L’ipotesi H1 può assumere la forma
H1 : θ 6= θ0
in questo caso si parla di ipotesi alternativa BILATERALE oppure la forma
H 1 : θ > θ0
o
H 1 : θ < θ0
Negli ultimi due casi si parla di ipotesi alternativa UNILATERALE. Combinando l’ipotesi nulla e l’ipotesi alternativa si ottiene un SISTEMA DI IPOTESI.
Nell’esempio introduttivo, avevamo due sistemi di ipotesi:
uno per la media
(
H0 : µ = 10
H1 : µ 6= 10
e uno per lo scarto quadratico medio
(
H0 : σ = 1
H1 : σ 6= 1
entrambi con ipotesi alternativa bilaterale.
45
Una verifica di ipotesi è una procedura statistica che
ci permette di utilizzare le informazioni campionarie per
saggiare un sistema di ipotesi, ossia per decidere se accettare H0 (e quindi rifiutare H1) o se rifiutare H0 (e quindi
accettare H1).
Ogni volta che decidiamo se accettare o rifiutare H0 sulla
base delle osservazioni campionarie possiamo commettere
due errori.
ˆ ERRORE DI I TIPO: Rifiutiamo H0 quando H0
è vera
ˆ ERRORE DI II TIPO: Accettiamo H0 quando
H1 è vera
Si indica con α la probabilità di commettere un errore di
I tipo
α = P (Rifiuto H0|H0)
e con β la probabilità di commettere un errore di II tipo
β = P (Accetto H0|H1)
Teoricamente, vorremmo una procedura di verifica di ipotesi in cui entrambe le probabilità siano basse, ma ciò non
è possibile in quanto al diminuire dell’una l’altra aumenta. Si pensi, ad esempio, ad una procedura che accetta
H0 qualunque sia il campione osservato. In questo caso
α = 0 ma β è evidentemente molto alto. Per contro, se
decidiamo di rifiutare sempre H0, allora β = 0 ma α è
molto alto. Dobbiamo quindi trovare un compromesso.
Poiché H0 è un’ipotesi che formuliamo noi, che nasce da
46
una nostra congettura, le diamo una posizione privilegiata e ci proteggiamo contro un errore di I tipo, fissando a
priori α ad un valore piuttosto piccolo. Il valore scelto per
α viene chiamato LIVELLO DI SIGNIFICATIVITA’. Si parla in questo caso di TEST DI IPOTESI
O VERIFICA DI IPOTESI AL LIVELLO DI
SIGNIFICATIVITA’ α. Valori tipici per α sono 0,01
o 0,05.
Vedremo come trovare una procedura statistica per verificare un sistema di ipotesi, rispettando il vincolo sul
livello di significatività. L’idea di base è la seguente
1. Si identifica uno stimatore T per θ
2. Se H0 è vera T tenderà ad assumere valori che sono
prossimi a θ0. Pertanto, se la realizzazione campionaria di T è “sufficientemente distante” da θ0 (nella
direzione indicata da H1) si deciderà di accettare H1,
altrimenti si accetta H0.
3. Per stabilire in modo rigoroso che cosa si intende per
“sufficientemente distante” da θ0 si sfrutta il livello
di significatività del test.
47
ESEMPI DI VERIFICA DI IPOTESI
⋄ VERIFICA DI IPOTESI SU µ
ˆ CON σ 2 NOTA
Sia x1, x2, . . . , xn un c.c.s. realizzazione di X1,
X2, . . ., Xn i.i.d. N (µ, σ 2). Supponiamo di
conoscere σ 2, ma di non conoscere µ, la media
di popolazione. Vogliamo verificare al livello di
significatitività α il sistema di ipotesi
(
H 0 : µ = µ0
H1 : µ > µ0
Partiamo dalla stima di µ tramite la media del
c.c.s. osservato, x̄. Se vale H0 ci aspettiamo che
x̄ non si discosti di molto da µ0; per contro, se
vale H1 ci aspettiamo che x̄ sia più grande di µ0.
Allora, sembra ragionevole rifiutare H0 (e quindi
accettare H1) se
x̄ − µ0 > c
dove c è una soglia critica con la quale definiamo
di quanto x̄ deve essere maggiore di µ0 per decidere di rifiutare H0.
Per determinare c dobbiamo ricordare che vogliamo un test al livello di significatività α, ossia tale
che
α = P (Rifiuto H0|H0)
ma
P (Rifiuto H0|H0) = P (X̄ − µ0 > c|µ = µ0)
48
quindi dobbiamo scegliere c in modo tale che
P (X̄ − µ0 > c|µ = µ0) = α
Sappiamo che
σ2
X̄ ∼ N (µ, )
n
ma se H0 è vera, e quindi µ = µ0,
σ2
X̄ ∼ N (µ0, )
n
e
X̄ − µ0
q
∼ N (0, 1)
σ2
n
Allora,


c
 X̄ − µ0

α = P (X̄−µ0 > c|µ = µ0) = P  q
> q |µ = µ0 =

e quindi
ossia
σ2
n
σ2
n

 c 
= 1 − Φ q 

σ2
n

 c 
Φ q  = 1 − α
σ2
n
c
q
σ2
n
49
= z1−α
da cui
r
σ2
c = z1−α
n
Concludiamo che si deve rifiutare l’ipotesi H0 e
accettare l’ipotesi H1, al livello di significatività
α, se
r
σ2
x̄ − µ0 > z1−α
n
o, equivalentemente, se
x̄ − µ0
q
> z1−α
σ2
n
Si accetta invece H0 e si rifiuta H1 se
x̄ − µ0
q
≤ z1−α
σ2
n
La quantità
X̄ − µ0
q
σ2
n
1. è chiamata statistica test;
2. se sostituiamo a µ0 il generico µ, coincide con
la quantità usata per costruire l’intervallo di
confidenza di livello 1 − α per µ quando σ 2 è
noto.
50
Per H1 : µ > µ0 rigettiamo H0 se
x̄ − µ0
q
> z1−α
σ2
n
ossia per valori elevati della statistica test.
Se H1 : µ < µ0, mentre rimane inalterata H0, risulta naturale rifiutare H0 per valori piccoli della
statistica test. Più precisamente, il vincolo sul
livello di significatività, impone di rigettare H0
se
x̄ − µ0
q
< −z1−α
σ2
n
Se H1 : µ 6= µ0, è ragionevole rifiutare H0 per
valori sia elevati che piccoli della statistica test,
ossia se
x̄ − µ 0
q >c
σ2 n Ancora una volta dobbiamo scegliere la soglia
c in modo da rispettare il vincolo sul livello di
significatività del test:


 X̄ − µ0 
P  q
> c |µ = µ0  = α
σ2 n e quindi



 X̄ − µ0 P  q
≤ c |µ = µ0  = 1 − α =
σ2 n 51


X̄ − µ0


= P −c ≤ q
≤ c |µ = µ0 
σ2
n
e quindi c = z1−α/2.
Allora, per H1 : µ 6= µ0 rifiutiamo H0 (e accettiamo H1) se
x̄ − µ 0
q > z1−α/2
σ2 n mentre accettiamo H0 (e rifiutiamo H1) se
x̄ − µ 0
q ≤ z1−α/2
σ2 n 52
Esempio
L’ufficio qualità di uno stabilimento che produce pasta alimentare intende controllare se il peso dichiarato nella confezione di 500gr risponda al vero oppure
se il processo di confezionamento dà luogo ad un peso medio superiore. Poiché sul processo influisce una
pluralità di fattori è ragionevole assumere che il peso di una confezione sia una v.c. normale. Inoltre,
da studi precedenti risulta che la varianza della popolazione è 42,5gr2. In un campione di 25 confezioni, l’ufficio qualità trova che il peso medio è 503,7gr.
Usare questi dati per sottoporre a verifica l’ipotesi di
interesse dell’ufficio qualità ad un livello α = 0, 01.
Disponiamo di un c.c.s. di pesi (in gr) x1, x2, . . . , x25
da una N (µ, 42, 5). Sappiamo che x̄ =503,7gr. Il
sistema di ipotesi di interesse è
(
H0 : µ = 500
H1 : µ > 500
La statistica test è
x̄ − µ0 503, 7 − 500
q
q
= 2, 83
=
42,5
25
σ2
n
Rifiutiamo H0 se 2,83> z1−α = z0,99 = 2, 326. La
condizione è soddisfatta quindi possiamo accettare
H1 e concludere che il peso medio delle confezioni µ
è maggiore di 500 gr.
Se fossimo stati interessati a verificare se il peso me53
dio è inferiore a 500gr, allora H1 : µ < 500 e avremmo rifiutato H0 se 2,83< −z0,99 = −2, 326. La condizione non è soddisfatta, quindi in questo caso H0
viene accettata. Si intuisce da questo che accettare
o rifiutare H0 dipende anche dall’ipotesi alternativa
contemplata. Con il sistema di ipotesi
(
H0 : µ = 500
H1 : µ < 500
gli unici casi considerati sono µ ≤ 500 e all’interno
di questi casi, H0 è più verosimile, in base ai dati
raccolti, di H1.
Se fossimo stati interessati a verificare se il peso medio è diverso da 500gr, allora H1 : µ 6= 500 e avremmo rifiutato H0 se |2, 83| = 2, 83 > z1−α/2 = z0,995 =
2, 576. La condizione è soddisfatta quindi avremmo
rifiutato H0 e accettato H1.
Si noti che l’intervallo di confidenza di livello 1 −
0, 01 = 0, 99 per µ è in questo caso
!
r
42, 5
= (500, 34; 507, 06) gr
503, 7 ± 2, 576
25
L’intervallo non include il valore 500gr e questo è sufficiente per rifiutare H0, a favore di H1 : µ 6= 500, al
livello 0, 01.
Questo ragionamento può essere generalizzato.
Se costruiamo un intervallo di confidenza di livello
54
1−α per un parametro θ di interesse e l’intervallo ottenuto non include un valore prefissato θ0, possiamo
immediatamente rifiutare l’ipotesi nulla del sistema
(
H0 : θ = θ 0
H1 : θ 6= θ0
al livello α. Viceversa, se l’intervallo di confidenza
di livello 1 − α per θ include θ0, allora possiamo accettare H0 al livello α.
In altri termini, l’intervallo di confidenza di livello 1−
α per θ include tutti i valori θ0 per cui accetteremmo
l’ipotesi nulla H0 : θ = θ0 al livello α contro l’ipotesi
H1 : θ 6= θ0.
55
IL LIVELLO DI SIGNIFICATIVITA’
OSSERVATO (O p–VALUE)
Riprendiamo il sistema di ipotesi
(
H 0 : µ = µ0
H1 : µ > µ0
Come visto, si rifiuta H0 al livello di significatività α
se
x̄ − µ0
q
> z1−α
σ2
n
ossia, graficamente,
α
z1−α
|
{z
Accetto
H0
56
}|
{z
}
Rifiuto
H0
CASO A: RIFIUTO H0
area<α
z1−α
x − µ0
σ2
n
CASO B: ACCETTO H0
area>α
x − µ0 z1−α
σ2
n
57
Allora, equivalentemente,
ˆ Accetto H0, se l’area della N (0, 1) a destra di
x̄−µ
q 0
σ2
n
è > α
ˆ Rifiuto H0 , se l’area della N (0, 1) a destra di
è < α
L’area della N (0, 1) a destra di

Vale:

x̄−µ
q 0
σ2
n
x̄−µ
q 0
σ2
n
è
 x̄ − µ0 
1 − Φ  q  = p − value
σ2
n
ˆ più piccolo è il p–value più H0 è inverosimile.
ˆ più grande è il p–value più i dati danno sostegno
ad H0.
ˆ rifiutiamo H0 al livello di significatività α se p–
value< α.
ˆ accettiamo H0 al livello di significatività α se p–
value> α.
Il concetto di p–value può essere esteso a qualsiasi
sistema di ipotesi.
I software statistici e non conducono la verifica di
ipotesi producendo come risultato il p–value del test,
che dovrà essere interpretato come sopra specificato.
58
ˆ CON σ 2 IGNOTA
Siamo nella stessa situazione del caso precedente,
ma ora anche la varianza σ 2 è ignota. Vogliamo
saggiare il sistema di ipotesi
(
H 0 : µ = µ0
H1 : µ > µ0
al livello di significatività α.
Nel caso precedente si rifiutava H0 se
x̄ − µ0
q
> z1−α
σ2
n
ma ora questa condizione non è direttamente utilizzabile, dato che dipende dall’ignota varianza.
Cosı̀ come fatto per gli intervalli di confidenza,
possiamo sostituire σ 2 con la sua stima non distorta S ′2 e rifiutare H0 a favore di H1 se
x̄ − µ0
q
>c
S ′2
n
dove c è una costante che dobbiamo determinare
in modo da rispettare il vincolo sul livello di significatività. Più precisamente, c deve essere tale
che



 X̄ − µ0
> c|µ = µ0 = α
P q
2
S′
n
59
o, equivalentemente,



 X̄ − µ0
≤ c|µ = µ0 = 1 − α
P q
2
S′
n
Sappiamo che, se vale H0, ossia µ = µ0,
X̄ − µ0
q
∼ tn−1
S ′2
n
da cui concludiamo che c = tn−1;1−α . Allora,
rifiutiamo H0 (e accettiamo H1) al livello α se
x̄ − µ0
q
> tn−1;1−α
S ′2
n
Se la condizione non è soddisfatta accettiamo H0
(e rifiutiamo H1).
Se H1 : µ < µ0, allora rifiutiamo H0 (e accettiamo H1) al livello α, se è soddisfatta la condizione
x̄ − µ0
q
< −tn−1;1−α
S ′2
n
Se H1 : µ 6= µ0, allora rifiutiamo H0 (e accettiamo H1) al livello α, se è soddisfatta la condizione
x̄ − µ 0
q 2 > tn−1;1−α/2
S′ n (si veda l’analogia con il caso σ 2 nota).
60
Esempio
L’importo medio delle fatture emesse negli anni passati è di 33 euro. Un campione casuale di 330 fatture
emesse quest’anno dalla stessa azienda fa riportare
un importo medio di 30 euro. Tramite un test di livello 0,05 stabilire se questo risultato costituisce una
prova che l’importo medio delle fatture è diminuito, sapendo che la deviazione standard campionaria
(corretta) è di 2,2 euro e che gli importi delle fatture
seguono una distribuzione normale.
Abbiamo un c.c.s. x1, x2, . . . , x330 di importi di fatture da una N (µ, σ 2), dove µ descrive la media degli
importi di tutte le fatture emesse quest’anno e σ 2 la
corrispondente varianza. Sappiamo che x̄ = 30 euro e S ′=2,2 euro. Vogliamo verificare il sistema di
ipotesi
(
H0 : µ = 33
H1 : µ < 33
al livello 0,05.
La statistica test risulta pari a
x̄ − µ0 30 − 33
q
= q
= −24, 47
S ′2
n
2,22
330
.
Rifiutiamo H0 se -24,47< −tn−1;1−α = −t329;0,95 =
−z0,95 = −1, 64. La condizione è evidentemente soddisfatta, quindi rifiutiamo H0 al livello 0,05 e accettiamo H1 (si è verificata una riduzione dell’importo
medio delle fatture emesse).
61
⋄ VERIFICA DI IPOTESI SU UNA PROPORZIONE p
Sia x1, x2, . . . , xn un c.c.s. da una Be(p), con p
ignota. Vogliamo verificare il sistema di ipotesi
(
H0 : p = p 0
H1 : p > p 0
al livello di significatività α.
E’ ragionevole rifiutare H0 se
p̂ − p0 > c
dove c deve essere tale che
P (p̂ − p0|p = p0) = α
Per n sufficientemente grande, se vale H0 (p = p0),
p
(1
−
p
)
0
0
.
p̂ ∼
N p0 ,
n
Allora,

 p̂ − p0
α = P (p̂−p0|p = p0) = P  q
p0 (1−p0 )
n

e quindi
>q
c
.

= 1 − Φ q
c
q
p0 (1−p0 )
n
62
p0 (1−p0 )
n
= z1−α
c
p0 (1−p0 )
n




 .
|p = p0 =
ossia
r
p0(1 − p0)
n
Pertanto, rifiutiamo H0 al livello α se
r
p0(1 − p0)
p̂ − p0 > z1−α
n
ossia se
p̂ − p0
q
> z1−α
c = z1−α
p0 (1−p0 )
n
ATTENZIONE: Questo test vale solo per n grande (in pratica per np̂, n(1 − p̂) ≥ 5).
Se H1 : p < p0, si rifiuta H0 al livello α se
p̂ − p0
q
p0 (1−p0 )
n
< −z1−α
Se H1 : p 6= p0, si rifiuta H0 al livello α se
p̂ − p 0 > z1−α/2
q
p0(1−p0) n
63
Esempio
Un partito politico ha ricevuto nelle ultime elezioni
il 35% dei voti. Quattro anni dopo, da un sondaggio
d’opinione basato su 300 intervistati si è trovato che
il 32% degli intervistati ha dichiarato di essere disposto a votare per quel partito. Ci si chiede se, rispetto
al risultato elettorale, la situazione del partito è peggiorata.
Abbiamo 300 osservazioni x1, . . . , x300 da Be(p), dove
(
1 se l’i-esimo intervistato vota per il partito
xi =
0 se l’i-esimo intervistato non vota per il partito
e p rappresenta la vera proporzione di elettori che
votano per il partito. Si vuole verificare il sistema di
ipotesi
(
H0 : p = 0, 35
H1 : p < 0, 35
La statistica test è
0, 32 − 0, 35
q
= −1, 09
0,35·0,65
300
Si rifiuta H0 se -1,09< −z1−α . In questo esercizio,
però, α non è stato specificato; decidiamo di fissarlo a α = 0, 05. Rifiutiamo quindi H0 se −1, 09 <
−1, 645. La condizione non è verificata quindi accettiamo H0 e concludiamo che la situazione del partito
non è peggiorata al livello di significatività α = 0, 05.
64
⋄ VERIFICA DI IPOTESI SULLA DIFFERENZA TRA LE MEDIE DI DUE POPOLAZIONI NORMALI
Ritorniamo al problema del confronto tra due popolazioni, già affrontato nella stima intervallare. Abbiamo due c.c.s.:
x1, x2, . . . , xn1 sono realizzazioni di X1, X2, . . . , Xn1
i.i.d. N (µ1, σ12);
y1, y2, . . . , yn2 sono realizzazioni di Y1, Y2, . . . , Yn2 i.i.d.
N (µ2, σ22);
I due campioni sono tra loro indipendenti.
Vogliamo valutare le differenze tra le due popolazioni, facendo un confronto tra µ1 e µ2. In particolare,
supponiamo di voler sottoporre a verifica il seguente
sistema di ipotesi
(
H 0 : µ 1 = µ2
H1 : µ1 > µ2
al livello di significatività α.
ˆ σ12 E σ22 SONO NOTE
Iniziamo assumendo che le due varianze σ12 e σ22
siano note. E’ ragionevole rifiutare H0 se
x̄ − ȳ > c
Per rispettare il vincolo sul livello di significatività, c deve essere tale che
P (X̄ − Ȳ > c|µ1 = µ2) = α
65
In generale,
X̄ − Ȳ
q 2
∼ N (µ1 − µ2, 1)
σ22
σ1
n1 + n2
ma sotto H0 (µ1 = µ2)
Allora,
X̄ − Ȳ
q 2
∼ N (0, 1)
σ22
σ1
n1 + n2
α = P (X̄ − Ȳ > c|µ1 = µ2) =




c
c
 X̄ − Ȳ



q
q
= P q 2
>
|µ
=
µ
=
1−Φ



1
2
σ1
σ12
σ12
σ22
σ22
σ22
n1 + n2
n1 + n2
n1 + n2
e quindi
ossia
c
q
σ12
n1
+
c = z1−α
σ22
n2
s
= z1−α
σ12 σ22
+
n1 n2
Pertanto, rifiutiamo H0 al livello α se
s
σ12 σ22
+
x̄ − ȳ > z1−α
n1 n2
o, equivalentemente, se
x̄ − ȳ
q 2
> z1−α
σ1
σ22
n1 + n2
66
Se H1 : µ1 < µ2, rifiutiamo H0 al livello α se
x̄ − ȳ
q 2
< −z1−α
σ1
σ22
n1 + n2
Se H1 : µ1 6= µ2, rifiutiamo H0 al livello α se
x̄ − ȳ > z1−α/2
q 2
σ1 σ22 n1 + n2 67
Esempio
Un ricercatore che lavora alle dipendenze di un’industria produttrice di lampadine elettriche afferma di
aver trovato un nuovo tipo di filamento che prolunga
la durata delle lampadine. Dato che il nuovo filamento è considerevolmente più costoso di quello attualmente in uso, l’industria intende, prima di adottarlo,
avere il conforto di una verifica sperimentale. Viene
allora formulata l’ipotesi nulla che la durata media,
µ1, delle lampadine dotate del nuovo filamento sia
uguale alla durata media, µ2, delle lampadine del
vecchio tipo, con l’ipotesi alternativa µ1 − µ2 > 0.
Per verificare le ipotesi, vengono osservati due campioni dei due tipi di lampadine, entrambi di ampiezza
31. Le medie dei due campioni risultano essere
x̄ = 1195, 16 ore e ȳ = 1180, 05 ore
Nell’ipotesi che le durate delle lampadine seguano
una distribuzione normale con varianza pari a 118,13
per il nuovo filamento e 124,34 per il vecchio filamento si verifichi H0 contro H1 al livello α = 0, 01.
La statistica test è
1195, 16 − 1180, 05
q
= 5, 4
124,34
118,13
31 + 31
Rifiutiamo l’ipotesi nulla se 5,4> z1−α = z0,99 =
2, 326. La condizione è soddisfatta, per cui concludiamo che il nuovo filamento migliora la qualità delle
lampadine rispetto al vecchio.
68
ˆ σ12 E σ22 SONO IGNOTE
Veniamo ora al caso in cui le due varianze σ12 e σ22
non sono note. Il sistema di ipotesi che vogliamo
verificare al livello
( α è
H 0 : µ 1 = µ2
H1 : µ1 > µ2
Per arrivare ad una soluzione “trattabile” di questo problema dobbiamo assumere (come già fatto
nella stima intervallare) che σ12 = σ22 = σ 2. La
statistica test nel caso precedente era
x̄ − ȳ
q 2
σ1
σ22
+
n1
n2
che per σ12 = σ22 = σ 2 diventa
x̄ − ȳ
r 1
1
σ 2 n1 + n2
Tuttavia, questa statistica test non è direttamente utilizzabile, essendo σ 2 ignoto. Come fatto nella stima intervallare, sostituiamo σ 2 con Sp2. E’
ragionevole rifiutare H0 se
x̄ − ȳ
r >c
Sp2 n11 + n12
dove c
deve essere tale che



X̄ − Ȳ


>
c|µ
=
µ
P r =α
1
2


Sp2 n11 + n12
69
In generale,
(X̄ − Ȳ ) − (µ1 − µ2)
r ∼ tn1+n2−2
Sp2 n11 + n12
ma sotto H0 (µ1 = µ2)
r
Allora,
(X̄ − Ȳ )
∼ tn1+n2−2
Sp2 n11 + n12
c = tn1+n2−2;1−α
e rifiutiamo H0 al livello α se
x̄ − ȳ
r > tn1+n2−2;1−α
Sp2 n11 + n12
Se H1 : µ1 < µ2, si rifiuta H0 al livello α se
r
x̄ − ȳ
< −tn1+n2−2;1−α
Sp2 n11 + n12
Se H1 : µ1 6= µ2, si rifiuta H0 al livello α se
x̄ − ȳ
r > tn1+n2−2;1−α/2
Sp2 1 + 1 n1
n2 Per n1+n2 ≥ 32 possiamo approssimare tn1+n2−2;1−α
con z1−α .
70
Esempio
Un campione di 20 comuni governati dall’alleanza
A mostra che essi spendono una somma media di
87,5¿ annue per ciascun contribuente in spese di amministrazione, con una deviazione standard di 12,5¿,
mentre una simile indagine su un campione di 15 comuni governati dall’alleanza B trova una media di
79¿ con deviazione standard campionaria di 15¿.
E’ giustificabile l’ipotesi che non vi sia differenza significativa tra A e B per quanto riguarda le spese
comunali di amministrazione?
Indichiamo con µ1 la spesa media per contribuente
nei comuni dell’alleanza A e con µ2 la spesa media per
contribuente nei comuni dell’alleanza B. Vogliamo
verificare il sistema di ipotesi
(
H 0 : µ 1 = µ2
H1 : µ1 6= µ2
Se assumiamo che le spese di amministrazione nei
due comuni siano normalmente distribuite con uguale
varianza σ 2, allora la statistica test è
87, 5 − 79 q
S2 1 + 1 p 20
15 Non viene specificato se le due deviazioni standard
riportate dal testo siano quelle associate alla varianza
corretta oppure no. Supponiamo che siano quelle
associate alla varianza campionaria non corretta. In
71
questo caso,
Sp2
20 · 12, 52 + 15 · 152
=
= 196, 97
20 + 15 − 2
Sostituendo 196,97 nell’espressione della statistica test, si deriva il valore 1,77. Se conduciamo il test al
livello α = 0, 1, allora t33;0,95 = 1, 6924 e H0 verrebbe
rifiutata; mentre, se conduciamo la verifica di ipotesi
al livello α = 0, 05, allora t33,0,975 = 2, 0345 e H0 sarebbe accettata. Questo implica che le osservazioni
danno solo una moderata indicazione contro l’ipotesi
nulla.
72
⋄ TEST DI INDIPENDENZA IN UNA TABELLA A DOPPIA ENTRATA
Supponiamo di aver rilevato su un campione di
n unità estratte casualmente da una popolazione di
interesse due variabili X e Y e di aver riassunto in
una tabella a doppia entrata le informazioni raccolte
sul campione. In statistica descrittiva abbiamo visto
che un indice appropriato per misurare il grado di
dipendenza tra X e Y è l’indice χ2
r X
s
X
(nij − n∗ij )2
2
χ =
∗
n
ij
i=1 j=1
dove nij sono le frequenze osservate e n∗ij le frequenze teoriche sotto l’ipotesi di indipendenza tra le due
variabili: n∗ij = ni· · n·j /n. Abbiamo anche visto
che se χ2 = 0 le due variabili sono indipendenti e
che maggiore è il valore dell’indice maggiore è l’associazione tra X e Y . Dobbiamo però tener conto
del fatto che stiamo lavorando solo con un campione
di unità estratte dalla popolazione di riferimento e
non con l’intera popolazione. Questo significa che,
anche se X e Y sono esattamente indipendenti nella popolazione di riferimento, sul campione possiamo
osservare un valore di χ2 > 0. Allora, dato un certo
valore dell’indice χ2 calcolato sul campione casuale
estratto, come facciamo a decidere se X e Y sono
indipendenti? In altri termini, vogliamo verificare il
sistema di ipotesi
(
H0 : X e Y sono indipendenti
H1 : X e Y non sono indipendenti
73
al livello di significatività α.
E’ ragionevole rifiutare H0 se
χ2 > c
dove, per il livello di significatività del test, c deve
essere tale che
P (χ2 > c|X e Y sono indipendenti) = α
Si può dimostrare che per n sufficientemente grande,
se vale H0,
.
χ2 ∼
χ2(r−1)·(s−1)
dove r è il numero di righe della tabella a doppia
entrata (il numero di modalità di X) e s è il numero
di colonne della tabella a doppia entrata (il numero
di modalità di Y ). In pratica, si è visto che questa
approssimazione è piuttosto buona se n∗ij ≥ 5.
Deduciamo che
c = χ2(r−1)·(s−1);1−α
Rifiutiamo, quindi, H0 e concludiamo al livello α che
le due variabili non sono indipendenti se
χ2 > χ2(r−1)·(s−1);1−α
Se la condizione non è verificata, accettiamo H0.
74
Esempio
Si consideri la seguente tabella relativa a un campione
di persone classificate secondo il grado di istruzione e i
diversi atteggiamenti sulla guerra contro la Serbia del ’99.
Contrario Incerto Favorevole Totale
Licenza Media
64
120
40
224
Maturità
56
103
26
185
Laurea
38
72
15
125
Totale
158
295
81
534
1. Considerando solo i diplomati, si verifichi l’ipotesi che
la percentuale di favorevoli alla guerra sia il 20% contro l’alternativa che sia minore, ad un livello α = 0, 1.
Indichiamo con p la vera frazione di diplomati favorevoli alla guerra. Vogliamo verificare il sistema di
ipotesi
(
H0 : p = 0, 2
H1 : p < 0, 2
al livello α = 0, 1.
Sappiamo che la condizione di rifiuto di H0 è
p̂ − 0, 2
q
0,2·(1−0,2)
n
< −z1−α
dove p̂ è la frazione osservata di diplomati che sono
favorevoli alla guerra
p̂ =
26
= 0, 14
185
75
e n è il numero complessivo dei diplomati n = 185.
Sostituendo i valori ottenuti nella statistica test, si
ottiene il valore -2,04 che, confrontato con −z0,9 =
−1, 28, porta a rifiutare H0 e ad accettare H1.
2. Si sottoponga a test l’ipotesi che l’atteggiamento verso la guerra sia indipendente dal grado di istruzione
al livello α = 0, 05.
Calcoliamo l’indice chi-quadrato. A questo fine, costruiamo la tabella delle frequenze teoriche
Contrario
Licenza Media 66,28
Maturità
54,74
Laurea
36,99
Incerto Favorevole
123,75
33,98
102,2
28,06
69,05
18,96
L’indice chi-quadrato risulta pari a χ2 = 2, 43. Se
confrontiamo il valore ottenuto con χ2(3−1)·(3−1);0,95 =
9, 49, concludiamo che possiamo accettare l’ipotesi di
indipendenza delle due variabili al livello α = 0, 05.
76
Esercizio
Un economista vuole stimare il reddito medio degli abitanti di una cittadina mediante un intervallo al livello di
confidenza del 95%. La distribuzione del reddito si suppone approssimativamente normale, con varianza σ 2 nota
da precedenti studi. L’economista esamina un campione
casuale di 100 abitanti.
1. Se l’economista avesse scelto un livello di confidenza
del 99%, quale numerosità del campione gli avrebbe
dato lo stesso margine di errore? (cioè la stessa ampiezza dell’intervallo?)
Ricordiamo che l’ampiezza di un intervallo di confidenza è funzione della numerosità campionaria n e
del livello di confidenza. A parità di tutto il resto,
l’ampiezza diminuisce al crescere di n e aumenta al
crescere di 1−α. Quindi, se da 1−α = 0, 95 si passa
a 1 − α=0,99 l’ampiezza aumenta, ma per compensare questo aumento possiamo far crescere n.
Sia R la variabile casuale che descrive il reddito di
un abitante della cittadina. In base alle ipotesi del
problema, R ∼ N (µ, σ 2) con σ 2 nota. Un intervallo
di confidenza per µ al livello 95% con n = 100 è
!
r
r
2
2
σ
σ
, x̄ + 1, 96
x̄ − 1, 96
100
100
L’ampiezza dell’intervallo è
2 · 1, 96
77
σ
10
Se l’intervallo avesse livello di confidenza 99%, al
posto di 1,96 avremmo z0,995 = 2, 576 e l’ampiezza dell’intervallo, per una numerosità campionaria n
generica, sarebbe
σ
2 · 2, 576 √
n
Allora, affinché i due intervalli abbiano uguale ampiezza
σ
σ
2 · 1, 96 = 2 · 2, 576 √
10
n
Risolvendo l’equazione ottenuta rispetto ad n si ottiene n = 173 (arrotondando).
2. Se σ 2, la varianza della popolazione fosse stata la
metà, quale numerosità del campione gli avrebbe dato lo stesso margine di errore (cioè la stessa ampiezza
dell’intervallo) mantenendo 1 − α = 0, 95?
Se σ 2 diminuisce l’ampiezza diminuisce, per compensare questa riduzione e mantenere inalterata l’ampiezza dell’intervallo dobbiamo ridurre n.
L’intervallo di confidenza di livello 95% per µ con una
varianza di popolazione pari a σ 2/2 e una numerosità
campionaria n generica è
r !
r
2
σ
σ2
, x̄ + 1, 96
x̄ − 1, 96
2n
2n
L’ampiezza dell’intervallo è
σ
2 · 1, 96 √
2n
78
Allora, per avere la stessa ampiezza dell’intervallo
con n = 100 e varianza pari a σ 2, deve essere
σ
σ
2 · 1, 96 = 2 · 1, 96 √
10
2n
Risolvendo l’equazione rispetto a n si deriva n = 50.
79
Esercizio
La seguente tabella riporta i furti commessi da donne
scoperti in un grande magazzino in un anno, a seconda
del settore merceologico e dell’età della colpevole.
Settore
Abbigliamento
Bigiotteria
Profumi
7–15
312
710
248
Età
15–21
913
377
211
> 21
3367
208
341
1. Stimare la probabilità p che se viene compiuto un
furto in una bigiotteria l’età della colpevole sia nella
fascia 15–21.
Abbiamo visto che una stima corretta di una probabilità è la corrispondente frazione calcolata sul campione osservato. In questo caso, il numero di furti in bigiotteria complessivamente è pari a 1295. Tra questi
furti 377 sono commessi da persone di età compresa
tra 15 e 21 anni. La frazione cercata è allora
377
p̂ =
= 0, 29
1295
2. Trovare un intervallo di confidenza di livello 95% per
p.
1−α = 0, 95 α = 0, 05 1−α/2 = 0, 975 z0,975 = 1, 96
L’intervallo cercato è
!
r
r
0, 29 · (1 − 0, 29)
0, 29 · (1 − 0, 29)
; 0, 29 + 1, 96
=
0, 29 − 1, 96
1295
1295
80
= (0, 265; 0, 315)
3. Si accetta al livello 5% l’ipotesi che p = 0, 3 contro
l’ipotesi che p 6= 0, 3?
Sı̀, perché 0,3 è incluso nel precedente intervallo di
livello 95%.
81
Esercizio
La confindustria vuole valutare l’impatto di una nuova
legge che prevede sgravi fiscali per le assunzioni parttime. Per stimare l’aumento medio delle ore di lavoro
prodotte dall’introduzione della nuova legislazione, estrae
un campione casuale di 20 piccole e medie imprese. La
media campionaria dell’aumento risulta essere pari a 3,9
ore alla settimana con deviazione standard campionaria
pari a 2,5 ore.
1. Si determini l’intervallo di confidenza dell’aumento
medio di ore di lavoro alla settimana, con livello di
confidenza al 90%.
Indichiamo con µ la media dell’aumento delle ore di
lavoro e con σ 2 la varianza dell’aumento. Sia µ che
σ 2 sono ignoti. Per poter costruire un intervallo di
confidenza per µ abbiamo bisogno di fare un’ipotesi
di normalità per l’aumento delle ore di lavoro. Gli
ingredienti necessari per costruire l’intervallo sono
x̄ = 3, 9
S 2 = 2, 55
e quindi
2, 52 · 20
= 6, 58
S =
19
dove si è supposto che la deviazione standard campionaria specificata nel testo sia quella associata a
S 2,
′2
1 − α = 0, 9 1 − α/2 = 0, 95 t19;0,95 = 1, 729
82
Allora, l’intervallo richiesto è
!
r
6, 58
= (2, 91; 4, 89) ore
3, 9 ± 1, 729
20
2. Si determini tale intervallo nell’ipotesi che con gli
stessi dati le imprese intervistate siano 120.
Per il nuovo intervallo, abbiamo
.
t119;0,95 = z0,95 = 1, 645
Allora,
r
3, 9 ± 1, 645
6, 58
120
!
= (3, 52; 4, 29) ore
L’intervallo è più corto, come ci potevamo aspettare,
dato che all’aumentare della numerosità campionaria, a parità di tutto il resto, si riduce l’ampiezza
dell’intervallo.
3. Si dica quale numerosità dovrebbe avere il campione
per ridurre di 1/4 l’ampiezza dell’intervallo trovato
al punto precedente.
L’ampiezza dell’intervallo del punto precedente è 0,77.
Allora, l’ampiezza del nuovo intervallo deve essere
0,77-0,77/4=0,58. Vogliamo determinare la numerosità campionaria n in modo tale che il nuovo intervallo abbia ampiezza 0,58. Per ridurre la dimensione
dell’intervallo, a parità di tutto il resto, la numerositè
deve aumentare, quindi n > 120. Il nuovo intervallo
83
è
r
3, 9 ± 1, 645
con ampiezza
6, 58
n
r
!
6, 58
n
Risolvendo rispetto a n l’equazione
r
6, 58
2 · 1, 645
= 0, 58
n
2 · 1, 645
si deriva n = 212 (arrotondando).
84
Fly UP