Cap. 4 - Test delle Ipotesi

by user

on 06 июля 2016

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download Cap. 4 - Test delle Ipotesi

Transcript

Cap. 4 - Test delle Ipotesi

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
CAP. 4 – TEST delle IPOTESI
Introduzione
In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando
sostanzialmente la trattazione alla cosiddetta teoria classica del test delle ipotesi
parametriche e facendo, soprattutto, riferimento a campioni estratti da popolazioni
normali; comunque, la portata generale dei principi enunciati e la logica delle
argomentazioni svolte rimangono immutate anche se si fa riferimento a campioni estratti
da popolazioni non normali.
Argomentazioni diverse devono essere svolte sia nei riguardi dell’impostazione
bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non
parametrici.
È stato sottolineato in precedenza che la teoria dell'inferenza statistica riguarda
principalmente due specifici argomenti: la stima ed il test delle ipotesi. In entrambi i casi
si tratta di valutare aspetti incogniti, concernenti una determinata popolazione, sulla
scorta delle risultanze campionarie.
Il problema della stima e quello del test delle ipotesi, anche se simili, vanno comunque
tenuti distinti in quanto coinvolgono problematiche diverse. Infatti, come già
sottolineato, nel primo caso l'evidenza campionaria, eventualmente integrata da
conoscenze a priori, viene utilizzata per stimare un'entità incognita relativa ad una certa
popolazione; nel secondo caso, l'evidenza campionaria, eventualmente integrata da
conoscenze a priori, viene utilizzata per verificare statisticamente la validità di una certa
assunzione (ipotesi) concernente una specifica entità incognita.
4.1 - Verifica di ipotesi statistiche
La rilevanza del problema della verifica di ipotesi statistiche è facilmente intuibile se si
pensa che dall'operazione di verifica scaturisce, nella generalità dei casi, l'accettazione o
il rifiuto dell'ipotesi formulata. A conferma di un tale fatto, vanno considerati soprattutto
i problemi di decisione nei quali all'accettazione o al rifiuto di una certa ipotesi è
collegata la scelta di una particolare linea di comportamento.
Definizione 1 (Ipotesi statistica). Un'ipotesi statistica è un'affermazione che specifica
parzialmente o completamente la legge di distribuzione di una variabile
casuale. L'affermazione può riferirsi, sia alla forma funzionale della legge
217
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
di distribuzione sia ai parametri caratteristici, o ai soli parametri
caratteristici quando si assuma nota la forma analitica della distribuzione
stessa.
Se l'ipotesi, usualmente indicata con il simbolo H0 e detta ipotesi nulla o ipotesi di
lavoro, specifica completamente la legge di distribuzione della variabile casuale, si dice
semplice, nel caso opposto l’ipotesi viene detta composita o composta. Inoltre, se
l'ipotesi riguarda i parametri caratteristici di una particolare distribuzione di cui si
conosce la forma analitica si parla di ipotesi parametrica; si dice invece non parametrica
(o più correttamente distribution free), l'ipotesi statistica che non presuppone nota tale
forma. Ovviamente l'ipotesi non parametrica, come generalmente accade, può
riguardare sia la forma analitica della distribuzione sia i parametri che la caratterizzano.
Ad esempio, se si ipotizza che l'altezza degli italiani adulti di sesso maschile si
distribuisce in modo normale con media pari a 1,70 metri e scostamento quadratico
medio pari a 0,28 metri, si sta trattando di un’ipotesi statistica semplice (specifica
completamente la legge di distribuzione del fenomeno) non parametrica (l'ipotesi
riguarda anche la forma della distribuzione). Se invece si dà per acquisito il fatto che
l'altezza degli italiani adulti di sesso maschile si distribuisce normalmente, l'ipotesi
statistica potrà riguardare i soli parametri caratteristici media e varianza (o lo
scostamento quadratico medio ). L'ipotesi sarà semplice, se specifica un preciso
valore numerico per i due parametri, ad esempio: l'altezza media è pari a 1,70 metri; sarà
invece composita se specifica un insieme di valori, ad esempio: l'altezza media degli
italiani adulti di sesso maschile è compresa nell'intervallo (1,68 , 1,72) metri.
Definizione 2 (Test di ipotesi). Un test di ipotesi (statistica) è una regola attraverso la
quale si decide se accettare o meno l'ipotesi formulata sulla base delle
risultanze campionarie. I dati si riferiscono naturalmente alla variabile
casuale sulla cui legge di distribuzione è stata formulata l'ipotesi.
Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di
tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme C
in due sottoinsiemi disgiunti C0 e C1 = C – C0 in modo tale che si decide di rifiutare
l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se il punto
campionario cade in C0.
218
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si
dice regione di accettazione lo spazio C0.
C = Spazio o universo dei campioni
C1 = Regione o spazio di rifiuto di H0
(
Regione critica )
C0 = Regione o spazio di
.
accettazione dell’ipotesi H0
Fig. 4.1 - Bipartizione dell'universo dei campioni
È stata introdotta la definizione di un test statistico e non del test statistico, in quanto
si intuisce facilmente come la bipartizione dell'universo dei campioni, e cioè la definizione
della regione critica, possa essere effettuata secondo criteri o regole differenti che non
conducono necessariamente agli stessi risultati. Due differenti test, e cioè due modi
diversi di bipartizione dell'universo dei campioni, possono essere posti a confronto
attraverso un'analisi del processo logico seguito nella loro formulazione, o più
semplicemente, sempre che sia possibile, confrontando le probabilità di commettere degli
errori adottando l'una o l'altra procedura per sottoporre a test una stessa ipotesi.
Nell'accettare o rifiutare, sulla scorta dell'evidenza campionaria, una determinata
ipotesi nulla, si può agire correttamente, e cioè accettare un'ipotesi vera o rifiutare
un'ipotesi falsa, oppure si possono commettere errori aventi diversa natura:
a)
rifiutare un'ipotesi nulla quando essa è vera. Si parla in questo caso di errore di I
specie o di I tipo;
b)
accettare un'ipotesi nulla quando essa è falsa. Si parla in questo caso di errore di II
specie o di II tipo.
Il processo decisionale sopra illustrato può essere schematicamente riassunto nella
tavola che segue.
219
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Stato di
natura
H0 è vera
H0 è falsa
Azioni
Si accetta H0
Si rifiuta H0
Decisione corretta
Si commette un
errore di I tipo
Si commette un
errore di II tipo
Decisione corretta
Tab. 4.1 - Tavola di decisione
Quando H0 è un’ipotesi semplice, la probabilità di commettere un errore di primo
tipo, e cioè la probabilità di rifiutare un’ipotesi quando essa è vera, è indicata
usualmente con .
α  P  X  C1 / H 0 
dove viene detto livello di significatività del test e
X 
 X1 , X 2 ,...., X n 
rappresenta il punto campionario.
La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare
un'ipotesi quando essa è falsa, è indicata con   
β  H1   P  X  C0 / H1 
dove
H1  H0 , che rappresenta la negazione dell’ipotesi
Ho , viene detta ipotesi
alternativa e, nell’ambito della teoria classica o frequentista del test delle ipotesi,
completa il contesto decisionale nel senso che, nella specifica situazione sotto esame, o è
vera l’ipotesi nulla H0 o è vera l’ipotesi alternativa H1;  indica, pertanto, la
probabilità dell’errore di II tipo che dipende, ovviamente, dalla specificazione dell’ipotesi
alternativa H1.
La quantità ( H1 ) = 1 – ß (H1), e cioè la probabilità di rifiutare un'ipotesi quando
essa è falsa, viene detta forza o potenza del test relativamente all'ipotesi alternativa H1.
Al variare di H1 la  ( H1 ) assumerà il carattere di funzione, e viene detta funzione
forza del test. Da rilevare che i termini forza e potenza vengono usati come sinonimi e
traducono il termine inglese power.
Quanto sopra affermato si riferisce al caso d'ipotesi H0 semplice. Nel caso di ipotesi
nulla composita, si può definire il livello di significatività come
α  Sup P  X  C1 / H 0 
H  H0
Così posto il problema, si vede chiaramente come la migliore soluzione sia
rappresentata da un test capace di minimizzare simultaneamente le probabilità di
220
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile perseguire
un tale obiettivo, e cioè, non è sempre possibile individuare un test capace di minimizzare
contemporaneamente le due probabilità di commettere errore quando la dimensione del
campione sia stata fissata. Si dovrà quindi operare in modo diverso; infatti, come già
sottolineato, la procedura che si segue generalmente è quella di fissare il livello della
probabilità di commettere un errore di primo tipo (si stabilisce cioè il livello di
significatività ) e nell'individuare poi il test che minimizza la probabilità di commettere
un errore di II tipo.
Si potrebbe, più semplicemente, dire che fissato il livello di significatività si
cerca il test più potente (test MP dall’inglese Most Powerful), cioè, quello che ha il
valore di ( H1 ) più elevato.
4.1.1 Ipotesi semplici
Si è distinto in precedenza le ipotesi sulla forma funzionale della legge di distribuzione
della variabile casuale oggetto d'analisi dalle ipotesi sui parametri caratteristici di tale
legge (supposta nota). Le ipotesi statistiche sono state ulteriormente distinte in semplici e
composite a seconda che le ipotesi stesse specifichino completamente o parzialmente la
legge di distribuzione del fenomeno.
Nel caso in cui l'ipotesi nulla H0 e l'ipotesi alternativa H1 siano entrambe semplici, lo
spazio parametrico Θ , a una o più dimensioni, di definizione dei parametri risulta
formato da due soli punti
Θ = (, )
Le ipotesi sono
H0 :  = 0
H1 :  = 
La costruzione di un test si riduce, in effetti, alla bipartizione dello spazio dei
campioni C in due sottospazi C0 e C1. Per quanto sopra detto, si vede quindi
chiaramente come il miglior test per sottoporre a verifica un'ipotesi H0 sia quello che
individua la migliore regione critica C1, dove per miglior regione critica s’intende,
appunto, quella che, a parità di livello di significatività, presenta la probabilità di
commettere un errore di II tipo più bassa; la regione di accettazione risulterà determinata
di conseguenza. In termini formali si può dire che la migliore regione critica C1 (il
miglior test) di grandezza ( a livello  di significatività) per sottoporre al test l'ipotesi
semplice H0 :  =  contro l'ipotesi alternativa H1 :  =  è quella che soddisfa le
due relazioni
P ( X  C1 /H0 ) = 
P ( X  C1 /H1 )  P ( X  Ci /H1 )
221
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
dove: X 
 X1, X 2 ,...., X n 
'
rappresenta il punto campionario, e
Ci (i = 2, 3,...)
rappresenta ogni possibile regione critica alternativa a C1 tale che P ( X  Ci /H0 ) = 
Un famoso teorema (teorema o lemma fondamentale di Neyman-Pearson) attesta
che esiste, ed è sempre possibile individuare, la migliore regione critica nel caso in cui si
voglia sottoporre a test un'ipotesi statistica semplice contro un'ipotesi alternativa
anch'essa semplice.
Teorema 1 (Neyman-Pearson): Sia X una variabile casuale con funzione di massa o di
densità di probabilità f (x;) e sia x = (x1, x2,...,xn) un campione casuale di
osservazioni su X. Allora la funzione di verosimiglianza del campione sarà
espressa da
L  ; x   L  ; x1 , x2 ,, xn  .
Siano 0 e 1 due valori distinti di , K una costante reale positiva e si
voglia sottoporre a test l'ipotesi H0 :  = 0
contro l'ipotesi alternativa
H1 :  = 1. Se C1 (regione critica) è un sottospazio dello spazio dei
campioni C tale che
L  θ1 ; x 
 K  x  C1
L  θ0 ; x 
e di conseguenza C0 = C – C1 (regione di accettazione) consiste nell'insieme
di punti campionari tali che
L  θ1 ; x 
 K  x  C0
L  θ0 ; x 
dove K viene scelto in modo che la probabilità di commettere un errore di I
specie sia pari a   P  X  C1 / H 0     , allora la regione critica C1
presenta la più bassa probabilità d'errore di II specie, tra le regioni critiche
che hanno livello di significatività pari ad .
Dimostrazione
Siano C1 e C1* due regioni di rifiuto dell’ipotesi nulla H0 per le quali valgono le
relazioni
P  X  C1 / H 0   P  X  C1* / H 0   
si vuol dimostrare che se C1 risulta definito dalle disuguaglianze sopra riportate allora:
P  X  C1 / H1   P  X  C1* / H1 
si vuole dimostrare, cioè, che il test definito dalla regione C1 è più potente di quello
222
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
definito da una qualunque altre regione critica C1* che abbia lo stesso livello di
significatività .
Si consideri la differenza tra le probabilità di non commettere un errore di II tipo
(potenza) relative alle due regioni critiche:


P  X  C1 / H1   P X  C1* / H1  
L 1 , x   
L 1 , x 
C1
C1
ma

 
 C  C   C
 
 C   C
C1  C1  C  C1  C0*  C1*  C1  C0*  C1  C1*
C1*  C1*  C  C1*
0
*
1
1
*
1
0

 C1

quindi

P C   P C
 
 C   P C

C 
P  C1   P C1  C0*  P C1  C1*
*
1
*
1
*
1
0
1
da cui
L 1 , x   

C1 C0*
L 1 , x   
C1 C1*

C1 C0*
C1* C0
L 1 , x   
L 1 , x   
L 1 , x  
C1* C1
L 1 , x 
C1* C0
per le due disuguaglianze riportate nell'enunciato del teorema si ha:
in
C1  L 1 , x   K  L  0 , x 
in
Co  L 1 , x   K  L  0 , x 
pertanto

C1 C0*

L 1 , x   
C1 C0*
C1 C0*
K  L  0 , x   
C1 C1*
  K  L  0 , x   
C1
L 1 , x   
C1* C0
C1*
K  L  0 , x   
C1* C0
K  L  0 , x   
C1* C1
K  L  0 , x  
K  L  0 , x   
C1* C0
K  L  0 , x  
K  L  0 , x   K      0 


 P  X  C1 / H1   P X  C1* / H1  0.
Bisogna tener presente che, dal punto di vista operativo, quando si procede nella
formulazione di un test, lo spazio dei campioni C di riferimento non è lo spazio di
variabilità della n-upla X =  X 1 , X 2 ,…, X n  che costituisce il campione casuale, ma lo
spazio di variabilità di una funzione T (  ) di tali valori che assume, pertanto, la natura
di variabile casuale test; ad esempio, se  = µ , la funzione di compattazione è data dà
1
X = T  X 1 , X 2 ,…, X n  =
n
223
X .
n
i
i=1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Pertanto lo spazio di riferimento della media campionaria X è lo spazio dei campioni
relativo a tale variabile, cioè l'intero asse reale e la sua suddivisione potrà essere del tipo
riportato nella figura che segue:
Fig. 4.2 - Regione critica e regione di accettazione dell'ipotesi H 0
Tre considerazioni vanno fatte in merito al teorema di Neyman-Pearson:
 il teorema resta valido qualunque sia il numero dei parametri (purché finito)
caratteristici della legge di distribuzione delle probabilità della variabile casuale X;
 il teorema non richiede esplicitamente l'indipendenza stocastica delle n
osservazioni costituenti il campione;
 nel teorema sono fissate le condizioni necessarie affinché un test sia il più potente
ma vengono anche indicate le regole per la derivazione della regione critica.
Esempio 4.1
Sia
f

x;   

1
e
2
1
 x   2
2
la funzione di densità di probabilità di una variabile casuale X normale di media    e
varianza  2  1 .
Relativamente alle seguenti ipotesi (entrambe semplici)
H 0 :θ  θ 0
H 1 :θ  θ 1  θ 0
si assuma la disponibilità di un campione casuale x = (x1, x2, ...., xn). In queste condizioni si
può pervenire alla individuazione della migliore regione critica C 1, cioè alla individuazione
del test più potente, facendo ricorso al teorema di Neyman-Pearson.
Le funzioni di verosimiglianza sotto le ipotesi H0 e H1 sono
224
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n
L  1; x    f ( xi ; 1 )  (2  )
n
2


e
n

1
( xi  1 )2
2 i1
i 1
n
 f ( x ; )
L  0 ; x  
i
i 1
 (2  )
0

n
2

e
n

1
( xi  0 )2
2 i 1
La migliore regione critica, cioè quella che minimizza la probabilità β H 1  dell'errore di II
tipo una volta fissata la probabilità α dell'errore di I tipo, resta individuata dalla
disuguaglianza
n
 f ( x ; )
L  1; x 

L  0 ; x 
i
i 1
n
1
 f ( x ; )
i
i 1
e
n
n

1
2
2
 ( xi  0 )  ( xi  1 ) 
2  i 1

i 1


K
0
dove K è una costante da determinare in funzione di α.
Prendendo il logaritmo degli ultimi due termini della disuguaglianza si ottiene
n
1 n

2
(x

θ
)

(xi  θ 1 )2   log K


i
0

2  i 1
i 1

moltiplicando per 2 i due termini della disuguaglianza si ha
n
(x  θ
i 1
i
n
)  (xi  θ 1 )2  2 log K
2
0
i 1
essendo
n
n
n
n
i 1
i 1
i 1
i 1
n
n
n
n
i 1
i 1
i 1
i 1
(xi  θ 0 )2   xi2  2θ 0  xi  nθ 02  xi2  2 nθ 0 x  nθ 02
(xi  θ 1 )2   xi2  2θ 1  xi  nθ 12  xi2  2 nθ 1 x  nθ 12
dove
n x  n
n
1 n
x

xi
i 
n i 1
i 1
la relazione di disuguaglianza può essere scritta
2  n  x  θ1 - θ0  + n   θ02 - θ12   2  log K
ed anche, dividendo per la quantità negativa n   0  1  che inverte il segno di
disuguaglianza (si ricordi l'ipotesi 1 < 0)
x 


2  log K- n θ 02  θ 12
 K*
2  n θ 1  θ 0 
Poiché X ha, sotto l'ipotesi nulla H0 :θ  θ 0 , distribuzione normale con media    0 e
varianza 2 = 1/n , sarà facile determinare il valore di K che soddisfa la relazione
225
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi


2  log K - n   θ02 - θ12 
PX 
/H 0  = α


2  n   θ1 - θ0 


In pratica l'operazione si semplifica tenendo presente che il membro di destra della
disuguaglianza è una funzione costante di K , basterà allora individuare il valore K* che
soddisfa la relazione


P X  K * /H 0  α
od anche
 X θ 0

K* θ 0
P 

/H 0   α
1/ n
 1/ n

il che equivale alla relazione
P  Z  c  α
dove Z è una variabile casuale normale standardizzata e c 
K* θ 0
è il punto critico che
1/ n
ha alla sua sinistra (regione critica) l' α dei valori della distribuzione.
4.1.2 Ipotesi composite
Il teorema di Neyman-Pearson consente di derivare la migliore regione critica soltanto
nei casi in cui sia l'ipotesi nulla che quella alternativa sono semplici. Quando H0 o H1, o
entrambe le ipotesi sono composite non esiste un analogo teorema. E' stata comunque
suggerita, sempre dagli stessi autori, una procedura generale per l’individuazione della
regione critica che dà usualmente buoni risultati: il test del rapporto di verosimiglianza.
Si dimostra, infatti, che nei casi in cui esiste la migliore regione critica essa viene
individuata dal test del rapporto di verosimiglianza.
Si dimostra inoltre che se esiste un test uniformemente più potente (test UMP
dall’inglese Uniformly Most Powerful), cioè un test che relativamente ad una data ipotesi
nulla semplice H0 e per un prefissato livello di probabilità dell'errore di I tipo minimizza
la probabilità dell'errore di II tipo, qualunque sia la specificazione della ipotesi alternativa
composita H1 , esso è un test del rapporto di verosimiglianza.
Il test del rapporto di verosimiglianza può essere definito nei seguenti termini:
Definizione 3 (Test del rapporto di verosimiglianza). Si supponga che x = (x1,
x2,...,xn) costituisca un campione casuale di una variabile X la cui
distribuzione di probabilità sia caratterizzata dal parametro incognito ,
e si voglia sottoporre a test una ipotesi nulla contro un'ipotesi alternativa
(una o entrambe composite). Si indichi con L Θˆ il valore massimo
 
0
della funzione di verosimiglianza del campione rispetto al parametro il
226
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
cui campo di variabilità è circoscritto dall'ipotesi H0, e si indichi con
L Θˆ il valore massimo della funzione di verosimiglianza rispetto a ,
 
il cui campo di variabilità riguarda ogni valore specificato dall'ipotesi H0
o H1. Allora la regione critica del test (generalizzato) del rapporto di
verosimiglianza è formata da tutti i punti campionari che soddisfano la
relazione
L Θˆ0
max L θ / θ Θˆ0
 K
per 0  K  1
R=
= θ
L Θˆ
max L θ / θ Θˆ
 
 
θ




dove K è scelto in modo che la probabilità di commettere un errore di I specie sia
uguale ad . Da rilevare che il rapporto sopra indicato non potrà mai superare l'unità; la
costante K sarà quindi sempre inferiore o uguale a 1 e potrà essere determinata sulla
base della distribuzione probabilistica del rapporto stesso in corrispondenza del livello 
di significatività prefissato.
La distribuzione di R non è sempre facilmente derivabile, in ogni caso si dimostra
che, per n abbastanza grande, e se sono soddisfatte certe condizioni generali di
regolarità, la variabile casuale W = - 2 log R, ha una legge di distribuzione approssimata
del tipo  con  gradi di libertà, dove  rappresenta il numero di vincoli di
uguaglianza puntuali sui parametri specificati dall’ipotesi nulla.
Nelle pagine successive verranno discusse alcune procedure per sottoporre a test
ipotesi sui parametri della distribuzione normale. Tutti i test considerati sono test del
rapporto di verosimiglianza, da sottolineare che l'applicazione di tale test al problema
della verifica di ipotesi semplici contro alternative semplici dà luogo a risultati identici a
quelli che si otterrebbero utilizzando il teorema di Neyman-Pearson.
2
4.2 - Test sulla media
Per poter verificare delle ipotesi statistiche si deve avere a disposizione un campione di
osservazioni che consenta di poter concludere sulla ragionevolezza dell'ipotesi (nulla)
formulata; se ciò accade si accetta l'ipotesi stessa (ritenendola ragionevole), altrimenti si
procede al suo rifiuto in favore dell'ipotesi alternativa.
Molti autori ritengono che piuttosto che concludere per l’accettazione dell’ipotesi
nulla si debba parlare più correttamente di non rifiuto dell’ipotesi stessa, la motivazione
di un tale atteggiamento risiede nell’impossibilità di derivare, in molte situazioni di
ricerca, una misura significatività della probabilità di commettere l’errore di II specie.
Si ammetta di poter disporre di un campione di osservazioni x =  x1, x2 , ..., xn 
'
2
estratto da una popolazione normale di media µ e varianza 
risolvere i seguenti problemi di test d'ipotesi:
227
incognite, e di voler
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
a)
H0 : µ = µ0
H1 : µ = µ1 > µ0
b)
H0 : µ = µ0
H1 : µ > µ0
c)
H0 : µ = µ0
H1 : µ < µ0
d)
H0 : µ = µ0
H1 : µ  µ0
Si fissi ora un certo livello di significatività , cioè la misura della probabilità d'errore
di I specie che si è disposti a sopportare. L'ipotesi riguarda la media di una distribuzione
normale, si sceglie quindi come funzione degli elementi del campione (variabile casuale
test) la media campionaria:
1 n
X  T  X 1 , X 2 ,...., X n    X i
n i 1
Lo spazio di variabilità della variabile casuale campionaria X è l'intero asse reale. La
procedura di test consisterà quindi nella suddivisione dell'asse reale in due regioni in
modo tale che la probabilità d'errore di I specie sia pari a , cioè in modo che
P  X  C1 / H 0   α
dove C1 rappresenta la regione critica.
Si è visto in precedenza che la variabile casuale campionaria
X- μ
T 
S/ n
ha una legge di distribuzione del tipo t di Student con n-1 gradi di libertà. Avrà quindi la
distribuzione t, con n-1 gradi di libertà anche la variabile casuale
X- μ 0
T 
S/ n
Caso a)
H0 : µ = µ0
H1 : µ = µ1 > µ0
L'asse reale viene diviso nei due intervalli (- , c) , (c ,+). Il primo degli intervalli
specifica la zona di accettazione, il secondo la zona critica. Il valore numerico di c ,
valore critico del test, si ottiene dalla relazione
P ( T > c / µ = µ0 ) = 
caso b)
H0 : µ = µ0
H1 : µ > µ0
In questo caso l'ipotesi alternativa è composita, la procedura di test uniformemente
più potente (cioè quella che minimizza la probabilità d'errore di II specie contro ogni
228
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
specificazione delle ipotesi alternative H1) è esattamente identica a quella indicata nel
caso precedente.
caso c)
H0 : µ = µ0
H1 : µ < µ0
L'ipotesi alternativa anche in questo caso è composita ma con segno di
disuguaglianza, relativamente all'ipotesi alternativa, invertito rispetto al caso precedente.
Si dovrà sempre suddividere l'asse reale nei due intervalli (- , - c) ,(- c , +) ma la
regione critica è data dall'intervallo (- , - c). Il valore critico si ottiene dalla relazione
P ( T < - c / µ = 0 ) = 
Da sottolineare che nelle due situazioni sopra descritte si applica il test del rapporto di
verosimiglianza che individua la migliore regione critica; individua cioè, il test
uniformemente più potente; a sostegno di una tale affermazione è sufficiente ipotizzare
un’applicazione reiterata del teorema di Neyman-Pearson in corrispondenza a ciascuna
specifica dell’ipotesi alternativa: la regione critica individuata è sempre la stessa, ed è
quella che minimizza la probabilità dell’errore di II tipo, ovviamente, tale probabilità
varierà al variare della specifica dell’ipotesi alternativa.
caso d)
H0 : µ = µ0
H1 : µ  µ0
Nei due casi precedenti sono state considerate ipotesi alternative composite
unidirezionali, in questo caso l’ipotesi alternativa composita è bidirezionale. In tale
contesto l'asse reale viene suddiviso in tre parti (- , c1) , (c1 , c2) , (c2 , +) ,
l'intervallo (c1 , c2) costituirà la zona di accettazione, mentre i due intervalli (- , c1) e
(c2 , +) costituiscono insieme la zona di rifiuto. Poiché la distribuzione t è simmetrica,
si scelgono usualmente i valori di c1, c2 equidistanti dallo 0, cioè c2 = c e c1 =- c . Il
valore critico c > 0 si otterrà allora dalla relazione
P ( T < -c / µ = µ0 ) = P ( T  c / µ = µ0 ) =/2.
Evidentemente la procedura indicata non fornisce un test uniformemente più potente;
infatti, se il vero valore di µ fosse superiore a µ0, il test più potente sarebbe quello
indicato nel caso a); se invece il vero valore di µ fosse inferiore a µ0 il test più potente
sarebbe quello indicato nel caso c). Non avendo maggiori informazioni sulle alternative,
relativamente all'ipotesi H1: µ  µ0, si preferisce attribuire alle due possibilità µ > µ0 e
µ < µ0 uguale peso. Da rilevare che il test così ottenuto risulta quello uniformemente
più potente nella classe ristretta dei cosiddetti test corretti o non distorti (test UMPU
dall’inglese Uniformly Most Powerful Unbiased).
Definizione 4 (Correttezza di un test). Un test si dice corretto o non distorto se
soddisfa il vincolo     , cioè, se la probabilità di non commettere
229
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
un errore di II tipo è sempre maggiore od uguale alla probabilità di
commettere un errore di I tipo.
Nei quattro casi sopra esaminati si rifiuta l'ipotesi H0 se la specifica determinazione
della variabile casuale T cade nella zona critica (zona di rifiuto), si accetta altrimenti.
Esempio 4.2
Si supponga di voler risolvere il seguente problema di test d'ipotesi
H0 :  = 30
H1 :  < 30
al livello di significatività = 0,01, disponendo delle informazioni sulla media campionaria
x = 26 e sulla varianza campionaria corretta s2 = 36 relative ad un campione di 25
elementi estratti da una popolazione normale.
Non essendo nota la varianza della popolazione, la regione critica o regione di rifiuto
dell'ipotesi nulla H0 :  = 30 si individua facendo riferimento alla variabile casuale t di
Student con 25-1 gradi di libertà
t
dove S x  S /
X 
Sx
n . Tenendo presente l'ipotesi alternativa H1 :  < 30 la regione critica resta
quindi individuata dal punto critico - c  - t  - t0,01  - 2,492 che rappresenta la specifica
determinazione della variabile casuale t di Student che ha alla sua sinistra l'1% dei casi.
Poiché il valore campionario è
t
x -
x -
26 - 30


 - 3,33
sx
s / n 6 / 25
si rifiuta l'ipotesi nulla H0 :  = 30, al livello di significatività dell'1%.
Esempio 4.3
Dati i seguenti otto valori campionari 31, 29, 26, 33, 40, 28, 30 e 25 estratti da una
popolazione normale si vuole sottoporre a test l'ipotesi che la media sia pari a 35 contro
l'ipotesi alternativa che non lo sia, al livello di significatività  = 0,01.
Il problema di test d'ipotesi da risolvere è
H0 :μ  35
H0 :μ  35
Essendo la varianza della popolazione una incognita del problema (parametro di disturbo) si
dovrà procedere ad una sua stima utilizzando i dati campionari
S2 
1 n
(xi  x )2

n 1 i 1
essendo
230
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
x
1 n
1 8
x

xi  30,25
 i 8
n i 1
i 1
s2 
1 8
(xi  30,25)2  22,21
7 i 1
s  s 2  4,71
La determinazione della variabile casuale test che in questo caso, essendo incognita la
varianza, è la t di Student, è pari a
t
xμ
x- μ
30,25 - 35


 - 2,85
sx
s / n 4,71 / 8
Essendo  = 0,01 i valori critici della variabile t, con (8-1) =7 gradi di libertà che
c1  - tα/ 2  - 3,499 e c2  tα/ 2  3,499 . Il valore
definiscono la regione critica sono
campionario -2,85 è contenuto nell'intervallo (-3,499 , 3,499), pertanto si accetta l'ipotesi
nulla  = 35 attribuendo la differenza riscontrata rispetto al valore campionario x  30,25
a fattori di carattere accidentale.
Esempio 4.4
Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita
per corrispondenza affermano di riuscire ad evadere, mediamente, un ordine di acquisto ogni
13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di
evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità,
misurata in termini di varianza corretta, di 100 minuti. Cosa si può concludere riguardo alle
richieste degli impiegati se si fissa una probabilità di errore di I tipo (livello di significatività)
del 5%?
Si deve sostanzialmente verificare se la media rilevata nel campione è più elevata, al livello di
significatività del 5%, di quella dichiarata dagli impiegati. Ovviamente, dato che in questo
particolare problema è auspicabile che il tempo di evasione di un ordine sia basso, il direttore
acconsentirà all’aumento di stipendio solo se il tempo di evasione riscontrato nell’azienda non
sia più alto rispetto a quello dichiarato dagli impiegati.
Il problema di verifica d'ipotesi è quindi formalizzato nei termini seguenti
H 0 : μ  13
H 1 :   13
La variabile casuale test di riferimento
t
X μ
X- μ

Sx
S/ n
ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di libertà.
Conviene sottolineare che, in questo specifico esempio, essendo la dimensione campionaria
elevata (n = 400) si può fare riferimento alla distribuzione normale quale approssimazione
della distribuzione t di student che fornisce un valore critico (test unidirezionale ), per  =
231
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
0,05, pari a 1,65. La regola di decisione è quella di rifiutare l'ipotesi H 0 se il valore assunto
(valore empirico) dalla v.c. test nello specifico campione è  1,65, di accettare se il valore
empirico è < 1,65.
Poiché x  14 e s x  s /
n  10 / 400 si ha
xμ
14 - 13

 2  1,65
sx
10 / 400
si rifiuta l'ipotesi
H0 concludendo che tempo medio richiesto per evadere un ordine è
superiore ai 13 minuti dichiarati dagli impiegati.
Esempio 4.5
Si supponga di disporre di un campione di 10 elementi rispetto al quale siano stati ottenuti i
10
valori x = 50,
(x  x)
2
i 1
i
 99 e di dover risolvere il seguente problema di test d'ipotesi
H : µ = 47
0
H1 : µ  47
ipotizzando la normalità della distribuzione della variabile di interesse.
Non essendo nota la varianza della popolazione e relativamente ridotta la dimensione del
campione non si può fare ricorso all'approssimazione normale, la variabile casuale test da
utilizzare è, pertanto, la variabile casuale t di Student.
X- μ
S/ n
T 
dove
n
 (x  x)
2
S
i
11
n 1
quindi
10
2
S x2 =
S
=
n
(x - x)
2
i
i=1
9×10
=
La determinazione assunta dalla variabile casuale
Ho :  = 47 risulta essere
t
99
= 1,1
90
t
di Student sotto l'ipotesi nulla
x   50  47
= 2,8604

Sx
1,0488
Per (n – 1) = 9 gradi di libertà ed  = 0,01 i valori critici che delimitano la regione di
accettazione sono  tα/
2
 - 3,25 e. tα / 2  3,25 . Essendo 2,8604 < 3,25 si accetta l'ipotesi
nulla Ho :  = 47.
232
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Se si sceglie il livello di significatività  = 0,05, i valori critici sono -t/2 = - 2,262 e t/2
=2,262; essendo 2,8604 > 2,262 l 'ipotesi nulla Ho :  = 47 dovrà essere rifiutata.
Esempio 4.6
Si supponga di aver somministrato ad un gruppo di 12 cavie una particolare dieta dalla
nascita fino all'età di 3 mesi e di aver riscontrato i seguenti incrementi di peso: 55, 62, 54, 57,
65, 64, 60, 63, 58, 67, 63 e 61 grammi. Sapendo che le cavie del tipo considerato, quando non
sono sottoposte a diete speciali, mostrano un incremento medio di peso (nei primi tre mesi di
vita) pari a 65 grammi, ci si domanda se le risultanze campionarie siano tali da poter
attribuire alla dieta la differenza riscontrata nell'incremento medio di peso pari a 60,75; si
vuole sapere cioè se la differenza d = (60,75 – 65) debba essere attribuita alla dieta o se non
debba invece essere attribuita a fattori aventi carattere puramente accidentale. Una possibile
risposta al quesito si può ottenere applicando la procedura di test sopra illustrata; la
procedura può essere riassunta come segue:
1. si fissa il livello di significatività, ad esempio  = 0,05;
2. si specificano le due ipotesi
H0 : µ = 65
H1 : µ  65
L'ipotesi alternativa è di tipo bidirezionale in quanto si può ritenere, almeno per il momento,
che un qualsiasi incremento medio di peso maggiore o minore di 65 grammi possa essere
attribuito all'effetto della dieta;
3. si individua la variabile casuale test
T 
X- 65
S / 12
che, per quanto detto, è del tipo t di Student con 12 - 1 = 11 gradi di libertà. Tale variabile
descrive l'andamento dei risultati campionari (sintetizzati nella formula sopra scritta) sotto
l'ipotesi nulla H0; cioè a condizione che la dieta non abbia effetto e che quindi le differenze tra
X e 65 siano da attribuire esclusivamente a fattori accidentali;
4.
si determina il valore critico c che soddisfa la relazione
P ( -c  T  c) = 0,95
Dalle tavole della distribuzione t di Student, in corrispondenza di 11 gradi di libertà, risulta c
= 2,20;
5. si pone a confronto il valore t (la specifica determinazione della variabile casuale T)
calcolato sui dati campionari
t =
60,75 - 65
= -3.64
16,38 / 12
con il valore critico determinato al punto precedente.
Essendo
t = -3,64 < -2,20 = -c
si rifiuta l'ipotesi nulla H0 : µ = 65, al livello di significatività  = 0,05, si rifiuta cioè
l'ipotesi che la differenza d = 60,75 - 65 sia da attribuire al caso.
233
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Qualora si ritenga, a priori, che la dieta debba provocare un incremento medio di peso
inferiore a 65 grammi, la procedura di test da adottare sarà quella di tipo unidirezionale. In
tal caso si dovrà porre
H0 : µ = 65
H1 : µ < 65
si determina poi, in funzione della variabile test
T 
X- 65
S / 12
il valore critico c che soddisfa la relazione
P (T  -c) = 0,05
Dalle tavole della distribuzione t di Student risulta c = 1,80. Essendo
t = -3,64 < -1,80 = -c
si rifiuta l'ipotesi H0 : µ = 65.
Le due procedure di test adottate, bidirezionale e unidirezionale, portano entrambe alla stessa
conclusione: rifiuto dell'ipotesi nulla. A tale proposito va però sottolineato che se la t
campionaria avesse assunto un valore compreso nell'intervallo (-2,20 , -1,80) l'applicazione
della procedura di test bidirezionale, a livello  = 0,05 di significatività, avrebbe comportato
un'accettazione dell'ipotesi nulla mentre, allo stesso livello di significatività, l'applicazione
della procedura di test unidirezionale avrebbe comportato un suo rifiuto.
I test sopra illustrati sono, per l’ipotesi alternativa unidirezionale e per l’ipotesi bidirezionale,
rispettivamente, il test uniformemente più potente ed il test uniformemente più potente nella
classe dei test corretti.
4.2.1 p-value
Dalle considerazioni svolte, risulta evidente il ruolo fondamentale giocato dal livello di
significatività del test. Stante l'arbitrarietà nella fissazione del livello , cioè della
probabilità massima di errore di I specie che si è disposti a sopportare, spesso il
ricercatore preferisce discutere di livello di significatività soltanto a posteriori. Nel caso
specifico dell'esempio 4.6, si sarebbe detto che il risultato campionario t = - 3,64 è
significativo, nel caso di test bidirezionale, al livello dello 0,8%; volendo esprimere con
tale affermazione il fatto che l'area sottesa alla curva descritta dalla funzione di densità di
probabilità della distribuzione t di Student corrispondente alla regione critica, definita
dagli intervalli (- , -3,64), (3,64 , + ) è pari a 0,008. Tale valore viene usualmente
detto P-value.
Definizione 5 (P-value). In corrispondenza di una particolare determinazione t0 assunta
da una qualunque variabile casuale test T  X 1, X 2 , ..., X n  si dice Pvalue la probabilità dei valori che superano, in valore assoluto e nella
direzione estrema, il valore osservato.
234
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Questa definizione viene usualmente accettata quando T    è una statistica usata
per sottoporre a test l’ipotesi nulla
H 0 :   0
contro un’ipotesi alternativa
unidirezionale quando i valori estremi da considerare si collocano o nella coda di destra
della distribuzione ( H 1 : θ  θ 0 ) o nella coda sinistra della distribuzione ( H 1 : θ  θ 0 ).
Molto più problematica è la situazione nel caso di ipotesi bidirezionale H 1 : θ  θ 0 , in
questo caso i valori estremi da considerare sono sia quelli della coda di destra sia quelli
della coda di sinistra, a ragione di ciò, alcuni autori sostengono che in tali circostanze il
valore del P-value debba essere raddoppiato; nell’esempio sopra considerato, se
l’ipotesi alternativa fosse stata H1 : µ  65 , il P-value sarebbe stato pari a 0,16 = 0,08
+ 0,08.
Nel caso in cui la variabile casuale test abbia distribuzione discreta si pone il problema
di includere o meno nel P-value la probabilità corrispondente al valore osservato.
Usualmente tale probabilità viene inclusa per intero, così da ottenere un test
conservativo, cioè con un livello di significatività effettivo non superiore a quello
nominale.
Si richiama l’attenzione sul fatto che il ricorso al P-value è criticato da molti autori a
ragione, sia del fatto sopra considerato relativo all’attribuzione di un valore numerico al
P-value , essendo il valore stesso interpretabile come evidenza empirica contro l’ipotesi
nulla ( P = 0,08 è sicuramente un’evidenza empirica contro l’ipotesi nulla H0 : µ = 65
più forte di quanto non lo sia P = 0,16 ), sia perché può accadere che ad uno stesso
valore di P possono corrispondere realtà molto diverse.
Se si presuppone, ad esempio, di voler risolvere il problema di test H0 : µ = 65
contro l’ipotesi alternativa H0 : µ  65 avendo a disposizione un campione di
dimensione n estratto da una popolazione normale con varianza nota σ 2  1 , sotto
X  65
l’ipotesi nulla la variabile casuale test Z x 
si distribuisce come una normale
1/ n
standardizzata. In tale situazione, per n = 4 , x = 66 la determinazione della variabile
casuale test è z = 2, cui corrisponde un P-value pari a 0,0228, allo stesso valore di P
si perviene per n = 400 e x = 65,1. Ovviamente, le due situazioni sono decisamente
diverse anche se la misura dell’evidenza empirica, in termini di P-value, è la stessa; ma
questo è un problema che riguarda tutta l’impostazione classica della teoria del test
dell’ipotesi e che trova una sua soddisfacente soluzione solo nell’ambito
dell’impostazione bayesiana dell’inferenza statistica.
I problemi di test delle ipotesi fino ad ora considerati facevano riferimento ad una
variabile casuale normale con varianza incognita. Qualora la varianza fosse nota, per
risolvere i quattro problemi di test indicati, si dovrebbe operare in modo analogo facendo
però riferimento alla distribuzione normale anziché alla distribuzione t di Student.
235
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Esempio 4.7
Una fabbrica di lampadine afferma che i propri prodotti hanno una durata media di 1.000 ore;
come acquirente si vuole verificare tale affermazione. Sottoponendo a prova un campione
casuale di 100 lampadine si riscontra una durata media di 970 ore.
Poiché è nota la variabilità (misurata dalla varianza) nella durata che risulta essere  =
1.600, cosa si può concludere riguardo all'affermazione ad un livello di significatività del
5%?
Il problema di verifica d'ipotesi da risolvere è
H0 :  = 1.000
H1 :   1.000
Essendo nota la varianza ed ipotizzando la normalità della distribuzione d’origine, la variabile
casuale test di riferimento è
Zx 
X- μ
σ / n
che, nell'universo dei campioni ha distribuzione normale standardizzata. I valori critici per
una probabilità di errore di I tipo, prefissata al livello  = 0,05, sono
 zα/ 2  - 1,96 e zα / 2  1,96
che individuano le zone di accettazione di H0 nell'intervallo (-1,96 , 1,96) mentre la regione
di rifiuto è rappresentata dai semintervalli (- , -1,96) e (1,96 , +).
Poiché la determinazione della variabile casuale test (valore empirico), pari a
970  1.000
 -7,5 , ricade nell'intervallo ( - , -1,96) (regione critica) si rifiuta l'ipotesi
40 / 100
H0 concludendo che la durata media delle lampadine è inferiore a 1.000 ore.
Esempio 4.8
Un'impresa afferma che le batterie prodotte hanno una durata media di 22 ore e che la loro
variabilità, misurata attraverso lo scostamento quadratico medio, è pari a 3 ore. Nove batterie
vengono sottoposte a prova e si accerta una durata media di 20 ore.
Ipotizzando per la popolazione una variabilità pari a quella dichiarata dalla casa produttrice e
la normalità della distribuzione, si vuol verificare la validità dell'affermazione fatta
dall'impresa.
2
Poiché la durata delle batterie si distribuisce normalmente e la varianza è nota ( = 9), la
media campionaria X si distribuirà, nell'universo dei campioni, normalmente con varianza
σ x2 
σ2
9

1
n
9
La formulazione delle due ipotesi (nulla e alternativa) è
H0: µ = µ0 = 22
H1 : µ  µ0
pertanto, fissato il livello di significatività  = 0,05, la regione di accettazione dell'ipotesi
236
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
nulla
risulta
individuata
dall'intervallo
(-z
,
z
cioè
dall'intervallo
(-1,96 , 1,96). Essendo
z 
x- μ 0
20 - 22

 -2
1
σ / n
pari ad un valore inferiore al valore –1,96 che delimita la regione di accettazione, l'ipotesi
nulla H0 : µ = 22 viene rifiutata, concludendo che la durata media delle batterie in questione
è inferiore alle 22 ore.
Se la varianza della popolazione non fosse nota ed il valore 9 corrispondesse alla stima
campionaria corretta di tale entità incognita, la variabile casuale test di riferimento sarebbe la
t di student con 8 (= 9-1) gradi di libertà. In questo caso, al livello di significatività
i punti critici risulterebbero pari a -2,306 e 2,306, ed essendo il valore campionario assunto
dalla variabile casuale t (= -2) contenuto nell'intervallo -2,306 — 2,306 si dovrebbe
accettare l'ipotesi nulla attribuendo alla differenza riscontrata (tra valore ipotizzato e valore
registrato per il campione) natura accidentale. Da sottolineare che nella situazione prospettata
la mancanza di informazioni (varianza della popolazione incognita) porta a concludere in
maniera opposta pur avendo la stessa evidenza campionaria: rifiuto di H0 nel caso di varianza
nota, accettazione di H0 nel caso di varianza incognita; la maggiore variabilità dei risultati
campionari fa “perdere” di “significatività statistica” all’evidenza empirica.
4.2.2 Potenza di un test
Si esaminerà ora in modo dettagliato il problema di test di ipotesi relative alla media di
una popolazione normale di varianza nota. Questo caso, pure se meno interessante del
precedente da un punto di vista operativo in quanto la varianza è generalmente una
quantità incognita, consente, da un lato di meglio precisare i concetti già esposti in
merito alla procedura di test da utilizzare, dall'altro un maggiore approfondimento degli
aspetti connessi alla determinazione della probabilità di commettere un errore di II tipo
o anche alla probabilità di non commettere un errore di II tipo (potenza di un test).
Si ammetta dunque di poter disporre di un campione di osservazioni
x   x1 ,x2 ,....,nn  relative ad una popolazione normale di media incognita µ e varianza
nota σ 2 , e di voler sottoporre a test le seguenti ipotesi:
a)
H0 : µ = µ0
H1 : µ = 0 > µ0
b)
c)
d)
H0 : µ = µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ < µ0
H0 : µ = µ0
H1 : µ  µ0
237
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Se l'ipotesi nulla H0 è vera, la media campionaria
1 n
X   Xi
n i 1
2
si distribuisce, nell'universo dei campioni, normalmente con media 0 e varianza  /n.
Per l'individuazione della migliore regione critica (quando esiste) si può procedere alla
standardizzazione della variabile casuale X
X- μ 0
σ / n
e riferirsi alle tavole della distribuzione normale standardizzata utilizzando una procedura
del tutto analoga a quella illustrata a proposito della distribuzione t di Student. Ad
esempio per  = 0,05, i valori critici di riferimento per le quattro possibili ipotesi
alternative considerate sono:
a) c = 1,64, si rifiuta l'ipotesi nulla H0 se Z x > 1,64;
Zx 
b) c = 1,64, si rifiuta l'ipotesi nulla H0 se Z x > 1,64;
c)
c = -1,64, si rifiuta l'ipotesi nulla H0 se Z x < -1,64;
d) c1 = -1,96 e c2 = 1,96, si rifiuta l'ipotesi H0 se Z x < -1,96 oppure Z x > 1,96.
Nei quattro casi sopra considerati, sono stati individuati i valori critici facendo
riferimento alla distribuzione normale standardizzata. Risulta subito evidente come sia
possibile riferirsi direttamente alla variabile casuale X anziché alla sua standardizzata.
Infatti, dall'uguaglianza


 X- μ 0

P Z x  1,64  P 
 1,64   P X  μ 0  1,64  σ/ n  0,05
σ / n

risulta immediatamente il valore critico del test per il primo (e secondo) caso


considerato, in riferimento alla variabile casuale test X anziché Z x . Nella Fig. 4.3 si
evidenziano graficamente, per tutti e quattro i casi di ipotesi alternativa considerati, la
regione critica e quella di accettazione in riferimento alla variabile casuale test X ed al
livello di significatività  = 0,05:
Nel primo grafico della Fig. 4.3 (quello relativo al caso a) dove entrambe le
ipotesi formulate sono semplici) è stata evidenziata graficamente oltre alla
regione di rifiuto dell'ipotesi H0 anche l'area corrispondente alla probabilità
= 0,05 dell'errore di I tipo e l'area corrispondente alla probabilità   H1  di
commettere un errore di II tipo. La potenza o forza del test  = 1 – ß ( H1 ),
cioè la probabilità di non commettere un errore di II tipo, risulta graficamente
espressa dall'area sottesa alla curva di destra relativa all'intervallo (c ,+).
Dalla Fig. 4.3 e da quanto detto a proposito degli intervalli di confidenza si desume
238
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
che la potenza di un test resta influenzata:
a) dal livello di significatività  prescelto;
b) dalla specificazione dell'ipotesi alternativa;
c) dalla numerosità del campione.
L'immediata considerazione da fare in merito alla relazione che lega la forza di un test
al livello di significatività è che un test è tanto più potente quanto più è elevata la
probabilità dell'errore di I tipo. Infatti, se si osserva la Fig. 4.4 si vede chiaramente come
l'incremento del livello  (probabilità dell'errore di I tipo), comportando un allargamento
dell'intervallo di rifiuto (regione critica), determini una riduzione della probabilità
dell'errore di II tipo e di conseguenza un aumento della potenza del test.
239
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.3 - Distribuzione campionaria e regione critica relative a quattro diverse specificazioni
dell'ipotesi alternativa H1 rispetto all'ipotesi nulla H0 : µ = µ0
240
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.4 - Relazione tra potenza di un test e livello di significatività
Si consideri ora il caso in cui si voglia sottoporre a test l'ipotesi nulla H0 : µ = µ0,
contro l'ipotesi alternativa:
a)
H1 :   0  0
b)
H1 :   0  0
c)
H1 :   0  0
al livello  di significatività.
I tre problemi di test sono illustrati graficamente nella Fig. 4.5. Osservando le curve
tracciate si vede chiaramente come la potenza del test cresca all'aumentare dello scarto
tra il valore di µ specificato dall'ipotesi nulla ed il valore di µ specificato nell'ipotesi
alternativa. Nella Fig. 4.6 si riporta il grafico della funzione forza del test in relazione a
tutte le possibili specificazioni delle ipotesi alternative composite unidirezionali
H1 : µ < µ0 e H1 : µ > µ0 e l'ipotesi alternativa composita bidirezionale H1 : µ  µ0
241
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.5 - Relazione tra potenza del test e specificazione dell'ipotesi alternativa
242
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.6 - Grafico della funzione forza del test relativo all'ipotesi nulla H0 : contro tre
diverse specificazioni dell'ipotesi alternativa composita H1
L'espressione analitica che consente di determinare il valore numerico assunto dal
punto critico relativo alla variabile casuale test X , quando si vuole sottoporre a test
un'ipotesi nulla del tipo H0: µ = µ0 contro un'ipotesi alternativa del tipo H1: µ > µ0 è
data dall'uguaglianza
c = µ0 + z /n
dove z è la determinazione numerica della variabile casuale normale standardizzata che
soddisfa la relazione P (Z > z) = . Evidentemente la relazione sopra scritta si riferisce
ad un campione di osservazioni di dimensione n estratto da una popolazione normale di
varianza nota .
Osservando la relazione si rileva come l'entità c (valore critico) sia una funzione
decrescente di n. Ciò sta a significare che ad un aumento della dimensione campionaria
corrisponde una diminuzione nel valore numerico di c, il che comporta un ampliamento
dell'intervallo che delimita la regione critica con un conseguente aumento della forza del
test.
A titolo esemplificativo si riporta il grafico della funzione forza del test in riferimento
a due diverse dimensioni campionarie n ed m (n > m)
243
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.7 - Grafico della funzione forza del test relativo a due diverse dimensioni campionarie
Un'ultima considerazione da fare in merito alla potenza o forza di un test statistico
riguarda la varianza campionaria σ c2 della variabile casuale test . Dalle formule sopra
scritte risulta che il valore critico c è legato funzionalmente ed in senso positivo a  2
( c2   x2   2 / n) , ciò sta a significare che a più bassi valori di  2 , corrispondono più
bassi valori di c e quindi più ampie regioni critiche. Sarà pertanto possibile, operando su
 2 ottenere un incremento nella potenza di un test senza dover necessariamente
procedere ad un aumento della dimensione campionaria o della probabilità dell'errore di I
tipo.
Questa affermazione ha naturalmente significato soltanto nei casi in cui sia
effettivamente possibile operare su  2 , ad esempio, attraverso un’opportuna
pianificazione della rilevazione campionaria o del disegno degli esperimenti. Il caso più
semplice e più significativo è quello relativo alle modalità di estrazione delle unità
campionarie quando si considera la media campionaria X quale variabile casuale test;
infatti, come già sottolineato, se si procede all’estrazione da una popolazione finita
rimettendo ogni volta l’unità estratta nella popolazione (campionamento con ripetizione)
σ2
si ha σ 
, se invece si effettua l’estrazione in modo esaustivo (estrazione senza
n
2
x
ripetizione) si ha  x2 
2 N n

2
, dove N è la dimensione della popolazione e
n N 1 n
n è la dimensione del campione. Ovviamente, questa osservazione non riguarda
l’esempio sopra riportato che fa riferimento alla distribuzione normale dove la
dimensione N è infinita.
Relativamente alla varianza σ c2 della variabile casuale test, si deve sottolineare che
nella generalità dei casi tale varianza dipende dalla variabilità del fenomeno oggetto di
studio, cioè, dalla varianza σ 2 della popolazione che, come più volte sottolineato,
244
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
è un’entità usualmente incognita (parametro di disturbo). Si dovrà, pertanto,
procedere ad una stima di tale entità il che porta alla determinazione di una
2
2
stima σˆ c di σ c ; la radice positiva di tale quantità σ̂ c , come già sottolineato,
viene usualmente detta errore standard.
Esempio 4.9
Si consideri la variabile casuale continua X definita nel semiasse reale positivo esteso
(X : 0  x  + ) con funzione di densità di probabilità (distribuzione esponenziale negativa)
f

x;   
1
e


x

e si supponga di voler risolvere il seguente problema di test d'ipotesi
H0 :  = 2
H1 :  > 2
Supponendo, inoltre, la disponibilità di un campione di due elementi (n = 2) e definendo la
regione critica attraverso la disuguaglianza X1 + X2  9,5 si può derivare l'espressione
analitica della funzione forza del test  (H1) determinandone il valore per H1:  = 4.
Come più volte sottolineato, la funzione forza del test rappresenta la probabilità di non
commettere un errore di II tipo, cioè la probabilità di rifiutare l'ipotesi H0 quando l'ipotesi
stessa è falsa.
  H1   P  X  C1 / H1   1- P  X  C0 / H1 
Se si esplicita l'ipotesi alternativa nel modo seguente
H 1 :θ  θ 1  4
e si tiene conto della regola di decisione prescelta (accettare l'ipotesi H 0 quando
X1 + X2 < 9,5), e del fatto che le due variabili casuali campionarie X1 e X 2 sono
indipendenti, si avrà:
 
9,5
P ( X 1 + X 2 < 9,5/H 1 )=
0
f ( x1 ;θ1 )dx1 dx2 = 1-
 
9,5
0
 (θ1 )= 1- β(θ1 )= 1- 
9,5
0

9,5×x2
0
9,5×-x2
0
9,5×-x2
f ( x1 ;θ1 ) dx1 dx2
0
1
e
θ12
 x1 +x2 

θ1 
1 - 
e
θ12
x1 +x2
θ1
θ +9,5 dx1 dx2 = 1
e
θ1
Per 1 = 4 si ha
4+9,5 - 9,54
γ(4)=
e = 0,31 .
4
Si è più volte affermato che la variabile casuale
245
dx1 dx2
9,5
θ1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
X- μ
S/ n
ha una legge di distribuzione t di Student quando la popolazione che genera il campione
è di tipo normale. Non sempre però, nella ricerca applicata, risulta soddisfatta la
condizione di normalità; ci si deve allora chiedere che cosa succede alla legge di
distribuzione della variabile T definita dalla formula quando una tale condizione non
sussiste. L'osservazione da fare è che la variabile T si dimostra particolarmente sensibile
alle variazioni nella legge di distribuzione della popolazione che genera il campione.
Le considerazioni sopra svolte impongono una certa cautela nell’utilizzazione della
distribuzione t di Student, nel senso che si può fare ricorso ad una tale distribuzione
solo quando si è sufficientemente convinti della normalità, o approssimativa normalità,
della popolazione che genera il campione. Tale affermazione vale naturalmente nei casi in
cui la dimensione del campione non supera le 30 unità, oltre tale dimensione, come già
sottolineato, la distribuzione t di Student e la distribuzione normale praticamente
coincidono, basterà allora riferirsi alla distribuzione normale purché questa costituisca
una buona approssimazione della distribuzione della media campionaria.
Per quanto concerne i casi in cui si abbia a che fare con campioni di dimensione
superiore a 30, si rimanda a quanto sommariamente detto a proposito degli intervalli di
confidenza per campioni estratti da popolazioni di cui non è nota la legge di
distribuzione. Infatti, si rileva immediatamente come le procedure proposte per
sottoporre a test delle ipotesi statistiche, e quelle utilizzate per la determinazione degli
intervalli di confidenza, presentino punti di contatto tali da consentire un passaggio
immediato dall'intervallo di confidenza alla regione di accettazione.
A sostegno di quanto sopra affermato si può, ad esempio, considerare il problema di
T 
2
test, sulla media µ di una popolazione normale con varianza nota pari a  , definito
dalle ipotesi
H0 : μ μ 0
H1 :   0
La regione di accettazione dell'ipotesi H 0 : μ  μ 0 al livello  = 0,05 di significatività,
risulta essere
 1,96 
X - 0
 1,96
/ n
che può anche essere scritta
X  1,96 σ / n
 μ 0  X  1,96 σ / n
e tale espressione rappresenta l'analogo dell'intervallo di confidenza (al livello del 95%)
per la media di una popolazione normale
X  1,96 σ/
n  μ  X  1,96 σ/
246
n
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
già visto in precedenza. L'implicazione è dunque che un intervallo per la media, al livello
di confidenza del 95%, costituisce l'intervallo che include tutte quelle ipotesi, sulla
media stessa, che verrebbero accettate in una procedura di test bidirezionale, qualora
fosse stato fissato un livello di significatività pari a 0,05.
***
La somiglianza tra le procedure di test e quelle di determinazione degli intervalli di
confidenza, non deve naturalmente indurre a confondere i problemi di test con quelli
di stima; essi sono logicamente e sostanzialmente diversi.
***
4.3 - Test sulla varianza
Nel caso in cui si voglia sottoporre a test un'ipotesi sulla varianza di una popolazione
normale con media incognita, disponendo di un campione di n elementi e per un certo
, si deve operare in modo analogo a quanto fatto relativamente alla media. La variabile
casuale campionaria di riferimento (variabile casuale test) diventa
W 
n- 1  S 2
σ2
che ha una legge di distribuzione del tipo 2 con n-1 gradi di libertà ed è definita
nell'intervallo (0 ,+).
Caso a) b)
H0 : σ 2  σ 02
H 1 :  2   *2   02 (od anche H1 : σ 2   02 )
Il valore critico c si ottiene dalla relazione
P ( W  c /  2   02 ) = 
Caso c)
H 0 :  2   02
H1 :  2   02
Il valore critico c si ottiene dalla relazione
P ( W  c /  2   02 ) = 
Caso d)
H 0 :  2   02
H1 :  2   02
2
I valori critici c1 e c2 (si noti che la distribuzione  non è simmetrica) si ottengono
dalle relazioni
P ( W  c 2 /  2   02 ) = /2
247
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
P ( W  c1 /  2   02 )= 1-/2
Esempio 4.10
Sulla scorta di una lunga esperienza è stato calcolato lo scostamento quadratico medio 
sulla variabile descritta dal tempo di anestesia relativamente a soggetti di sesso maschile
sottoposti ad uno specifico trattamento; tale scostamento è risultato pari a 0,25 ore. Lo stesso
trattamento viene applicato ad un campione di 20 donne, e riscontrando uno scostamento
quadratico medio, nel tempo di anestesia, pari a 0,32 ore.
Sapendo che i venti soggetti femminili sottoposti a trattamento presentano, nei confronti
dell'anestetico, le stesse condizioni dei soggetti maschili, si vuole spiegare l'incremento
riscontrato nella variabilità. In altri termini, ci si chiede se l'incremento riscontrato sia da
attribuire al genere oppure a fattori aventi natura accidentale.
Il problema può essere formalizzato specificando l'ipotesi nulla e l'ipotesi alternativa nei
termini che seguono
H0 : σ 2f  σ m2  0,25
H 1 :  2f   m2  0,25
dove f sta ad indicare lo scostamento quadratico medio relativo alla popolazione di donne,
m lo scostamento quadratico medio relativo alla popolazione di uomini.
Sotto l'ipotesi nulla, e cioè a condizione che l'ipotesi nulla sia vera, la variabile casuale test
w
19  S 2
σ m2
dove
S2 
1 20
(X i  X)2

19 i 1
rappresenta la varianza calcolata sul campione di venti soggetti femminili, avrà una
distribuzione del tipo  con 19 gradi di libertà. Relativamente allo specifico campione si ha
w=
19  0,32 2
= 31,1
0,25 2
Se si fissa un livello di significatività nell'ordine del 5%, si può determinare, sulla scorta delle
tavole della distribuzione , il valore critico c per il quale risulta soddisfatta la relazione
P (W  c) = 0,95
Poiché risulta essere
c = 30,1, la zona di accettazione sarà data dall'intervallo
(0 , 30,1), mentre la regione critica risulterà espressa dall'intervallo (30,1 ,+ ). Stante tale
situazione si rifiuta l'ipotesi nulla; si rifiuta, cioè, l'ipotesi che la differenza riscontrata nella
variabilità sia da attribuire al caso.
Se il livello di significatività viene fissato nell'ordine dell'1%, si deduce un valore critico c =
36,2. In tal caso, e cioè al livello di significatività dell'1%, il valore campionario ricadrebbe
nella zona di accettazione della ipotesi nulla; verrebbe pertanto attribuita al caso la differenza
riscontrata.
248
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Esempio 4.11
Una fabbrica di batterie di automobili dichiara che il proprio prodotto presenta una
2
variabilità nella durata (misurata dalla varianza) pari a 0,8 ( = 0,8). Un campione casuale
di 16 batterie viene sottoposto a prova evidenziando una varianza corretta pari a 1. Si vuole
verificare, al livello di significatività del 5% ( = 0,05) se la varianza nella durata del
prodotto è superiore a 0,8.
La formulazione delle ipotesi per il problema in esame è
H 0 :  2  0,8
H1 :  2  0,8
mentre la v.c. test di riferimento è
n - 1 S 2

W=
~ χ2
σ2
n-1
che, nell'universo dei campioni, ha una distribuzione del tipo  con n - 1 gradi di libertà.
Per  = 0,05 e (n – 1) = 15 gradi di libertà il valore critico risulta essere  02,05  24,996 ,
pertanto la regola di decisione sarà (test unidirezionale): si accetta H0 se il  empirico è
 24,996, si rifiuta H0 se il empirico è > 24,996.
Essendo χ 2 =
 n - 1 S 2
σ2
=
15 - 12
= 17,5  24,996 si accetta l'ipotesi H0.
0,8
4.4 - Test sulla probabilità
Volendo utilizzare la teoria del test delle ipotesi per risolvere un problema di verifica
d'ipotesi sulla probabilità di un particolare evento (la distribuzione di riferimento è la v.c.
di Bernoulli), si può procedere come illustrato nelle pagine precedenti; si fissa cioè un
livello di significatività (probabilità dell'errore di I tipo) e si individua poi la regione
critica (di rifiuto dell'ipotesi nulla formulata) che massimizza la potenza del test
(probabilità di non commettere un errore di II tipo).
Se la dimensione del campione è sufficientemente elevata per sottoporre a test
un'ipotesi su una probabilità si può fare ricorso alla distribuzione normale essendo questa
un’approssimazione abbastanza buona della distribuzione binomiale per
n
sufficientemente elevato e n p > 5, n q > 5, dove n rappresenta la dimensione
campionaria, p la probabilità dell'evento che interessa e q = 1- p la probabilità
contraria.
In particolare se X rappresenta il numero di successi in n prove bernoulliane (prove
indipendenti), la proporzione campionaria
X
Pˆ 
n
249
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
p q
n .
Se si vuole quindi sottoporre a test una specifica ipotesi, al livello di significatività
del tipo H 0 : p  p0 contro l'ipotesi alternativa H1 : p  p 0 si può fare ricorso alla
ha una distribuzione approssimativamente normale con media p e varianza
variabile casuale normale standardizzata
Pˆ - p0
~ N  0,1
p0  q0 / n
Z 
dove q0 = 1-p0 . Si rifiuterà l'ipotesi se
pˆ -p0
 Z cioè se p̂  p0  Z
p0  q0 / n
p0  q0
n
dove Z è il valore (punto critico) della distribuzione normale standardizzata che ha alla
sua destra l' % dei casi.
Si noti che l'ipotesi nulla
H0  p  p0
non specifica solo la media p0 della
distribuzione bernoulliana ma anche la varianza p0  q0 .
Esempio 4.12
Si supponga di voler sottoporre a test l'ipotesi
H0 : p 
2
3
contro l'ipotesi alternativa
2
disponendo di un campione di 200 osservazioni indipendenti che evidenzia una
3
150
frequenza relativa p̂ 
 0,75 . Poiché sotto l'ipotesi nulla H0, la proporzione
200
campionaria p̂ ha una distribuzione approssimativamente normale con media p  2/3 e
H1 : p 
varianza p  q / n  1/900 , se si sceglie il livello di significatività = 0,05, il punto critico
che delimita la regione critica sarà
z  1,645 . Pertanto l'ipotesi nulla
H 0 : p  2/3
dovrà essere rifiutata quando
p - 2/3
 1,645
1 / 30
Cioè quando
p̂ 
Essendo
2
1
 1,645 
 0,722
3
30
p  0,75  0,722, l'ipotesi nulla H 0 : p  2 3 viene rifiutata al livello di
significatività del 5%. Ad analoga conclusione si perviene se si fissa il livello di significatività
= 0,01, infatti si ha pˆ ³
2
1
+ 2,34×
= 0,744 .
3
30
Se si specifica l'ipotesi alternativa in termini di un preciso valore numerico risulta possibile,
come chiarito in precedenza, calcolare la potenza del test.
250
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Nella tabella che segue, per = 0,01 e  = 0,05, sono riportati i valori assunti dalla funzione
forza del test in corrispondenza di alcune particolari specifiche dell'ipotesi alternativa.
= 5%
H1 : p 
0,60
0,65
0,67
0,69
0,71
0,73
0,75
0,77
0,79
0,81
0,83
pq /
200
0,0346
0,0337
0,0332
0,0327
0,0321
0,0314
0,0306
0,0297
0,0288
0,0277
0,0266
0,722  p
p q / 200
3,517
2,128
1,557
0,969
0,364
-0,264
-0,625
-1,626
-2,372
-3,188
-4,071
= 1%
Potenza
0,000
0,017
0,059
0,166
0,358
0,604
0,822
0,948
0,991
0,999
1,000
0,744  p
p q / 200
4,170
2,798
2,238
1,661
1,069
0,455
-0,186
-0,865
-1,587
-2,373
-3,222
Tab. 4.2- Potenza del test relativa a specifiche dell’ipotesi alternativa H1 : p 
Potenza
0,000
0,003
0,012
0,048
0,142
0,325
0,574
0,806
0,944
0,991
1,000
2
.
3
Ovviamente anche in riferimento alle proporzioni (probabilità) si possono presentare casi di
test d'ipotesi del tipo H0 : p  p0 contro l'alternativa bidirezionale H1 : p  p0 od anche
H0 : p0  p  p1 contro l'alternativa H1 :  p  p0    p  p1  .
Esempio 4.13
Si supponga di avere a che fare con una distribuzione bernoulliana e di voler sottoporre a test
l'ipotesi nulla H0 : p  0,5 al livello di significatività = 0,05.
Si ammetta, inoltre, di poter disporre di un campione di n = 100 osservazioni indipendenti e
di volere calcolare la potenza del test in riferimento a ciascuna delle seguenti specifiche
dell'ipotesi alternativa
a) H1 : p  0,55
b) H1 : p  0,60
c ) H1 : p  0,65
d ) H1 : p  0,70
e) H1 : p  0,75
Essendo sufficientemente elevata la dimensione campionaria e risultando, inoltre, n p e n q
superiori a 5, si può approssimare la distribuzione binomiale con la distribuzione normale che,
quando l’ipotesi nulla H0 : p  0,5 è vera, ha media μ  n p  100  0,50  50 e varianza
σ 2  n p q  100  0,5  0,5  25 .
Poiché  = 0,05
si rifiuta l'ipotesi nulla
H0 : p  0,5
campionaria della variabile casuale normale standardizzata
251
quando la determinazione
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Z
X- n p
n p q
assume un valore superiore al punto critico c = 1,65 che è il valore che soddisfa la relazione
(quando l'ipotesi nulla è vera)
 X- 50

P
 1,65   0,05
 5

e in modo equivalente
P  X  50  5  1,65   0,05
cioè
P  X  58   0,05
La potenza di un test è misurata dalla probabilità di rifiutare un'ipotesi H 0 quando questa è
falsa, si dovrà allora calcolare la probabilità X > 58 per ciascuna specifica dell'ipotesi
alternativa cioè
P  X  58 / H1   0,05
I valori della potenza del test per i vari casi richiesti sono riportati nella tabella che segue
H1: p =
µ=np
σ  n p q
p = 0,55
p = 0,60
p = 0,65
p = 0,70
p = 0,75
55
60
65
70
75
4,97
4,90
4,77
4,58
4,33
X μ
σ
 Z
0,60
-0,11
-1,48
-2,62
-3,93
Potenza
0,274
0,659
0,929
0,996
1,000
Tab. 4.3 - Valori della potenza del test
Esempio 4.14
Relativamente ad una distribuzione bernoulliana si vuole risolvere il problema di test d'ipotesi
H0 : p  0,5
H1 : p  2 / 3
al livello di significatività = 0,01 e presupponendo la disponibilità di 36 osservazioni
campionarie indipendenti. Si vuole evidenziare, inoltre, la crescita della potenza del test al
crescere della dimensione campionaria considerando in particolare i valori n = 36, 64, 100,
144 e 196.
La distribuzione binomiale può essere approssimata dalla distribuzione normale essendo, in
tutti i casi considerati, la dimensione campionaria sufficientemente elevata e np, nq maggiore
di 5.
Per ciascuna specifica del valore n si calcola la media  = n p e lo scostamento quadratico
medio σ  n p q in corrispondenza del valore p = 0,5
252
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n
=np
36
64
100
144
196
18
32
50
72
98
  n pq
3
4
5
6
7
Poiché il valore p specificato dall'ipotesi alternativa H1, è più elevato di quello specificato
dall'ipotesi nulla, al livello di significatività
 = 0,01, si rifiuta l'ipotesi H0 quando la
determinazione campionaria della variabile casuale normale standardizzata assume un valore
superiore al valore critico c = z = 2,3 essendo questo il valore che soddisfa la relazione
 X- 18

P
 2,33   0,01
 3

ed anche
da cui
P  X  3  2,33  18   0,01
P  X  24,99   0,01
I valori critici in corrispondenza degli altri valori di n sono
n  64  4  2,33  32  41,32
n  100  5  2,33  50  61,65
n  144  6  2,33  72  85,98
n  196  7  2,33  982  114,31
Per n = 36 la potenza del test deriva dalla relazione
24,99 - 24 
 X- 24
P  X  24,99 / H 1   P 

  P  Z  0,3498   0,36
2,83 
 2,83
Analogamente per gli altri valori di n.
41,32 - 42,67 

n  64  P  Z 
  P  Z  - 0,3581   0,64
3,77


61,65 - 66,67 

n  100  P  Z 
  P  Z  - 1,0658   0,86
4,71


85,98 - 96 

n = 144  P  Z 
 = P  Z  - 1,7703  = 0,96
5,66 

114,31 - 130' ,67 

n  196  P  Z 
  P  Z  - 2,4788   0,99 .
6,60


253
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
4.5 - Determinazione della dimensione campionaria
Nella trattazione fino ad ora svolta è stata considerata fissa la dimensione campionaria,
si presentano però spesso situazioni in cui non ci si limita alla fissazione del solo livello di
significatività avendo anche interesse ad una potenza del test non inferiore ad una certa
soglia. Per poter conseguire un tale obiettivo si potrà intervenire convenientemente sulla
dimensione campionaria.
Si consideri, il caso in cui, in riferimento a una distribuzione normale, si voglia
sottoporre a test l'ipotesi nulla
H 0 :μ  μ 0
contro l'ipotesi alternativa H1 :   1  0 al livello di significatività  e in modo tale
che la potenza del test non sia inferiore a  . Si ricorda che, γ  H1   1 - β  H1  ,
cioè, la potenza di un test rappresenta la probabilità di non commettere un errore di II
tipo.
Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza
x  0  z 

n
se si indica con z il valore Z della variabile casuale normale standardizzata che ha alla
sua destra il  % dei casi, il vincolo sulla potenza impone il rispetto della relazione


P X  0  z   / n  
od anche1
 X  1

  1
P
 0
 z   
/ n
/ n

deve, quindi, essere soddisfatta l'uguaglianza
0  1
 z   z
/ n
da cui
1 Da rilevare che attraverso questo passaggio si sta considerando la distribuzione della media campionaria
sotto l’ipotesi alternativa
H1 :   1 ,
campionaria sotto l’ipotesi nulla
X
che, in entrambi i casi, è pari a
X
cioè
X
N  1 ,  / n 
2
X
e non la distribuzione della media
N  0 ,  2 / n  ; da notare l’uguaglianza della varianza campionaria di
 x2   2 / n .
254
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n=
z

+ z

2
  μ1 - μ0  / σ  2
Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è
H1 :   1  0 anche se per correttezza formale a denominatore dell’espressione a
secondo membro si dovrebbe porre μ0 - μ1 ma il risultato non cambia in quanto lo scarto
deve essere elevato al quadrato.
Se n non è intero si opera una approssimazione per eccesso.
Esempio 4.15
Se si scelgono i valori α=0.05, γ=0,90, μ 0  100 ,μ 1  110 e σ 2  400 si avrà
n=
 1,645+1,282  2 = 34,268
  100 - 110  / 20  2
si dovrà, pertanto, fissare la dimensione campionaria n = 35.
Se con   0  1 si indica lo scarto tra la specificazione dell’ipotesi nulla e l’ipotesi
alternativa la relazione che consente la derivazione della dimensione campionaria nel
rispetto del vincolo sulla potenza diventa:
n=
z

+ z

  / σ 2
2
.
pertanto, la dimensione campionaria potrà essere ottenuta soltanto quando tutti gli
elementi presenti nella formula sono noti:
 livello di significatività  ;

potenza del test   H1  ;

specifica dello scarto tra le due ipotesi   0  1 e varianza della popolazione
2.
Sulla scorta dell’ultima osservazione ne consegue che le formule per la
determinazione della dimensione campionaria, spesso riportate nei testi didattici, che
fanno riferimento ad ipotesi alternative composite hanno solo carattere indicativo in
quanto per poter procedere a tale determinazione se deve comunque specificare in modo
puntuale l’ipotesi alternativa; in particolare deve essere noto lo scarto   0  1 .
La formula da impiegare è quella sopra riportata nel caso di ipotesi alternativa
unidirezionale; mentre, nel caso di ipotesi bidirezionale la formula diventa2
2 Al riguardo si tenga presente l’osservazione sopra riportata nel paragrafo 4.2.1 riguardo al valore da assegnare al
p-value nel caso di ipotesi alternative bidirezionali.
255
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n=
z
 /2
+ z

2
  / σ 2
z
=
 /2
+ z

2
2
2
.
Come già sottolineato a proposito del problema della mancata conoscenza della
varianza della popolazione nel caso della determinazione di una dimensione campionaria
in grado di soddisfare un prefissato livello di informatività (cfr. paragrafo 3.4) di un
intervallo di stima, anche in questo caso, per stabilire la dimensione del campione si
dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze pregresse o
da un’indagine campionaria “pilota”, che sarà, ovviamente, di dimensione
ridotta ed il cui unico scopo è quello di pervenire ad una stima della varianza
incognita  2 .
Il problema della mancata conoscenza della varianza della popolazione non sussiste,
invece, quando si vuol procedere alla determinazione della dimensione campionaria, in
funzione di una prefissata potenza, quando si desidera sottoporre a test ipotesi su una
proporzione (parametro p di una v.c. di Bernoulli) H 0 : p  p0 contro l’ipotesi
alternativa H1 : p  p1  p0 ; infatti, in questo caso, la varianza  2  p 1  p  risulta
specificata dalle due ipotesi per cui, sotto H 0 : p  p0 ,  H2 0  p0 1  p0  , mentre sotto
H1 : p  p1 ,
 H2  p1 1  p1  ,
infatti
1
in
questo
caso,
ricorrendo
all’approssimazione normale, si rifiuta l’ipotesi nulla quando
x
 0  z  p0 1  p0 
n
Poiché il vincolo sulla potenza impone il rispetto della relazione
 X

P
 p0  z  p0 1  p0    
 n

od anche


X

P    p1  / p1 1  p1  / n  p0  z  p0 1  p0  / n  p1 /

 n
deve, quindi, essere soddisfatta l’uguaglianza
p z
0


 p0 1  p0   p1 /

p1 1  p1  / n   

p1 1  p1  / n   z
da cui
2
 z p0 1  p0   z p1 1  p1  
 .
n
p0  p1


Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è
H1 : p  p1  p0 ponendo a denominatore del secondo membro dell’uguaglianza la
differenza p1  p0
256
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
4.6 - Confronto tra campioni
Nelle pagine precedenti è stato analizzato il problema della verifica di ipotesi statistiche
sulla scorta di dati concernenti singoli campioni. Più specificamente, si è discusso della
possibilità di utilizzazione dei dati campionari per la determinazione della struttura
generale di una particolare popolazione rappresentata mediante un modello
probabilistico, di forma nota ma caratterizzato da parametri incogniti.
Verrà analizzato ora il problema del confronto tra due campioni, avendo come fine
l'accertamento delle possibilità di una loro attribuzione alla stessa popolazione o a
popolazioni aventi uno o più parametri caratteristici di uguale valore.
Relativamente a due gruppi di osservazioni campionarie, anche se generati da una
stessa popolazione, in cui si riscontra generalmente una qualche differenza, il problema
da risolvere sarà quindi quello di accertare l'eventuale significatività statistica di una tale
differenza. Evidentemente, ogni conclusione favorevole alla significatività di una
differenza comporterà l'attribuzione dei due campioni, cui la differenza si riferisce, a
popolazioni distinte.
Nei punti seguenti le considerazioni saranno limitate in modo quasi esclusivo al
problema del confronto di medie e varianze relative a campioni estratti da popolazioni
normali.
4.6.1 Confronto tra medie
Si supponga di avere a disposizione un gruppo di m osservazioni campionarie casuali
x   x1, x2 ,....., xm  relative ad una popolazione normale X di media incognita µx e
'
varianza nota σ x2
ed un secondo gruppo di n osservazioni campionarie casuali
y   y1 , y2 ,....., yn  relative ad una popolazione normale Y di media incognita µy e
'
varianza nota σ y2 . Si supponga, inoltre, che le due v.c. siano indipendenti e di voler
verificare se la differenza eventualmente riscontrata tra le due medie campionarie x e y
sia da attribuire al caso o al fatto che le due medie µx e µy, delle popolazioni che hanno
generato i due campioni, sono diverse; si vuole in altri termini decidere per l'eventuale
significatività statistica della differenza riscontrata.
Il problema di cui sopra può essere formalizzato attraverso una specificazione
dell'ipotesi nulla e dell'ipotesi alternativa seguendo la linea di ragionamento descritta
nelle pagine precedenti. Le possibili formulazioni, strettamente legate alla problematica
dell'analisi che si sta conducendo, portano alla considerazione dei tre casi seguenti:
Caso a)
H0 : µx = µy
H1 : µx > µy
257
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Caso b)
H0 : µx = µy
H1 : µx < µy
Caso c)
H0 : µx = µy
H1 : µx  µy
La variabile casuale
Zx-y =
X -Y
σ x2 / m + σ y2 / n
ha, quando l'ipotesi nulla è vera, legge di distribuzione normale standardizzata. Avendo
individuato la legge di distribuzione di una funzione (quella che interessa) degli elementi
campionari, sarà facile definire la regione critica e quella di accettazione per la
risoluzione dei problemi indicati. Infatti, poiché nell'espressione sopra riportata compare
la differenza tra le due medie campionarie, sarà facile l'estensione di quanto detto a
proposito di una singola media al caso qui considerato.
I valori critici nei tre casi proposti si derivano facilmente dalle relazioni:
Caso a)
P ( Z > c / µ x = µy ) = 
Caso b)
si accetta l'ipotesi H0 se z < c, si rifiuta altrimenti:
P ( Z <- c / µx = µy ) = 
si accetta l'ipotesi H0 se z > - c, si rifiuta altrimenti;
Caso c)
P ( Z < - c / µx = µy ) = /2
si accetta l'ipotesi H0 se - c  z  c, si rifiuta altrimenti.
Nei tre casi considerati z rappresenta la specifica determinazione della variabile
casuale normale standardizzata Z.
Nelle indagini sperimentali ove i test statistici vengono applicati regolarmente per
lunghi periodi di tempo, non risulta difficile una misura precisa della variabilità dei
risultati; in tali situazioni potrà essere applicata la teoria sopra esposta, ogni qual volta si
voglia procedere ad un confronto fra medie, attraverso un semplice ricorso alle tavole
della distribuzione normale standardizzata. Va rilevato però che sono molto più frequenti
i casi in cui la variabilità risulta essere anch'essa, oltre i valori medi, una incognita del
problema. In tali circostanze si potrà, comunque, ricorrere all’approssimazione con la
distribuzione normale quando la dimensione dei due campioni è sufficientemente elevata.
Esempio 4.16
Per un campione casuale di 120 studenti dell'università di Firenze si rileva un'età media di
20,2 anni ed una varianza (campionaria corretta) pari a 1,44. Per un campione casuale di 100
studenti dell'università di Roma i valori riscontrati sono invece 21 anni e 2,25. Prefissando una
258
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
probabilità di errore di I tipo a livello  = 0,05, si vuole verificare statisticamente
l'uguaglianza nell'età media tra gli studenti dei due Atenei.
Se con x si indica l'età media degli studenti dell'Università di Firenze e con y l'età media
degli studenti dell'Università di Roma il problema di test da risolvere è:
H0 : x = y
H1 : x  y
Essendo le dimensioni campionarie sufficientemente elevate si può ritenere accettabile la
congettura che la variabile casuale campionaria
 X- Y  -  μ
x
-μ y 
S x- y
dove X e Y sono le due medie campionarie e
Sx - y =
( S x2 e
S y2
S x2 / m + S y2 / n
le due varianze campionarie corrette) ha, nell'universo dei campioni, una
distribuzione approssimativamente normale e può pertanto essere utilizzata quale v.c. test.
La regione di accettazione di H0 resta definita dall'intervallo -1,96 – 1,96 mentre la regione
di rifiuto è data dai due intervalli (- , -1,96) e (1,96 , +).
Essendo la determinazione della variabile casuale test sotto l'ipotesi H0 pari a
x y

sx  y
20,2 - 21
1,2 / 120  1,5 2 / 100
2
 - 4,30
e quindi non compresa nell'intervallo (-1,96 , 1,96) si rifiuta l'ipotesi formulata di
uguaglianza nell'età media degli studenti dei due Atenei al livello di significatività del 5%.
Esempio 4.17
Un recente rapporto dell'Istituto Italiano di Ricerche sulla Popolazione afferma che l'età
media al matrimonio delle persone che non conseguono il titolo di studio di scuola media
superiore è inferiore a quello di coloro che conseguono tale titolo. Si vuole verificare, al
livello di significatività del 5% ( = 0,05), tale affermazione avendo a disposizione due
campioni casuali di 100 individui delle due categorie ed avendo riscontrato: per coloro che
non posseggono un titolo di scuola media superiore un'età media al matrimonio pari a 22,5
anni e una varianza (campionaria corretta) pari a 1,96, mentre quelli che posseggono il titolo
hanno evidenziato un'età al matrimonio di 23 anni e una varianza (campionaria corretta) pari
a 3,24.
Se con x e y si indica l'età media al matrimonio, rispettivamente, di coloro che non
posseggono il titolo di scuola media superiore e di coloro che lo posseggono, il problema di
test (unidirezionale) da risolvere è
H0 :μ x  μ y
H1 :μ x  μ y
Essendo la dimensione campionaria sufficientemente elevata, la v.c. campionaria
259
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
 X -Y 
-

x
- y 
Sx - y
dove X e Y sono le medie campionarie, S X Y 
S x2 / m  S y2 / n , S x2 e S y2 sono le
due varianze campionarie corrette, ha, nell'universo dei campioni, distribuzione
approssimativamente normale. Pertanto il valore critico -Z = -1,64 individua la regione
critica nell'intervallo (-1,64 , +), mentre la regione di accettazione è definita da (- , -1,64).
La determinazione empirica della variabile casuale test, quando l’ipotesi nulla
H 0 : σ 2x  σ 2y è vera, è
z=
x - y -0
=
sx - y
22,5 - 23
1,4 2 / 100 + 1,8 2 / 100
=
-0,5
= - 2,18
0,229
che risulta inferiore a -1,64. Si rifiuta pertanto l'ipotesi H0 : x  y, concludendo che l'età
media al matrimonio di coloro che non hanno conseguito il diploma di scuola media superiore
è più bassa dell'età media al matrimonio di coloro che hanno conseguito il titolo.
Si indichino con X e Y due variabili casuali normali di medie incognite µx e µy e
di varianze pure incognite x2 = y2 = 2. Supponendo di disporre di due gruppi di
osservazioni casuali indipendenti sulle variabili X e Y, si possono risolvere i problemi
a), b) e c) trattati al punto precedente facendo ricorso alla variabile casuale t di Student
anziché alla normale standardizzata. Infatti, essendo la varianza comune alle due
popolazioni incognita, si deve sostituire, nella formula precedente, a 2 una sua stima.
Così operando si ottiene la variabile casuale
X -Y
T=
S
 m+ n  / m  n
~ tm+n-2
dove S2 rappresenta la stima di 2 ottenuta combinando opportunamente (media
aritmetica ponderata delle varianze campionarie) le informazioni disponibili. In
particolare si ha
S
2

m - 1 S x2  n - 1 S y2
mn-2
per m e n dimensioni dei due campioni e
1 m
1 n
2
2
S x2 
(
x

x
)
;
S

( yi  y )2 .


i
y
m -1 i 1
n -1 i 1
Si controlla facilmente quanto si già avuto modo di sottolineare a proposito degli
intervalli di confidenza, cioè che la variabile casuale T, definita nella relazione sopra
scritta, deriva dal rapporto fra una variabile casuale normale standardizzata e la radice di
una variabile casuale χ
2
divisa per i propri gradi di libertà. Tale variabile ha legge di
260
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
distribuzione del tipo t di Student con m+n-2 gradi di libertà, poiché le due variabili
poste a rapporto sono indipendenti.
I valori critici c per i tre casi a), b) e c), considerati al punto precedente, derivano
dalle relazioni
Caso a)
P (T > c / µx = µy) = 
si accetta l'ipotesi H0 se t < c, si rifiuta altrimenti;
P (T < - c / µx = µy) = 
Caso b)
si accetta l'ipotesi H0 se t  - c, si rifiuta altrimenti;
P (T < - c / µx  µy) = /2
Caso c)
si accetta l'ipotesi H0 se - c  t < c, si rifiuta altrimenti.
Dopo aver individuato il valore critico c, mediante l'uso delle tavole della
distribuzione t, relativamente al caso che interessa (uno dei tre sopra considerati), si
porrà a confronto tale valore critico con la determinazione campionaria specifica t della
variabile casuale T.
Esempio 4.18
Si consideri la seguente tabella dove vengono riportati i risultati relativi a campioni di
osservazioni su due diverse famiglie di mycelio fungino della stessa specie.
Famiglia A
246,3
Famiglia B
246,2
247,1
244,9
239,2
257,3
Tab. 4.4 - Peso secco in mg. di mycelio fungino relativo a due famiglie appartenenti alla
stessa specie
Relativamente al fenomeno che si sta analizzando si può ipotizzare ragionevolmente la
normalità delle distribuzioni del peso e, trattandosi di funghi della stessa specie, anche
un'uguale variabilità dei risultati in corrispondenza delle due famiglie; in tal caso ci si trova
ad operare su due campioni di dimensione m = n = 3 estratti da popolazioni normali di uguale
varianza (incognita).
Si supponga di voler verificare statisticamente l'ipotesi (di uguaglianza) fra il peso medio, µx,
dei funghi appartenenti alla famiglia A ed il peso medio µ y, dei funghi appartenenti alla
famiglia B) Ho : µx = µy contro l'ipotesi alternativa H1 : µx  µy al livello di significatività
 = 0,05. La procedura di test da applicare dovrà essere quindi di tipo bidirezionale.
261
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Per quanto detto sopra, il valore critico c (c > 0), suddividerà lo spazio campionario (- —
+) relativo alla variabile casuale test T di riferimento, in una zona di accettazione costituita
dall'intervallo (- c , c) e in una zona di rifiuto costituita dagli intervalli (( - ,- c) , (c ,+)).
Sulle tavole della distribuzione t di Student, in corrispondenza a 4 gradi di libertà, si
individua il valore c che soddisfa la relazione
P (T < - c/µx = µy) = 0,025
che risulta essere 2,78. Tale valore critico c = 2,78 dovrà essere posto a confronto con la
determinazione specifica della variabile casuale T.
Dalle informazioni campionarie derivano i seguenti valori
x = 247,6 , y = 246,1, s x2  83,17
, s y2  1,22
e quindi S2 = 42,195 . La derivazione specifica della variabile casuale T sarà pertanto
t
247,6  246,1
42,195  2 / 3

1,5
 0,2828
5,3038
poiché
t = 0,28 < c = 2,78
l'ipotesi nulla H0 : µx = µy non viene rifiutata al livello di significatività del 5% ricadendo la
determinazione t di T nell'intervallo (- c , c). Tale fatto, comporta sostanzialmente
l'accettazione dell'ipotesi che i due campioni provengano da una stessa popolazione, ed una
attribuzione delle differenze campionarie riscontrate a fattori aventi carattere puramente
accidentale.
Nell'esempio specifico, potrebbe interessare una diversa ipotesi alternativa; ad esempio
l'ipotesi che il peso medio dei funghi appartenenti alla famiglia A sia più elevato del peso
medio dei funghi appartenenti alla famiglia B (H1: µx > µy). In tale eventualità, allo stesso
livello  = 0,05 di significatività, risulta un valore critico c = 2,13 che comporta come nel
caso di ipotesi alternativa bidirezionale, una accettazione dell'ipotesi nulla H 0 : µx = µy..
Esempio 4.19
Si supponga di dover decidere sulla durata di due diverse marche di lampadine di ugual prezzo
avendo verificato la durata di 100 lampadine di ciascuna marca e riscontrato i seguenti valori
campionari: medie campionarie x = 1.180, y = 1.160, varianze campionarie corrette s x2 =
14.400, s 2y = 1.600. La decisione deve essere presa al livello di significatività  = 0,05.
Il problema decisionale può essere impostato nei seguenti termini
H0 : μ x  μ y
H1 : μ x  μ y
o, in modo equivalente
H0 : μ x  μ y  0
H1 : μ x  μ y  0
262
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
dove μ x e μ y rappresentano la durata media delle lampadine, rispettivamente, della prima
e della seconda marca.
Per risolvere il problema di test d'ipotesi si può fare riferimento alla distribuzione normale
essendo sufficientemente elevata la dimensione campionaria. La differenza tra le due medie
X Y
campionarie
avrà, pertanto, nell'universo dei campioni, una distribuzione
approssimativamente normale con media μ x  μ y e varianza
σ x2 y  σ x2 / m  σ y2 / n
Al livello di significatività  = 0,05 , i valori critici che individuano la regione di accettazione
sono
c1  - zα/ 2  - 1,96
e
c2  zα/ 2  1,96 . Inoltre, sotto l'ipotesi nulla H0
il
valore campionario assunto dalla variabile casuale test è pari a
z
1180  1160
14400  1600  / 100
 1,58
Essendo il valore 1,58 incluso nell'intervallo (- 1,96 , 1,96) si accetta l'ipotesi di uguale
durata delle due diverse marche di lampadine, attribuendo a fattori accidentali la differenza di
durata riscontrata nei due campioni.
4.6.2 Confronto tra proporzioni (probabilità)
Capita spesso di dover affrontare situazioni in cui interessa accertare se la proporzione di
individui o oggetti in due popolazioni distinte siano uguali o diverse. La percentuale degli
elettori che voterà per il PD alla prossima consultazione elettorale sarà la stessa in
Toscana e in Emilia Romagna? la percentuale dei bambini vaccinati che contrae la
poliomielite è inferiore a quella dei bambini non vaccinati? ecc.. Per poter rispondere a
tali quesiti si effettua una rilevazione campionaria in ciascuna delle popolazioni di
interesse (elettori emiliani ed elettori toscani, bambini vaccinati e bambini non vaccinati,
ecc.) e le proporzioni riscontrate nei campioni vengono poste a confronto.
Le osservazioni campionarie sono variabili di tipo bernoulliano potendo assumere
soltanto i valori 0 (non vota per il PD) ed 1 (vota per il PD). Nella prima popolazione gli
indici caratteristici sono μ x  p x e σ x2  p x  q x , mentre nella seconda popolazione si ha
μ y  p y e σ 2y  p y  q y , dove, naturalmente, px è la probabilità di successo (voterà per
il PD, non contrarrà la poliomielite, ecc.) nella prima popolazione e py la probabilità di
successo nella seconda popolazione.
L'ipotesi nulla può assumere la forma
H0 : px  p y
contro l'ipotesi alternativa
H1 : px  p y
(ipotesi bidirezionale)
od anche
263
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H1 : px  p y
(ipotesi unidirezionali)
H1 : px  p y
Se si suppone di disporre, rispettivamente, di m rilevazioni campionarie dalla prima
popolazione e n dalla seconda popolazione, la variabile casuale campionaria p̂ x  p̂ y ,
cioè la differenza tra le proporzioni riscontrate nei due campioni indipendenti avrà
nell'universo dei campioni distribuzione di tipo binomiale con media p x  p y e varianza
 x2 / m   y2 / n  p x  q x / m  p y  q y / n .
Sotto l'ipotesi nulla
H 0 : p x  p y  p , cioè se l'ipotesi nulla è vera, la variabile
casuale differenza tra proporzioni campionarie avrà media nulla e varianza
σ p̂2x  p̂ y  p q  1 /m  1 /n  .
Se la dimensione di due campioni è sufficientemente elevata la distribuzione binomiale
può essere approssimata dalla distribuzione normale. Pertanto, sotto l'ipotesi nulla
H 0 : p x  p y  p , la variabile casuale campionaria
Z pˆ x  pˆ y 
dove, Pˆ 
 a  b /  m  n  ,
Pˆx  Pˆy
Pˆ Qˆ  1 / m  1 / n
Qˆ  1-Pˆ

ed a e b rappresentano il numero di
successi, rispettivamente, nel primo e nel secondo campione, ha una distribuzione
normale standardizzata.
La procedura di test da adottare è quella illustrata in precedenza, quando si è fatto
riferimento al problema del confronto tra medie per popolazioni normali con identica
varianza incognita. Da sottolineare che in questo caso non si utilizza la distribuzione t di
Student essendo, per assunzione, elevate le dimensioni campionarie.
Esempio 4.20
Effettuata un'indagine di mercato riguardo al gradimento di un nuovo prodotto, due differenti
gruppi sociali si sono espressi, rispettivamente, a favore nel 45% e nel 55% dei casi.
Avendo inoltre accertato una variabilità nelle risposte (misurata attraverso lo scostamento
quadratico medio corretto) pari, rispettivamente 0,04 e 0,03 e sapendo che i due gruppi
costituenti il campione degli intervistati sono molto numerosi, si vuole verificare
statisticamente, al livello di significatività del 10%, l'ipotesi che la percentuale di soggetti
favorevole al nuovo prodotto è più elevata nel secondo gruppo rispetto a quelle del primo
gruppo.
Se con p x e p y si indicano le due percentuali di soggetti favorevoli al nuovo prodotto nel
primo e nel secondo gruppo, il problema di test d'ipotesi è
264
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H0 : px  p y
H1 : px  p y
od anche
H0 : p y  px  0
H1 : p y  px  0
Indicando con
p̂ x e p̂ y le percentuali che hanno espresso il loro gradimento del nuovo
prodotto, nel primo e nel secondo gruppo sociale, con
σ̂ p̂2 y  p̂x  S p̂2x  S p̂2y la varianza
stimata della v.c. differenza, e con S p̂2x , S p̂2 y le varianze campionarie corrette riscontrate nei
due campioni, tenendo inoltre presente le elevate dimensioni campionarie, la variabile casuale
 Pˆ  Pˆ  -  p
y
x
y
 px 
ˆ Pˆ  Pˆ
y
x
ha, nell'universo dei campioni, distribuzione approssimativamente normale (standardizzata) e
può essere, pertanto, assunta quale v.c. test di riferimento.
Al livello di significatività  = 0,1 il valore critico del test (unidirezionale) è
z = 1,28, pertanto la regione critica resta individuata dall'intervallo (1,28 , +) mentre la
regione di accettazione è data dall'intervallo ( -  , 1,28).
Poiché, sotto l'ipotesi nulla H0 , la determinazione campionaria delle v.c. test è
p̂ y  p̂ x
σ̂ p̂ y  p̂x

0,55 - 0,45
0,04 2  0,03 2
 2  1,28
si rifiuta l'ipotesi formulata concludendo che la percentuale di coloro che esprimono
gradimento del nuovo prodotto è superiore nel secondo gruppo sociale rispetto al primo
gruppo.
Esempio 4.21
Ad un campione di 325 studenti di sesso maschile e di 200 di sesso femminile è stato chiesto di
esprimersi riguardo all'efficacia di un nuovo ausilio didattico. Tra i maschi 221 si sono
espressi favorevolmente mentre sono state 120 le femmine che hanno espresso parere
favorevole. I risultati campionari sono indice di una differenza significativa tra maschi e
femmine riguardo al loro atteggiamento nei confronti della efficacia del nuovo ausilio
didattico?
Si vuole risolvere il problema per  = 0,05. Il problema di test delle ipotesi assume la forma
H0 : px  p y
H1 : px  p y
o, in modo equivalente
H0 : px  p y  0
265
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H1 : p y  px  0
dove
px
e
rappresentano, rispettivamente, la proporzione di maschi e di femmine
py
favorevoli al nuovo ausilio didattico; ovviamente i valori si riferiscono all'intera popolazione.
La variabile casuale campionaria
 Pˆ  Pˆ  -  p
y
x
y
 px 
ˆ Pˆ  Pˆ
y
x
dove Pˆx , e Pˆy sono le proporzioni di soggetti favorevoli, riscontrabili nei due campioni, ha,
nell'universo dei campioni, una distribuzione approssimativamente normale con media 0 e
varianza 1 (normale standardizzata).
Al livello  di significatività del 5% i valori che definiscono la regione critica sono;
c1  - zα/ 2  - 1,96
e
c2  zα/ 2  1,96 . Poiché
p̂ y  120 / 200  0,60 si ha ˆ p̂x  p̂ y 
p̂ x  221 / 325  0,68
e
0,68  0,32 / 325  0,60  0,40 / 200  0,043
e quindi sotto l'ipotesi nulla H 0 : p x  p y , z  
 0,68 - 0,60   0  / 0,043
 1,86 .
Essendo il valore campionario 1,86 contenuto nell'intervallo (-1,96 , 1,96) si accetta l'ipotesi
nulla di uguaglianza tra le due proporzioni nelle popolazioni attribuendo alla differenza
riscontrata nei campioni natura accidentale.
4.6.3 Confronto tra varianze
Una logica estensione di quanto sopra detto risulta essere l'analisi del problema relativo
al confronto tra varianze di popolazioni normali con medie incognite.
Si ammetta di poter disporre di due campioni di osservazioni indipendenti, il primo
x   x1 , x2 ,...., xm  , relativo alla variabile casuale normale X di media μ x incognita e
'
varianza σ x2 ; il secondo, y   y1 , y2 ,...., yn  relativo alla variabile casuale normale Y di
'
media incognita μ y e varianza  y2 .
La variabile casuale espressa dal rapporto tra due variabili casuali indipendenti del tipo

 divise per i rispettivi gradi di libertà
 m  1 S x2
F 
 x2
 n  1 S y2
 y2
/  m -1
/  n -1
2
2
1 m
1 n
Yi  Y  , ha nell'universo dei campioni
X i  X  e S y2 




n  1 i 1
m  1 i 1
legge di distribuzione del tipo F con (m - 1) e (n - 1) gradi di libertà. Infatti, se
dove S x2 
266
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
l'ipotesi H 0 :σ x2  σ y2 è vera si ha
m 1 S x2 / m- 1
σ x2
S x2
.

n 1 S y2 / n- 1 S y2
σ y2
Se si vuole quindi risolvere il problema espresso dalle ipotesi
H 0 :  x2   y2
H 1 : σ x2  σ y2
basterà fissare il livello di significatività  , e determinare poi il valore critico c che
bipartisce l'intervallo (0 ,+  ) (si ricordi che la variabile casuale F è definita in tale
intervallo) in modo che sia
P  F  c / σ x2  σ y2   
Si accetta l'ipotesi nulla H 0 :σ x2  σ y2 se la determinazione
f 
sx2
della variabile
sy2
S x2
casuale F  2 , relativa al campione specifico, risulta inferiore al valore critico, si
Sy
rifiuta altrimenti.
Esempio 4.22
Un campione di 20 ragazzi e di 15 ragazze è stato sottoposto a una prova d'esame. La
votazione media dei ragazzi è stata 78/100, mentre quella delle ragazze è stata 84/100; la
variabilità dei risultati, misurata dallo scostamento quadratico medio corretto, è stata,
rispettivamente, pari a 6/100 per i ragazzi e 8/100 per le ragazze. Si vuol sottoporre a test
l'ipotesi di uguaglianza delle varianze σ x2 e σ 2y nelle due popolazioni contro l'ipotesi
alternativa σ x2 < σ 2y , al livello di significatività  = 0,05, presupponendo la normalità delle
due distribuzioni.
Il problema di test d'ipotesi può essere formulato nei seguenti termini
H 0 :  x2   y2
H1   x2  σ y2
Poiché le variabili casuali
S y2 (n - 1)
S x2 (m - 1)
e
σ x2
σ y2
dove m ed n rappresentano le dimensioni campionarie, S x2 e S y2 le varianze campionarie
corrette, hanno nell'universo dei campioni distribuzione del tipo 2 con, rispettivamente,(m - 1)
267
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
ed (n - 1) gradi di libertà ed essendo i due campioni indipendenti, la variabile casuale
 m - 1 S x2
Fm ,n
/  m - 1
2
S x2  y
σ x2



S y2  x2
 n - 1 S y2
/  n - 1
σ 2y
è distribuita secondo una F di Fisher-Snedecor con (m-1) e (n-1) gradi di libertà. Sotto
l'ipotesi nulla H 0 :  x2   y2 , cioè quando l'ipotesi nulla è vera, la variabile casuale diventa
S x2
F  2
Sy
Il valore critico che definisce la zona di accettazione al livello  = 0,05 di significatività è
c  Fm,n; =
1
Fn ,m;

1
2,26
, che rappresenta la particolare determinazione della
variabile casuale F, con 15-1 = 14 e 20-1 = 19 gradi di libertà e che ha alla sua destra il
5% dei casi.
Essendo il valore campionario
F 
82
 1,78
62
inferiore al valore critico 2,26 si accetta l'ipotesi di uguale varianza attribuendo a fattori
accidentali la differenza riscontrata nel campione.
Esempio 4.23
Lo scostamento quadratico medio dello spessore di una particolare lamina metallica già in
commercio è sufficientemente ridotto, il che consente un suo facile utilizzo nella fase di
assemblaggio della componente stessa. Un nuovo produttore di lamine metalliche afferma che
il suo prodotto, offerto ad un prezzo inferiore, presenta una variabilità dimensionale non
superiore a quello già presente nel mercato.
Due campioni casuali di 100 lamine dei due prodotti vengono sottoposti a misurazione
evidenziando i seguenti risultati
S x2 
100
  x  x
i
/ 99  0,041
i
 y  / 99  0,058
2
i 1
per il prodotto X già presente sul mercato,
S y2 
100
y
i 1
2
per il nuovo prodotto Y.
Si chiede se risulta conveniente procedere all'acquisto del nuovo prodotto al livello di
significatività del 5%.
Le ipotesi per il problema sono
H 0 : σ 2x  σ 2y
268
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H 1 : σ x2  σ y2
La variabile casuale test di riferimento
 m - 1 S x2
σ x2
 n - 1 S y2
σ y2
/  m - 1
/  n - 1
S x2  y
 2 2
Sy  x
2
ha, nell'universo dei campioni una distribuzione del tipo F di Fisher-Snedecor con
(m - 1) e (n - 1) gradi di libertà.
Nel caso specifico, e sotto l'ipotesi H0 (cioè quando l'ipotesi nulla all’estremo dell’intervallo di
definizione H 0 : σ 2x  σ 2y è vera), si ha il valore critico c = 1,39.
La regola di decisione è quella di rifiutare l'ipotesi H0 se l'F empirico è superiore a 1,39
mentre di accettare l'ipotesi se l'F empirico è inferiore a 1,39.
Essendo F 
0,041
 0,7069  1,39 si accetta l'ipotesi H0 concludendo che, avendo una
0,058
probabilità di sbagliare del 5%, la variabilità nello spessore delle nuove lamine non è
inferiore o uguale a quello delle vecchie lamine e non si procede al cambiamento del fornitore.
4.6.4 Confronto per dati appaiati
Nelle pagine precedenti è stato considerato il problema del confronto fra due campioni
nell'ipotesi di indipendenza assoluta tra gli elementi che li compongono; nel lavoro di
ricerca può accadere però di dover analizzare situazioni nelle quali una tale condizione
non risulta completamente soddisfatta. Può accadere cioè che tra le osservazioni, relative
ai due campioni che devono essere sottoposti a confronto, esista una qualche relazione in
modo tale da rendere possibile un confronto diretto fra ogni osservazione di un campione
con la controparte dell'altro campione. Un esempio classico è rappresentato dal caso in
cui le coppie di osservazioni siano relative ad una stessa unità statistica (la stessa unità
sperimentale prima della cura e dopo la cura, il fatturato di una stessa azienda prima e
dopo una specifica campagna pubblicitaria, ecc.), anche se vanno naturalmente riferite,
almeno a priori, a due differenti popolazioni.
Si indichi con ( Xi ,Yi ) l'i-esimo elemento di un insieme costituito da n coppie di
osservazioni, e si assuma che la differenza Vi = Xi - Yi (i = 1, 2,...,n) rappresenti
un'unità campionaria casuale relativa ad una popolazione normale di media v e varianza
 v2 . Allora la variabile casuale
T
V  v
Sv / n
269
~ t n 1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n
1 n
2
V

X

Y
e
S

(Vi  V )2 /(n  1)
i

v
n i 1
i 1
ha, nell'universo dei campioni, una distribuzione del tipo t di Student con n-1 gradi di
libertà.
Utilizzando la variabile casuale test T espressa nella formula sopra scritta sarà
possibile sottoporre a test l'ipotesi H 0 : μ v  0 , contro un'ipotesi alternativa
dove : V 
bidirezionale o unidirezionale, seguendo di pari passo la procedura esposta al punto
precedente.
Esempio 4.24
Si supponga di voler confrontare due diversi metodi di misura della percentuale di amido
presente in un particolare tipo di patate. Si fissa a tal fine un livello di significatività = 0,05
e si effettuano le due misurazioni su sedici patate. I risultati dell’operazione di misura, e le
differenze riscontrate in ciascuna patata, sono riportati nella tabella che segue
n.progressivo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Percentuale di amido
Metodo di mis A
Metodo di mis B
(x)
(y)
21,7
21,5
18,7
18,7
18,3
18,3
17,5
17,4
18,5
18,3
15,6
15,4
17,0
16,7
16,6
16,9
14,0
13,9
17,2
17,0
21,7
21,4
18,6
18,6
17,9
18,0
17,7
17,0
18,3
18,5
15,6
15,5
Differenze
0,2
0,0
0,0
0,1
0,2
0,2
0,3
-0,3
0,1
0,2
0,3
0,0
-0,1
0,1
-0,2
0,1
Tab. 4.5 - Percentuale di amido presente in 16 patate
Dai dati della tabella si ottiene
v  0,075 ; sv  0,17
ne risulterà pertanto una determinazione campionaria della variabile casuale T pari a
0,075×4
= 1,7
0,17
Se interessa sottoporre a test l'ipotesi nulla H 0 : μ v  0 contro l'ipotesi alternativa
t =
270
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H 1 : μ v  0 (che sono equivalenti a H0 : µx = µy e H1 : µx  µy), si deve ricercare il
valore critico c che soddisfa la relazione
P ( -c  T  c) = 0,95
Dalle tavole della distribuzione t di Student, in corrispondenza a 15 gradi di libertà, risulta
c = 2,131
Essendo t = 1,7 < c = 2,131, si deve accettare la ipotesi di uguaglianza tra i due metodi di
misura della percentuale di amido nelle patate.
Esempio 4.25
I corsi per la lettura veloce dei testi sono ormai abbastanza popolari e diffusi. Si supponga che
una particolare azienda di fornitura di servizi abbia fatto partecipare dieci suoi dipendenti,
scelti casualmente, ai suddetti corsi e che abbia registrato i seguenti risultati
Impiegato
1
2
3
4
5
6
7
8
9
10
Valutazione capacità di lettura
dopo il corso
221
231
203
216
207
203
201
179
179
211
Valutazione capacità di lettura
prima del corso
211
216
191
224
201
178
188
159
177
197
La valutazione della capacità di lettura risulta da una combinazione della velocità e della
comprensione del testo letto. Cosa si può concludere riguardo all'efficacia del corso?
La valutazione delle capacità di lettura è stata effettuata sugli stessi individui prima e dopo la
partecipazione al corso, si tratta perciò di dati appaiati del tipo (xi , yi ), dove yi rappresenta
la valutazione dopo la partecipazione al corso mentre xi la valutazione prima della
partecipazione. Se si indicano con x e y le valutazioni medie teoriche relative alle due
situazioni (prima e dopo il corso) configurate, il problema di verifica d'ipotesi ha la seguente
formulazione
H0 : μ x  μ y
H1 : μ x  μ y
e può essere risolto facendo riferimento alla variabile casuale test
T
V  v
Sv / n
dove
271
~ t n 1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
1
V=
n
(Y - X ); μ =μ - μ
Sv =
1
n-1
n
i
i
v
x
y
i=1
 Y - X  -V 
n
i
2
i
i=1
che, nell'universo dei campioni, ha distribuzione t di Student con n-1 gradi di libertà.
Sotto l'ipotesi
H0, per 10-1 = 9 gradi di libertà e al livello di significatività
 = 0,01, il punto critico (test unidirezionale) è t = 2,82. La regola di decisione è quello di
rifiutare l'ipotesi H0 se il t empirico è  2,82 accettare l'ipotesi se il t empirico è inferiore a
2,82. Poiché v = 10,9;sv = 9,28 il t empirico
t=
v
sv / 10
=
10,9
= 3,715
9,28/ 10
è maggiore di 2,82 ,si rifiuta, pertanto, l'ipotesi d'uguaglianza con una probabilità d'errore
dell’1%. Si rifiuta cioè l'ipotesi che la partecipazione al corso non abbia influenza sulla
capacità di lettura degli individui che ne fruiscono.
Si deve sottolineare che per la risoluzione dei problemi di confronto considerati nei
due esempi precedenti si poteva fare riferimento, presupponendo l'indipendenza dei due
campioni, alla variabile casuale test T; in tal caso la stima della varianza incognita 2
σ
2
x

 σ y2  σ 2 si poteva ottenere, come abbiamo visto, attraverso una combinazione
delle stime calcolate sui singoli campioni. Si deve, però, osservare che il test t applicato
alle coppie di osservazioni, presenta il vantaggio d'eliminare l'influenza di fattori estranei
in quanto essi, avendo lo stesso effetto su ciascuna unità campionaria, verrebbero a
compensarsi nelle differenze vi. Va inoltre detto che la procedura di test basata sulla
singola osservazione, almeno così come è stata esposta, parte dall'assunto che i dati
campionari derivino da popolazioni con identica varianza mentre la procedura di test
sopra esposta non richiede il soddisfacimento della condizione di uguaglianza delle
varianze delle due popolazioni.
Nel caso in cui sia soddisfatta la condizione

2
x
  y2   2  e si abbia ragione di
ritenere che i risultati sperimentali non siano influenzati da fattori estranei (campioni
indipendenti), è da preferire la procedura di test esposta al punto precedente. Infatti, con
una tale procedura si opera disponendo di (2n-2) gradi di libertà, il che implica una
potenza del test, rispetto alla potenza del test svolto in questo punto, che è basato su
(n-1) gradi di libertà, tanto più elevata quanto più piccola è la dimensione del campione.
4.6.5 Determinazione della dimensione campionaria
Così come per il caso di campioni estratti da una sola popolazione, anche quando si
272
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
affronta il problema del confronto tra campioni estratti da due diverse popolazioni, si può
aver interesse nell'introdurre un vincolo sul livello   H1  della potenza del test per un
prefissato livello  di significatività.
Si supponga, ad esempio, che in riferimento a popolazioni normali una differenza
μ x  μ y  10 sia rilevante e che si vuole, essere relativamente sicuri nell'individuare una
tale differenza. In termini tecnici tale obiettivo si traduce nell’individuazione di un test
con potenza sufficientemente elevata.
Se si fissano i livelli  = 0,05 e  = 0,70, il problema sopra posto può essere risolto
formulando l'ipotesi nulla
H0 : x   y  0
contro l'ipotesi alternativa
H 1 : μ x  μ y  10
La variabile casuale test
 X Y
 - μ x μ y 
σ x- y
dove σ x2
e σ 2y


X Y
 - μ x μ y 
σ x2 / m  σ y2 / n
sono le varianze delle due popolazioni m e n le dimensioni
campionarie sotto l'ipotesi nulla H 0 :  x   y  0 ed al livello di significatività
 = 0,05 deve soddisfare la relazione
 X -Y

P
 1,645   0,05
 

 x- y

ed anche
P  X - Y

 1,645   x - y
  0,05
Il vincolo sulla potenza si traduce nella relazione
 X - Y - 10
1,645   x - y - 10 
  0,70
P

 


x- y
x- y


Sapendo che il valore della variabile casuale normale standardizzata Z che ha alla sua
destra il 70% dei casi è pari a -0,524 si avrà
1,645 - 10 /  x-y  - 0,524
ed anche
 x2 y  σ x2 / m  σ y2 / n  10 2 /  1,645  0,524 2
dal quale si possono ricavare i valori di m fissando n o, alternativamente, i valori di n
fissando m od anche, se si ipotizza pari dimensione v=m=n i valori di v che soddisfano il
vincolo sulla potenza.
273
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Se, ad esempio, si suppone che σ x2  σ y2  12
e che la dimensione campionaria
relativa alla prima popolazione sia m = 7, la dimensione n del secondo campione, al
livello  = 0,05 di significatività e con potenza  = 0,70 è data dalla relazione
144 / 7 + 144 / n ≤ 100 / 1,645 + 0,524 2


che fornisce
n ≥ 210.
Per  = 0,05 e  = 0,70 e σ x2  σ y2  12 , la dimensione campionaria v per ciascun
campione si ottiene dalla relazione
144 / v + 144 / v ≤ 100 /  1,645 + 0,524 2
che da
v = m= n ≥ 13,549.
Si sottolinea che la parità nella dimensione dei due campioni, non solo non richiede la
specifica preliminare della dimensione di uno dei due campioni, che può anche risultare
più che ragionevole in certe situazioni di ricerca (dimensione campionaria
necessariamente ridotta per ragioni di costo o altra natura) la dimensione campionaria
complessiva pari m+n=28 che soddisfa il vincolo sulla potenza è nettamente inferiore a
quella necessaria quando si fissa la dimensione di uno dei due campioni a livello molto
contenuto come nel caso sopra considerato (m = 7). Per contro, se ad es. si fissa m=12,
a parità delle altre condizioni, il valore di n che deriva dalla relazione
144 / 12 + 144 / n ≤ 100 / 1,645 + 0,524 2

deve soddisfare la disuguaglianza

n ≥ 15,558.
Esempio 4.26
Per effettuare una verifica dell'effetto di un vaccino contro la poliomielite si deve pianificare la
rilevazione (dimensionare il campione) in modo da ottenere risultati significativi sia in termini
di probabilità dell'errore di I tipo sia, per le ovvie e rilevanti conseguenze, in termini di
probabilità dell'errore di II tipo.
Vista la scarsa diffusione della malattia, ci si deve aspettare una dimensione campionaria
molto elevata sia nei confronti dei soggetti vaccinati che di quelli non vaccinati.
Supponendo che la proporzione di bambini colpiti da poliomielite sia di 30 su 100.000 (cioè
0,0003), e che il vaccino sia effettivo al 50%, il che implica una riduzione del tasso al valore
0,00015, appare ragionevole imporre la condizione di aver un'elevata probabilità, ad es. pari a
0,90 (= = 1-), di evidenziare una tale differenza.
Imponendo l'uguaglianza delle due dimensioni campionarie m = n si ottiene la seguente
particolarizzazione della formula sopra introdotta
274
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
m  n 
dove
z
e
z

p x qx  p y q y
p
x

 py
z


 z

2
2
sono le convenienti determinazioni della variabile casuale normale
standardizzata ottenuta in funzione dei prefissati livelli delle probabilità di errore  e  .
Se si assume, quindi, p x = 0,00015, p y = 0,0003,  = 0,05 e  = 0,10, si avrà
 0,00015× 1 - 0,00015  + 0,003× 1 - 0,0003 
n 
 0,00015 - 0,0003  2
275
 1,6450 + 1,282  2
= 171,400.