Inferenza statistica

by user

on 06 июля 2016

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download Inferenza statistica

Transcript

Inferenza statistica

Stima
Parte V
Stima
Stima
Stimatore
Sia G una famiglia parametrica e sia θ ∈ Θ il parametro ignoto. Si
definisce stimatore di θ una statistica T (Y) che assume valori in
Θ, cioè:
T : Y → Θ.
Osservazioni
Uno stimatore, T , è una variabile casuale, trasformazione
delle n variabili casuali campionarie, che assume valori in Θ
le sue determinazioni campionarie possono essere utilizzate
per approssimare l’ignoto valore di θ
Al fine di valutare la bontà di tali approssimazioni sarebbe
auspicabile conoscere la distribuzione di probabilità di T .
Stima
Stima
Siano G una famiglia parametrica, θ ∈ Θ il parametro ignoto e T
uno stimatore di θ. Si definisce stima di θ la determinazione
campionaria, T (y), di T (Y).
Osservazioni
Il valore assunto dalla stima, t, generalmente non coincide con
l’ignoto valore di θ: si commette sempre un errore di stima.
Chiunque confondesse la stima, t, con l’ignoto valore del
parametro, θ, avrebbe delle ottime ragioni per ritenere di non
avere capito assolutamente nulla dell’inferenza statistica (e
non solo).
Stima
Esempi
Nell’esempio dell’analisi del traffico, potremmo intuitivamente
pensare di utilizzare T (Y) = Ȳ come stimatore, ottenendo la
stima t = T (y) = ȳ = 0.3
Nell’esempio della diffusione di una pianta nella foresta, nel
caso in cui si dispone un campione di dimensione n = 60
potremmo utilizzare ancora Ȳ come stimatore, ottenendo la
40 ' 0.67
stima t = 60
Stima
Principio del campionamento ripetuto
Si suppone di poter replicare infinite volte, a parità di condizioni, il
campionamento osservando quindi infinite n-ple, tutte
determinazioni delle n variabili casuali campionarie Y1 , . . . , Yn .
Utile quando il campione è costituito da dati sperimentali e
l’esperimento è ripetibile;
Nei problemi di stima potremmo pensare di ottenere infinite
determinazioni campionarie di uno stimatore (stime) in modo
da valutarne la variabilità (e, in qualche senso, la precisione)
Tutto questo non vale per dati osservazionali (non derivanti
da esperimenti ripetibili). Tuttavia, come vedremo, esso sarà
utile anche in questo contesto.
Stima
Definizione (Distorsione)
La distorsione dello stimatore T di θ è definita come:
B(T ) = E [(T − θ)]
B(T ) > 0 (< 0) implica che le stime prodotte da T siano
mediamente più grandi (piccole) di θ.
Stima
Definizione (Stimatore non distorto)
Lo stimatore T di θ si dice non distorto (o corretto) se la sua
distorsione è nulla, indipendentemente dal valore assunto da θ ∈ Θ:
B(T ) = E (T − θ) = 0 ∀θ ∈ Θ, ovvero, E (T ) = θ ∀θ ∈ Θ
Equivale a dire che le stime di θ determinate dallo stimatore T non
sono assoggettate ad un errore sistematico.
Stima
Supponiamo di poter estrarre infiniti campioni di dimensione 5
da una popolazione per la quale il modello statistico sia
Y ∼ N(θ1 , θ2 ) e supponiamo che θ1 = 0 e θ2 = 100.
Pur conoscendo il valore dei parametri, li stimiamo
rispettivamente con Ȳ e con S 2 , sapendo che
4
E (Ȳ ) = θ1 e E (S 2 ) = θ2
5
Stima
Figura 7: Comportamento di Ȳ
10
●
5
●
●
● ●
●● ●
●
●
●
● ● ●
0
●
●
●
●
●
● ●
● ●
●
−5
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ● ● ●●
●
●
●●
●
●
●
● ● ●
● ●●
●● ●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●●
●
●
0
●
●
●
●
●
●
●
−10
valore vero e stime
●
●
●
20
●
40
60
campione
80
100
Stima
250
●
●
●
150
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●● ● ●
●
●
●
● ●
●
●
●
●
● ● ●● ● ●
●
●
●
●
●
●●
●
●
●● ● ●
●
● ● ● ●● ●
● ● ● ●
●
●
●
● ●
●
● ●
●
●
● ●
● ●●
● ● ●
● ●
●
●
●
●
●●
●
●●
●
●
●
●
●
● ●
●
50
●
0
valore vero e stime
350
Figura 8: Comportamento di S 2
0
20
40
60
campione
80
100
Stima
Definizione (Errore quadratico medio)
L’errore quadratico medio di uno stimatore T di θ è definito come:
EQM(T ) = E [(T − θ)2 ; θ]
Utile per valutare la precisione di uno stimatore T
Generalmente EQM(T ) 6= Var (T ):
EQM(T ) = Var (T ) + B(T )2
Stima
Definizione (Efficienza)
Siano T1 e T2 due stimatori di θ. T1 è più efficiente di T2 se
EQM(T1 ; θ) ≤ EQM(T2 ; θ).
Stima
SianoT1 e T2 due stimatori di θ = E (Y ),
Y1 + Yn
T1 =
e T2 =
2
Pn−1
i=1
Yi
n
Supponendo che Var (Y ) = σ 2 > 0, Quale dei due stimatori è da
ritenersi preferibile?
Stima
Supponiamo di poter estrarre infiniti campioni di dimensione
10 da una popolazione per la quale il modello statistico sia
Y ∼ N(θ1 , 10) e supponiamo che θ1 = 5.
Pur conoscendo il valore del parametro, lo stimiamo
rispettivamente con T1 e con T2
Stima
10
Figura 9: Comportamento di T1
●
●
●
●
●
8
●
6
●●
●
●
4
2
●●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
20
●
●
●
●
●
●
● ●
●
● ●
●
●
●
0
●●
●
●
●
● ●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
0
valore vero e stime
●
●
40
●
60
campione
●
80
100
Stima
8
● ●
●
● ●●
●
●
●
●
●
●●
●
●●
●
●
● ●
●● ●
●
●
●
●
●
●
● ● ●● ● ●
●●
●
●
●
●●
●●
●
●
● ●● ●
●
●
●
●●
●
● ●●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
● ●●
● ●
●
●
●●
●
●● ●
●● ●
●
●
●
2
4
6
●
●
0
valore vero e stime
10
Figura 10: Comportamento di T2
0
20
40
60
campione
80
100
Stima
Definizione (Stimatore consistente in senso debole)
Lo stimatore Tn , definito su Yn , di θ si dice consistente in senso
debole se:
P
Tn → θ
Stima
Definizione (Stimatore consistente in senso forte)
Lo stimatore Tn , definito su Yn , di θ si dice consistente in senso
debole se:
q.c.
Tn → θ
Stima
Supponiamo di poter estrarre infiniti campioni di numerosità
crescente da una popolazione per la quale il modello statistico
sia Y ∼ N(θ1 , 1000) e supponiamo che θ1 = 5.
Pur conoscendo il valore del parametro, lo stimiamo con Ȳn
In Figura 11 si considerano quattro replicazioni di un
campionamento in cui, ad un campione di dimensione 1 si
continua ad aggiungere osservazioni fino ad n = 1000
Stima
Figura 11: Comportamento di Ȳn quando n → ∞
0
200 400 600 800
0
10
Replicazione 2
valore vero e stime
20 40
0
valore vero e stime
Replicazione 1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
0
campione
campione
●
0
200 400 600 800
campione
20 35
5
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
Replicazione 4
valore vero e stime
−5 5 15
valore vero e stime
Replicazione 3
●
200 400 600 800
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
200 400 600 800
campione
Stima
Definizione (Stima di massima verosimiglianza)
Fissato un modello parametrico G e osservato un campione y, la
stima di massima verosimiglianza è quel valore θ̂ ∈ Θ che
massimizza L(θ).
Osservazioni
θ̂ va ricercato in Θ;
Non è detto che θ̂ esista;
Non è detto che θ̂ sia calcolabile analiticamente
Stima
Definizione (Stimatore di massima verosimiglianza)
La stima di massima verosimiglianza, θ̂ = θ̂(y) è sempre funzione
delle osservazioni campionarie, quindi θ̂(y) è una particolare
determinazione della statistica θ̂(Y): lo stimatore di massima
verosimiglianza
Se T è una statistica sufficiente, allora
L(θ; y) = L(θ, T (y))
quindi θ̂(Y) = θ̂(T (Y)). Lo stimatore di massima verosimiglianza
è sempre funzione di una statistica sufficiente
Stima
Definizione (Funzione di log-verosimiglianza)
La funzione di log-verosimiglianza è definita come
l(θ; y) = log(L(θ; y))
La stima di massima verosimiglianza, θ̂ è un punto di massimo
di l(θ; y), quindi massimizzare L(·) è equivalente a
massimizzare l(·).
l(·) ha delle proprietà molto importanti che vedremo nel
seguito.
Stima
Equazioni di verosimiglianza
Se θ ∈ Θ ⊆ R e Θ è aperto, le condizioni che garantiscono
che θ̂ sia un punto di massimo per l(θ) sono:
dl(θ) = 0 condizione necessaria
dθ θ=θ̂
d 2 l(θ) < 0 condizione sufficiente
dθ2 θ=θ̂
Stima
Se θ ∈ Θ ⊆ Rk e Θ è aperto, le condizioni che garantiscono
che θ̂ sia un punto di massimo per l(θ) sono:
∂l(θ) = 0 condizione necessaria
dθj θj =θ̂j
H|θ=θ̂ definita negativa
condizione sufficiente
dove H rappresenta la matrice hessiana di l(·) calcolata in θ̂ e
∂ 2 l(θ) hjs |θ=θ̂ =
∂θj ∂θs θ=θ̂
Stima
Equivarianza
Sia ψ : Θ → Ψ una trasformazione biunivoca e sia θ̂ la stima di
massima verosimiglianza di θ. La stima di massima verosimiglianza
di ψ(θ) è ψ(θ̂).
Per ogni κ ∈ Ψ, κ = ψ(θ), definiamo
L(κ) = L(ψ −1 (κ)), κ ∈ Ψ.
Ovviamente, L(θ) = L(ψ −1 (κ)). Poiché L(θ̂) > L(θ) ∀θ ∈ Θ,
allora L(ψ(θ̂)) > L(ψ(θ)) ∀θ ∈ Θ
e quindi L(ψ(θ̂)) > L(κ) ∀κ ∈ Ψ.
Stima
Nel seguito considereremo alcuni esempi, ipotizzando di disporre
sempre di un campione casuale semplice di dimensione n.
Stima
Modello di Bernoulli
Modello statistico
Y ∼ Ber (θ), θ ∈ Θ = [0, 1], IY = {0, 1}
Spazio campionario: Y = {0, 1}n
Log-verosimiglianza:
l(θ) =
n
X
yi log(θ) + (n −
i=1
n
X
i=1
stima di massima verosimiglianza
θ̂ = ȳ
stimatore di massima verosimiglianza
θ̂ = Ȳ
yi ) log(1 − θ)
Stima
Modello di Poisson:
Y ∼ Po(θ), θ ∈ Θ = R+ , IY = {0, 1, . . . }
Spazio campionario: Yn = IYn
Log-verosimiglianza:
l(θ) = −nθ +
n
X
yi log(θ)
i=1
stima di massima verosimiglianza
θ̂ = ȳ
stimatore di massima verosimiglianza
θ̂ = Ȳ
Stima
Esercizio
Supponendo di disporre di un campione di dimensione n,
determinare lo spazio parametrico, lo spazio campionario,
l’espressione della log-verosimiglianza, la stima e lo stimatore di
massima verosimiglianza di θ nei seguenti casi:
modello binomiale
Y ∼ Bin(m, θ), θ ∈ Θ = [0, 1], IY = {0, 1, . . . , m}, m > 1;
modello normale con varianza nota e media ignota
modello normale con media nota e varianza ignota
modello esponenziale negativo: Y ∼ Exp(θ):
f (y ) = θ exp(−θy )1[0,∞) (y ), θ > 0.
Stimare µ = E (Y ) = θ−1 e σ 2 = var (Y ) = θ−2 e verificare
che vale la proprietà di equivarianza.
Stima
Modello normale (media e varianza ignote)
Modello statistico: Y ∼ N(θ1 , θ2 ) θ = [θ1 , θ2 ]0 ∈ Θ = R × R+
Spazio campionario: Yn = Rn
Log-verosimiglianza:
Pn
(yi − θ1 )2
n
l(θ) = − log θ2 − i=1
2
2θ2
Stima di massima verosimiglianza:
θ̂T = [ȳ , s 2 ]T dove s 2 =
n
1X
(yi − ȳ )2
n
i=1
Stimatore di massima verosimiglianza:
θ̂T = [Ȳ , S 2 ]T dove S 2 =
n
1X
(Yi − Ȳ )2
n
i=1
Stima
Restrizioni sullo spazio parametrico
Consideriamo l’esempio dell’analisi del traffico e supponiamo di
sapere (informazioni extra-campionarie) che θ ≥ 0.4 e supponiamo
che yT = [0, 1, 0, 0, 0, 1, 0, 0, 0, 1]T . Ne segue che:
Θ = [0.4, 1]
L(θ) = θ3 (1 − θ)7 , θ ∈ Θ
l(θ) = 3 log(θ) + 7 log(1 − θ), θ ∈ Θ
Stima di massima verosimiglianza: θ̂ = 0.4
Stimatore di massima verosimiglianza:
θ̂ = Ȳ 1[0.4,1] (Ȳ ) + 0.41[0,0.4) (Ȳ )
Stima
0.0015
0.0010
0.0005
0.0000
Verosimiglianza
Figura 12: Esempio di analisi del traffico: funzioni di verosimiglianza con
una restrizione sullo spazio parametrico.
0.4
0.5
0.6
0.7
θ
0.8
0.9
1.0
Stima
Regressione lineare semplice
Su ogni unità statistica vengono rilevate due variabili, X ,
deterministica (è detta regressore o variabile esplicativa), e Y ,
stocastica (è detta risposta o variabile dipendente).
Modello statistico:
Yi
= β0 + β1 xi + i , i ∼ N(0, σ 2 ), i = 1, . . . , n
= i non dipende da xj ∀i, j
Cov (i , j ) = 0 ∀ i 6= j
equivale a
Yi
∼ N(β0 + β1 xi , σ 2 ), Cov (Yi , Yj ) = 0 ∀ i 6= j
Stima
Y = Rn
Log-verosimiglianza
n
1 X
n
(yi − β0 − β1 xi )2
l(θ) = − log(σ 2 ) − 2
2
2σ
i=1
θT
= [β0 , β1 , σ 2 ]0 ∈ Θ = R2 × R+
Stima
∂l(θ)
∂β0
=
n
1 X
(yi − β0 − β1 xi )
σ2
i=1
n
1 X
(yi − β0 − β1 xi )xi
σ2
∂l(θ)
∂β1
=
∂l(θ)
∂σ 2
n
n
1 X
= − 2+
(yi − β0 − β1 xi )2
2σ
2(σ 2 )2
i=1
i=1
Stima
T
Stima di massima verosimiglianza: θ̂ = [β̂0 , β̂1 , σ̂ 2 ]T :
β̂0 = ȳ − β̂1 x̄,
β̂1 =
Pn
(x − x̄)(yi − ȳ )
i=1
Pn i
,
2
i=1 (xi − x̄)
σ̂ 2 =
1X
(yi − β̂0 − β̂1 xi )2
n
n
i=1
Stima
T
Stimatore di massima verosimiglianza: θ̂ = [β̂0 , β̂1 , σ̂ 2 ]T :
β̂0 = Ȳ − β̂1 x̄,
Pn
β̂1 =
(x − x̄)(Yi −
i=1
Pn i
2
i=1 (xi − x̄)
σ̂ 2 =
1X
(Yi − β̂0 − β̂1 xi )2
n
n
i=1
β̂0 e β̂1 sono corretti; E (σ̂ 2 ) =
n−2 2
n σ .
Determinare la varianza di β̂0 e β̂1 .
Ȳ )
,
Stima
Le derivate seconde della funzione di verosimiglianza
∂ 2 l(θ)
∂β02
= −
n
σ2
∂ 2 l(θ)
∂β0 ∂β1
= −
nx̄
σ2
∂ 2 l(θ)
∂β0 ∂σ 2
n
1 X
= −
(yi − β0 − β1 xi )
(σ2 )2
i=1
Stima
∂ 2 l(θ)
∂β12
∂ 2 l(θ)
∂β1 ∂σ 2
∂ 2 l(θ)
∂(σ 2 )2
= −
n
Pn
2
i=1 xi
σ2
n
1 X
= − 2 2
(yi − β0 − β1 xi )xi
(σ )
i=1
=
n
n
1 X
−
(yi − β0 − β1 xi )2
2(σ 2 )2 (σ 2 )3
i=1
Stima
Definizione (Identificabilità del modello statistico G)
Nello spazio campionario deve esistere almeno un insieme A tale
che per qualsiasi coppia di valori del parametro, θ1 e θ2 , con
θ1 6= θ2 ,
P(Y ∈ A; θ1 ) 6= P(Y ∈ A; θ2 )
Questa proprietà implica che valori diversi del parametro
determinino distribuzioni di probabilità diverse per Y e, quindi, che
la funzione di verosimiglianza non possa essere costante rispetto a θ
Stima
Problemi regolari di stima
Un problema regolare di stima è caratterizzato dalle seguenti
condizioni:
1
Il modello statistico deve essere identificabile
2
Θ è aperto in Rk
3
tutte le funzioni di densità (probabilità), g , in G hanno lo
stesso supporto
4
Devono valere delle condizioni sulle derivate prima e seconda
di g rispetto a θ .
Stima
Se Y è discreta
X ∂
g (y ; θ) =
∂θ
y ∈Y
∂2
X
y ∈Y
∂θ∂θ
Se Y è continua
Z
∂
g (y ; θ)dy
∂θ
=
∂2
g (y ; θ)dy
∂θ∂θT
=
Y
Z
Y
g (y ; θ) =
T
∂ X
g (y ; θ)
∂θ
y ∈Y
∂2
∂θ∂θT
X
g (y ; θ)
y ∈Y
Z
∂
g (y ; θ)dy
∂θ Y
Z
∂2
g (y ; θ)dy
∂θ∂θT Y
Stima
Definizione (La funzione score, o punteggio)
La funzione score è definita come:
u(θ) = u(θ; y) =
∂
l(θ; y)
∂θ
Evidentemente, u(θ) è la determinazione campionaria della
funzione casuale
u(θ) = u(θ; Y) =
∂
l(θ; Y)
∂θ
Stima
Proprietà di U(θ)
Diamo le dimostrazioni solo nel caso in cui Y sia una variabile
discreta.
E (U(θ); θ) =
=
=
=
=
X ∂
log f (y; θ)f (y; θ)
∂θ
y∈Y
X 1
∂
f (y; θ) f (y; θ)
f (y; θ) ∂θ
y∈Y
∂ X
f (y; θ)dν(y)
∂θ
y∈Y
∂
1
∂θ
0
Stima
Definizione (Informazione attesa di Fisher, I (θ))
Se k = 1
I(θ) = Var (U(θ; Y); θ) = E [(U(θ; Y)2 ; θ]
Se k > 1
I(θ) = Var (U(θ; Y); θ) = E [(U(θ; Y)(U(θ; Y)T ; θ]
Stima
Definizione (Informazione osservata di Fisher)
Quando k = 1, l’informazione osservata di Fisher è definita come:
d2
I(θ̂) =
l(θ)
;
2
dθ
θ=θ̂
Quando k > 1, l’informazione osservata di Fisher è definita come:
∂2
l(θ)
I(θ̂) =
.
T
∂θ∂θ
θ=θ̂
L’informazione osservata di Fisher quantifica la curvatura della
log-verosimiglianza intorno a θ̂
Stima
Che cos’è l’informazione attesa di Fisher?
E [U(θ); θ] =
X d
l(θ)f (y; θ) = 0
dθ
y∈Y
d
E [U(θ); θ] = 0
dθ
d X d
l(θ)f (y; θ)
=
dθ
dθ
y∈Y
X d2
d
d
=
l(θ)f (y; θ) +
l(θ) f (y; θ)
dθ2
dθ
dθ
y∈Y
X d2
d
1
d
=
l(θ)f (y; θ) +
l(θ)
f (y; θ) f (y; θ)
dθ2
dθ
f (y; θ) dθ
y∈Y
)
(
2
X d2
d
l(θ)f (y; θ) +
=
l(θ) f (y; θ)
dθ2
dθ
Y
Stima
Quindi,
I(θ) = E [U(θ)2 ]
2
X d
l(θ) f (y; θ)
=
dθ
y∈Y
X d2
l(θ)f (y; θ)
= −
dθ2
y∈Y
2
d
= −E
l(θ)
dθ2
Se k > 1,
∂2
l(θ)
I(θ) = −E
∂θ∂θT
Stima
Teorema (Disuguaglianza di Rao-Cramér)
In un problema regolare di stima, con k = 1, sia T (Y) uno
stimatore tale che
a(θ) = E [T (Y); θ]
sia derivabile e
d X
T (y)f (y; θ)
dθ
y∈Y
X
d
=
T (y) f (y; θ).
dθ
y∈Y
a0 (θ) =
Allora
Var (T (y); θ) ≥
[a0 (θ]2
I(θ)
Stima
Prima di dimostare il teorema ricordiamo un risultato utile della
teoria della probabilità:
Disuguaglianza di Schwartz
Se due variabili casuali, X e Y , sono tali che E [X 2 ] < ∞ e
E [Y 2 ] < ∞, allora
{E (XY )}2 ≤ E (X 2 )E (Y 2 )
Stima
Dimostrazione della disuguaglianza di Rao-Cramér
a0 (θ) =
=
=
=
=
d
f (y; θ)
dθ
y∈Y
X
1
d
T (y)
f (y; θ) f (y; θ)
f (y; θ) dθ
y∈Y
X
d
T (y)
log(f (y; θ)) f (y; θ)
dθ
y∈Y
d
E T (Y) log(f (y; θ))
dθ
E [T (Y)U(θ)]
X
T (y)
Stima
Poichè, date due variabili casuali qualsiasi
Cov (X , Y ) = E [(X − E (X ))(Y − E (Y ))]
= E (XY ) − E (X )E (Y )
(purché E (X ), E (Y ) e E (XY ) esistano e siano finite), allora se il
valore atteso di una delle due variabili casuali è nullo
Cov (X , Y ) = E (XY ).
Stima
Quindi
a0 (θ) = Cov (T (Y), U(θ))
per la disuguaglianza di Cauchy-Scwartz
0
2
≤ Var (T (Y); θ)Var (U(θ); θ)
0
2
≤ Var (T (Y); θ)I(θ)
a (θ)
a (θ)
e infine
Var (T (y); θ) ≥
[a0 (θ)]2
I(θ)
Stima
Se T (Y) è uno stimatore non distorto, allora
Var (T (y); θ) ≥
1
I(θ)
Se T (Y) è uno stimatore non distorto e
Var (T (y); θ) =
1
,
I(θ)
allora non esiste uno stimatore corretto più efficiente di T (Y)
non è detto che uno stimatore siffatto esista.
Stima
Se le n variabili casuali campionarie sono indipendenti e
identicamente distribuite,
2
d
log f (Y; θ)
I(θ) = −E
dθ2
"
#
n
d2 X
= −E
log g (Yi ; θ)
dθ2
i=1
2
n
X
d
log g (Yi ; θ)
= −
E
dθ2
i=1
2
d
log g (Y ; θ)
= −nE
dθ2
= ni(θ)
dove
d2
i(θ) = −E
log g (Y ; θ)
dθ2
Stima
Quando k > 1, Var (T (y); θ) e I(θ) sono matrici di ordine c.
Se T è uno stimatore corretto,
Var (T (y); θ) ≥ I(θ)−1
che significa che Var (T (y); θ) − I(θ)−1 è una matrice
semidefinita positiva.
Stima
Modello di Bernoulli
Derivata seconda di l(θ)
d2
l(θ; Y) = −
dθ2
Pn
i=1 Yi
θ2
P
n − ni=1 Yi
−
(1 − θ)2
Informazione attesa di Fisher
2
d
I(θ) = −E
l(θ; Y)
dθ2
P
Pn
E [ i=1 Yi ] n − E [ ni=1 Yi ]
+
=
θ2
(1 − θ)2
nθ
n − nθ
=
+
2
θ
(1 − θ)2
n
=
θ(1 − θ)
Stima
Modello di Bernoulli
Efficienza dello stimatore di massima verosimiglianza θ̂ = Ȳ
Var (Ȳ ) =
=
θ(1 − θ)
n
1
I(θ)
Informazione attesa di Fisher quando n = 1
l1 (θ; Y ) = Y log(θ) + (1 − Y ) log(1 − θ)
d
Y
1−Y
l1 (θ; Y ) = − 2 −
2
dθ
θ
(1 − θ)2
d
i(θ) = −E
l1 (θ; Y )
dθ2
θ
1−θ
1
=
+
=
θ2 (1 − θ)2
θ(1 − θ)
Stima
Modello di Bernoulli
Relazione tra I(θ) e i(θ)
I(θ) = ni(θ)
Informazione osservata di Fisher
I(θ̂) =
n
ȳ (1 − ȳ )
Stima
Un particolare modello di Poisson
Su ogni unità statistica si osservano le variabili Y e X , X > 0
e deterministica.
Modello statistico: Y ∼ Po(θx), θ > 0
Verosimiglianza:
(
L(θ) = exp −θ
n
X
)
xi
θ
Pn
i=1 yi
i=1
Log-verosimiglianza
l(θ) = −θ
n
X
i=1
xi +
n
X
i=1
yi log(θ)
Stima
Un particolare modello di Poisson
Score
u(θ) = −
n
X
xi +
i=1
n
X
yi
i=1
θ
Derivata seconda della log-verosimiglianza
Pn
yi
d2
l(θ) = − i=1
dθ2
θ2
Stima di massima verosimiglianza
Pn
yi
θ̂ = Pi=1
n
i=1 xi
Stima
Un particolare modello di Poisson
Informazione attesa di Fisher
Pn
I(θ) =
i=1 xi
θ
Stimatore di massima verosimiglianza
Pn
Yi
θ̂ = Pi=1
n
i=1 xi
E (θ̂) = θ
θ
Var (θ̂) = Pn
i=1 xi
Informazione osservata di Fisher
P
( ni=1 xi )2
I(θ̂) = Pn
i=1 yi
=
1
I(θ)
Stima
Modello normale con media e varianza ignote
Modello statistico: Y ∼ N(θ1 , θ2 ), θ = [θ1 , θ2 ]T ∈ R × R+
log-verosimiglianza
n
l(θ) = − log(θ2 ) −
2
Pn
i=1 (yi
− θ1 )2
2θ2
Score
Pn
u(θ) =
i=1 (yi
θ2
− θ1 )
,−
n
+
2θ2
Stimatore di massima verosimiglianza
θ̂ = [Ȳ , S 2 ]T
Pn
i=1 (yi
− θ1 )2
2θ22
T
Stima
Modello normale con media e varianza ignote
Derivate seconde
n
∂2
l(θ) = −
2
θ2
∂θ1
Pn
2
(yi − θ1 )
∂
l(θ) = − i=1 2
∂θ1 ∂θ2
θ
P2n
2
2
n
∂
i=1 (yi − θ1 )
l(θ)
=
−
∂θ22
2θ22
θ23
Informazione osservata di Fisher
"
I(θ̂) =
n
s2
0
0
n
2(s 2 )2
#
Stima
Informazione attesa di Fisher
"
I(θ̂) =
n
θ2
0
0
n
2θ22
#
Stima
Consistenza forte dello SMV
Teorema
In un problema regolare di stima θ̂n è uno stimatore consistente in
senso forte.
Stima
Consistenza forte dello SMV
Esempio
Sia Y ∼ Ber (θ) e si assuma di poter disporre di campioni casuali
semplici di dimensione arbitraria. Come si comporta la funzione di
verosimiglianza (log-verosimiglianza) al variare di n?
Stima
Consistenza forte dello SMV
Figura 13: Comportamento di θ̂n quando n → ∞ e θ0 = 0.4.
Verosimiglianza normalizzata, n variabile
Lnorm(θ)
0.4 0.8
n = 50
Lnorm(θ)
0.4 0.8
n = 10
0.2
0.4
0.6
0.8
1.0
0.0
0.6
n = 100
n = 1000
Lnorm(θ)
0.4 0.8
0.4
0.6
θ
θ^n
0.8
1.0
0.8
1.0
θ0
0.0
0.0
0.2
0.4
θ
θ^n θ0
0.0
0.2
θ
Lnorm(θ)
0.4 0.8
0.0
^
θ0 θn
0.0
0.0
θ^n θ0
0.8
1.0
0.0
0.2
0.4
0.6
θ
Stima
Consistenza forte dello SMV
Figura 14: Comportamento di θ̂n quando n → ∞ e θ0 = 0.4.
Verosimiglianza, n variabile
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
n = 100
n = 1000
L(θ)
2.0e−291
θ
0.4
0.6
θ
0.8
1.0
0.0e+00
0.0e+00
0.2
θ0 θ^n
θ
θ^n θ0
0.0
0.0e+00
L(θ)
0.0015
0.2
L(θ)
2.0e−29
0.0000
θ^n θ0
0.0
n = 50
L(θ)
1.5e−15
n = 10
θ^n
0.0
0.2
0.8
1.0
0.8
1.0
θ0
0.4
0.6
θ
Stima
Consistenza forte dello SMV
Consideriamo un problema regolare di stima
Semplifichiamoci la vita: Θ = {θ0 , θ1 , . . . , θm } è un insieme
finito.
θ0 è il vero valore del parametro
Siamo in un contesto di campionamento casuale semplice,
quindi
n
X
ln (θ) =
log(g (Yi ; θ))
i=1
il deponente n esplicita la dipendenza di l(θ) da n. Stiamo
considerando una successione di log-verosimiglianze.
Stima
Consistenza forte dello SMV
Legge forte dei grandi numeri:
1
(ln (θ) − ln (θ0 )) =
n
n
1X
g (Yi ; θ) q.c.
g (Yi ; θ)
=
log
→ E log
; θ0
n
g (Yi ; θ0 )
g (Yi ; θ0 )
i=1
È facile verificare che
g (Yi ; θ)
E
; θ0 = 1
g (Yi ; θ0 )
Stima
Un teorema utile
Definizione (Funzione concava)
Una funzione f (x) è detta concava sull’intervallo I (finito o
infinito) se per ogni coppia di punti x1 e x2 , x1 < x2 , interni ad I e
per ogni a ∈ R, 0 < a < 1,
af (x1 ) + (1 − a)f (x2 ) ≤ f (ax1 + (1 − a)x2 )
Teorema (Disuguaglianza di Jensen)
Se X è una variabile casuale che assume valori in I , E (X ) = µ e
f (x) è una funzione concava in I , allora
E [f (X )] ≤ f (E (X ))
Stima
Consistenza forte dello SMV
Quando θ 6= θ0 , per la disuguaglianza di Jensen,
g (Yi ; θ)
g (Yi ; θ)
E log
; θ0 < log E
; θ0
=0
g (Yi ; θ0 )
g (Yi ; θ0 )
Quindi
ln (θ0 ) − ln (θ) → ∞ q.c. ∀ θ 6= θ0
Sospettiamo che lo stimatore di massima verosimiglianza, θ̂n
converga a θ0 quasi certamente quando n → ∞
Stima
Consistenza forte dello SMV
Fissiamo un > 0 e consideriamo gli eventi
Aj = {ln (θ0 ) − ln (θj ) > ∀ n > n0 } j = 1, . . . , m
Per quanto visto sopra, esiste un n0 sufficientemente elevato
tale che
P(Aj ) > 1 − δ
con δ arbitrariamente piccolo
Stima
Consistenza forte dello SMV
Dagli assiomi della probabilità segue che




m
m
\
[
P  Aj  = 1 − P  Aj 
j=1
j=1
≥ 1−
m
X
P(Aj )
j=1
≥ 1 − mδ
Quindi,
P(ln (θ0 ) − ln (θj ) > ∀j ∀ n > n0 ) ≥ 1 − mδ
q.c
ma questo implica che θ̂n → θ0 .
Stima
Distribuzione asintotica dello SMV
Assunzioni
problema regolare di stima
campionamento casuale semplice
l’informazione attesa di Fisher per una singola osservazione,
i(θ) esiste ed è positiva
θ̂ è consistente
la log-verosimiglianza è derivabile tre volte e
3
d
dθ3 g (y ; θ) ≤ M(Y , θ); E [M(Y , θ); θ] < M0 < ∞
Stima
Sappiamo che l 0 (θ) = 0
Sviluppiamo in serie di Taylor dal punto θ0 (il vero valore del
parametro)
0 = l 0 (θ̂)
1
= l 0 (θ0 ) + l 00 (θ0 )(θ̂ − θ0 ) + l 000 (θ̃)(θ̂ − θ0 )2
2
Stima
Quindi
θ̂ − θ0 =
√
n(θ̂ − θ0 ) =
−l 0 (θ0 )
l 00 (θ0 ) + 12 l 000 (θ̃)(θ̂ − θ0 )
− √1 l 0 (θ0 )
n
1 00
1 000
n l (θ0 ) + 2n l (θ̃)(θ̂ − θ0 )
Stima
Dal teorema centrale del limite segue che
1
− √ l 0 (θ0 ) =
n
n
1 X 0
d
l (θ0 ; Yi ) → N(0, i(θ0 ))
= −√
n
i=1
Infine non è difficile dimostrare che
1 000
P
l (θ̃)(θ̂ − θ0 ) → 0
2n
Stima
Quindi
√
d
n(θ̂ − θ0 ) → N(0, i(θ0 )−1 )
Stima
Sotto le condizioni specificate in precedenza
θ̂ è consistente
θ̂ è asintoticamente corretto
θ̂ è asintoticamente normale
θ̂ è asintoticamente efficiente.
I risultati precedenti vangono per tutti i modelli appartenenti alla
famiglia esponenziale.
Stima
Intervalli di confidenza
Una stima puntuale implica necessariamente un errore di stima
È preferibile definire un insieme, diciamo Θ∗ ⊂ Θ, di valori
plausibili per θ
Come possiamo procedere?
Stima
Un metodo possibile
Definito un modello statistico G
Osservato un campione y
definita la funzione di verosimiglianza normalizzata Lnorm (θ)
fissiamo un valore c ∈ R : 0 < c < 1
definiamo un insieme di valori plausibili, a livello di fiducia c,
Θ∗ = {θ ∈ Θ : Lnorm (θ) ≥ c}
Stima
Esempio (Normale con media ignota e varianza nota)
Siano Y ∼ N(θ, 1) e y0 = [1.89, −2.21, 0.27, −1.1, −2.26]. Allora
avremo:
( P
)
5
2
(y
−
θ)
i
L(θ) = exp − i=1
2
Lnorm (θ) =
L(θ)
L(θ̂)
,
con θ̂ = ȳ = −0.682.
Fissiamo c = 0.95 e, risolvendo
Lnorm (θ) = c
rispetto a θ, otteniamo Θ∗ = [−0.83, −0.54].
(1)
Stima
Risolvere (1) equivale a risolvere, rispetto a θ:
log(Lnorm (θ)) = log(c),
ovvero
P5
−0.5
i=1 (yi
2
− θ)2
P5
+ 0.5
i=1 (yi
2
− ȳ )2
= log(c)
Stima
0.00
Lnorm(θ)
0.95
Figura 15: Determinazione di un intervallo di confidenza al livello di
fiducia c = 0.95, basato sulla funzione di verosimiglianza normalizzata.
−2.50
−0.83
θ
−0.54
1.00
Stima
Un altro metodo
Supponiamo che esista una variabile casuale, T (Y, θ)
(quantità pivot) con distribuzione di probabilità nota e
indipendente da θ, tale che
1 − α = P(c1 ≤ T (Y, θ) ≤ c2 ), 0 ≤ α ≤ 1
(2)
con c1 e c2 noti
Supponiamo che (2) implichi l’esistenza di due trasformazioni,
g1 (Y) e g2 (Y) tali che g1 (·) ≤ g2 (·) e:
P(g1 (Y) ≤ θ ≤ g2 (Y)) = 1 − α
L’intervallo aleatorio che abbiamo costruito contiene il vero
valore del parametro con probabilità 1 − α
Stima
L’intervallo
[g1 (y), g2 (y)]
si dice intervallo di confidenza al livello di fiducia 1 − α
Stima
Normale con media ignota e varianza nota (continua)
Fissiamo 1 − α = 0.95 e definiamo
p
(n)(Ȳ − θ)
T (Y, θ) =
∼ N(0, 1).
σ
Quindi
1 − α = P(−z1−α/2 ≤ T (Y, θ) ≤ z1−α/2 )
σ
σ
= P(Ȳ − √ z1−α/2 ≤ θ ≤ Ȳ + √ z1−α/2 )
n
n
σ
σ
con g1 (Y) = Ȳ − √ z1−α/2 e g2 (Y) = Ȳ + √ z1−α/2
n
n
Stima
Poiché
σ
g1 (y) = ȳ − √ z1−α/2 = −1.559,
n
σ
g2 (y) = ȳ + √ z1−α/2 = 0.195
n
l’intervallo di confidenza al livello di fiducia 0.95 sarà:
[−1.559, 0.195]
Stima
Un compromesso (asintotico)
Se
d
(θ̂ − θ0 ) → N(0, I(θ0 )−1 )
allora
q
q
θ̂ − z1−α/2 Î(θ0 )−1 , θ̂ + z1−α/2 Î(θ0 )−1
approssima, per n elevato, un intervallo di confidenza di livello
1−α
Î(θ0 ) è una stima di I(θ0 ), di solito si pone
Î(θ) = I(θ̂)
Stima
Motivazione
Sviluppo in serie di Taylor di l(θ) intorno a θ̂:
1
l(θ) = l(θ̂) + l 0 (θ̂)(θ − θ̂) + l 00 (θ̂)(θ̂ − θ)2
2
0
essendo l (θ̂) = 0
1
l(θ̂) + l 00 (θ̂)(θ̂ − θ)2
2
In un intorno di θ̂ la log-verosimiglianza si comporta come una
parabola
l (cα) l (θ^)
0
l (θ)
Stima
θ^ − z1−−α
2
^
I (θ0)
θ^
θ
θ^ + z1−−α
2
^
I (θ0)
Stima
N(µ, θ) (µ nota)
Pn
Quantità pivot: T =
i=1 (Yi
θ
Determinazione dell’intervallo.
− µ)2
∼ χ2n
1 − α = P χ2n,α/2 ≤ T ≤ χ2n,1−α/2
!
Pn
Pn
2
2
i=1 (Yi − µ)
i=1 (Yi − µ)
≤θ≤
= P
χ2n,1−α/2
χ2n,α/2
e quindi l’intervallo sarà
#
"P
Pn
n
2
2
(y
(y
−
µ)
−
µ)
i
i=1 i
, i=1 2
χ2n,1−α/2
χn,α/2
Stima
Y ∼ N(0.05, θ), n = 10
y = [−0.2, −0.01, 0.09, −0.09, 0.13, 0, −0.05, 0.15, 0.3, 0.11]0
Pn
(yi − µ)2
θ̂n = i=1
= 0.0186,
n
1 − α = 0.95, χ210,0.025 = 3.247, χ210,0.975 = 20.483
intervallo: [0.0091, 0.0574]
n
Î(θ0 ) = I(θ̂n ) =
= 14387.2313
2θ̂n2
Intervallo approssimato di livello 0.95: [0.0023, 0.035]
Stima
Y ∼ N(0.05, θ), n = 1000
Pn
(yi − µ)2
= 0.0097,
θ̂n = i=1
n
1 − α = 0.95, χ21000,0.025 = 914.257, χ21000,0.975 = 1089.531
intervallo: [0.0089, 0.0106]
n
Î(θ0 ) = I(θ̂n ) =
= 5368976.9393
2θ̂n2
Intervallo approssimato di livello 0.95: [0.0088, 0.0105]
0.00
0.02
−0.2 −0.1
0.1
0 200
600
i
1000
0.04
(Y − µ)2
0.0
Y
0.06
0.2
0.3
Stima
n=10
n=10
0 200
600
i
1000
0.00
0.02
−0.2 −0.1
0.1
0 200
600
i
1000
0.04
(Y − µ)2
0.0
Y
0.06
0.2
0.3
Stima
n=1000
n=1000
0 200
600
i
1000
Stima
0
−25
log(Lnorm(θ))
n=10
0.00
0.01
0.02
0.03
0.04
0.03
0.04
0.03
0.04
θ
−3.0
log(Lnorm(θ))
n=100
0.00
0.01
0.02
θ
−2.0
log(Lnorm(θ))
n=1000
0.00
0.01
0.02
θ
Stima
0
−7
log(Lnorm(θ))
n=10
0.005
0.010
0.015
0.020
0.025
0.030
0.035
0.040
0.030
0.035
0.040
θ
−300
log(Lnorm(θ))
n=1000
0.005
0.010
0.015
0.020
0.025
θ
Stima
N(θ1 , θ2 ) media e varianza ignote
Quantità pivot per θ1 :
√
T =
n(Ȳ − θ1 )
∼ tn−1
S∗
Pn
− Ȳ )2
n−1
Determinazione dell’intervallo per θ1 .
con
S ∗2
=
i=1 (Yi
1 − α = P −tn−1,1−α/2 ≤ T ≤ tn−1,1−α/2
S∗
S∗
= P Ȳ − √ tn−1,1−α/2 ≤ θ1 ≤ Ȳ + √ tn−1,1−α/2
n
n
e quindi l’intervallo sarà
s∗
s∗
ȳ − √ tn−1,1−α/2 , ȳ + √ tn−1,1−α/2
n
n
Stima
N(θ1 , θ2 ) media e varianza ignote
Quantità pivot per θ2 :
T =
(n − 1)S ∗ 2
∼ χ2n−1
θ2
Pn
− Ȳ )2
n−1
Determinazione dell’intervallo per θ2 .
1 − α = P χ2n−1,α/2 ≤ T ≤ χ2n−1,1−α/2
con
S ∗2
=
i=1 (Yi
= P
(n − 1)S ∗ 2
(n − 1)S ∗ 2
≤
θ
≤
2
χ2n−1,1−α/2
χ2n−1,α/2
e quindi l’intervallo sarà
"
#
(n − 1)s ∗ 2 (n − 1)s ∗ 2
,
χ2n−1,1−α/2 χ2n−1,α/2
!
Stima
X ∼ N(θ1 , θ2 ), Y ∼ N(θ3 , θ4 ), θ = [θ1 , θ2 , θ3 , θ4 ]T ,
confronto tra varianze
disponiamo di un campione di dimensione n1 dalla popolazione
X e di un campione di dimensione n2 dalla popolazione Y
Verosimiglianza:
L(θ; x, y) ∝
n1
Y
i=1
gX (xi , θ)
n2
Y
gY (yi , θ)
j=1
∝ L1 (θ; x)L2 (θ; y)
 P
Pn1
n2 /2
2

2
(xi − θ1 )
j=1 (yj − θ3 )
−n /2
−n /2
= θ2 1 exp − i=1
θ4 2 exp −

2θ2
2θ4
stimatori di massima verosimiglianza:
θ̂1 = X̄ , θ̂2 = SX2 , θ̂3 = Ȳ , θ̂4 = SY2 con SX2 e SY2 varianze
campionarie (da X e da Y risp.)
Stima
Stimatore per ψ =
S2
θ2
: ψ̂ = X2
θ4
SY
n2 SY2
n1 SX2
e SY∗2 =
(n1 − 1)
(n2 − 1)
Quantità pivot per ψ:
Definiamo SX∗2 =
SX∗2
θ2
T = ∗2
∼ fn1 −1,n2 −1
SY
θ4
Stima
Determinazione dell’intervallo per ψ.


SX∗2


θ2

1−α=P
fn1 −1,n2 −1,α/2 ≤ S ∗2 ≤ fn1 −1,n2 −1,1−α/2 
Y
θ4
∗2
SX
SX∗2
θ2
1
1
≤ ∗2
≤
= P
θ4
SY∗2 fn1 −1,n2 −1,1−α/2
SY fn1 −1,n2 −1,α/2
∗2
SX∗2
SX
θ2
= P
≤ ∗2 fn2 −1,n1 −1,1−α/2
fn −1,n1 −1,α/2 ≤
θ4
SY∗2 2
SY
Stima
Quindi l’intervallo sarà dato da:
∗2
sX
sX∗2
fn −1,n1 −1,α/2 , ∗2 fn2 −1,n1 −1,1−α/2
sY∗2 2
sY
Stima
X ∼ N(θ1 , θ2 ), Y ∼ N(θ3 , θ2 ), θ = [θ1 , θ2 , θ3 ]T , confronto
tra medie
disponiamo di un campione di dimensione n1 dalla popolazione
X e di un campione di dimensione n2 dalla popolazione Y
Verosimiglianza:
L(θ; x, y) ∝
n1
Y
gX (xi , θ)
i=1
n2
Y
gY (yi , θ)
j=1
∝ L1 (θ; x)L2 (θ; y)
( Pn
1
=
−(n +n )/2
θ3 1 2 exp
−
i=1 (xi
− θ1 )2 +
Pn2
j=1 (yj
− θ3 )2
2θ2
stimatori di massima verosimiglianza:
n1 SX2 + n2 SY2
θ̂1 = X̄ , θ̂2 =
, θ̂3 = Ȳ
n1 + n2
con SX2 e SY2 varianze campionarie (da X e da Y risp.)
)
Stima
Stimatore per ψ = θ1 − θ3 : ψ̂ = θ̂1 − θ̂3
Quantità pivot per ψ:
T =r
ψ̂ − ψ
S ∗2 n11 +
1
n2
∼ tn1 +n2 −2
n1 + n2
θ̂2
n1 + n2 − 2
Determinazione dell’intervallo per ψ.
con S ∗2 =
s
"
ψ̂ −
S ∗2
s
1
1
1
1
+
+
tn1 +n2 −2,1−α/2 , ψ̂ + S ∗2
tn1 +n2 −2,1−α/
n1
n2
n1
n2
Stima
Alcuni esercizi
Matteo Grigoletto e Laura Ventura (1998)
Statistica per le Scienze economiche. Esercizi con richiami di teoria
G. Giappichelli Editore - Torino
Cap. 4. Esercizi: 4.2.6; 4.2.7; 4.2.9; 4.2.10; 4.2.12; 4.2.13;
4.2.14; 4.2.18; 4.2.19; 4.2.20; 4.2.23; 4.2.26
Cap. 5. Esercizi: 5.2.2; 5.2.4; 5.2.7; 5.2.11; 5.2.12; 5.3.1