Comments
Description
Transcript
Inferenza statistica
Stima Parte V Stima Stima Stimatore Sia G una famiglia parametrica e sia θ ∈ Θ il parametro ignoto. Si definisce stimatore di θ una statistica T (Y) che assume valori in Θ, cioè: T : Y → Θ. Osservazioni Uno stimatore, T , è una variabile casuale, trasformazione delle n variabili casuali campionarie, che assume valori in Θ le sue determinazioni campionarie possono essere utilizzate per approssimare l’ignoto valore di θ Al fine di valutare la bontà di tali approssimazioni sarebbe auspicabile conoscere la distribuzione di probabilità di T . Stima Stima Siano G una famiglia parametrica, θ ∈ Θ il parametro ignoto e T uno stimatore di θ. Si definisce stima di θ la determinazione campionaria, T (y), di T (Y). Osservazioni Il valore assunto dalla stima, t, generalmente non coincide con l’ignoto valore di θ: si commette sempre un errore di stima. Chiunque confondesse la stima, t, con l’ignoto valore del parametro, θ, avrebbe delle ottime ragioni per ritenere di non avere capito assolutamente nulla dell’inferenza statistica (e non solo). Stima Esempi Nell’esempio dell’analisi del traffico, potremmo intuitivamente pensare di utilizzare T (Y) = Ȳ come stimatore, ottenendo la stima t = T (y) = ȳ = 0.3 Nell’esempio della diffusione di una pianta nella foresta, nel caso in cui si dispone un campione di dimensione n = 60 potremmo utilizzare ancora Ȳ come stimatore, ottenendo la 40 ' 0.67 stima t = 60 Stima Principio del campionamento ripetuto Si suppone di poter replicare infinite volte, a parità di condizioni, il campionamento osservando quindi infinite n-ple, tutte determinazioni delle n variabili casuali campionarie Y1 , . . . , Yn . Utile quando il campione è costituito da dati sperimentali e l’esperimento è ripetibile; Nei problemi di stima potremmo pensare di ottenere infinite determinazioni campionarie di uno stimatore (stime) in modo da valutarne la variabilità (e, in qualche senso, la precisione) Tutto questo non vale per dati osservazionali (non derivanti da esperimenti ripetibili). Tuttavia, come vedremo, esso sarà utile anche in questo contesto. Stima Definizione (Distorsione) La distorsione dello stimatore T di θ è definita come: B(T ) = E [(T − θ)] B(T ) > 0 (< 0) implica che le stime prodotte da T siano mediamente più grandi (piccole) di θ. Stima Definizione (Stimatore non distorto) Lo stimatore T di θ si dice non distorto (o corretto) se la sua distorsione è nulla, indipendentemente dal valore assunto da θ ∈ Θ: B(T ) = E (T − θ) = 0 ∀θ ∈ Θ, ovvero, E (T ) = θ ∀θ ∈ Θ Equivale a dire che le stime di θ determinate dallo stimatore T non sono assoggettate ad un errore sistematico. Stima Supponiamo di poter estrarre infiniti campioni di dimensione 5 da una popolazione per la quale il modello statistico sia Y ∼ N(θ1 , θ2 ) e supponiamo che θ1 = 0 e θ2 = 100. Pur conoscendo il valore dei parametri, li stimiamo rispettivamente con Ȳ e con S 2 , sapendo che 4 E (Ȳ ) = θ1 e E (S 2 ) = θ2 5 Stima Figura 7: Comportamento di Ȳ 10 ● 5 ● ● ● ● ●● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 0 ● ● ● ● ● ● ● −10 valore vero e stime ● ● ● 20 ● 40 60 campione 80 100 Stima 250 ● ● ● 150 ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● 50 ● 0 valore vero e stime 350 Figura 8: Comportamento di S 2 0 20 40 60 campione 80 100 Stima Definizione (Errore quadratico medio) L’errore quadratico medio di uno stimatore T di θ è definito come: EQM(T ) = E [(T − θ)2 ; θ] Utile per valutare la precisione di uno stimatore T Generalmente EQM(T ) 6= Var (T ): EQM(T ) = Var (T ) + B(T )2 Stima Definizione (Efficienza) Siano T1 e T2 due stimatori di θ. T1 è più efficiente di T2 se EQM(T1 ; θ) ≤ EQM(T2 ; θ). Stima SianoT1 e T2 due stimatori di θ = E (Y ), Y1 + Yn T1 = e T2 = 2 Pn−1 i=1 Yi n Supponendo che Var (Y ) = σ 2 > 0, Quale dei due stimatori è da ritenersi preferibile? Stima Supponiamo di poter estrarre infiniti campioni di dimensione 10 da una popolazione per la quale il modello statistico sia Y ∼ N(θ1 , 10) e supponiamo che θ1 = 5. Pur conoscendo il valore del parametro, lo stimiamo rispettivamente con T1 e con T2 Stima 10 Figura 9: Comportamento di T1 ● ● ● ● ● 8 ● 6 ●● ● ● 4 2 ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● 0 valore vero e stime ● ● 40 ● 60 campione ● 80 100 Stima 8 ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● 2 4 6 ● ● 0 valore vero e stime 10 Figura 10: Comportamento di T2 0 20 40 60 campione 80 100 Stima Definizione (Stimatore consistente in senso debole) Lo stimatore Tn , definito su Yn , di θ si dice consistente in senso debole se: P Tn → θ Stima Definizione (Stimatore consistente in senso forte) Lo stimatore Tn , definito su Yn , di θ si dice consistente in senso debole se: q.c. Tn → θ Stima Supponiamo di poter estrarre infiniti campioni di numerosità crescente da una popolazione per la quale il modello statistico sia Y ∼ N(θ1 , 1000) e supponiamo che θ1 = 5. Pur conoscendo il valore del parametro, lo stimiamo con Ȳn In Figura 11 si considerano quattro replicazioni di un campionamento in cui, ad un campione di dimensione 1 si continua ad aggiungere osservazioni fino ad n = 1000 Stima Figura 11: Comportamento di Ȳn quando n → ∞ 0 200 400 600 800 0 10 Replicazione 2 valore vero e stime 20 40 0 valore vero e stime Replicazione 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● 0 campione campione ● 0 200 400 600 800 campione 20 35 5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● Replicazione 4 valore vero e stime −5 5 15 valore vero e stime Replicazione 3 ● 200 400 600 800 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 200 400 600 800 campione Stima Definizione (Stima di massima verosimiglianza) Fissato un modello parametrico G e osservato un campione y, la stima di massima verosimiglianza è quel valore θ̂ ∈ Θ che massimizza L(θ). Osservazioni θ̂ va ricercato in Θ; Non è detto che θ̂ esista; Non è detto che θ̂ sia calcolabile analiticamente Stima Definizione (Stimatore di massima verosimiglianza) La stima di massima verosimiglianza, θ̂ = θ̂(y) è sempre funzione delle osservazioni campionarie, quindi θ̂(y) è una particolare determinazione della statistica θ̂(Y): lo stimatore di massima verosimiglianza Se T è una statistica sufficiente, allora L(θ; y) = L(θ, T (y)) quindi θ̂(Y) = θ̂(T (Y)). Lo stimatore di massima verosimiglianza è sempre funzione di una statistica sufficiente Stima Definizione (Funzione di log-verosimiglianza) La funzione di log-verosimiglianza è definita come l(θ; y) = log(L(θ; y)) La stima di massima verosimiglianza, θ̂ è un punto di massimo di l(θ; y), quindi massimizzare L(·) è equivalente a massimizzare l(·). l(·) ha delle proprietà molto importanti che vedremo nel seguito. Stima Equazioni di verosimiglianza Se θ ∈ Θ ⊆ R e Θ è aperto, le condizioni che garantiscono che θ̂ sia un punto di massimo per l(θ) sono: dl(θ) = 0 condizione necessaria dθ θ=θ̂ d 2 l(θ) < 0 condizione sufficiente dθ2 θ=θ̂ Stima Se θ ∈ Θ ⊆ Rk e Θ è aperto, le condizioni che garantiscono che θ̂ sia un punto di massimo per l(θ) sono: ∂l(θ) = 0 condizione necessaria dθj θj =θ̂j H|θ=θ̂ definita negativa condizione sufficiente dove H rappresenta la matrice hessiana di l(·) calcolata in θ̂ e ∂ 2 l(θ) hjs |θ=θ̂ = ∂θj ∂θs θ=θ̂ Stima Equivarianza Sia ψ : Θ → Ψ una trasformazione biunivoca e sia θ̂ la stima di massima verosimiglianza di θ. La stima di massima verosimiglianza di ψ(θ) è ψ(θ̂). Per ogni κ ∈ Ψ, κ = ψ(θ), definiamo L(κ) = L(ψ −1 (κ)), κ ∈ Ψ. Ovviamente, L(θ) = L(ψ −1 (κ)). Poiché L(θ̂) > L(θ) ∀θ ∈ Θ, allora L(ψ(θ̂)) > L(ψ(θ)) ∀θ ∈ Θ e quindi L(ψ(θ̂)) > L(κ) ∀κ ∈ Ψ. Stima Nel seguito considereremo alcuni esempi, ipotizzando di disporre sempre di un campione casuale semplice di dimensione n. Stima Modello di Bernoulli Modello statistico Y ∼ Ber (θ), θ ∈ Θ = [0, 1], IY = {0, 1} Spazio campionario: Y = {0, 1}n Log-verosimiglianza: l(θ) = n X yi log(θ) + (n − i=1 n X i=1 stima di massima verosimiglianza θ̂ = ȳ stimatore di massima verosimiglianza θ̂ = Ȳ yi ) log(1 − θ) Stima Modello di Poisson: Y ∼ Po(θ), θ ∈ Θ = R+ , IY = {0, 1, . . . } Spazio campionario: Yn = IYn Log-verosimiglianza: l(θ) = −nθ + n X yi log(θ) i=1 stima di massima verosimiglianza θ̂ = ȳ stimatore di massima verosimiglianza θ̂ = Ȳ Stima Esercizio Supponendo di disporre di un campione di dimensione n, determinare lo spazio parametrico, lo spazio campionario, l’espressione della log-verosimiglianza, la stima e lo stimatore di massima verosimiglianza di θ nei seguenti casi: modello binomiale Y ∼ Bin(m, θ), θ ∈ Θ = [0, 1], IY = {0, 1, . . . , m}, m > 1; modello normale con varianza nota e media ignota modello normale con media nota e varianza ignota modello esponenziale negativo: Y ∼ Exp(θ): f (y ) = θ exp(−θy )1[0,∞) (y ), θ > 0. Stimare µ = E (Y ) = θ−1 e σ 2 = var (Y ) = θ−2 e verificare che vale la proprietà di equivarianza. Stima Modello normale (media e varianza ignote) Modello statistico: Y ∼ N(θ1 , θ2 ) θ = [θ1 , θ2 ]0 ∈ Θ = R × R+ Spazio campionario: Yn = Rn Log-verosimiglianza: Pn (yi − θ1 )2 n l(θ) = − log θ2 − i=1 2 2θ2 Stima di massima verosimiglianza: θ̂T = [ȳ , s 2 ]T dove s 2 = n 1X (yi − ȳ )2 n i=1 Stimatore di massima verosimiglianza: θ̂T = [Ȳ , S 2 ]T dove S 2 = n 1X (Yi − Ȳ )2 n i=1 Stima Restrizioni sullo spazio parametrico Consideriamo l’esempio dell’analisi del traffico e supponiamo di sapere (informazioni extra-campionarie) che θ ≥ 0.4 e supponiamo che yT = [0, 1, 0, 0, 0, 1, 0, 0, 0, 1]T . Ne segue che: Θ = [0.4, 1] L(θ) = θ3 (1 − θ)7 , θ ∈ Θ l(θ) = 3 log(θ) + 7 log(1 − θ), θ ∈ Θ Stima di massima verosimiglianza: θ̂ = 0.4 Stimatore di massima verosimiglianza: θ̂ = Ȳ 1[0.4,1] (Ȳ ) + 0.41[0,0.4) (Ȳ ) Stima 0.0015 0.0010 0.0005 0.0000 Verosimiglianza Figura 12: Esempio di analisi del traffico: funzioni di verosimiglianza con una restrizione sullo spazio parametrico. 0.4 0.5 0.6 0.7 θ 0.8 0.9 1.0 Stima Regressione lineare semplice Su ogni unità statistica vengono rilevate due variabili, X , deterministica (è detta regressore o variabile esplicativa), e Y , stocastica (è detta risposta o variabile dipendente). Modello statistico: Yi = β0 + β1 xi + i , i ∼ N(0, σ 2 ), i = 1, . . . , n = i non dipende da xj ∀i, j Cov (i , j ) = 0 ∀ i 6= j equivale a Yi ∼ N(β0 + β1 xi , σ 2 ), Cov (Yi , Yj ) = 0 ∀ i 6= j Stima Y = Rn Log-verosimiglianza n 1 X n (yi − β0 − β1 xi )2 l(θ) = − log(σ 2 ) − 2 2 2σ i=1 θT = [β0 , β1 , σ 2 ]0 ∈ Θ = R2 × R+ Stima ∂l(θ) ∂β0 = n 1 X (yi − β0 − β1 xi ) σ2 i=1 n 1 X (yi − β0 − β1 xi )xi σ2 ∂l(θ) ∂β1 = ∂l(θ) ∂σ 2 n n 1 X = − 2+ (yi − β0 − β1 xi )2 2σ 2(σ 2 )2 i=1 i=1 Stima T Stima di massima verosimiglianza: θ̂ = [β̂0 , β̂1 , σ̂ 2 ]T : β̂0 = ȳ − β̂1 x̄, β̂1 = Pn (x − x̄)(yi − ȳ ) i=1 Pn i , 2 i=1 (xi − x̄) σ̂ 2 = 1X (yi − β̂0 − β̂1 xi )2 n n i=1 Stima T Stimatore di massima verosimiglianza: θ̂ = [β̂0 , β̂1 , σ̂ 2 ]T : β̂0 = Ȳ − β̂1 x̄, Pn β̂1 = (x − x̄)(Yi − i=1 Pn i 2 i=1 (xi − x̄) σ̂ 2 = 1X (Yi − β̂0 − β̂1 xi )2 n n i=1 β̂0 e β̂1 sono corretti; E (σ̂ 2 ) = n−2 2 n σ . Determinare la varianza di β̂0 e β̂1 . Ȳ ) , Stima Le derivate seconde della funzione di verosimiglianza ∂ 2 l(θ) ∂β02 = − n σ2 ∂ 2 l(θ) ∂β0 ∂β1 = − nx̄ σ2 ∂ 2 l(θ) ∂β0 ∂σ 2 n 1 X = − (yi − β0 − β1 xi ) (σ2 )2 i=1 Stima ∂ 2 l(θ) ∂β12 ∂ 2 l(θ) ∂β1 ∂σ 2 ∂ 2 l(θ) ∂(σ 2 )2 = − n Pn 2 i=1 xi σ2 n 1 X = − 2 2 (yi − β0 − β1 xi )xi (σ ) i=1 = n n 1 X − (yi − β0 − β1 xi )2 2(σ 2 )2 (σ 2 )3 i=1 Stima Definizione (Identificabilità del modello statistico G) Nello spazio campionario deve esistere almeno un insieme A tale che per qualsiasi coppia di valori del parametro, θ1 e θ2 , con θ1 6= θ2 , P(Y ∈ A; θ1 ) 6= P(Y ∈ A; θ2 ) Questa proprietà implica che valori diversi del parametro determinino distribuzioni di probabilità diverse per Y e, quindi, che la funzione di verosimiglianza non possa essere costante rispetto a θ Stima Problemi regolari di stima Un problema regolare di stima è caratterizzato dalle seguenti condizioni: 1 Il modello statistico deve essere identificabile 2 Θ è aperto in Rk 3 tutte le funzioni di densità (probabilità), g , in G hanno lo stesso supporto 4 Devono valere delle condizioni sulle derivate prima e seconda di g rispetto a θ . Stima Se Y è discreta X ∂ g (y ; θ) = ∂θ y ∈Y ∂2 X y ∈Y ∂θ∂θ Se Y è continua Z ∂ g (y ; θ)dy ∂θ = ∂2 g (y ; θ)dy ∂θ∂θT = Y Z Y g (y ; θ) = T ∂ X g (y ; θ) ∂θ y ∈Y ∂2 ∂θ∂θT X g (y ; θ) y ∈Y Z ∂ g (y ; θ)dy ∂θ Y Z ∂2 g (y ; θ)dy ∂θ∂θT Y Stima Definizione (La funzione score, o punteggio) La funzione score è definita come: u(θ) = u(θ; y) = ∂ l(θ; y) ∂θ Evidentemente, u(θ) è la determinazione campionaria della funzione casuale u(θ) = u(θ; Y) = ∂ l(θ; Y) ∂θ Stima Proprietà di U(θ) Diamo le dimostrazioni solo nel caso in cui Y sia una variabile discreta. E (U(θ); θ) = = = = = X ∂ log f (y; θ)f (y; θ) ∂θ y∈Y X 1 ∂ f (y; θ) f (y; θ) f (y; θ) ∂θ y∈Y ∂ X f (y; θ)dν(y) ∂θ y∈Y ∂ 1 ∂θ 0 Stima Definizione (Informazione attesa di Fisher, I (θ)) Se k = 1 I(θ) = Var (U(θ; Y); θ) = E [(U(θ; Y)2 ; θ] Se k > 1 I(θ) = Var (U(θ; Y); θ) = E [(U(θ; Y)(U(θ; Y)T ; θ] Stima Definizione (Informazione osservata di Fisher) Quando k = 1, l’informazione osservata di Fisher è definita come: d2 I(θ̂) = l(θ) ; 2 dθ θ=θ̂ Quando k > 1, l’informazione osservata di Fisher è definita come: ∂2 l(θ) I(θ̂) = . T ∂θ∂θ θ=θ̂ L’informazione osservata di Fisher quantifica la curvatura della log-verosimiglianza intorno a θ̂ Stima Che cos’è l’informazione attesa di Fisher? E [U(θ); θ] = X d l(θ)f (y; θ) = 0 dθ y∈Y d E [U(θ); θ] = 0 dθ d X d l(θ)f (y; θ) = dθ dθ y∈Y X d2 d d = l(θ)f (y; θ) + l(θ) f (y; θ) dθ2 dθ dθ y∈Y X d2 d 1 d = l(θ)f (y; θ) + l(θ) f (y; θ) f (y; θ) dθ2 dθ f (y; θ) dθ y∈Y ) ( 2 X d2 d l(θ)f (y; θ) + = l(θ) f (y; θ) dθ2 dθ Y Stima Quindi, I(θ) = E [U(θ)2 ] 2 X d l(θ) f (y; θ) = dθ y∈Y X d2 l(θ)f (y; θ) = − dθ2 y∈Y 2 d = −E l(θ) dθ2 Se k > 1, ∂2 l(θ) I(θ) = −E ∂θ∂θT Stima Teorema (Disuguaglianza di Rao-Cramér) In un problema regolare di stima, con k = 1, sia T (Y) uno stimatore tale che a(θ) = E [T (Y); θ] sia derivabile e d X T (y)f (y; θ) dθ y∈Y X d = T (y) f (y; θ). dθ y∈Y a0 (θ) = Allora Var (T (y); θ) ≥ [a0 (θ]2 I(θ) Stima Prima di dimostare il teorema ricordiamo un risultato utile della teoria della probabilità: Disuguaglianza di Schwartz Se due variabili casuali, X e Y , sono tali che E [X 2 ] < ∞ e E [Y 2 ] < ∞, allora {E (XY )}2 ≤ E (X 2 )E (Y 2 ) Stima Dimostrazione della disuguaglianza di Rao-Cramér a0 (θ) = = = = = d f (y; θ) dθ y∈Y X 1 d T (y) f (y; θ) f (y; θ) f (y; θ) dθ y∈Y X d T (y) log(f (y; θ)) f (y; θ) dθ y∈Y d E T (Y) log(f (y; θ)) dθ E [T (Y)U(θ)] X T (y) Stima Poichè, date due variabili casuali qualsiasi Cov (X , Y ) = E [(X − E (X ))(Y − E (Y ))] = E (XY ) − E (X )E (Y ) (purché E (X ), E (Y ) e E (XY ) esistano e siano finite), allora se il valore atteso di una delle due variabili casuali è nullo Cov (X , Y ) = E (XY ). Stima Quindi a0 (θ) = Cov (T (Y), U(θ)) per la disuguaglianza di Cauchy-Scwartz 0 2 ≤ Var (T (Y); θ)Var (U(θ); θ) 0 2 ≤ Var (T (Y); θ)I(θ) a (θ) a (θ) e infine Var (T (y); θ) ≥ [a0 (θ)]2 I(θ) Stima Se T (Y) è uno stimatore non distorto, allora Var (T (y); θ) ≥ 1 I(θ) Se T (Y) è uno stimatore non distorto e Var (T (y); θ) = 1 , I(θ) allora non esiste uno stimatore corretto più efficiente di T (Y) non è detto che uno stimatore siffatto esista. Stima Se le n variabili casuali campionarie sono indipendenti e identicamente distribuite, 2 d log f (Y; θ) I(θ) = −E dθ2 " # n d2 X = −E log g (Yi ; θ) dθ2 i=1 2 n X d log g (Yi ; θ) = − E dθ2 i=1 2 d log g (Y ; θ) = −nE dθ2 = ni(θ) dove d2 i(θ) = −E log g (Y ; θ) dθ2 Stima Quando k > 1, Var (T (y); θ) e I(θ) sono matrici di ordine c. Se T è uno stimatore corretto, Var (T (y); θ) ≥ I(θ)−1 che significa che Var (T (y); θ) − I(θ)−1 è una matrice semidefinita positiva. Stima Modello di Bernoulli Derivata seconda di l(θ) d2 l(θ; Y) = − dθ2 Pn i=1 Yi θ2 P n − ni=1 Yi − (1 − θ)2 Informazione attesa di Fisher 2 d I(θ) = −E l(θ; Y) dθ2 P Pn E [ i=1 Yi ] n − E [ ni=1 Yi ] + = θ2 (1 − θ)2 nθ n − nθ = + 2 θ (1 − θ)2 n = θ(1 − θ) Stima Modello di Bernoulli Efficienza dello stimatore di massima verosimiglianza θ̂ = Ȳ Var (Ȳ ) = = θ(1 − θ) n 1 I(θ) Informazione attesa di Fisher quando n = 1 l1 (θ; Y ) = Y log(θ) + (1 − Y ) log(1 − θ) d Y 1−Y l1 (θ; Y ) = − 2 − 2 dθ θ (1 − θ)2 d i(θ) = −E l1 (θ; Y ) dθ2 θ 1−θ 1 = + = θ2 (1 − θ)2 θ(1 − θ) Stima Modello di Bernoulli Relazione tra I(θ) e i(θ) I(θ) = ni(θ) Informazione osservata di Fisher I(θ̂) = n ȳ (1 − ȳ ) Stima Un particolare modello di Poisson Su ogni unità statistica si osservano le variabili Y e X , X > 0 e deterministica. Modello statistico: Y ∼ Po(θx), θ > 0 Verosimiglianza: ( L(θ) = exp −θ n X ) xi θ Pn i=1 yi i=1 Log-verosimiglianza l(θ) = −θ n X i=1 xi + n X i=1 yi log(θ) Stima Un particolare modello di Poisson Score u(θ) = − n X xi + i=1 n X yi i=1 θ Derivata seconda della log-verosimiglianza Pn yi d2 l(θ) = − i=1 dθ2 θ2 Stima di massima verosimiglianza Pn yi θ̂ = Pi=1 n i=1 xi Stima Un particolare modello di Poisson Informazione attesa di Fisher Pn I(θ) = i=1 xi θ Stimatore di massima verosimiglianza Pn Yi θ̂ = Pi=1 n i=1 xi E (θ̂) = θ θ Var (θ̂) = Pn i=1 xi Informazione osservata di Fisher P ( ni=1 xi )2 I(θ̂) = Pn i=1 yi = 1 I(θ) Stima Modello normale con media e varianza ignote Modello statistico: Y ∼ N(θ1 , θ2 ), θ = [θ1 , θ2 ]T ∈ R × R+ log-verosimiglianza n l(θ) = − log(θ2 ) − 2 Pn i=1 (yi − θ1 )2 2θ2 Score Pn u(θ) = i=1 (yi θ2 − θ1 ) ,− n + 2θ2 Stimatore di massima verosimiglianza θ̂ = [Ȳ , S 2 ]T Pn i=1 (yi − θ1 )2 2θ22 T Stima Modello normale con media e varianza ignote Derivate seconde n ∂2 l(θ) = − 2 θ2 ∂θ1 Pn 2 (yi − θ1 ) ∂ l(θ) = − i=1 2 ∂θ1 ∂θ2 θ P2n 2 2 n ∂ i=1 (yi − θ1 ) l(θ) = − ∂θ22 2θ22 θ23 Informazione osservata di Fisher " I(θ̂) = n s2 0 0 n 2(s 2 )2 # Stima Informazione attesa di Fisher " I(θ̂) = n θ2 0 0 n 2θ22 # Stima Consistenza forte dello SMV Teorema In un problema regolare di stima θ̂n è uno stimatore consistente in senso forte. Stima Consistenza forte dello SMV Esempio Sia Y ∼ Ber (θ) e si assuma di poter disporre di campioni casuali semplici di dimensione arbitraria. Come si comporta la funzione di verosimiglianza (log-verosimiglianza) al variare di n? Stima Consistenza forte dello SMV Figura 13: Comportamento di θ̂n quando n → ∞ e θ0 = 0.4. Verosimiglianza normalizzata, n variabile Lnorm(θ) 0.4 0.8 n = 50 Lnorm(θ) 0.4 0.8 n = 10 0.2 0.4 0.6 0.8 1.0 0.0 0.6 n = 100 n = 1000 Lnorm(θ) 0.4 0.8 0.4 0.6 θ θ^n 0.8 1.0 0.8 1.0 θ0 0.0 0.0 0.2 0.4 θ θ^n θ0 0.0 0.2 θ Lnorm(θ) 0.4 0.8 0.0 ^ θ0 θn 0.0 0.0 θ^n θ0 0.8 1.0 0.0 0.2 0.4 0.6 θ Stima Consistenza forte dello SMV Figura 14: Comportamento di θ̂n quando n → ∞ e θ0 = 0.4. Verosimiglianza, n variabile 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 n = 100 n = 1000 L(θ) 2.0e−291 θ 0.4 0.6 θ 0.8 1.0 0.0e+00 0.0e+00 0.2 θ0 θ^n θ θ^n θ0 0.0 0.0e+00 L(θ) 0.0015 0.2 L(θ) 2.0e−29 0.0000 θ^n θ0 0.0 n = 50 L(θ) 1.5e−15 n = 10 θ^n 0.0 0.2 0.8 1.0 0.8 1.0 θ0 0.4 0.6 θ Stima Consistenza forte dello SMV Consideriamo un problema regolare di stima Semplifichiamoci la vita: Θ = {θ0 , θ1 , . . . , θm } è un insieme finito. θ0 è il vero valore del parametro Siamo in un contesto di campionamento casuale semplice, quindi n X ln (θ) = log(g (Yi ; θ)) i=1 il deponente n esplicita la dipendenza di l(θ) da n. Stiamo considerando una successione di log-verosimiglianze. Stima Consistenza forte dello SMV Legge forte dei grandi numeri: 1 (ln (θ) − ln (θ0 )) = n n 1X g (Yi ; θ) q.c. g (Yi ; θ) = log → E log ; θ0 n g (Yi ; θ0 ) g (Yi ; θ0 ) i=1 È facile verificare che g (Yi ; θ) E ; θ0 = 1 g (Yi ; θ0 ) Stima Un teorema utile Definizione (Funzione concava) Una funzione f (x) è detta concava sull’intervallo I (finito o infinito) se per ogni coppia di punti x1 e x2 , x1 < x2 , interni ad I e per ogni a ∈ R, 0 < a < 1, af (x1 ) + (1 − a)f (x2 ) ≤ f (ax1 + (1 − a)x2 ) Teorema (Disuguaglianza di Jensen) Se X è una variabile casuale che assume valori in I , E (X ) = µ e f (x) è una funzione concava in I , allora E [f (X )] ≤ f (E (X )) Stima Consistenza forte dello SMV Quando θ 6= θ0 , per la disuguaglianza di Jensen, g (Yi ; θ) g (Yi ; θ) E log ; θ0 < log E ; θ0 =0 g (Yi ; θ0 ) g (Yi ; θ0 ) Quindi ln (θ0 ) − ln (θ) → ∞ q.c. ∀ θ 6= θ0 Sospettiamo che lo stimatore di massima verosimiglianza, θ̂n converga a θ0 quasi certamente quando n → ∞ Stima Consistenza forte dello SMV Fissiamo un > 0 e consideriamo gli eventi Aj = {ln (θ0 ) − ln (θj ) > ∀ n > n0 } j = 1, . . . , m Per quanto visto sopra, esiste un n0 sufficientemente elevato tale che P(Aj ) > 1 − δ con δ arbitrariamente piccolo Stima Consistenza forte dello SMV Dagli assiomi della probabilità segue che m m \ [ P Aj = 1 − P Aj j=1 j=1 ≥ 1− m X P(Aj ) j=1 ≥ 1 − mδ Quindi, P(ln (θ0 ) − ln (θj ) > ∀j ∀ n > n0 ) ≥ 1 − mδ q.c ma questo implica che θ̂n → θ0 . Stima Distribuzione asintotica dello SMV Assunzioni problema regolare di stima campionamento casuale semplice l’informazione attesa di Fisher per una singola osservazione, i(θ) esiste ed è positiva θ̂ è consistente la log-verosimiglianza è derivabile tre volte e 3 d dθ3 g (y ; θ) ≤ M(Y , θ); E [M(Y , θ); θ] < M0 < ∞ Stima Sappiamo che l 0 (θ) = 0 Sviluppiamo in serie di Taylor dal punto θ0 (il vero valore del parametro) 0 = l 0 (θ̂) 1 = l 0 (θ0 ) + l 00 (θ0 )(θ̂ − θ0 ) + l 000 (θ̃)(θ̂ − θ0 )2 2 Stima Quindi θ̂ − θ0 = √ n(θ̂ − θ0 ) = −l 0 (θ0 ) l 00 (θ0 ) + 12 l 000 (θ̃)(θ̂ − θ0 ) − √1 l 0 (θ0 ) n 1 00 1 000 n l (θ0 ) + 2n l (θ̃)(θ̂ − θ0 ) Stima Dal teorema centrale del limite segue che 1 − √ l 0 (θ0 ) = n n 1 X 0 d l (θ0 ; Yi ) → N(0, i(θ0 )) = −√ n i=1 Infine non è difficile dimostrare che 1 000 P l (θ̃)(θ̂ − θ0 ) → 0 2n Stima Quindi √ d n(θ̂ − θ0 ) → N(0, i(θ0 )−1 ) Stima Sotto le condizioni specificate in precedenza θ̂ è consistente θ̂ è asintoticamente corretto θ̂ è asintoticamente normale θ̂ è asintoticamente efficiente. I risultati precedenti vangono per tutti i modelli appartenenti alla famiglia esponenziale. Stima Intervalli di confidenza Una stima puntuale implica necessariamente un errore di stima È preferibile definire un insieme, diciamo Θ∗ ⊂ Θ, di valori plausibili per θ Come possiamo procedere? Stima Un metodo possibile Definito un modello statistico G Osservato un campione y definita la funzione di verosimiglianza normalizzata Lnorm (θ) fissiamo un valore c ∈ R : 0 < c < 1 definiamo un insieme di valori plausibili, a livello di fiducia c, Θ∗ = {θ ∈ Θ : Lnorm (θ) ≥ c} Stima Esempio (Normale con media ignota e varianza nota) Siano Y ∼ N(θ, 1) e y0 = [1.89, −2.21, 0.27, −1.1, −2.26]. Allora avremo: ( P ) 5 2 (y − θ) i L(θ) = exp − i=1 2 Lnorm (θ) = L(θ) L(θ̂) , con θ̂ = ȳ = −0.682. Fissiamo c = 0.95 e, risolvendo Lnorm (θ) = c rispetto a θ, otteniamo Θ∗ = [−0.83, −0.54]. (1) Stima Risolvere (1) equivale a risolvere, rispetto a θ: log(Lnorm (θ)) = log(c), ovvero P5 −0.5 i=1 (yi 2 − θ)2 P5 + 0.5 i=1 (yi 2 − ȳ )2 = log(c) Stima 0.00 Lnorm(θ) 0.95 Figura 15: Determinazione di un intervallo di confidenza al livello di fiducia c = 0.95, basato sulla funzione di verosimiglianza normalizzata. −2.50 −0.83 θ −0.54 1.00 Stima Un altro metodo Supponiamo che esista una variabile casuale, T (Y, θ) (quantità pivot) con distribuzione di probabilità nota e indipendente da θ, tale che 1 − α = P(c1 ≤ T (Y, θ) ≤ c2 ), 0 ≤ α ≤ 1 (2) con c1 e c2 noti Supponiamo che (2) implichi l’esistenza di due trasformazioni, g1 (Y) e g2 (Y) tali che g1 (·) ≤ g2 (·) e: P(g1 (Y) ≤ θ ≤ g2 (Y)) = 1 − α L’intervallo aleatorio che abbiamo costruito contiene il vero valore del parametro con probabilità 1 − α Stima L’intervallo [g1 (y), g2 (y)] si dice intervallo di confidenza al livello di fiducia 1 − α Stima Normale con media ignota e varianza nota (continua) Fissiamo 1 − α = 0.95 e definiamo p (n)(Ȳ − θ) T (Y, θ) = ∼ N(0, 1). σ Quindi 1 − α = P(−z1−α/2 ≤ T (Y, θ) ≤ z1−α/2 ) σ σ = P(Ȳ − √ z1−α/2 ≤ θ ≤ Ȳ + √ z1−α/2 ) n n σ σ con g1 (Y) = Ȳ − √ z1−α/2 e g2 (Y) = Ȳ + √ z1−α/2 n n Stima Poiché σ g1 (y) = ȳ − √ z1−α/2 = −1.559, n σ g2 (y) = ȳ + √ z1−α/2 = 0.195 n l’intervallo di confidenza al livello di fiducia 0.95 sarà: [−1.559, 0.195] Stima Un compromesso (asintotico) Se d (θ̂ − θ0 ) → N(0, I(θ0 )−1 ) allora q q θ̂ − z1−α/2 Î(θ0 )−1 , θ̂ + z1−α/2 Î(θ0 )−1 approssima, per n elevato, un intervallo di confidenza di livello 1−α Î(θ0 ) è una stima di I(θ0 ), di solito si pone Î(θ) = I(θ̂) Stima Motivazione Sviluppo in serie di Taylor di l(θ) intorno a θ̂: 1 l(θ) = l(θ̂) + l 0 (θ̂)(θ − θ̂) + l 00 (θ̂)(θ̂ − θ)2 2 0 essendo l (θ̂) = 0 1 l(θ̂) + l 00 (θ̂)(θ̂ − θ)2 2 In un intorno di θ̂ la log-verosimiglianza si comporta come una parabola l (cα) l (θ^) 0 l (θ) Stima θ^ − z1−−α 2 ^ I (θ0) θ^ θ θ^ + z1−−α 2 ^ I (θ0) Stima N(µ, θ) (µ nota) Pn Quantità pivot: T = i=1 (Yi θ Determinazione dell’intervallo. − µ)2 ∼ χ2n 1 − α = P χ2n,α/2 ≤ T ≤ χ2n,1−α/2 ! Pn Pn 2 2 i=1 (Yi − µ) i=1 (Yi − µ) ≤θ≤ = P χ2n,1−α/2 χ2n,α/2 e quindi l’intervallo sarà # "P Pn n 2 2 (y (y − µ) − µ) i i=1 i , i=1 2 χ2n,1−α/2 χn,α/2 Stima Y ∼ N(0.05, θ), n = 10 y = [−0.2, −0.01, 0.09, −0.09, 0.13, 0, −0.05, 0.15, 0.3, 0.11]0 Pn (yi − µ)2 θ̂n = i=1 = 0.0186, n 1 − α = 0.95, χ210,0.025 = 3.247, χ210,0.975 = 20.483 intervallo: [0.0091, 0.0574] n Î(θ0 ) = I(θ̂n ) = = 14387.2313 2θ̂n2 Intervallo approssimato di livello 0.95: [0.0023, 0.035] Stima Y ∼ N(0.05, θ), n = 1000 Pn (yi − µ)2 = 0.0097, θ̂n = i=1 n 1 − α = 0.95, χ21000,0.025 = 914.257, χ21000,0.975 = 1089.531 intervallo: [0.0089, 0.0106] n Î(θ0 ) = I(θ̂n ) = = 5368976.9393 2θ̂n2 Intervallo approssimato di livello 0.95: [0.0088, 0.0105] 0.00 0.02 −0.2 −0.1 0.1 0 200 600 i 1000 0.04 (Y − µ)2 0.0 Y 0.06 0.2 0.3 Stima n=10 n=10 0 200 600 i 1000 0.00 0.02 −0.2 −0.1 0.1 0 200 600 i 1000 0.04 (Y − µ)2 0.0 Y 0.06 0.2 0.3 Stima n=1000 n=1000 0 200 600 i 1000 Stima 0 −25 log(Lnorm(θ)) n=10 0.00 0.01 0.02 0.03 0.04 0.03 0.04 0.03 0.04 θ −3.0 log(Lnorm(θ)) n=100 0.00 0.01 0.02 θ −2.0 log(Lnorm(θ)) n=1000 0.00 0.01 0.02 θ Stima 0 −7 log(Lnorm(θ)) n=10 0.005 0.010 0.015 0.020 0.025 0.030 0.035 0.040 0.030 0.035 0.040 θ −300 log(Lnorm(θ)) n=1000 0.005 0.010 0.015 0.020 0.025 θ Stima N(θ1 , θ2 ) media e varianza ignote Quantità pivot per θ1 : √ T = n(Ȳ − θ1 ) ∼ tn−1 S∗ Pn − Ȳ )2 n−1 Determinazione dell’intervallo per θ1 . con S ∗2 = i=1 (Yi 1 − α = P −tn−1,1−α/2 ≤ T ≤ tn−1,1−α/2 S∗ S∗ = P Ȳ − √ tn−1,1−α/2 ≤ θ1 ≤ Ȳ + √ tn−1,1−α/2 n n e quindi l’intervallo sarà s∗ s∗ ȳ − √ tn−1,1−α/2 , ȳ + √ tn−1,1−α/2 n n Stima N(θ1 , θ2 ) media e varianza ignote Quantità pivot per θ2 : T = (n − 1)S ∗ 2 ∼ χ2n−1 θ2 Pn − Ȳ )2 n−1 Determinazione dell’intervallo per θ2 . 1 − α = P χ2n−1,α/2 ≤ T ≤ χ2n−1,1−α/2 con S ∗2 = i=1 (Yi = P (n − 1)S ∗ 2 (n − 1)S ∗ 2 ≤ θ ≤ 2 χ2n−1,1−α/2 χ2n−1,α/2 e quindi l’intervallo sarà " # (n − 1)s ∗ 2 (n − 1)s ∗ 2 , χ2n−1,1−α/2 χ2n−1,α/2 ! Stima X ∼ N(θ1 , θ2 ), Y ∼ N(θ3 , θ4 ), θ = [θ1 , θ2 , θ3 , θ4 ]T , confronto tra varianze disponiamo di un campione di dimensione n1 dalla popolazione X e di un campione di dimensione n2 dalla popolazione Y Verosimiglianza: L(θ; x, y) ∝ n1 Y i=1 gX (xi , θ) n2 Y gY (yi , θ) j=1 ∝ L1 (θ; x)L2 (θ; y) P Pn1 n2 /2 2 2 (xi − θ1 ) j=1 (yj − θ3 ) −n /2 −n /2 = θ2 1 exp − i=1 θ4 2 exp − 2θ2 2θ4 stimatori di massima verosimiglianza: θ̂1 = X̄ , θ̂2 = SX2 , θ̂3 = Ȳ , θ̂4 = SY2 con SX2 e SY2 varianze campionarie (da X e da Y risp.) Stima Stimatore per ψ = S2 θ2 : ψ̂ = X2 θ4 SY n2 SY2 n1 SX2 e SY∗2 = (n1 − 1) (n2 − 1) Quantità pivot per ψ: Definiamo SX∗2 = SX∗2 θ2 T = ∗2 ∼ fn1 −1,n2 −1 SY θ4 Stima Determinazione dell’intervallo per ψ. SX∗2 θ2 1−α=P fn1 −1,n2 −1,α/2 ≤ S ∗2 ≤ fn1 −1,n2 −1,1−α/2 Y θ4 ∗2 SX SX∗2 θ2 1 1 ≤ ∗2 ≤ = P θ4 SY∗2 fn1 −1,n2 −1,1−α/2 SY fn1 −1,n2 −1,α/2 ∗2 SX∗2 SX θ2 = P ≤ ∗2 fn2 −1,n1 −1,1−α/2 fn −1,n1 −1,α/2 ≤ θ4 SY∗2 2 SY Stima Quindi l’intervallo sarà dato da: ∗2 sX sX∗2 fn −1,n1 −1,α/2 , ∗2 fn2 −1,n1 −1,1−α/2 sY∗2 2 sY Stima X ∼ N(θ1 , θ2 ), Y ∼ N(θ3 , θ2 ), θ = [θ1 , θ2 , θ3 ]T , confronto tra medie disponiamo di un campione di dimensione n1 dalla popolazione X e di un campione di dimensione n2 dalla popolazione Y Verosimiglianza: L(θ; x, y) ∝ n1 Y gX (xi , θ) i=1 n2 Y gY (yi , θ) j=1 ∝ L1 (θ; x)L2 (θ; y) ( Pn 1 = −(n +n )/2 θ3 1 2 exp − i=1 (xi − θ1 )2 + Pn2 j=1 (yj − θ3 )2 2θ2 stimatori di massima verosimiglianza: n1 SX2 + n2 SY2 θ̂1 = X̄ , θ̂2 = , θ̂3 = Ȳ n1 + n2 con SX2 e SY2 varianze campionarie (da X e da Y risp.) ) Stima Stimatore per ψ = θ1 − θ3 : ψ̂ = θ̂1 − θ̂3 Quantità pivot per ψ: T =r ψ̂ − ψ S ∗2 n11 + 1 n2 ∼ tn1 +n2 −2 n1 + n2 θ̂2 n1 + n2 − 2 Determinazione dell’intervallo per ψ. con S ∗2 = s " ψ̂ − S ∗2 s 1 1 1 1 + + tn1 +n2 −2,1−α/2 , ψ̂ + S ∗2 tn1 +n2 −2,1−α/ n1 n2 n1 n2 Stima Alcuni esercizi Matteo Grigoletto e Laura Ventura (1998) Statistica per le Scienze economiche. Esercizi con richiami di teoria G. Giappichelli Editore - Torino Cap. 4. Esercizi: 4.2.6; 4.2.7; 4.2.9; 4.2.10; 4.2.12; 4.2.13; 4.2.14; 4.2.18; 4.2.19; 4.2.20; 4.2.23; 4.2.26 Cap. 5. Esercizi: 5.2.2; 5.2.4; 5.2.7; 5.2.11; 5.2.12; 5.3.1