Modello di Probabilità Lineare

by user

on 06 июля 2016

Category: Documents

>> Downloads: 6

views

Report

Comments

Description

Download Modello di Probabilità Lineare

Transcript

Modello di Probabilità Lineare

Modelli Quantitativi per Microdati
Corso di Econometria 2
Margherita Fort, Università di Bologna
[email protected]
Ultimo aggiornamento: 22 Febbraio 2010
M. Fort – p. 1/22
Informazioni pratiche
La mia e-mail: [email protected]
Il mio ufficio: I piano, piazzetta Scaravilli 2
Ricevimento: merc. ore 14.30 alle 16.00 (su appuntamento)
Bibliografia:
M. Verbeek (2006) Econometria [in italiano, a cura di S. Pastorello]
Cappuccio e Orsi (2005), Econometria [CO(2005)]
Altre info e materiale: Su UniversiBO al sito del corso;
pagina docente
Esame (I sessione): scritto (60%) [parziale 8 aprile]
presentazione lavori di gruppo (40%) [8 aprile]
assegnazione lavori di gruppo [24 marzo]
M. Fort – p. 2/22
Altre informazioni pratiche: UniversiBO
UniversiBO è ideato dagli studenti dell’Università di
Bologna per le facoltà di Ingegneria, Economia, Scienze
Motorie. Ci sono pagine dedicate a ciascun corso dove è
possibile scaricare materiale (lucidi, dispense, appelli
d’esame). Per accedere al servizio è necessario
registrarsi al link
https : //www.universibo.unibo.it/index.php?do = RegStudente
Per attivare un account sono necessarie 24 ore . . .
registratevi al più presto! Per qualsiasi problema o altre
spiegazioni contattate lo staff di UniversiBO all’indirizzo
[email protected].
M. Fort – p. 3/22
Altre informazioni pratiche: esercitazioni
Il corso prevede 10 lezioni di 3 ore.
4 lezioni su 10 si svolgeranno in laboratorio informatico
per sviluppare insieme applicazioni dei modelli visti a
lezione (stima, verifica di ipotesi, interpretazione dei
risultati, previsione).
Software: GRETL. Da scaricare gratuitamente da
http : //gretl.sourceforge.net/win32/index_it.html
GRETL si può usare sia con menu a finestra sia scrivendo dei brevi
programmi (script). Noi useremo script. Almeno un esempio di
programma di GRETL per stima e analisi dei risultati dei modelli
presentati a lezione viene fornito e spiegato in laboratorio
M. Fort – p. 4/22
Altre informazioni pratiche: prove d’esame
1/2
Parziale: prova scritta con domande a risposta
multipla e aperte+ lavoro di gruppo
Appelli di giugno-luglio: si mantiene il voto della
prova di gruppo + esame scritto in laboratorio con
domande a scelta multipla e aperte ed esercizio
pratico utilizzando il software GRETL
Appelli di settembre e gennaio/febbraio: esame
scritto in laboratorio con domande a scelta multipla
e aperte ed esercizio pratico utilizzando GRETL
Durante l’ultima lezione, faremo una simulazione di prova d’esame
(e correzione). Il voto di questa parte dell’esame di Econometria
vale fino alla sessione di gennaio-febbraio 2011.
M. Fort – p. 5/22
Altre informazioni pratiche: prove d’esame
2/2
Esame scritto: dura 60 minuti, in ogni appello
Domande esame scritto: di natura teorica o di
carattere applicato, a scelta multipla o domande
aperte; ciascuna domanda può valere da 1 a 10 punti
Per l’esame parziale, le prove non richiederanno
l’uso di GRETL, ma potranno richiedere
l’interpretazione dell’output di GRETL
Per tutte le prove finali, le prove scritte
richiederanno l’uso di GRETL, ossia di scrivere
un breve programma (script) E interpretare i
risultati delle elaborazioni
M. Fort – p. 6/22
Altre informazioni: lavoro di gruppo
Consiste nella soluzione di un esercizio pratico seguendo
una traccia, i.e. rispondendo a circa 6 domande
Prevede l’analisi di dati tramite GRETL
Include la preparazione di una relazione da consegnare 2 giorni
prima della discussione (6 aprile)
La relazione deve essere di non meno di 5 e non più di 10
pagine meno di 5 o più di 10 pagine non verranno considerate
La discussione dura 45 minuti per gruppo: 35 minuti di
presentazione + 10 minuti di domande
Discussione: preparare circa 20 lucidi; organizzarsi in modo
che ciascun membro del gruppo possa esporre una parte di
esercizio
M. Fort – p. 7/22
Sui lavoro di gruppo e valutazione prova
parziale
Entro il 9 Marzo comunicare chi intende fare i lavori di gruppo
E’ possibile proporre dei gruppi di lavoro
Numero minimo di persone per gruppo: 3
Numero massimo di persone per gruppo: 4
Tempo per il lavoro: 2 circa settimane (senza lezioni)
Esempio di valutazione del parziale
Somma dei punti del lavoro di gruppo e dello scritto come segue
• se il gruppo ottiene una valutazione di 30, il candidato prende 12
punti (40% di 30)
• se la valutazione dello scritto è 25, il candidato prende 15 punti
(60% di 25)
• valutazione finale: 12+15=27
M. Fort – p. 8/22
Introduzione ed Esempi
Inferenza: metodo dei momenti e metodo di
massima verosimiglianza
Applicazione dei metodi : inferenza nel modello di
regressione lineare semplice
Modelli per variabile dipendente binaria
M. Fort – p. 9/22
Altre informazioni: econometria & . . .
In questo corso studieremo
econometria applicata a microdati
L’econometria è -definizione adatta da CO(2005)l’applicazione di modelli statistici condizionali a dati
economici per descrivere sinteticamente e quantificare
relazioni tra variabili economiche suggerite dalla teoria,
per fornire supporto nella scelta tra teorie alternative,
per formulare previsioni.
M. Fort – p. 10/22
. . . microdati
Si usa il termine microdati per riferirsi a dati sulle
scelte e/o azioni di agenti (individui, imprese, . . .)
Possono essere di fonte campionaria o censuaria.
Possono essere riferiti ad un solo periodo nel tempo
(in tal caso si parla di dati sezionali) o a diversi
periodi di tempo. Se la stessa unità campionaria
viene osservata ripetutamente si parla di dati
longitudinali.
M. Fort – p. 11/22
A quali domande possiamo rispondere con i modelli che
studieremo? Esempi
Quali sono le caratteristiche che influenzano in modo signifi-cativo le scelta di un individuo (ad es. scelta tra marche)?
Le azioni di marketing (ad es. promozioni,fidelizzazione,
pubblicità) intraprese da un’azienda sono efficaci?
Quale è l’effetto di un aumento della probabilità di arresto e
della probabilità di finire in carcere sui tassi di criminalità?
paper G. Mastrobuoni et al. (2007)
Cosa determina la partecipazione al lavoro ed il livello
di salario per chi partecipa? (altri esempi: spesa per
alcolici/sigarette, relazioni extra-coniugali, . . .)
M. Fort – p. 12/22
Calendario
informazioni indicative
I settimana: lezione in aula (verosimiglianza, modelli per scelta
binaria)
II settimana: lezione in aula e in laboratorio (modelli per scelta
binaria/ multipla)
III settimana: lezione in aula e in laboratorio (modelli per scelta
multipla, per variabile dipendente limitata)
IV settimana: lezione in aula e in laboratorio (modelli per
variabile dipendente limitata, lineari per dati longitudinali)
V settimana: lezione in aula e in laboratorio (modelli lineari per
dati longitudinali)
M. Fort – p. 13/22
Questioni ‘statistiche’ legate all’analisi di dati su scelte
Gli individui scelgono tra un numero limitato di
alternative, ordinate e non
I dati sulle scelte spesso non si possono misurare su
una scala continua o
si possono misurare su una scala continua ma
l’insieme di valori che possono assumere è ‘limitato’
(ad es. si osservano la spesa in sigarette,
se è positiva)
In questi casi, vedremo che il modello di regressione
lineare non è, tipicamente, lo strumento adatto per
l’analisi di interesse ma è un utile riferimento, punto di
punto di partenza.
M. Fort – p. 14/22
Notazione
(y, x) variabili casuali osservate nella popolazione
di interesse o in campioni casuali dalla stessa
{(yi , xi ), i = 1, . . . , n} (yi , xi ) indica il campione
casuale di numerosità n.
le realizzazioni (yi , xi ) sono i.i.d.
i modelli sono caratterizzati da assunzioni sul
processo generatore dei dati che si applicano alla
popolazione ed a campioni casuali dalla popolazione
M. Fort – p. 15/22
Perchè un modello di regressione lineare come prima
approssimazione della relazione tra Y e X 1/2
Si vuole descrivere sinteticamente la relazione non
deterministica tra Y e X: un indicatore sintetico è
il parametro di popolazione E[Y|X], la media
condizionale
Proprietà della media condizionale:
(1) E[Y|X] = argminm(X) E[(Y − m(X))2 ]
(2) Y = E[Y|X] + ε;
(3) Var[Y] = Var[E[Y|X]] + E[Var[Y|X]]
La regressione lineare è Y = β0 + β1 X + ε, dove
β = argminb E[(Y − b0 − b1 X)2 ], β = [β0 β1 ]′
M. Fort – p. 16/22
Perchè un modello di regressione lineare come prima
approssimazione della relazione tra Y e T 2/2
1. Se la media condizionale è lineare in X, la
regressione lineare è la media condizionale
2. La funzione X′ β fornisce la migliore
approssimazione lineare di E[Y|X]
(enfasi su parametro della distribuzione condizionata)
3. La funzione X′ β è il miglior predittore lineare di
Y|X
(enfasi su previsione di valore “individuale”)
(2) & (3) ⇒ β è lo stesso se scelgo come variabile
dipendente Y o E[Y|X]
M. Fort – p. 17/22
Interpretazione dei parametri
nel modello di regressione semplice, Y = β0 + β1 X + ε,
q
Var[Y]
β1 = Cov[Y,X]
=
Corr[Y,
X]
, Var[X] 6= 0,
Var[X]
Var[X]
Corr[Y, X] correlazione semplice tra Y e X
nel modello di regressione multipla,
Y = βe0 + βe1 X + β2 Z + ε,
βe1 ∝ Corr[Y, X|Z],
Corr[Y, X|Z] correlazione parziale tra Y e X, dato Z
Se le ipotesi del modello di regressione sono verificate, β1
rappresenta la variazione in Y indotta/causata da una variazione
unitaria di X. Cosa rappresenta βe1 ? Quando βe1 coincide con β1 ?
Che relazione c’è tra β1 e βe1 ?
⊲
M. Fort – p. 18/22
Ipotesi del modello di regressione lineare (MRL) &
violazioni
Ipotesi
1. Linearità: E[Yi |Xi ] = β0 + β1 Xi , ∀i
⊳⊲
(che implicazioni su effetto di X su Y?)
2. Omoschedasticità: Var[Yi |X] = σ 2 , ∀i
3. Incorrelazione: Cov[Yi , Yj |X] = 0, ∀i, j
Violazioni di queste ipotesi
1. Errata specificazione della forma funzionale
(che implicazioni su interpretazione di β1 ?)
2. Eteroschedasticità
3. Correlazione seriale
(quando ha senso esplorare questa ipotesi?)
M. Fort – p. 19/22
Formulazione alternativa del MRL
parte sistematica
Yi =
z }| {
E[Yi |X]
= β0 + β1 Xi +
| {z }
parte prevedibile
parte casuale
+
z}|{
εi
εi
|{z}
parte imprevedibile
Ipotesi
⊳⊲
1. Esogeneità stretta E[εi |X] = 0 da cui E[εi ] = 0, ∀i
2. Omoschedasticità E[ε2i |X] = σ 2 da cui E[ε2i ] = σ 2 , ∀i
3. Incorrelazione seriale E[εi εj |X] = 0, ∀i, j
(1)
z}|{
Cov[εX] = E[εX] + E[ε]E[X] = EX [E[ε|X]X] = 0
M. Fort – p. 20/22
Stima del MRL: Minimi Quadrati Ordinari
1/3
premessa: esistono diversi modi di stimare MRL . . .
(1)
z}|{
b
b
(β0 , β1 ) = argminβ0 ,β1 Var[ε] = argminb0 ,b1 E[ε2 ]
(βb0 , βb1 ) = argminβ0 ,β1 E[(Y − β0 − β1 X)2 ]
! dati su popolazione vs dati su campione dalla popolazione !
somma dei quadrati dei residui, SQ
(βb0 , βb1 ) = argminβ0 ,β1 n1
}|
{
z
n
X
(yi − β0 − β1 xi )2
i=1
⊳⊲
M. Fort – p. 21/22
Minimi Quadrati Ordinari (MQO)
2/3
somma dei quadrati dei residui, SQ
(βb0 , βb1 ) = argminβ0 ,β1 n1
∂SQ
∂β0
∂SQ
∂β1
i=1
Pn
Pn
i=1 yi = β0 n + β1
i=1 xi
Pn
Pn
Pn 2
i=1 xi yi = β0
i=1 xi + β1
i=1 xi
=0
=0
βb0 =
βb1 =
Pn
i=1
n
}|
{
z
n
X
(yi − β0 − β1 xi )2
yi
− β1
Pn
i=1
n
xi
= ȳ − β1 x̄
Pn
i=1 yi )
x
)(
x
y
−(
i=1 i P n
i=1 i i
n x
Pn
Pn
i
2
)
( i=1 xi )−( i=1 xi )( i=1
n
Pn
Pn
=
\
cov(y,x)
,
\
var(x)
\ 6= 0
var(x)
M. Fort – p. 22/22
Proprietà dello stimatore MQO
3/3
Cosa è uno stimatore?
Quali son le proprietà desiderabili per uno stimatore?
Non distorsione (in media “indovina”)
E[βb0 ] = β0 , E[βb1 ] = β1
Efficienza (minima varianza) teorema di
Gauss-Markov
Consistenza (quando il campione è grande,
“indovina” quasi sempre: la varianza diventa
piccolissima e la distribuzione dello stimatore si
concentra attorno alla media)
plimn→∞ βb1 = β1
plimn→∞ βb0 = β0
⊳⊲
M. Fort – p. 23/22
Scelta del consumatore: mezzo di trasporto
Medie e deviazioni standard
Tempo
Mezzo di attesa
Treno
Costo
Reddito
di viaggio
totale
veicolo
familiare
ttme
invt
gc
invc
hinc
35.7
608.3
130.2
51.3
34.5
12.3
251.8
58.2
27.0
19.7
Proporzione di individui che utilizza il treno nel campione: 30%.
Yi =modei = 1(individuo i sceglie il treno)
yi = α0 + α1 ttmei + α2 gci + α3 invci + α4 invti
+α5 hinci + ǫi
M. Fort – p. 24/22
Analisi delle determinanti della scelta di prender il
treno: modello di probabilità lineare
regress mode ttme gc invc invt hinc
Source |
SS
df
Number of obs =
210
---------+-----------F(5, 204) =
18.61
Model | 13.8
5
Prob > F = 0.0000
Residual | 30.3 204
R-squared = 0.3132
---------+-------------- Adj R-squared = 0.2964
Total | 44.1 209
Root MSE = .38531
----------------------------------------------------mode | Coef. Std.Err. t
P>|t| [95% Conf.Int.]
------+---------------------------------------------ttme | -.014
.002
-5.87
0.0 -.019 -.009
invt | -.001 .0003
-1.55
0.1 -.001
.0001
(...)
-----------------------------------------------------
M. Fort – p. 25/22
Ipotesi del modello di regressione lineare multipla
(MRLM)
Ipotesi
1. Linearità: E[Yi |X] = Xβ, ∀i
2. Omoschedasticità: Var[Yi |X] = σ 2 , ∀i
3. Incorrelazione: Cov[Yi , Yj |X] = 0, ∀i, j
4. Assenza di collinearità esatta: non esistono relazioni
lineari esatte tra i regressori inclusi (variabili indicatrici
(dummies); potenze di variabili indicatrici; discussione)
5. Normalità : Yi |X ∼ N(Xβ; σ 2 )
M. Fort – p. 26/22
Un Metodo di Stima Diverso dai Minimi Quadrati: il
Metodo della Massima Verosimiglianza (MV)
1/5
Spesso è possibile ipotizzare (o si hanno informazioni su)
la distribuzione dei dati, tipo
yi |x ∼ p(yi |x; θ)
dove θ è un parametro ignoto e p(·|·; θ) è la funzione di
densità (se y è una v.c. continua) o di probabilità
(se y è discreta), i indica un individuo nel campione.
Si assume solitamente che le yi siano indipendenti, date
le esplicative, ed identicamente distribuite (i.i.d.)
secondo la legge p(yi |x; θ).
M. Fort – p. 27/22
Un Metodo di Stima Diverso dai Minimi Quadrati: il
Metodo della MV
2/5
La densità congiunta delle osservazioni si può scrivere
come
n
Y
p(y; x, θ) = p(y1 , . . . , yn ; x, θ) =
p(yi |x; θ)
i=1
ed è una funzione delle osservazioni dati i parametri.
La funzione di verosimiglianza indicata dall’espressione
n
Y
L(θ) = L(θ; y) =
p(yi |xi ; θ)
i=1
ed è una funzione dei parametri date le osservazioni.
M. Fort – p. 28/22
Un Metodo di Stima Diverso dai Minimi Quadrati: il
Metodo della MV
3/5
La funzione di log-verosimiglianza è indicata da
n
X
l(θ) = log(L(θ)) = log(L(θ; y)) =
log(p(yi |xi ; θ))
i=1
ed è una funzione dei parametri date le osservazioni.
La stima di MV del parametro ignoto θ si ottiene
massimizzando la verosimiglianza L(θ) o la logverosimiglianza log(L(θ)). L’idea è quella di
scegliere il valore di θ per cui è massima la probabilità
di osservare il campione che effettivamente si osserva.
M. Fort – p. 29/22
Un Metodo di Stima Diverso dai Minimi Quadrati: il
Metodo della MV
4/5
θbMV : l(θd
MV ) = max l(θ) = max log(L(θ))
θbMV : max
n
X
i=1
log(p(yi |xi ; θ))
Condizioni per un punto di massimo di una funzione:
∂l(θ)
∂θ
∂ 2 l(θ)
∂θ∂θ′
= 0,
< 0,
∂l(θ)
∂θ
∂ 2 l(θ)
∂θ∂θ′
≡ s(θ),
s(θ) ≡ gradiente [score funct
funzione punteggio]
≡ H(θ), H(θ) ≡ matrice hessiana
M. Fort – p. 30/22
Un Metodo di Stima Diverso dai Minimi Quadrati: il
Metodo della MV
5/5
Le condizioni del primo ordine (C.P.O.)
∂l(θ)
∂θ
∂l(θ)
∂θ
= 0,
≡ s(θ) non sempre ammettono una soluzione
esplicita
E’ ignota l’espressione per lo stimatore di MV θMV e
la stima dei parametri è calcolata utilizzando
strategie di ottimizzazione numerica (Newton-Raphson)
Idea: aggiornare una stima iniziale del parametro fino a che la
differenza tra le corrispondenti l(θ̃) sia “piccola” (< ε).
La sequenza di iterazioni di questo processo converge ad un
massimo locale, non necessariamente globale. E’ importante partire
da una stima vicina al vero valore del parametro.
M. Fort – p. 31/22
Stima di un MRLM con il metodo della MV
1/4
L’operazione di inferenza sul valore dei parametri β e σ 2 è vista
come inferenza non più su una caratteristica della popolazione
indagata ma sul valore dei parametri che individuano una specifica
distribuzione di Y|X nella famiglia delle distribuzioni normali.
Fissato il campione {yi , xi }i=1,...,n la funzione di densità congiunta
del campione F(y1 , . . . , yN , X; β, σ 2 ) è una funzione dei parametri
che esprime la “probabilità” che a priori esisteva di osservare il
valore realmente osservato. Essa fornisce un grado di accordo tra
il valore dei parameri e l’osservazione empirica.
M. Fort – p. 32/22
Stima di un MRLM con il metodo della Massima
Verosimiglianza (MV)
2/4
2
L(β, σ |y1 , y2 , . . . , yi , . . . , yn , X) =
Criterio “ragionevole”
Qn
2
φ(y
|X
;
β,
σ
)
i
i
i=1
b σb2 ) =argmaxβ,σ2 L(β, σ 2 |y1 , y2 , . . . , yi , . . . , yn , X)
(β,
⇐⇒
b σb2 ) =argmax 2 log(L(β, σ 2 |y1 , y2 , . . . , yi , . . . , yn , X))
(β,
β,σ
l(β, σ 2 ) ≡ log(L(β, σ 2 |y1 , y2 , . . . , yi , . . . , yn , X))
(sotto ipotesi di normalità)
=
− n2 log(2π)
−
n
1
2
ln(σ
)−
2
2σ 2
Pn
′
2
(y
−
β
x
)
i
i=1 i
M. Fort – p. 33/22
Stima di un MRLM con il metodo della Massima
Verosimiglianza (MV)
3/4
Condizioni del primo ordine per punto di massimo
per logverosimiglianza sotto ipotesi di normalità
Pn
∂l(β,σ 2 )
1
′
=
(y
−
β
xi )xi = 0
2
i
i=1
∂β
σ
∂l(β,σ 2 )
∂σ 2
=
− 2σn 2
+
1
2σ 4
Pn
′
2
(y
−
β
x
)
=0
i
i=1 i
(valgono condizioni su derivate seconde per punto di massimo)
βbMV = βbMQO
Pn
Pn
′
−1
= ( i=1 Xi Xi ) ( i=1 X′i yi )
Pn
1
b
b
2
2
σ MV 6= σ MQO = n i=1 (yi − β ′ xi )2
(discussione)
M. Fort – p. 34/22
Alcune proprietà dello Stimatore di Massima
Verosimiglianza
4/4
θd
M V è uno stimatore consistente per θ
a
1
d
)
θM V ∼ N(θ, i(θ)
θd
M V raggiunge il limite di Rao-Cramer, è
asintoticamente efficiente
I(θ) = Eθ0 [J(θ)] =
∂ ∂l(θ)
E[− ∂θ ( ∂θ )]
i(θ) informazione attesa di Fisher; j(θ) inf. osservata di Fisher
Le proprietà elencate valgono qualunque sia la legge di yi sotto
campionamento casuale semplice, sotto condizioni di regolarità
(differenziabilità della verosimiglianza; condizioni sul supporto dei
parametri ignoti).
M. Fort – p. 35/22
Abbiamo (ri-)visto . . .
Modello di regressione lineare: def., stima MQO
Un diverso approccio alla stima: massima
verosimiglianza
La definizione dello stimatore di massima
verosimiglianza
Le proprietà dello stimatore di massima
verosimiglianza
Vediam come e perchè è utile per l’analisi del nostro caso . . .
M. Fort – p. 36/22
Analisi delle determinanti della scelta di prender il
treno: modello di probabilità lineare
Probabilità di viaggiar con treno|tempo attesa
−.5
0
.5
1
Scelta mezzo di trasporto e tempo di attesa in stazione
(Associazione)
0
25
50
Tempo di attesa (minuti)
y_{i}=1(i sceglie treno)
75
100
E=[y_{i}|t]=Pr(Treno|t)
Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani.
Interpretazione: se il tempo di attesa fosse 25 minuti, circa il 45% degli
individui sceglierebbe il treno; se il tempo di attesa fosse 75 minuti, ???
M. Fort – p. 37/22
Osservazioni
Esplicative 0/1 in MRL:
• non pongono particolari problemi
(trappola delle dummy)
• possono essere utili per rendere un modello
molto più flessibile
(modelli con intercetta variabile o con
effetti marginali non costanti)
Variabile dipendente 0/1 in MRL: il modello non è,
in generale, adatto a descriverne l’andamento
(perchè?)
M. Fort – p. 38/22
Se non fosse per la normalità . . .
L’ipotesi
5. Normalità : Yi |X ∼ N(Xβ; σ 2 )
non è accettabile se yi può assumere solo i valori 0 e 1.
Un’ipotesi ragionevole è invece
yi ∼ B(1, π) ≡ Be(π)
Prob[yi = 1] = π
Prob[yi = 0] = 1 − π
π ∈ (0, 1)
E[yi ] = Prob[yi = 1] = π
Var[yi ] = E[yi2 ] − E[yi ]2 = π − π 2 = π(1 − π)
Modello di probabilità lineare ⊲
M. Fort – p. 39/22
Modello di probabilità lineare
1/2
I dati su Y: yi = 1 se i prende il treno; yi = 0 altrimenti
Formulazione del modello di probabilità lineare
yi = α0 + α1 ttmei+ǫi
E[yi |ttme] ≡ Prob[yi = 1|ttme] = α0 + α1 ttmei
e si ha
ǫi = 1 − α0 − α1 ttmei se yi = 1
ǫi = −α0 − α1 ttmei
se yi = 0
Calcolare la varianza degli errori!
M. Fort – p. 40/22
Modello di probabilità lineare
2/2
E[yi |ttme] = Prob[yi = 1|ttme] = α0 + α1 ttmei = πi
ǫi = yi − E[yi |ttme]
ǫi = 1 − α0 − α1 ttmei se yi = 1
ǫi = −α0 − α1 ttmei
se yi = 0
yi |ttme ∼ Be(α0 + α1 ttmei) v.c. bernoulli, binomiale ⊳
Var[ǫ] = E[ǫ2 ] − E[ǫ]2 = (−πi )2 (1 − πi ) + (1 − πi )2 πi
Var[ǫi |ttme] = Var[yi |ttme] = πi (1 − πi ),
πi ≡ α0 + α1 ttmei
(discussione)
M. Fort – p. 41/22
Ma si può fare meglio . . .
yi |ttme ∼ Be(α0 + α1 ttmei), πi (α) ≡ α0 + α1 ttmei
E[yi |ttme] = Prob[yi = 1|ttme] = α0 + α1 ttmei
Var[yi |ttme] = (α0 + α1 ttmei )(1 − α0 + α1 ttmei )
L(α|y, X) =
Q
i:yi =1 πi (α)
Q
i:yi =0 (1
− πi (α))
Per garantire che πi ∈ (0, 1), si considera
πi (α) ≡ F(α0 + α1 ttmei )
dove F(·) è una funzione reale che assume valori
sull’intervallo (0,1).
M. Fort – p. 42/22
Scelte di F(·) (“statistica”) e . . .
yi |ttme ∼ Be(πi (α)), πi (α) ≡ F(α0 + α1 ttmei )
F(·) è la funzione di ripartizione logistica =⇒ modello logit
anche detto
=⇒ modello di regressione logistica
F(·) è la funzione di ripartizione normale =⇒ modello probit
Si noti che
Modello di probabilità lineare:
Modello logit o probit:
∂E[yi |ttme]
∂ttme
∂E[yi |ttme]
∂ttme = f(α0
f(x) ≡ ∂F(x)
∂x
= α1
+ α1 ttmei)α1 ,
M. Fort – p. 43/22
Probabilità di viaggiar con mezzo|tempo attesa
0
.25
.5
.75
1
Analisi delle determinanti della scelta di prender il
treno: modello logit
Scelta mezzo di trasporto e tempo di attesa in stazione
(Associazione)
0
25
50
Tempo di attesa (minuti)
75
100
Pr(Treno|t)
Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani.
Interpretazione: se il tempo di attesa fosse 25 minuti, circa il 47% degli
individui sceglierebbe il treno; se il tempo di attesa fosse 75 minuti, solo
circa il 2%
M. Fort – p. 44/22
Probabilità di viaggiar con mezzo|tempo attesa
0
.25
.5
.75
1
Analisi delle determinanti della scelta di prender il
treno: modello probit
Scelta mezzo di trasporto e tempo di attesa in stazione
(Associazione)
0
25
50
Tempo di attesa (minuti)
75
100
Pr(Treno|t)
Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani.
Interpretazione: se il tempo di attesa fosse 25 minuti, circa il 44% degli
individui sceglierebbe il treno; se il tempo di attesa fosse 75 minuti, solo
circa il 3%
M. Fort – p. 45/22
. . . formulazione latente dei modelli per variabili
dipendenti binarie (“economia”) 1/3
McFadden (1974, 1981)
yi variabile osservata che rappresenta la scelta
dell’individuo i
Esaminiamo il problema della scelta ottimale
per l’individuo i tra alternative j: egli sceglierà
la possibilità che fornisce la massima utilità (indiretta)
maxα Uij ,
Uij = x′i θj + ηij
in Uij c’è una componente che dipende da caratteristiche
dell’individuo e/o o delle alternative ed una
componente casuale.
M. Fort – p. 46/22
. . . formulazione latente dei modelli per variabili
dipendenti binarie (“economia”) 2/3
maxα Uij ,
Uij =
′
xi θj
+ ηij
Data una coppia di alternative (ad esempio “treno”-scelta
1- versus “non-treno”-scelta 0-), l’individuo sceglierà
sulla base della differenza di utilità, ossia sulla base di
α
ǫ
z }| { z }| {
yi∗ ≡ Ui1 − Ui0 = x′i (θ1 − θ0 ) + (ηi1 − ηi0 )
yi∗ ≡ Ui1 − Ui0 = x′i α + ǫi
yi∗ non è osservata, è latente.
Si osserva yi = 1 sse yi∗ > 0, yi = 0 sse yi∗ ≤ 0.
M. Fort – p. 47/22
. . . formulazione latente dei modelli per variabili
dipendenti binarie (“economia”) 3/3
yi∗ ≡ Ui1 − Ui0 = x′i α + ǫi
Si osserva yi = 1 sse yi∗ > 0, yi = 0 sse yi∗ ≤ 0.
E[yi = 1|xi ] = Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] =
Prob[x′i α + ǫi > 0|xi ] = Prob[ǫi > −x′i α|xi ]
M. Fort – p. 48/22
Qualche dettaglio importante . . .
Collego le quantità osservate yi , xi ai parametri ignoti α
E[yi = 1|xi ] = Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] =
Prob[x′i α + ǫi > 0|xi ] = Prob[ǫi > −x′i α|xi ]
Sia Fǫ (e) ≡ Prob[ǫ ≤ e] funz. di ripartizione di ǫi ∀i, calcolata nel
punto e, allora
Prob[ǫi > −x′i α|xi ] = 1 − Fǫ|xi (−x′i α)
assumendo ǫ abbia densità simmetrica a media nulla si ha
Prob[yi = 1|xi ] = 1 − Fǫ|xi (−x′i α) = Fǫ|xi (x′i α)
Avanti ⊲
M. Fort – p. 49/22
Un esempio di densità simmetrica a media nulla . . .
Distribuzione di t=(beta1−E[beta1])/se(beta1)
0
20
40
Densità
60
80
100
beta1, stimatore MQO di beta1
−4
−2
0
Statistica t associata a beta1
2
4
Indietro ⊳
M. Fort – p. 50/22
Efficacia di un’azione di marketing: caso
scelta della marca di maionese
Uij = x′i θj + ηij
maxα Uij ,
La coppia di alternative è calve -scelta 1- versus
kraft (“non-calve”) -scelta 0-).
L’individuo sceglierà sulla base di
α
ǫ
z }| { z }| {
yi∗ ≡ Ui1 − Ui0 = x′i (θ1 − θ0 ) + (ηi1 − ηi0 )
∗
yi
≡ Ui1 − Ui0 =
′
xi α
+ ǫi
Si osserva che l’individuo acquista calve (yi = 1) sse
yi∗ > 0, che acquista kraft (yi = 0) sse yi∗ ≤ 0.
M. Fort – p. 51/22
Efficacia di un’azione di marketing: caso
scelta della marca di maionese
1
Acquisti di Maionese di Marca Calve’ e Kraft
.2
Proporzione Acquisti
.4
.6
.8
0.89
0
0.11
Calve’
Kraft
Dati (statunitensi) su acquisti ripetuti 300 famiglie; 2,768 acquisti.
M. Fort – p. 52/22
Efficacia di un’azione di marketing: caso
scelta della marca di maionese
Acquisti di Maionese di Marca Calve’(Ca) ed Kraft(Kr)
1
per tipo di promozione
0.96
Proporzione Acquisti
.2
.4
.6
.8
0.95
0.93
0.88
0
0.12
No Promo
0.05
Ca Disp
Calve’
0.04
Ca Feat
0.07
Ca D&F
Kraft
Dati (statunitensi) su acquisti ripetuti 300 famiglie; 2,768 acquisti.
M. Fort – p. 53/22
Efficacia di un’azione di marketing: caso
scelta della marca di maionese
Acquisti di Maionese di Marca Calve’(Ca) ed Kraft(Kr)
1
per tipo di promozione
Proporzione Acquisti
.2
.4
.6
.8
1.00
0.87
0.56
0.54
0.46
0.44
0
0.13
Kr Disp
Kr Feat
Calve’
Kr D&F
CaKr 0.00
Feat
Kraft
Dati (statunitensi) su acquisti ripetuti 300 famiglie; 2,768 acquisti.
M. Fort – p. 54/22
Modello logit
Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] = 1 − Fǫ|xi (−x′i α)
ǫi ∼ λ,
λ ≡ λ(ǫ) =
exp(−ǫ)
[1+exp(−ǫ)]2
Prob[yi = 1|xi ] =
exp(x′i α)
1+exp(x′i α)
Prob[yi = 0|xi ] =
1
1+exp(x′i α)
Prob[yi =1|xi ]
Prob[yi =0|xi ]
= Λ(x′i α), F(·) ≡ Λ(·)
= exp(x′i α)
i =1|xi ]
′
log( Prob[y
)
=
x
iα
Prob[yi =0|xi ]
M. Fort – p. 55/22
Modello probit
Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] = 1 − Fǫ|xi (−x′i α)
1
1
ǫi ∼ φ ǫ ,
φǫ ≡ φ(ǫ) = σ√2π exp − 2σ2 (ǫi )2
Prob[yi = 1|xi ] =
x′i α
Φ( σ ),
F(·) ≡ Φ(·) distribuzione normale standard
problemi di identificazione
Convenzionalmente, si pone σ 2 = 1.
M. Fort – p. 56/22
Modelli Probit e Logit: Scala delle variabili ed
Identificazione dei Parametri
1/3
Anche nel caso del modello logit, la funzione F(·) è
standardizzata e la varianza del termine di errore ǫ
non è oggetto di inferenza (stima, verifica d’ipotesi)
In entrambi i modelli, i dati osservati non sono
informativi sulla varianza del termine d’errore ǫ
che risulta non identificata e deve essere perciò
fissata a priori
La varianza di ǫ in un modello logit è
fissata a
π2
3
(circa 3.3); in un modello probit è 1
M. Fort – p. 57/22
Modelli Probit e Logit: Scala delle variabili ed
Identificazione dei Parametri
2/3
I modelli logit e probit considerano il segno della
variabile latente yi∗ . Sia z∗i = k yi∗ , k > 0 la nuova
variabile latente sottostante il modello che stimiamo.
Le variabili yi∗ e z∗i hanno sempre lo stesso segno
e generano gli stessi valori osservati yi , quindi
lo stesso modello (solo yi aiuta a identificare i
parametri del modello)
Per eliminare questa ambiguità è necessario fissare
la varianza degli errori.
M. Fort – p. 58/22
Modelli Probit e Logit: Scala delle variabili ed
Identificazione dei Parametri
3/3
yi∗ ≡ Ui1 − Ui0 = x′i α + ǫi
νi
z}|{
z∗i = k yi∗ ≡ k(Ui1 − Ui0 ) = k x′i α+ k ǫi
Var[ν] ≡ Var[k ǫ] = k2 Var[ǫ]
M. Fort – p. 59/22
Efficacia di un’azione di marketing, caso scelta della marca di
maionese: Modello di Probabilità Lineare (MPL) 1/2
L’individuo acquista calve (cal) (yi = 1) oppure kraft (kra)
(yi = 0).
pcal
)+β2 calD+
Prob[Yi = 1|X] = E[Yi |X] = x′ β = β0 + β1 log( pkra
β3 kraD + β4 calF + β5 kraF + β6 calFD + β7 kraFD
): logaritmo del rapporto dei prezzi di Calvè e Kraft
log( pcal
pkra
Le variabili sottostanti valgono 0 se la condizione non è verificata.
calD: vale 1 se Calvè è in promozione 1 (display)
calF: vale 1 se Calvè è in promozione 2 (feature)
calFD: vale 1 se Calvè è in promozione 1 e 2 (display e feature)
[analoga definizione per kraD, kraF e kraFD]
M. Fort – p. 60/22
Efficacia di un’azione di marketing, caso scelta della
marca di maionese: MPL
2/2
Dato il modello
′
Prob[Yi = 1|X] = E[Yi |X] = x β = β0 +
pcal
β1 log( pkra )+β2
calD+ β3 kraD + β4 calF + β5 kraF + β6 calFD+ β7 kraFD
Qual è l’effetto delle promozioni display & feature su
Kraft sulla proporzione di clienti che acquista Calvè?
M. Fort – p. 61/22
Efficacia di un’azione di marketing, caso scelta della
marca di maionese: MPL
2/2
Dato il modello
pcal
Prob[Yi = 1|X] = E[Yi |X] = x′ β = β0 + β1 log( pkra
)+β2
calD+ β3 kraD + β4 calF + β5 kraF + β6 calFD+ β7 kraFD
Qual è l’effetto delle promozioni display & feature su
Kraft sulla proporzione di clienti che acquista Calvè ?
Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0]
M. Fort – p. 62/22
Efficacia di un’azione di marketing, caso scelta della
marca di maionese: MPL
2/2
Dato il modello
pcal
Prob[Yi = 1|X] = E[Yi |X] = x′ β = β0 + β1 log( pkra
)+β2
calD+ β3 kraD + β4 calF + β5 kraF + β6 calFD+ β7 kraFD
Qual è l’effetto delle promozioni display & feature su
Kraft sulla proporzione di clienti che acquista Calvè ?
Prob[Yi = 1|X/ ,hunFD= 1] − Prob[Yi = 1|X/ ,hunFD= 0]
= β7
M. Fort – p. 63/22
Efficacia di un’azione di marketing, caso scelta della
marca di maionese
Dato il modello
Prob[Yi = 1|X] = E[Yi |X] = F(x′ α)
x′ α = α0 + α1 log( pcal
pkra ) + α2 calD + α3 kraD + α4 calF + α5 kraF+
α6 calFD + α7 kraFD
Qual è l’effetto delle promozioni display & feature su
Kraft sulla proporzione di clienti che acquista Calvè ?
Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0]
= F(x′kraFD=1 α) − F(x′kraFD=0 α)
M. Fort – p. 64/22
Efficacia di un’azione di marketing: caso scelta della
marca di maionese
Prob[Yi = 1|X] = E[Yi |X] = F(x′ α)
x′ α = α0 + α1 log( pcal
pkra ) + α2 calD + α3 kraD + α4 calF + α5 kraF+
α6 calFD + α7 krafFD
L’effetto delle promozioni display & feature su
Kraft sulla proporzione di clienti che acquista Calvè
Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0]
= F(x′kraFD=1 α) − F(x′kraFD=0 α)
x′kraFD=1 α = α0 + α1 log( pcal
pkra ) + α2 calD + α3 0 + α4 calF + α5 0+
α6 calFD + α7 1
x′kraFD=0 α = α0 + α1 log( pcal
pkra ) + α2 calD + α3 0 + α4 calF + α5 0+
α6 calFD + α7 0
M. Fort – p. 65/22
Efficacia di un’azione di marketing, caso scelta della
marca di maionese: modello logit
Dato il modello
′
′
Prob[Yi = 1|X] = E[Yi |X] = F(x α) = Λ(x α) =
exp(x′i α)
1+exp(x′i α)
x′ α = α0 + α1 log( pcal
pkra ) + α2 calD + α3 kraD + α4 calF + α5 kraF+
α6 calFD + α7 kraFD
Qual è l’effetto delle promozioni display & feature su
Kraft sulla proporzione di clienti che acquista Calvè ?
Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0]
= Λ(x′kraFD=1 α) − Λ(x′kraFD=0 α)
M. Fort – p. 66/22
In breve . . .
L’effetto di una variazione di una esplicativa X sulla
dipendente X, in generale, è la variazione attesa in
Y che corrisponde a cambiamenti di X
Quando Y è binaria, è la variazione nella probabilità
di successo, ovvero la probabilità che Y = 1
Per calcolarlo in un modello non lineare:
(i) si stimano i valori predetti della probabilità
di successo nei due punti X0 X1 e
(ii) si confrontano i valori predetti
M. Fort – p. 67/22
Interpretazione: altri commenti su effetti marginali
Poichè
∂E[y|x]
∂x1 = f(α0
∂F(x)
∂x , f(x) >
+ α1 x1 + α2 x2 )α1 ,
0, il segno del coefficiente è
f(x) ≡
informativo sulla direzione dell’impatto di
un’esplicativa continua
l’effetto marginale dipende da tutte le esplicative
se l’esplicativa continua x entra in modo non lineare
nell’indice, questo modificherà l’espressione
dell’effetto marginale di conseguenza
l’effetto relativo
(x1 , x2 )
∂Prob[y=1|x]/∂x1
∂Prob[y=1|x]/∂x2
non dipende da
M. Fort – p. 68/22
Logit, Probit, Modello di Probabilità Lineare:
considerazioni
Prob. scelta calve|differenziale prezzo
0 .25 .5 .75 1
Scelta della marca di Maionese Calve’
al variare differenziale prezzo con Kraft, no promozioni contro F&D Kraft
−1
0
1
Log(prezzo calve/prezzo Kraft)
PROBIT, kraft F&D
LOGIT, kraft F&D
MPL, kraft F&D
2
3
PROBIT, NoPromo
LOGIT, NoPromo
MPL, NoPromo
Dati (statunitensi) su acquisti ripetuti 300 famiglie;2,768 acquisti.
Effetto Kraft (D&F) vs NoPromo log(rapp. prezzi) alla media (.01)
MPL
Logit
Probit
−.39∗
−.18
−.19
M. Fort – p. 69/22
MPL, Logit e Probit a confronto
Modello per y
LPM
yi |x e N(x′ β, σε2 )
Logit
y∗i |x
e
Bi(1, Λ(x′ α))
Modello per E[y|X]
Var[y|X]
x′ β
σε2
exp(x′ α)
1+exp(x′ α)
Λ(x′ α) · (1 − Λ(x′ α
Φ(x′ γ)
Φ(x′ γ) · (1 − Φ(x′ γ
Λ(·) f.r. logistica
Probit
y∗i |x e Bi(1, Φ(x′ γ))
Φ(·) f.r. normale
standard
M. Fort – p. 70/22
MPL, Logit e Probit a confronto: effetti
marginali
Modello per y
Modello per E[y|X]
MPL
x′ · β
Logit
exp(x′ α)
1+exp(x′ α)
Probit
Φ(x′ γ)
Effetti marginali
∂E[y|x]
∂xj
βj
exp(x′ α)
1+exp(x′ α)
·
1
1+exp(x′ α)
· αj
φ(x′ γ) · γj
Φ(·)/φ(·) f.r. e densità
normale standard
M. Fort – p. 71/22
Efficacia di azioni di marketing: la scelta di
marca di maionese
Prob. scelta Calve|differenziale prezzo e y
0
.5
1
1.5
2
Scelta della marca di maionese Calve’
al variare differenziale prezzo tra Calve’ e Kraft
−4
−2
0
Log(prezzo Calve/prezzo Kraft)
PROBIT, phat
MPL, phat
2
4
LOGIT, phat
y, obs
Dati (statunitensi) su acquisti ripetuti 300 famiglie;2,768 acquisti.
Valori osservati della scelta (0,1 -punti verdi-) e valori predetti
utilizzando diversi modelli (probit -punti rossi-; logit -punti blu-;
mpl -x nere-).
M. Fort – p. 72/22
“Bignami” e bibliografia
Modello di probabilità lineare
Metodo di stima basato sulla verosimiglianza
Proprietà stimatore di massima verosimiglianza
Introduzione alla “statistica” ed all’ “economia”
dei modelli logit e probit
Descrizione caratteristiche principali
dei modelli logit e probit e
scala delle variabili ed identificazione
Bibliografia: CO[2005] Capitolo 2 (2.4), Capitolo 10 (10.1, 10.2 (non
tutto)) M. Verbeek (2006) Capitolo 6 (6.1) Capitolo 7 (7.1)
M. Fort – p. 73/22
Stima con il metodo della massima verosimiglianza
(approfondimento)
Esempio analitici sul calcolo dello stimatore di MV
Procedure di verifica di ipotesi basate sulla massima
verosimiglianza
Previsione e bontà di adattamento in modelli logit
e probit (vs modello di probabilità lineare)
M. Fort – p. 74/22
Massima verosimiglianza: ripasso concetti ’chiave’ e notazione
∃
f0 distribuzione che genera i dati y|x
Si assume che f0 ∈ F ≡ {f (y|x, θ), θ ∈ Θ ⊂ Rp }
∃ θ0 : f (y|x, θ0 ) ∈ F, θ0 identificato
Verosimiglianza misurabile, continua su Θ,
derivabile
Funzione punteggio (score)
∂li (θ) ′
i (θ)
si (θ) = ∂l∂θ
= ∇θ li (θ) = [ ∂l∂θi (θ)
.
.
.
∂θp ]
1
Matrice hessiana Hi (θ) =
∂si (θ)
∂θ
=
∂li (θ)
∂θ∂θ ′
M. Fort – p. 75/22
Proprietà di si (θ)
E[si (θ0 )] = 0
I(θ0 ) ≡ −E[Hi (θ0 )] = E[si (θ0 )si (θ0 )′ ]
La seconda proprietà è detta identità dell’informazione.
La matrice di informazione riassume la quantità attesa di
informazione contenuta nell’osservazione.
Essa riflette la curvatura della logverosimiglianza. Se la
funzione è abbastanza piatta, la curvatura sarà bassa
e lo stimatore MV poco preciso, come vedremo
M. Fort – p. 76/22
Proprietà stimatore MV
Distribuzione asintotica dello stimatore MV θd
MV
√
a
d
n(θM V − θ0 ) → N (0, V )
a
d
θM V → N (θ0 , V /n),
V /n = Avar(θd
MV )
Esistono diversi stimatori della varianza asintotica di
θd
MV
La scelta tra i diversi stimatori di Avar(θd
MV ) è
legata alle proprietà degli stimatori in campioni finiti
e la semplicità di calcolo
(derivazione risultati in aula)
M. Fort – p. 77/22
Stima di
−1
Avar(θd
MV )
NB Con osservazioni I.I.D., contributo individuale coincide con le quantià
qui sotto
1. J(θ) ≡ − n1 Hi (θ) matrice di informazione osservata
Lo stimatore risultante può fornire stime non
definite positive
b i (θ)
b′
2. 1 si (θ)s
n
Lo stimatore risultante fornisce per costruzione
matrici definite positive; può avere una performance
non buona in campioni finiti (BHHH, 1974)
3. I(θ) ≡ −Eθ0 [Hi (θ)|xi ]matrice di informazione attesa
Può essere necessario calcolare lo stimatore tramite
simulazioni
M. Fort – p. 78/22
Esempi
Calcolo stima di MV nel modello binomiale
(derivazione risultati in aula)
Calcolo stima di MV nel modello normale
con varianza non nota
M. Fort – p. 79/22
Stima di Massima Verosimiglianza per modelli logit e
probit 1/5
L(α|y, X) =
l(α|y, X) =
∂l(α|y,X)
∂α
≡
Q
′
F(x
i α)
i:yi =1
P
Pn
i:yi =0 log[1 −
i=1 si (α)
=
Q
′
(1
−
F(x
i α)
i:yi =0
F(x′i α)]
Pn
+
P
′
log[F(x
i α)]
i:yi =1
yi −F(x′i α)
′
f(x
[
′
′
i β)]xi
i=1 F(xi α)[1−F(xi α)]
=0
• interpretazione della condizione di primo ordine
• discussione (sistema non lineare; ricorso a metodi numerici -esempi-)
M. Fort – p. 80/22
Stima di Massima Verosimiglianza per modelli logit e
probit 2/5
Le equazioni di verosimiglianza sono non lineari
nei parametri: non si ha espressione degli
stimatori in forma chiusa
Le equazioni di verosimiglianza sono risolte
utilizzando algoritmi numerici (metodo di
Newton-Raphson; metodo basato sullo score; metodo di
Berndt-Hall-Hall-Hausman)
Gli algoritmi numerici partono da una stima iniziale
dei parametri: tanto più vicina è la stima inziale
al vero valore, tanto più probabile sarà che
l’algoritmo converga e velocemente
M. Fort – p. 81/22
Algoritmi per la stima MV
1/2
Le equazioni del primo ordine possono non avere
soluzione analitica
Si utilizzano quindi metodi numerici per risolverle
Tali metodi partono da un valore iniziale θ0
e aggiornano la stima di tale valore in modo da
far raggiungere -ad es. in g passi- il massimo alla
funzione obiettivo valutata in θg , il valore della
stima alla g-esima iterazione
Le iterazioni continuano fino a che la variazione
nella funzione obiettivo indotta dal passare da θg a
θg+1 è sufficientemente piccola
M. Fort – p. 82/22
Algoritmi per la stima MV
2/2
1. Newton-Rapson:
Pn
Pn
g+1
g
g −1
θ
= θ + r[ i=1 Hi (θ )] [ i=1 si (θg )]
2. Berndt, Hall, Hall, Hausman:
Pn
Pn
g+1
g
g
g ′ −1
θ
= θ + r[ i=1 si (θ )si (θ ) ] [ i=1 si (θg )]
3. Gauss-Newton:
Pn
Pn
g+1
g
−1
θ
= θ + r[ i=1 −Eθg [Hi (θ)|xi ]] [ i=1 si (θg )]
r > 0 è l’ampiezza del passo di iterazione
M. Fort – p. 83/22
Stima di Massima Verosimiglianza per modelli logit e
probit 3/5
Calcolando la derivata della funzione punteggio
si (α) otteniamo la matrice hessiana la cui
espressione si semplifica molto calcolando il valore
atteso rispetto ad x, in particolare
−Eθ0 [Hi (θ)|xi ] =
f (xi α)2 x′i xi
F (xi α)(1−F (xi α))
Per stimare la varianza asintotica dello stimatore
MV per i modelli logit e probit si usa
hP
i−1
2 ′
f (xi αd
n
M V ) xi xi
i=1 F (xi αd
M V )(1−F (xi αd
M V ))
M. Fort – p. 84/22
Stima di Massima Verosimiglianza per modelli logit e
probit 4/5
Lo stimatore di MV ha buone proprietà asintotiche
quando il modello F(·), ossia la famiglia
di distribuzioni entro cui si cerca quella “vera”,
è correttamente specificato
Lo stimatore MV è inconsistente per i parametri
in caso di errata specificazione di F(·): si son
introdotti metodi non parametrici di stima, che non
fan assunzioni su F(·). In generale, gli stimatori
così ottenuti, son meno efficienti nei casi in cui
sarebbe disponibile una buona approssimazione
di F(·). (perchè questa affermazione? discussione)
M. Fort – p. 85/22
Stima di Massima Verosimiglianza per modelli logit e
probit 5/5
L’omissione di variabili provoca inconsistenza
dello stimatore MV anche quando le variabili
omesse son ortogonali alle variabili incluse
nel modello: esistono procedure per “tenere conto
della presenza di variabili omesse”
Nel caso di violazione dell’ipotesi di indipendenza
delle realizzazioni ǫi : si mostra che in caso di errori
autocorrelati lo stimatore è consistente
ma le formule usuali per la varianza sono scorrette.
M. Fort – p. 86/22
Modello di Probabilità Lineare (MPL) (sotto ipotesi di
normalità), Logit e Probit a confronto
Modello per y
C.P.O
MPL
1
σε2
Logit
Pn
Probit
Pn
Fi =
F(x′i
Hessiano
Pn
′
(y
−
x
i
i
i
(yi −Fi )
i Fi ·(1−Fi )
(yi −Φi )
i Φi ·(1−Φi )
′
′
· α); Fi = F
(x′i
· β) · xi = 0
′
· Fi · xi = 0
′
· Φi · xi = 0
· α) =
∂F(x′i ·α)
∂x′i ·α
-
Pn
-
Pn
-
Pn
i
xi · x′i
exp(x′i α)
i=1 (1+exp(x′i α))2
· xi · x′i
[φ(x′i γ)]2
i=1 Φ(x′i α))·[1−Φ(x′i γ)]
· xi ·
x′i = [x1i , . . . , xji , . . . , xK
i ]
C.P.O. condizioni del primo ordine
M. Fort – p. 87/22
Tests basati sulla verosimiglianza
H0 : α = α 0
H1 : α = α 1
tipicamente H0 : (i) esclude qualche esplicativa (parsimonia);
(ii) impone vincoli lineari tra i parametri del modello
Intuizioni alla base di tests asintoticamente equivalenti basati su MV
confronto del valore della funzione di verosimiglianza sotto H0
ed H1
confronto del valore della stima del parametro sotto H0 ed H1
valutazione della pendenza della funzione di verosimiglianza
sotto H0
Quali sono “i criteri” associati a queste “idee” sulla base dei quali si
valuterà la conformità dell’evidenza empirica con H0 ?
M. Fort – p. 88/22
Tests basati sulla verosimiglianza
Test del Rapporto di Verosimiglianza (RV): se le
verosimiglianze son “simili”, non si rinuncia ad H0
Test di Wald (W) (Wald, 1943): se le stime dei
parametri sono “vicine”, si mantiene H0
Test del Moltiplicatore di Lagrange (ML),
(Aitchinson & Silvey, 1958):
se la penalizzazione indotta dal modello
vincolato è piccola, si mantiene H0
M. Fort – p. 89/22
Tests basati sulla verosimiglianza:
generale
formulazione
Test del rapporto di verosmiglianza
0
RV = −2[log[L(α )] − log[L(αd
MV )]] =
L(α0 )
−2log[ L(αd
]
MV )
Test di Wald
0 ′
0 −1
0
W = (αd
−
α
)
(Var[
α
d
−
α
])
(
α
d
−
α
)
MV
MV
MV
Test del moltiplicatore di Lagrange
LM = n1 s(α0 )′ I(α0 )−1 s(α0 ) = n1 s(α0 )′ Avar(α)s(α0 ),
M. Fort – p. 90/22
Esempio
Calcolo dei diversi test nel
caso del modello binomiale B(n, p) H0 : p = p0
H1 : p 6= p0
(derivazione risultati in aula)
M. Fort – p. 91/22
Traccia esempio
Per il calcolo del test di Wald è necessario calcolare
0 −1
−1
[V ar(pd
−
p
)]
=
[V
ar(
p
d
)]
p0 è una costante
MV
MV
Un modo per calcolarla è basato su
Pn
Ep0 [−H(p)] = i=1 Ep0 [−Hi (p)]
Hi (p) è il contributo della i-esima osservazione
all’hessiano
1−yi
−Hi (p) = + py2i + (1−p)
2
Ep [−Hi (p)] =
p
p2
+
1−p
(1−p)2 ,
perchè Ep [yi ] = p
1
−1
[n
·
E
[−H
(p)]}
= p(1 − p)
Avar(pd
)
=
{
p
i
MV
n
Stimerò la varianza con pd
M V (1 − pd
MV )
M. Fort – p. 92/22
Tests basati sulla verosimiglianza : considerazioni
Wald richiede di stimare solo il modello non vincolato
RV richiede di stimare sia il modello vincolato che il
modello non vincolato
Lagrange richiede di stimare solo il modello vincolato
In generale la stima di modelli vincolati è semplice se le
restrizioni son lineari, complessa se le restrizioni sono
non lineari.
M. Fort – p. 93/22
“Bignami” e bibliografia
Esempi di calcolo dello stimatore MV
Stima di MV nei modelli logit e probit
Test basati sulla verosimiglianza (esempio analitico
per illustrare la relazione tra i tests)
Bibliografia: CO[2005] Capitolo 2 (2.4), Capitolo 9 (9.1-9.3)
Capitolo 10 (10.1, 10.2 (non tutto))
M. Verbeek (2006) Capitolo 6 (6.1, 6.2, 6.3, 6.3.1) Capitolo 7 (7.1)
M. Fort – p. 94/22
Esempi analitici sul calcolo dello stimatore di MV
Procedure di verifica di ipotesi basate sulla massima
verosimiglianza
Previsione e bontà di adattamento in modelli logit e
probit (vs modello di probabilità lineare)
Esempio pratico (utilizzando GRETL)
Introduzione ai modelli a risposta multipla
M. Fort – p. 95/22
Esempi
Calcolo stima di MV nel modello binomiale
Calcolo stima di MV nel modello normale
con varianza non nota
Per il modello di regressione semplice con varianza
non nota la verosimiglianza è funzione di
un vettore di tre parametri θ = (β0 , β1 , σ 2 )
M. Fort – p. 96/22
Esempio 2: Modello di Regressione Lineare Semplice
1/11
(MRLS)
Consideriamo il modello di regressione semplice
yi = β0 + β1 xi + ǫi
in cui
ǫi ∼ N (0, σ 2 )
X ∼ N (0, σ 2 ) ⇒ Z = a + bX ∼ N (a, b2 σ 2 )
La variabile dipendente Y , condizionatamente al
regressore X, si distribuisce come una v.c. normale
con media e varianza funzione dei parametri
θ = (β0 , β1 , σ 2 )
∀i = 1, . . . , n
|
{z
}
campione i.i.d. (size=n)
p(yi |xi , θ) ∼ N (β0 + β1 xi , |{z}
σ 2 ).
| {z }
E[Y |X]
Var[Y |X]
M. Fort – p. 97/22
Esempio 2: Modello di Regressione Lineare Semplice
2/11
(MRLS)
Come per il modello di regressione, si suppone che
le coppie (xi , yi ) siano indipendenti. La funzione di
densità congiunta del campione risulta quindi essere
n
Y 1
1
√ exp − 2 (yi − β0 − β1 xi )2
L(θ|X, y) =
2σ
σ 2π
i=1
Pn
2
1
i=1 (yi − β0 − β1 xi )
=
−
n exp
2
2σ 2
(2πσ ) 2
M. Fort – p. 98/22
Esempio 2: Modello di Regressione Lineare Semplice
3/11
(MRLS)
La log-verosimiglianza risulta quindi essere
n X
1
1/2
ℓ(θ|X, y) =
− log(2π) − log σ − 2 (yi − β0 − β1 xi )2
2σ
i=1
n X
1
1
1
2
=
− log(2π) − log σ − 2 (yi − β0 − β1 xi )2
2
2
2σ
i=1
n
X
1
n
(yi − β0 − β1 xi )2
∝ − log σ 2 − 2
2
2σ i=1
M. Fort – p. 99/22
Esempio 2: Modello di Regressione Lineare Semplice
4/11
(MRLS)
Se calcoliamo le derivate rispetto a β0 , β1 e σ 2 e le
uguagliamo a zero si ottiene
n
1 X
∂l(β0 , β1 , σ 2 |X, y)
(yi − β0 − β1 xi ) = 0
= −2 2
∂β0
2σ i=1
n
X
∂l(β0 , β1 , σ |X, y)
1
xi (yi − β0 − β1 xi ) = 0
= −2 2
∂β1
2σ i=1
2
n
n
1 X
∂l(β0 , β1 , σ 2 |X, y)
2
(y
−
β
−
β
x
)
=0
=
−
+
i
0
1 i
2
2
4
∂σ
2σ
2σ i=1
M. Fort – p. 100/22
Esempio 2: Modello di Regressione Lineare Semplice
5/11
(MRLS)
Gli stimatori di Massima Verosimiglianza per i tre
parametri di interesse sono quindi
β̂0,M V = ȳ − βˆ1 x̄
Pn
(yi − ȳ)(xi − x̄)
i=1
Pn
β̂1,M V =
2
(x
−
x̄)
i=1 i
Pn
2
ǫ
ˆ
2
i=1 i
σ̂M V =
in cui ǫˆi = (yi − β̂0 − β̂1 xi )
n
Gli stimatori dei parametri β0 e β1 coincidono con quelli OLS.
Lo stimatore per σ 2 è leggermente diverso. La somma dei
quadrati dei residui viene divisa per n e non per n − 1. Questa
causa una distorsione che però sparisce asintoticamente.
M. Fort – p. 101/22
Esempio 2: Modello di Regressione Lineare Semplice
6/11
(MRLS)
Il vettore degli score s(θ) =
∂l(θ) ∂l(θ) ∂l(θ)
∂β0 , ∂β1 , ∂σ 2
è
n
X
1
∂l(θ)
(yi − β0 − β1 xi )
= 2
∂β0
σ i=1
n
X
1
∂l(θ)
xi (yi − β0 − β1 xi )
= 2
∂β1
σ i=1
Pn
2
∂l(θ)
n
(y
−
β
−
β
x
)
0
1 i
i=1 i
= − 2+
2
∂σ
2σ
2σ 4
M. Fort – p. 102/22
Esempio 2: Modello di Regressione Lineare Semplice
7/11
(MRLS)
La matrice delle derivate seconde è simmetrica, è sufficiente
quindi calcolare le seguenti
∂ 2 l(θ)
n
= − 2
2
∂ β0
σ
n
∂ 2 l(θ)
1 X
xi
= − 2
∂β0 ∂β1
σ i=1
2
∂ l(θ)
∂β0 ∂σ 2
n
X
1
(yi − β0 − β1 xi )
= − 4
σ i=1
n
1 X
∂ 2 l(θ)
xi (yi − β0 − β1 xi )
= − 4
2
∂β1 ∂σ
σ i=1
n
X
∂ l(θ)
1
2
x
=
−
∂ 2 β1
σ 2 i=1 i
P
2
M. Fort – p. 103/22
Esempio 2: Modello di Regressione Lineare Semplice
8/11
(MRLS)
∂ 2 l(θ)
− ∂θ∂θ′
La matrice di Informazione Osservata Ioss (θ) =
di
dimensione 3 × 3, tenendo conto che yi − β0 − β1 xi = ǫi , è


∂ 2 l(θ)
∂ 2 l(θ)
∂ 2 l(θ)
− ∂β0 ∂β0 ∂β0 ∂β1 ∂β0 ∂σ2
2

∂ l(θ) 
2 l(θ)
2 l(θ)
2 l(θ)
∂
∂
∂


=
Ioss (θ) = −
2
 ∂β1 ∂β0 ∂β1 ∂β1 ∂β1 ∂σ 
∂θ∂θ′
2
2
2


= 

∂ l(θ)
∂β0 ∂σ 2
n
σ2
Pn
i=1 Xi
σ2
Pn
i=1 ǫi
σ4
Pn
i=1 xi
σ2
Pn
2
i=1 xi
σ2
Pn
i=1 Xi ǫi
σ4
∂ l(θ)
∂β1 ∂σ 2
Pn
∂ l(θ)
∂σ 2 ∂σ 2
i=1 ǫi
σ4
Pn
i=1 xi ǫi
σ4
Pn
2
n
i=1 ǫi
− 2σ4 + σ6




Sotto le ipotesi di MRLS, E[ǫi ] = 0 e
Var(ǫi ) = E[ǫ2i ] = σ 2
M. Fort – p. 104/22
Esempio 2: Modello di Regressione Lineare Semplice
9/11
(MRLS)
La matrice di Informazione attesa I(θ) = E [Ioss (θ)] risulta



I(θ) = 




= 

n
h Pn
x
i
h Pn
ǫ
i 
i
i=1 i
E σ2
E i=1
E
σ2
σ4
h Pn 2 i
h Pn
i
h Pn i
xi
i=1 xi
i=1 xi ǫi
E
E
E i=1
σ2
σ2
σ4
h Pn
i
h Pn i
n i=1 xi ǫi
i=1 ǫi
E
E 2σ4
E
σ4
σ4

nE[X]
n
0
σ2
σ2

2

nE[X] nE[X ]

0
2
2
σ
σ

n
0
0
2σ 4




M. Fort – p. 105/22
Esempio 2: Modello di Regressione Lineare Semplice
10/11
(MRLS)
Le varianze e covarianze asintotiche sono espresse da



= 

−1
Avar(θ) = nI(θ)
2
2
2
σ E[X ]
2
σX
σ 2 E[X]
− σ2
X
σ E[X]
− σ2
X
0
0
0



0 

2σ 4
σ2
2
σX
e un possibile stimatore di V ≡ Avar(θ) basato su
l’osservazione attesa è


Vb = 

σ̂
P
2
P
2
i xi
−x̄)2
i (xiP
2
σ̂
i xi
P
− (xi −x̄)2
i
0
σ̂
P
−
2
P
xi
2
i (xi −x̄)
2
P nσ̂
2
i (xi −x̄)
i
0
0



0 
2σ̂ 4
M. Fort – p. 106/22
Esempio 2: Modello di Regressione Lineare Semplice
11/11
(MRLS)
Stimatore della matrice di varianze e covarianze asintotica V
basato sulla matrice di informazione attesa di Fisher

√

Vb = 

σ̂
P
2
P
2
x
i i
−x̄)2
i (xiP
2
σ̂
i xi
− P (xi −x̄)
2
i
0
σ̂
P
−
2
P
xi
2
i (xi −x̄)
2
P nσ̂
2
(x
−x̄)
i
i
i
0
0


0 

2σ̂ 4
n(θ̂M V − θ) ∼ N (0, V ) ⇒ θ̂M V ∼ N θ,
V
n
.
NB gli stimatori delle varianze per i parametri β0 e
Vb
n,
β1 , nelle posizioni (1,1) e (2,2) della matrice
coincidono (asintoticamente; perchè?) con quelli
derivati secondo MQO.
M. Fort – p. 107/22
Tests basati sulla verosimiglianza: formulazione generale
Test del rapporto di verosmiglianza
0
RV = −2[log[L(α )] − log[L(αd
MV )]] =
L(α0 )
−2log[ L(αd
]
MV )
Test di Wald
0 ′
0 −1
0
W = (αd
−
α
)
(Var[
α
d
−
α
])
(
α
d
−
α
)
MV
MV
MV
Test del moltiplicatore di Lagrange
LM = n1 s(α0 )′ I(α0 )−1 s(α0 ) = n1 s(α0 )′ Avar(α)s(α0 ),
M. Fort – p. 108/22
Tests basati sulla verosimiglianza:
test del rapporto di
verosimiglianza RV con MRLS e vincoli lineari
Formulazione generale
0
RV = −2[log[L(α )] − log[L(αd
MV )]] =
L(α0 )
]
−2log[ L(αd
)
MV
Nel caso particolare
y = Xα + ε, ε|X ∼ N(0; σ 2 I)
H0 : Rα = r H1 : Rα 6= r
si mostra
RV =
e′0 e0
n log( e′ e1 )
1
RV = n log[1 +
q
n−k F],
F=
e′0 e0 −e′1 e1 n−k
e′1 e1
q
M. Fort – p. 109/22
Tests basati sulla verosimiglianza: : test di Wald, W, con MRLS
e vincoli lineari
Formulazione generale
0 ′
0 −1
0
W = (αd
−
α
)
(Var[
α
d
−
α
])
(
α
d
−
α
)
MV
MV
MV
Nel caso particolare
y = Xα + ε, ε|X ∼ N(0; σ 2 I)
H0 : Rα = r H1 : Rα 6= r
si mostra
′
−1
′
W = (Rαd
d
d
MV − r) (Var[Rα
MV − r]) (Rα
MV − r) =
σ1 2
σ
c0 2 −c
n σc2
1
W=
nq
n−k F,
F=
e′0 e0 −e′1 e1 n−k
e′1 e1
q
M. Fort – p. 110/22
Tests basati sulla verosimiglianza : test del moltiplicatore di
Lagrange, LM, con MRLS e vincoli lineari
Formulazione generale
LM =
1
0 ′
0 −1
0
s(α
)
I(α
)
s(α
),
n
0
s(α ) ≡
∂log(L(α)
α
≡ score
Nel caso particolare
y = Xα + ε, ε|X ∼ N(0; σ 2 I)
H0 : Rα = r H1 : Rα 6= r
si mostra
LM =
X′ X −1 ′
1
′
X
e
2 e0 X( n )
0
nc
σ0
LM =
n qF
(n−k)+q F ,
F=
e′0 e0 −e′1 e1 n−k
e′1 e1
q
M. Fort – p. 111/22
Tests basati sulla verosimiglianza :
considerazioni riferite
all’esempio con MRLS e vincoli lineari
L(α0 )
]
RV = −2log[ L(αd
MV )
0 ′
W = (αd
−
α
) (Var[αd
MV
MV
LM = n1 s(α0 )′ I(α0 )−1 s(α0 )
a
RV ∼
a
0 −1
0
− α ]) (αd
W∼
MV − α )
a
LM ∼
Nel caso particolare illustrato, è possibile ordinate i test
in campioni finiti
W ≥ RV ≥ ML
Se W accetta H0 , accetto con tutti.
Se ML rifiuta H0 , rifiuto con tutti.
Poche situazioni di conflitto, se n è grande.
M. Fort – p. 112/22
MPL, Logit e Probit
misure di adattamento
Modello di Regressione: R2 =
R̄2 = 1 −
W−1
W−k (1
a
SQS
SST =
confronto:
1− SQR
SQT
− R2 )
Modello Logit/Probit: pseudo R2 = 1 −
L1
L0
L0 log-verosimiglianza nel modello con solo la costante
L1 log-verosimiglianza nel modello con regressori
P n yi
P n yi
L0 = n[( i=1 n )log( i=1 n )
P n yi
P n yi
+(1 − i=1 n )log(1 − i=1 n )]
Pn
L1 = i=1 [yi F(x′i α
b) + (1 − yi )(1 − F(x′i α
b)]
M. Fort – p. 113/22
MPL, Logit e Probit a confronto: previsione
\
Modello di regressione ybi = E[y
b]
i |X] = E[yi |X, α
Modello di logit/
probit
′
\
\
E[y
|X]
=
Prob[y
=
1|X]
=
F(x
i
i
′
\
ybi = 0 se E[y
|X]
=
F(x
α
b) ≤ .5
i
′
\
ybi = 1 se E[y
|X]
=
F(x
α
b) > .5
i
M. Fort – p. 114/22
Logit e Probit a confronto:
previsiva e bontà di adattamento
capacità
osservato/predetto ybi = 1 ybi = 0
yi = 1
n11
n10
n1.
yi = 0
n01
n00
n0.
n.1
n.0
n
Proporzione classificazioni corrette:
n11 +n00
n
Proporzione classificazioni corrette per y = 0:
Proporzione classificazioni corrette per y = 1:
n00
n0.
n11
n1.
M. Fort – p. 115/22
Logit, Probit, Modello di Probabilità Lineare (MPL):
considerazioni
MPL può essere una ragionevole approssimazione
se: (i) i regressori sono per lo più variabili dummy;
(ii) n è molto grande
MPL: più facilmente interpretabile; fornisce
spesso buone stime degli effetti marginali per valori
medi o mediani delle covariate
Logit e probit: utili se si hanno molte covariate
continue
Logit e probit: α danno indicazione della direzione
non dell’entità dell’effetto sulle probabilità di
risposta
M. Fort – p. 116/22
Esempi utilizzando GRETL
1. Scelta del mezzo di trasporto:
interessa valutare come disegnare politiche mirate
ad incrementare la proporzione di individui che
utilizzano mezzi di trasporto poco inquinanti,
ad es. treno e bus versus aereo e auto
2. Si è interessati a studiare le determinanti della
allocazione del tempo libero tra lavoro e due tipi
di attività per il tempo libero: relazione con
marito/moglie e relazione/i extra-coniugali
(Fair, JPE 1978)
M. Fort – p. 117/22
Scelta del consumatore: mezzo di trasporto
1/3
Scelta del mezzo di trasporto
Freq. Ass.
Freq. Rel. (%)
Freq. Ass.
Freq. Rel. (%)
Non Amico-Ambiente
Amico-Ambiente
Aereo
Auto
Treno
Autobus
58
59
63
30
210
27.62
28.10
30.00
14.29
100
117
93
210
55.71
44.29
100
Dati sulla scelta del mezzo di trasporto per viaggi da Sydney a Melbourne,
Australia.
Come potrei “convincere” qualche persona ad utilizzare mezzi che
generano minore inquinamento?
M. Fort – p. 118/22
Probabilità di viaggiar con mezzo|tempo attesa
0
.25
.5
.75
1
Scelta del consumatore
2/3
Scelta mezzo di trasporto e tempo di attesa in stazione
(Associazione)
0
25
50
Tempo di attesa (minuti)
Pr(Aereo|t)
Pr(Bus|t)
75
100
Pr(Treno|t)
Pr(Auto|t)
Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani.
⊳⊲
M. Fort – p. 119/22
Osservazioni
3/3
Possiam ri-codificare i dati sulla scelta di trasporto
come dati su una scelta tra due alternative (tipo
‘amico-ambiente’ vs ‘non amico-ambiente’) ma
le alternative possibili per la scelta dell’individuo
sono più di 2.
Le alternative tra cui l’individuo può scegliere hanno
una peculiarità:
non sono ordinate, ovvero non esiste un criterio di
ordinamento ovvio tra di esse
M. Fort – p. 120/22
Scelta del consumatore: livello di soddifazione della
clientela
1/2
Valutazione di un corso universitario (corso di modelli?)
Non Soddifatto
Soddisfatto
Inutile
Poco Utile
Utile
Molto Utile
Freq. Ass.
49
73
111
12
2
Freq. Rel. (%)
20
29.8
45.3
4.9
1
Freq. Ass.
122
123
2
Freq. Rel. (%)
49.8
50.2
1
Dati sulla valutazione della didattica, A.A. 2007-2008.
Quali sono le determinanti del livello di soddisfazione? chiarezza
espositiva, livello di difficoltà lezioni, qualità del materiale didattico
distribuito, disponibilità del docente, . . .
M. Fort – p. 121/22
Osservazioni
2/2
Possiam ri-codificare i dati sul livello di
soddisfazione come dati su una scelta tra due
alternative (tipo ‘soddisfatto’ vs ‘non soddisfatto’)
ma
le alternative possibili per la scelta dell’individuo
sono più di 2.
Le alternative tra cui l’individuo può scegliere hanno
una peculiarità:
sono ordinate, ovvero esiste un criterio di
ordinamento ovvio tra di esse
M. Fort – p. 122/22
Implicazioni delle osservazioni
L’esistenza di un ordinamento tra le scelte è un
aspetto importante del fenomeno che si studia. Se
esiste, se ne tiene conto nella modellazione e si
utilizzano modelli per dati su scelta multipla di
tipo logit ordinato o probit ordinato
(modelli con risposte ordinate)
In assenza di un ordinamento implicito, si utilizzano
modelli per dati su scelta multipla di tipo logit
multinomiale, logit condizionale o logit nidificato
(nested logit), probit multinomiale
(modelli con risposte non ordinate)
M. Fort – p. 123/22
Dati disponibili (sulle esplicative x) . . .
Convenzione: i indica l’individuo, j l’alternativa
1. esplicative che sono diverse tra individui ma costanti
tra alternative xi (ad es. età o condizione
lavorativa studente che valuta un corso universitario)
2. esplicative che sono diverse tra individui e tra
alternative wij (ad es. tempo di attesa al terminale
per cliente che aspetta il treno, l’aereo o l’autobus)
3. esplicative che sono le stesse tra individui ma sono
diverse tra alternative zj (ad es. numero di pacchetti
di crackers nella confezione di una certa marca)
M. Fort – p. 124/22
. . . terminologia . . .
Convenzione: i indica l’individuo, j l’alternativa
xi sono indicate anche come
caratteristiche dell’individuo
zj (e wij ) sono indicate anche come
attributi dell’alternativa
M. Fort – p. 125/22
. . . e implicazioni per la modellazione
modello di riferimento: modello per la variabile latente; approccio basato
su confronto utilità -indiretta- delle diverse alternative
Quali tipi di dati mi permettono di avere, nel
modello latente, un effetto variabile dell’esplicativa
tra diverse alternative? (es. la condizione lavorativa
influenza in modo diverso la scelta tra valutazione “utile” e la
valutazione “inutile” di un corso universitario)
Quali tipi di dati obbligano ad imporre, nel modello
latente, che l’impatto dell’esplicativa sia costante
tra le diverse alternative? (es. l’influenza del tempo di
attesa sulla scelta tra i diversi mezzi di trasporto è la stessa, non
dipende dall’alternativa considerata)
M. Fort – p. 126/22
Modelli con risposte non ordinate
logit multinomiale: adatto a descrivere dati su risposte non
ordinate dove si osservano le caratteristiche degli individui
che compiono le scelte tra più di due alternative
logit condizionale: adatto a descrivere dati su risposte non
ordinate dove si osservano gli attributi delle alternative
(più di due) tra cui gli individui scelgono
logit nidificato: estensione dei modelli logit multinomiale e
condizionale adatta a descrivere i casi in cui individui
compiono le scelte tra alternative in modo sequenziale (ad es.
scelta tra trasporto pubblico e privato e poi scelta del mezzo di
trasporto)
M. Fort – p. 127/22
Interpretazione come modelli di utilità
1/7
stocastica
McFadden (1974, 1981)
{yij }j=1,...,J serie di J variabili osservate che
rappresentano la scelta dell’individuo i rispetto
a ciascuna alternativa j tra le J alternative disponibili
Nell’esempio sul trasporto: J = 4 (ovvero: “aereo”,
“treno”, “bus”, “auto”); e osservo ∀i,
yi1 = 1 se i sceglie areo, altrimenti 0
yi2 = 1 se i sceglie treno, altrimenti 0
yi3 = 1 se i sceglie bus, altrimenti 0
yi4 = 1 se i sceglie auto, altrimenti 0
M. Fort – p. 128/22
Interpretazione come modelli di utilità
2/7
stocastica
Esaminiamo il problema della scelta ottimale per l’individuo i tra alternative (j ∈ {1, . . . , J}): egli sceglierà
la possibilità che fornisce la massima utilità (indiretta)
maxj∈{1,...,J} Uij ,
Uij = w′ij β + εij
in Uij c’è una componente che dipende da caratteristiche
dell’individuo e/o o delle alternative ed una componente
casuale.
Con due alternative (0, 1), individuo i sceglie 1 se
Ui1 > Ui0
M. Fort – p. 129/22
Interpretazione come modelli di utilità
3/7
stocastica
Data J alternative -ad es. 4 (come in esempio su trasporto)-,
l’individuo sceglierà l’alternativa k -ad es. k=2 (treno
nell’esempio)- se
Uik = maxj∈{1,...,4} Uij = max{Ui1 , Ui2 , Ui3 , Ui4 }
Prob[yi2 = 1]= Prob[Ui2 > max{Ui1, Ui3 , Ui4 }] =
Prob[Ui2 > maxj∈{1,...,J},j6=2 {Uij }]
dove
∀j,
Uij = µij + εij
M. Fort – p. 130/22
Interpretazione come modelli di utilità
4/7
stocastica
Per rendere la formulazione di questi modelli operativa, è
necessario essere in grado di dire qualcosa sul massimo
di un insieme di variabili casuali -le variabili
casuali Uij , j = 1, . . . , J- ovvero sulle variabili
casuali εij , j = 1, . . . , J,
Si assume ∀i, j εij ∼ Fεij (u) ≡ Fε (u) ≡ exp(−e−u)
e che le componenti casuali εij sian indipendenti
Allora, si ha che
εMAX = maxj∈{1,...,J} εij , ε ∼ FεMAX (u) ≡ [Fε (u)]J = [exp(−e−
M. Fort – p. 131/22
Interpretazione come modelli di utilità
stocastica (approfondimento) 5/7
∀j,
Uij =
′
wij β
+ εij
FUij (u) = Prob[Uij ≤ u] = Prob[w′ij β + εij < u]
= Prob[εij < u − w′ij β] = Fεij (u − w′ij β)
εMAX = maxj∈{1,...,J} εij , ε ∼ FεMAX (u) ≡ [Fε (u)]J = [exp(−e−
La funzione di densità del massimo calcolata in u è
fεMAX (u) =
∂FεMAX (u)
=
∂u
J[Fε (u)]J−1 fε (u) =
J[−exp(−e−u)]J−1 [−e−u ][−1] = J[−exp(−e−u)]J−1 e−u
M. Fort – p. 132/22
Interpretazione come modelli di utilità
stocastica
(approfondimento) 6/7
• FUij (u) = Fεij (u − w′ij β)
• εMAX = maxj εij , FεMAX (u) ≡ [Fε (u)]J = [exp(−e−u )]J
U = maxj∈{1,...,J} Uij , ε ∼ FU (u) ≡
QJ
′
F
(u
−
w
ij β)
j=1 ε
QJ
−u+w′ij β
QJ
j=1 FUij (u)
=
QJ
FU (u) = j=1 [−exp(−e
)] = j=1 [−exp(−e−u )]
QJ
PJ
PJ
w′ij β
w′ij
−u
)] = −exp( j=1 −e ) exp( j=1 −e
j=1 [exp(−e
M. Fort – p. 133/22
Interpretazione come modelli di utilità
7/7
stocastica
Si mostra che
Prob[yi2 = 1]= Prob[Ui2 > max{Ui1, Ui3 , Ui4 }] =
Prob[Ui2 > maxj∈{1,...,4},j6=2 {Uij }] =
exp(w′i2 β)
P4
′ β)
exp(w
j=1
ij
=
exp(w′i2 β)
exp(w′i1 β)+exp(w′i2 β)+exp(w′i3 β)+exp(w′i4 β)
Prob[yi1 = 1] + Prob[yi2 = 1] + Prob[yi3 = 1] + Prob[yi4 = 1] =
∀j,
0 ≤ Prob[yij = 1] ≤ 1
M. Fort – p. 134/22
Modello logit multinomiale
{yij }j=1,...,J serie di J variabili osservate binarie che
rappresentano la scelta dell’individuo i rispetto a ciascuna
alternativa j tra le J alternative disponibili
Prob[yik = 1] = Prob[Uik > maxj∈{1,...,J},j6=k {Uij }] =
exp(x′i βk )
PJ
′β )
exp(x
j=1
i j
∀j,
y∗ij ≡ Uij = x′i βj + εij
M. Fort – p. 135/22
Modello logit condizionale
{yij }j=1,...,J serie di J variabili osservate binarie che
rappresentano la scelta dell’individuo i rispetto a ciascuna
alternativa j tra le J alternative disponibili
Prob[yik = 1] = Prob[Uik > maxj∈{1,...,J},j6=k {Uij }] =
exp(w′ik γ)
PJ
′ γ)
exp(w
j=1
ij
∀j,
∗
yij
≡ Uij =
′
wij γ
+ εij
M. Fort – p. 136/22
Osservazioni
nel modello logit multinomiale il numero dei
parametri ignoti β da stimare dipende dal numero di
alternative (e dal numero di caratteristiche degli individui)
considerate al momento della specificazione
(e stima) del modello
nel modello logit condizionale il numero dei
parametri ignoti γ da stimare dipende dal numero di
attributi considerati per ciascuna alternativa al
momento della specificazione (e stima) del modello
(che implicazioni per la previsione di Prob[yik = 1|X]?)
M. Fort – p. 137/22
“Bignami” e bibliografia
Esempio analitico SMV (modello di regressione
lineare)
Esempio di test basati sulla verosimiglianza
Previsione e bontà di adattamento nei modelli
logit/probit
Esempi pratici utilizzando GRETL
Introduzione ai modelli a risposta multipla (scelte
non ordinate)
Bibliografia: CO[2005] Capitolo 2 (2.4), Capitolo 9 (9.1-9.3)
Capitolo 10 (10.1, 10.2, 10.3.1); M. Verbeek (2006) Capitolo 6 (6.1,
6.2, 6.3, 6.3.1) Capitolo 7 (7.1, 7.2 (intro), 7.2.4 (non tutto))
M. Fort – p. 138/22
Stima di modelli logit per scelte multiple non
ordinate
I.A.I.: l’ipotesi di indipendenza dalle alternative
irrilevanti
Misure di bontà di adattamento e capacità previsiva
per modelli logit per scelte multiple non ordinate
Esempi utilizzando GRETL
Modelli per dati su scelte multiple ordinate: probit
ordinato (caratterizzazione e inferenza)
Esempio utilizzando GRETL
M. Fort – p. 139/22
Esempio e . . .
McFadden (1974, 1981)
{yij }j=1,...,J serie di J variabili osservate che
rappresentano la scelta dell’individuo i rispetto
a ciascuna alternativa j tra le J alternative disponibili
Nell’esempio: J = 4 (ovvero: “aereo”,
“treno”, “bus”, “auto”); e osservo ∀i,
yi1 = 1 se i sceglie areo, altrimenti 0
yi2 = 1 se i sceglie treno, altrimenti 0
yi3 = 1 se i sceglie bus, altrimenti 0
yi4 = 1 se i sceglie auto, altrimenti 0
M. Fort – p. 140/22
. . . interpretazione come modello di utilità
stocastica
Data J alternative -ad es. 4 (come in esempio su trasporto)-,
l’individuo sceglierà l’alternativa k -ad es. k=2- se
Uik = maxj∈{1,...,4} Uij = max{Ui1 , Ui2 , Ui3 , Ui4 }
Prob[yi2 = 1]= Prob[Ui2 > max{Ui1, Ui3 , Ui4 }]
dove ∀j,
Uij = µij + εij
µij
z}|{
mod. logit multinomiale: Uij = x′i αj +εij
µij
z}|{
mod. logit condizionale: Uij = w′ij β +εij
M. Fort – p. 141/22
Stima con il metodo della massima verosimiglianza
dei modelli con risposte non ordinate
1/6
I dati osservati sono nella forma i = 1, . . . , n (y′i , x′i )
dove y′i ≡ [yi1 yi2 . . . yiJ ] o equivalentemente
nella forma i = 1, . . . , n (yi , x′i ) dove yi è una variabile
categoriale che assume valori j = 1, . . . , J (nell’esempio la
variabile alternative assume valori 1,2,3,4))
La funzione di probabilità per l’ i-esima unità è
y
y
y
p(yi1 , . . . , yiJ ) =π1 i1 π2 i2 . . . πJ iJ , πk = Prob[yik = 1], ∀k
PJ
dove k=1 yik = 1 quindi
p(yi1 , . . . , yiJ−1 )
yi1
=π1
yi2
π2
...
1−
πJ
PJ
k=1
yik
M. Fort – p. 142/22
Stima con il metodo della massima verosimiglianza
dei modelli con risposte non ordinate
2/6
funzione di probabilità
• per l’ i-esima unità (distribuzione bernoulli multivariata)
p(yi1 , . . . , yiJ )
yi1
=π1
yi2
π2
...
yiJ
πJ , πk
= Prob[yik = 1], ∀k
• per un campione di n unità i.i.d. (distr. multinomiale)
p(y′1 , . . . , y′n ) = p(n1 , . . . , nJ ) = n1 !n2n!!...nJ ! π1n1 π2n2 . . . πJnJ
Pn
yik = nk numero di unità nel campione che scelgono k
PJ
πk ≡ Prob[yi = k] ≡ Prob[yik = 1]
k=1 πk = 1
k=1
M. Fort – p. 143/22
Stima con il metodo della massima verosimiglianza
dei modelli con risposte non ordinate
3/6
Funzione di verosimiglianza per un campione di n unità
L(π1 , π2 , . . . , πJ ) =
≡ L(π1 , . . . , πJ−1 )
=
n1
n!
π
n1 !n2 !...nJ ! 1
n1
n!P
π
n1 !n2 !...(1− Jk=1 nk )! 1
π2n2 . . . πJnJ
π2n2 . . . (1 −
PJ
1−
)
π
k=1 k
PJ
k=1
nk
Massimizzare questa funzione rispetto ai parametri
ignoti (π1 , . . . , πJ−1 ) equivale a massimizzare
PJ
nJ
n1 n2
log[π1 π2 . . . πJ ] = j=1 nj log(πj )
Pn PJ
Qn QJ
yij
log[ i=1 j=1 πj ] = i=1 j=1 yij log(πj )
≡
(cambio indice)
PJ−1
i=1
j=0
Pn
yij log(πj )
M. Fort – p. 144/22
Stima con il metodo della massima verosimiglianza
(SMV) dei modelli con risposte non ordinate
4/6
Sia
πk = Prob[yik = 1|X]
exp(µik )
P
=
1+ J−1
j=1 exp(µij )
modello logit condizionale
modello logit multinomiale
µik ≡ w′ik β
µik ≡ x′i αk
Per trovar le stime di αj , j = 1, . . . , J e β si deve trovar
il massimo rispetto a questi parametri di
n X
J
X
i=1 j=1
yij log(πj ) ∝ L(β) L(α)
M. Fort – p. 145/22
SMV dei modelli con risposte non ordinate: caso del modello
5/6
logit multinomiale
(condizioni per massimo: derivata prima nulla; derivata seconda negativa)
∂log(L(α))
=
∂αk
n
X
i=1
yik [1 − πik ]xi −
n
J
X
X
i=1 j=1,j6=k
n
X
2
∂ log(L(α))
′
=
−
π
(1
−
π
)x
x
k
k i i
′
∂αk ∂αk
i=1
2
∂ log(L(α))
=
′
∂αk ∂αl
n
X
i=1
πik yij xi =
πl πk xi x′i
l=k
l 6= k
Matrice Hessiana non blocco diagonale → non è equivalente stimare
un modello logit per ogni scelta o stimare il logit multinomiale
M. Fort – p. 146/22
SMV dei modelli con risposte non ordinate: caso del modello
logit condizionale
6/6
(condizioni per massimo: derivata prima nulla; derivata seconda negativa)
NB a differenza del caso precedente in questo caso i parametri sono
invarianti rispetto all’alternativa j
∂log(L(β))
=
∂β
2
n X
J
X
i=1 j=1
n X
J
X
∂ log(L(α))
=−
′
∂β∂β
i=1
j=1
yij (xij − x̄i ) = 0
πj (xij − x̄i )(xij − x̄i )′
M. Fort – p. 147/22
Odds Ratio in modelli a risposta multipla non ordinata
Prob[yi =k|X]
Prob[yi =j] =
modello logit condizionale
modello logit multinomiale
exp((wik − wij )′ β)
exp(xi ′ (αk − αj ))
categoria di riferimento (rischio relativo): categoria 0
Prob[yi =k|X]
Prob[yi =0|X] =
modello logit condizionale
exp(w′ik β)
modello logit multinomiale
exp(x′i αk )
M. Fort – p. 148/22
Log Odds Ratio in modelli a risposta multipla non
ordinata
Prob[yi =k|X]
log( Prob[yi =j|X] )
modello logit condizionale
modello logit multinomiale
=
(wik − wij )′ β
xi ′ (αk − αj )
Il logaritmo del rapporto delle probabilità di scegliere
una alternativa k rispetto ad un altra j dipende
linearmente dalle caratteristiche degli individui e dagli
attributi delle alternative che si stanno confrontando e
non dagli attributi delle altre alternative → non viene
modificato se vengono considerate altre alternative.
M. Fort – p. 149/22
Effetti marginali di un regressore continuo x
logit multinomiale Prob[yik = 1|X] =
∂πk
= πk [αk −
∂xi
J
X
j=2
exp(x′i αk )
PJ
′α )
exp(x
j=0
i j
πj αj ] = πk [αk − ᾱ]
! Il segno della derivata dipende dal segno del termine tra
parentesi e può essere positivo per alcuni valori di x e
negativo per altri
Nel modello logit invece gli effetti marginali sono una
funzione monotona di x
M. Fort – p. 150/22
Effetti marginali di un regressore continuo w
logit condizionale Prob[yik = 1|X] =
exp(wik β)
PJ
j=1 exp(wij β)
∂πk
= β πk (1 − πk )
∂wik
! Il segno della derivata dipende dal segno di β
Il valore della derivata dipende da tutte le esplicative nel modello
∂πk
= −β πk πj
∂wij
! Il segno della derivata dipende dal segno di −β
Il valore della derivata dipende da tutte le esplicative nel modello
M. Fort – p. 151/22
Indipendenza dalle alternative irrilevanti (I.A.I.)
McFadden (1974)
modello logit multinomiale
Prob[yi =k|X]
log( Prob[yi =j|X] )
=
x′i (βk − βj )
modello logit condizionale
Prob[yi =k|X]
log( Prob[yi =j|X] )
=
(wik − wij )′ β
L’indipendenza dei log odds tra due alternative dagli
attributi delle altre alternative è indicata come
indipendenza dalle alternative irrilevanti
e segue dall’indipendenza stocastica degli errori εij
i livelli di utilità per le alternative Uij Uik sono indipendenti |X
(presentazione e discussione esempio)
M. Fort – p. 152/22
Indipendenza dalla alternative irrilevanti (I.A.I.):
commenti
l’ipotesi di I.A.I. è molto restrittiva
la validità dell’ipotesi I.A.I. dipende
dall’applicazione
l’ipotesi di I.A.I. è verosimile in contesti in cui
le alternative sono diverse e indipendenti
per chi sceglie
l’ipotesi di I.A.I. può non essere verificata su tutto
l’insieme di scelte disponibili ma tra sottoinsiemi di
esse
M. Fort – p. 153/22
Verifica dell’ipotesi di I.A.I.
Intuizione di base: se un insieme A di alternative è
irrilevante (H0 ), escluderle dall’insieme delle scelte
possibili non dovrebbe influenzare il valore delle
stime dei parametri del modello ma solo la loro
precisione;
se le alternative non sono indipendenti (H0 è violata),
le stime dei parametri nei due scenari (con βall e
senza βvin le alternative in A) differiranno
significativamente
→ test di Hausman
M. Fort – p. 154/22
! Ripasso !
Proprietà desiderabili di uno stimatore
Quali sono le proprietà dello stimatore di MV?
sotto quali ipotesi?
Definizione di consistenza
Definizione di efficienza
M. Fort – p. 155/22
Il
test
di
Hausman
per
la
verifica
dell’ipotesi
di
indipendenza dalle alternative irrilevanti (I.A.I.) 1/2
Hausmann & McFadden (1984)
Sotto l’ipotesi nulla di indipendenza delle alternative
irrilevanti, lo stimatore dei coefficienti θ del modello
basato sul campione che include tutte le scelte θbeff
è consistente ed efficiente, mentre lo stimatore θbcons
basato sul campione che esclude le alternative (irrilevanti)
nell’insieme A è consistente ma inefficiente.
Se l’ipotesi nulla è violata (sotto H1 ), θbeff non è
consistente, mentre θbcons è ancora consistente.
M. Fort – p. 156/22
Il
test
di
Hausman
per
la
verifica
dell’ipotesi
di
indipendenza dalle alternative irrilevanti (I.A.I.) 2/2
Stimatore
θbeff
θbcons
H0
consist.
√
√
H1
effic. consist.
√
X
√
X
effic.
-
test di Hausman
H = (θbcons − θbeff )′ (b
V(θbcons ) − b
V(θbeff ))−1 (θbcons − θbeff )
Il test rifiuta per valori grandi ed ha distribuzione χ2q , dove q è il numero di
elementi di θbcons
M. Fort – p. 157/22
Quando l’ipotesi di I.A.I. è violata . . .
si rilassa l’ipotesi di indipendenza degli errori, si
assume che gli errori abbiano una distribuzione
normale multivariata e si considera un modello
probit multinomiale; ma
se il numero di alternative è alto (>4), la scelta di un
modello probit multinomiale è sconsigliata ;
in alternativa si considerano modelli logit nidificati
che prevedono di raggruppare le alternative in modo
che l’ipotesi I.A.I. non sia violata entro i gruppi, ma
possa esser violata tra gruppi di scelte
M. Fort – p. 158/22
Diagnostica e misure di bontà di adattamento di
modelli con risposte non ordinate
Non esistono molti tests diagnostici per questi
modelli perchè non esiste un modo naturale di
costruire i residui.
Il test (di Hausman) per l’ipotesi I.A.I.
pseudo R2 = 1 −
L1
L0
L0 log-verosimiglianza nel modello con solo la costante
L1 log-verosimiglianza nel modello con regressori
(criteri basati su informazione AIC e BIC)
M. Fort – p. 159/22
Selezione del modello e misure di capacità previsiva di
modelli con risposte non ordinate
test di esclusione di singole variabili: test t su
singoli coefficienti
test di esclusione su gruppi di variabili: test RV del
rapporto di verosimiglianza
(previsione entro e/o fuori dal campione)
\
\
ybi = k se Prob[y
i = k|X] = maxj=1,...,J {Prob[yi = k|X]}
con questa regola, si considera la proporzione (o
percentuale) di previsioni corrette (come in modelli logit)
M. Fort – p. 160/22
Esempi utilizzando GRETL
1. Scelta del mezzo di trasporto:
interessa valutare come disegnare politiche mirate
ad incrementare la proporzione di individui che
utilizzano mezzi di trasporto poco inquinanti,
ad es. treno e bus versus aereo e auto
2.Scelta dell’auto: interessa studiare cosa determina la scelta
della casa produttrice; dati rilevati su 295 consumatori:
scelta tra produttore americano, giapponese, europeo;
genere e reddito dell’acquirente; numero di concessionari di
ciascun produttore presenti in città
M. Fort – p. 161/22
Esempio 2: choice based sampling
+--------------------------------------+
| id car choice dealer sex
income |
|--------------------------------------|
| 1
US
0
18
male
46.7 |
| 1
Jap
0
8
male
46.7 |
| 1
EU
1
5
male
46.7 |
| 2
US
1
17
male
26.1 |
| 2
Jap
0
6
male
26.1 |
| 2
EU
0
2
male
26.1 |
+--------------------------------------+
car variabile discreta indica l’alternativa scelta (yi )
choice variabile binaria indica l’alternativa scelta (yij )
dealer esplicativa varia tra individui e alternative (wij )
sex/income esplicativa varia tra individui (xi )
M. Fort – p. 162/22
Esempio 2: data set con un record per individuo
+--------------------------------------+
| id
car
dealer
sex income |
|--------------------------------------|
| 1
Europe
5
male
46.7 |
| 2
American
17
male
26.1 |
| 3
American
12
male
32.7 |
| 4
Japan
7
female
49.2 |
+--------------------------------------+
car variabile discreta indica l’alternativa scelta (yi )
sex/income esplicativa varia tra individui (xi )
La matrice delle esplicative per i modello logit
multinomiale:
X = [sex income costante]
M. Fort – p. 163/22
Esempio 2: dealer come attributo dell’alternativa
Tab. di dealer (righe) rispetto a car (colonne)
dealer [ US][ japan][ EU] TOT.
[
2]
8
8
[
3]
15
15
[
4]
8
8
[
5]
16
16
[
7]
16
16
[
9]
8
8
16
(....)
[ 21]
24
24
[ 23]
40
40
[ 24]
24
24
TOTALE
192
64
39
295
M. Fort – p. 164/22
Esempio 2: stima di un modello logit multinomiale
Modello 1: Stime ML usando le 295 osservazioni 1-295
loglik = mlogitlogprobs(car1,X,theta)
Errori standard basati sull’Hessiana
stima
err. std.
t
p-value
-----------------------------------------------theta[1]
-0.469
0.311
-1.511
0.1308
theta[2]
0.028
0.012
2.239
0.0251**
theta[3]
-1.962
0.621
-3.160
0.0016***
-------------------------------------------------theta[4]
0.539
0.452
1.193
0.2327
theta[5]
0.027
0.014
1.985
0.0472**
theta[6]
-3.180
0.755
-4.213
2.52e-05***
M. Fort – p. 165/22
Esempio 2: stima di un modello logit multinomiale, escludendo
una alternativa (japan)
Modello 2: Stime ML usando le 231 osservazioni 1-231
loglik = mlogitlogprobs(car1,X,theta)
Errori standard basati sull’Hessiana
stima
err.std.
t
p-value
--------------------------------------------------theta[1]
0.535
0.453
1.180 0.2379
theta[2]
0.026
0.013
1.915 0.0554*
theta[3]
-3.796
0.742
-5.114 3.15e-07***
Le stime dei coefficienti relativi alla scelta 3 (europe) β3
non sono molto diverse da quelle che abbiamo ottenuto
includendo l’alternativa japan.. come concludiamo su
ipotesi indipendenza dalle alternative irrilevanti
(I.A.I./I.I.A.)?
M. Fort – p. 166/22
Modelli per dati su scelte ordinate:
esempio (valutazione
condizionale)
Interessa valutare le determinanti della qualità
(percepita dagli utenti) del servizio di riparazione
auto di un concessionario
Si hanno dati sulle 69 riparazioni effettuate nel 1978
Alcune variabili osservate: make modello dell’auto;
mpg km percorsi; foreign provenienza (1 se
non locale); length lunghezza; price prezzo;
rep78 valutazione del servizio
come segue: 1 servizio scarso; 2 s. discreto;
3: nella media; 4:Buono, 5: Eccellente
M. Fort – p. 167/22
Modelli per dati su scelte ordinate: formulazione in
termini di variabili latenti
y∗i descrive il livello di soddisfazione latente (non
osservato) del cliente. Si assume esso sia funzione di
caratteristiche X y∗i = x′i β + εi . Si osserva
la variabile yi che assume valori in base alla regola
yi = 1
yi = 2
y∗i ≤ 0
0 < y∗i ≤ γ1
yi = 3 γ1 < y∗i ≤ γ2
yi = 4 γ2 < y∗i ≤ γ3
yi = 5 γ3 < y∗i ≤ γ4
M. Fort – p. 168/22
Modelli per dati su scelte ordinate: formulazione in
termini di variabili latenti
Prob[yi = 1|X] = Prob[y∗i ≤ 0]
Prob[yi = 5|X] = 1 − Prob[y∗i ≤ γ3 ]
Prob[yi = 2|X] = Prob[0 < y∗i ≤ γ1 ]
Prob[yi = 3|X] = Prob[y∗i > γ1 ] − Prob[y∗i ≤ γ2 ]
Prob[yi = 4|X] = 1 − Prob[y∗i ≤ γ2 ] − Prob[y∗i ≤ γ3 ]
(se la legge di y∗ è simmetrica)
Prob[yi = 4|X] = Prob[y∗i ≤ γ2 ] − Prob[y∗i ≤ γ3 ]
se y∗ = x′ β + ε e ε e N (0, 1)
Prob[yi = 4|X] = Prob[x′i β + εi ≤ γ2 ] − Prob[x′i β + εi ≤ γ3 ]
Prob[yi = 4|X] = Prob[εi ≤ γ2 − x′i β] − Prob[εi ≤ γ3 − x′i β]
M. Fort – p. 169/22
Modelli per dati su scelte ordinate: modello probit
ordinato
se y∗ = x′ β + ε e ε e N (0, 1)
Prob[yi
Prob[yi
Prob[yi
Prob[yi
Prob[yi
= 1|X] = Φ[−x′i β]
= 2|X] = Φ(−x′i β) − Φ(εi ≤ γ1 − x′i β)
= 3|X] = Φ(γ1 − x′i β) − Φ(εi ≤ γ2 − x′i β)
= 4|X] = Φ(γ2 − x′i β) − Φ(εi ≤ γ3 − x′i β)
= 5|X] = Φ[γ3 − x′i β]
I parametri che caratterizzano il modello sono
β e γ (le soglie)
σ 2 = 1 (identificazione)
M. Fort – p. 170/22
Modello probit ordinato: esempio di output di GRETL
Modello 2: Stime Probit ordinato usando le 69
Variabile dipendente: rep78
coeff.
err. std.
t
p-value
----------------------------------------------------price
3.45e-05
5.55e-05 0.622 0.534
mpg
0.121
0.047
2.565 0.010**
length
0.023
0.012
1.828 0.068*
nonloc
1.877
0.436
4.302 1.69e-05***
cut1
cut2
cut3
cut4
7.186
8.104
9.703
10.950
3.387
3.380
3.404
3.458
2.122
2.398
2.850
3.167
0.0338**
0.0165**
0.0044***
0.0015***
M. Fort – p. 171/22
“Bignami” e bibliografia
Modelli a risposta multipla (scelte non ordinate):
inferenza, adattamento
Esempio utilizzando GRETL
Modelli a risposta multipla (scelte ordinate):
inferenza, adattamento
Esempio utilizzando GRETL
Bibliografia: CO[2005] Cap. 9 (9.1-9.3); Cap. 10 (10.1, 10.2, 10.3)
M. Verbeek (2006) Cap. 6 (6.1, 6.2, 6.3, 6.3.1) Cap. 7 (7.1, 7.2,
7.2.1- 7.2.4)
M. Fort – p. 172/22
Introduzione ai modelli per variabile dipendente
censurata
Modello tobit standard e selezione del campione:
inferenza ed interpretazione
Esempi utilizzando GRETL (solo output)
Dati longitudinali e dati sezionali
Modelli per dati longitudinali
Ripasso metodo di stima minimi quadrati
generalizzati
Modello a effetti fissi o ad effetti casuali? Il test di
Hausman
M. Fort – p. 173/22
Che modello possiamo utilizzare per questo esempio?
Si è interessati a studiare le determinanti della
allocazione del tempo libero tra lavoro e due tipi
di attività per il tempo libero: relazione con
marito/moglie e relazione/i extra-coniugali
(Fair, JPE 1978)
nbaffairs è la variabile che registra il numero di
relazioni extra-coniugali: da Tab 1, Fair (1978): 0= mai;
1=una volta; 2= due volte; 3= 3 volte; 7= 4-10 volte;
12= mensile, settimanale, giornaliero.
nbaffairs misura l’intensità del fenomeno
M. Fort – p. 174/22
Distribuzione empirica della variabile nbaffairs
0.8
nbaffairs
N(1.4559,3.2988)
0.7
0.6
Densità
0.5
0.4
0.3
0.2
0.1
0
−5
0
5
10
nbaffairs
La variabile assume un numero finito di valori
C’e’ una massa di probabilità su 0
M. Fort – p. 175/22
Un modello con due stadi/decisioni per l’esempio
1/2
Il problema in esame si può vedere come un problema di
scelta in due stadi:
1. l’individuo sceglie se avere almeno una relazione
extra-coniugale
2. l’individuo sceglie quante relazioni extra-coniugali
avere, dato che ha deciso di averne almeno 1
M. Fort – p. 176/22
Un modello con due stadi/decisioni per l’esempio
2/2
Formalizzazione
Scelta 1 (incidenza)
nbaffairs∗
e
∗
Pr(nbaffairs
nbaffairs∗i |x
Scelta 2 (intensità | incidenza)
X′ δ
Bi(1, Φ( σν ))
se nbaffairs∗ > 0
X′δ
= 1|x) = Φ( σν )
X′δ
e Bi(1, Φ( σν ))
nbaffairs = x′ δ + ν
Φ(·) distr. normale standard
ossia nbaffairs = nbaffairs∗
ν e N (0, σν2 )
altrimenti
nbaffairs = 0
N.B. A differenza del caso del modello probit, non è necessario imporre
che σν2 = 1: le osservazioni su nbaffairs permettono di identificare σν2 .
Questo modello fa parte di una classe di modelli . . .
M. Fort – p. 177/22
Esempi di casi in cui la variabile dipendente è limitata:
.05
Density
.1
.15
troncamento e censura
Var. latente
y∗i = x′i β + εi
Troncamento
yi = y∗i
se
y∗i > 0
Censura
yi = y∗i
se
y∗i > 0, 0
0
εi e N (0, 1)
−10
0
y
10
20
0
.05
Density
.1
.15
.2
−20
0
5
10
15
10
15
0
.5
Density
1
1.5
y
altrimenti
0
5
z
M. Fort – p. 178/22
Modelli per variabile dipendente limitata: perchè il MRL non è
Troncamento
E[yi |X] = E[yi |X] = E[y∗i |X, y∗i > 0] 6= E[y∗i |X]
Censura
E[yi |X] = E[y∗i |X, y∗i > 0]·
−20
−10
0
y
.2
E[y∗i |X] = x′i β
0
.05
Density
.1
.15
Var. latente
0
.05
Density
.1
.15
adeguato?
0
5
0
.5
Density
1
1.5
y
0
5
z
Prob[y∗i > 0|X] + 0 · Prob[y∗i = 0|X] 6= E[y∗i |X]
M. Fort – p. 179/22
La distribuzione normale troncata
yi troncata da y∗i poniamo
Tronc.
dall’alto
a = (c − µ)/σ
y∗ e N (0, 1)
dal basso f(y|y > c)
f(y|y < c)
1/2
φ(y)
= 1−Φ(c)
= φ(y)
Φ(c)
y∗ e N (µ, σ 2 )
f(y|y > c) =
f(y|y < c)
1
σ φ((y−µ)/σ))
1−Φ(a)
− σ1 φ((y−µ)/σ)
=
Φ(a)
M. Fort – p. 180/22
La distribuzione normale troncata
2/2
e le corrispondenti medie E[yi ],
prendendo c = 0 e a = (−µ)/σ
Tronc.
dal basso
y∗ e N (0, 1) y∗ e N (µ, σ 2 )
φ(0)
1−Φ(0)
µ+
φ(a)
σ 1−Φ((a)
La quantità
λ(a) ≡
dall’alto
−φ(0)
Φ(0)
µ−
φ(a)
σ Φ((a)
φ(a)
1−Φ((a)
l’inverse Mills ratio
M. Fort – p. 181/22
Osservazioni
La media condizionale di una v.c. censurata
o troncata (yi ) non coincide con la media
condizionale della variabile sottostante (y∗i )
Nei casi in cui c’e’ troncamento, le unità (individui,
famiglie) per cui, ad es., y∗i < 0 non sono
osservate ⇒ non osservo né yi né xi
Nei casi in cui c’e’ censura, le unità (individui,
famiglie) per cui, ad es., y∗i < 0 sono
osservate ma per esse osservo yi = 0 ed xi
M. Fort – p. 182/22
Il modello Tobit standard: formulazione
J. Tobin (1958)
La variabile osservata è yi (nell’esempio nbaffairs)
yi = y∗i se y∗i > 0, 0 altrimenti
Si assume che la variabile latente sottostante sia
generata secondo
yi = x′i β + ui ui e N (0, σ 2 )
yi e N (x′i β, σ 2 )
errori omoschedastici a media nulla; non viene normalizzata la
varianza come nel caso di modelli probit
I dati generati da n realizzazioni indipendenti
secondo questa stessa legge
M. Fort – p. 183/22
Il modello Tobit standard: inferenza
Il modello Tobit è stimato con il metodo della massima verosimiglianza
Abbiamo specificato il modello generatore dei dati
osservati come funzione di parametri θ = (β, σ 2 )
Scriviamo l’i-esimo contributo alla verosimiglianza
(date le esplicative)
f(yi |θ, xi ) =
[Prob(yi = 0|xi , θ)]·
1(yi ≤0)
[f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0)
( parte censurata)
(parte non-censur
M. Fort – p. 184/22
Il modello Tobit standard: verosimiglianza
Scriviamo l’i-esimo contributo alla verosimiglianza
(date le esplicative)
f(yi |θ, xi ) =
[Prob(yi = 0|xi , θ)]·1(yi ≤0)
( parte censurata)
1(yi >0)
f(yi |xi ,θ)
·
P(y
>
0|x
,
θ)]
[ P(y
i
i
i >0|xi ,θ)
(parte non-censurata)
Nei prossimi lucidi scriveremo l’espressione della verosimiglianza
incorporando le altre assunzioni sul modello, ossia la relazione tra
yi , y∗i , xi e la normalità di ui . Evidenzieremo via via la componente
dell’espressione che stiamo considerando.
M. Fort – p. 185/22
Il modello Tobit standard: i-esimo contributo alla
verosimiglianza
1/4
f(yi |θ, xi ) =
[Prob(yi = 0|xi , θ)]·1(yi ≤0)
( parte censurata)
[f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0)
(parte non-censurata)
dove yi = 0 ⇔ y∗i ≤ 0, y∗i = x′i β + ui , ui e N (0, σ 2 )
Prob(yi = 0|xi , θ) = Prob[y∗i ≤ 0|xi , θ] =
Prob[x′iβ + ui ≤ 0|xi , θ] = Prob[ui ≤ −x′i β|xi , θ]
=
x′i β
Φ(− σ )
=1−
x′i β
Φ( σ )
φ(·) densità della normale standard
Φ(·) funz. di ripartizione della normale standard
M. Fort – p. 186/22
Il modello Tobit standard: i-esimo contributo alla
verosimiglianza
2/4
f(yi |θ, xi ) =
[Prob(yi = 0|xi , θ)]·1(yi ≤0)
( parte censurata)
[f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0)
(parte non-censurata)
dove yi = y∗i ⇔ y∗i > 0, y∗i = x′i β + ui , ui e N (0, σ 2 )
Prob(yi > 0|xi , θ) = Prob[y∗i > 0|xi , θ] =
Prob[x′iβ + ui > 0|xi , θ] = Prob[ui > −x′i β|xi , θ]
=1−
x′i β
Φ(− σ )
=
x′i β
Φ( σ )
φ(·) densità della normale standard
Φ(·) funz. di ripartizione della normale standard
M. Fort – p. 187/22
Il modello Tobit standard: i-esimo contributo alla
verosimiglianza
3/4
f(yi |θ, xi ) =
[Prob(yi = 0|xi , θ)]·1(yi ≤0)
( parte censurata)
[f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0)
(parte non-censurata)
dove yi = y∗i ⇔ y∗i > 0, y∗i = x′i β + ui , ui e N (0, σ 2 )
f(yi |xi , yi > 0, θ)
f(yi |xi ,θ)
= Prob[yi >0|xi ,θ]
=
f (yi∗ |xi ,θ)
Φ(x′i β/σ)
=
1
′
φ(x
i β/σ)
σ
Φ(x′i β/σ)
La prima uguaglianza segue dalla definizione di densità
condizionata (densità di una variabile troncata)
La seconda uguaglianza segue dalla def. di yi in funzione di y∗i
La terza uguaglianza segue dalla relazione tra y∗i ed ui e dal fatto
che ui ha distribuzione normale con media nulla e varianza σ 2 M. Fort – p. 188/22
Il modello Tobit standard: i-esimo contributo alla
verosimiglianza
4/4
f(yi |θ, xi ) =
[Prob(yi = 0|xi , θ)]·1(yi ≤0)
( parte censurata)
[f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0)
(parte non-censurata)
dove yi = 0 ⇔ y∗i ≤ 0, y∗i = x′i β + ui , ui e N (0, σ 2 )
f(yi |θ, xi ) =
1
′
φ(x
i β/σ)
σ
Φ(x′i β/σ)
x′i β 1(yi >0)
Φ( σ )]
= [1 −
x′i β 1(yi ≤0)
Φ( σ )]
= [1 −
x′i β 1(yi ≤0) 1
yi −x′i β 1(yi >0)
Φ( σ )]
[ σ φ( σ )]
[
φ(·) densità della normale standard
Φ(·) funz. di ripartizione della normale standard
M. Fort – p. 189/22
Il modello Tobit standard: logverosimiglianza
L’i-esimo contributo alla verosimiglianza (date le esplicative)
f(yi |θ, xi ) = = [1 −
yi −x′i β 1(yi >0)
x′i β 1(yi ≤0) 1
[ σ φ( σ )]
Φ( σ )]
φ(·) densità della normale standard
quindi l’i-esimo contributo alla logverosimiglianza
li = l(θ|yi , xi ) =
1(yi ≤
x′i β
0)log(1−Φ( σ ))
+ 1(yi >
yi −x′i β
1
0)log( σ φ( σ ))
e la log-verosimiglianza delle n realizzazioni
indipendenti di questa variabile è la somma di termini li
Pn
l(θ|xi , yi ) = i=1 li (θ|xi , yi )
M. Fort – p. 190/22
Il modello Tobit standard: inferenza
Si può mostrare che la funzione di
log-verosimiglianza del modello ammette un
massimo
Lo stimatore di massima verosimiglianza per i
parametri del modello, se il modello è correttamente
specificato, gode di tutte le proprietà (asintotiche)
valide per lo SMV nel caso generale
Le procedure di verifica di ipotesi basate sulla MV
(test del rapporto di verosimiglianza, di Wald, test
LM) possono essere utilizzate nell’ambito di
dei modelli tobit
M. Fort – p. 191/22
Esempio
Scelta 1 (incidenza)
x′ δ
e Bi(1, Φ( σν ))
x′ δ
∗
Pr(nbaffairs = 1|x) = Φ( σν )
x′ δ
∗
nbaffairsi |x e Bi(1, Φ( σν ))
nbaffairs∗
Φ(·) distr. normale standard
Scelta 2 (intensità | incidenza)
se nbaffairs∗ > 0
nbaffairs = x′ δ + ν
ossia nbaffairs = nbaffairs∗
ν e N (0, σν2 )
altrimenti
nbaffairs = 0
Implicazione del modello: i parametri δ indicano la direzione della
relazione tra le esplicative e la probabilità di avere almeno una relazione
extra-coniugale e la relazione tra le esplicative ed il numero di relazioni
M. Fort – p. 192/22
Risultati della stima dei parametri del modello di regressione
(punto di riferimento)
Stime OLS usando le 601 osservazioni 1-601
Variabile dipendente: nbaffairs
coeff.
err.std.
t
p-value
----------------------------------------------------const
5.886
0.775
7.592
1.22e-013***
age
-0.043
0.022
-2.004
0.0455**
ym
0.155
0.037
4.231
2.69e-05***
religious
-0.487
0.111
-4.378
1.41e-05***
rate
-0.705
0.118
-5.962
4.27e-09***
In questo modello i coeff. sono informativi sull’effetto
marginale delle esplicative su E[nbaffairs|X] = E[y|X]
M. Fort – p. 193/22
Risultati della stima di alcuni parametri del modello TOBIT con
MV
Variabile dipendente: nbaffairs
coeff. err.std.
t
p-value
--------------------------------------------------age
-0.160
0.075
-2.144
0.0320**
ym
0.538
0.140
3.847
0.0001***
religious -1.723
0.412
-4.179
2.92e-05***
rate
-2.267
0.445
-5.098
3.43e-07***
In questo modello i coeff. sono informativi sull’effetto
marginale delle esplicative su E[nbaffairs∗|X] = E[y∗ |X]
Cosa ci dicono sugli effetti marginali delle esplicative
su E[nbaffairs|X, nbaffairs > 0] = E[y|X, y > 0]? su
Prob[nbaffairs = 0|X] = Prob[y = 0|X]?
M. Fort – p. 194/22
Il modello Tobit standard: riassunto di quanto visto fino ad ora
Il modello viene utilizzato per studiare la relazione tra le x
e la variabile risposta quando quest’ultima è limitata
Il modello assume che la media della variabile latente sia
funzione lineare dei parametri
La media della variabile latente y∗i e della variabile osservata yi
-e censurata- sono in generale diverse
Attraverso il modello Tobit nel nostro caso possiamo
rispondere a domande come: qual è l’effetto
• dell’età sulla proporzione di individui che tradisce?
• della soddisfazione del proprio matrimonio sul numero
medio di tradimenti?
• della durata del matrimonio sul numero medio di tradimenti
commessi per chi tradisce?
M. Fort – p. 195/22
Il modello Tobit standard: interpretazione
Per rispondere a domande
Dovremo
come: qual è l’effetto
calcolare
dell’età sulla proporzione
∂(1−Prob[nbaffairs=0|X])
∂age
di individui che tradisce ?
della soddisfazione del matrimonio
∂E[nbaffairs|X]
∂rate
sul numero medio di tradimenti?
della durata del matrimonio sul
∂E[nbaffairs|X,nbaffairs>0]
∂ym
numero medio di tradimenti per chi tradisce?
M. Fort – p. 196/22
Interpretazione dei risultati nel modello Tobit standard: effetti
marginali su Prob[yi > 0|x]
∂(1−Prob[nbaffairs=0|X])
∂age
≡
∂(Prob[nbaffairs>0|X])
∂age
per le ipotesi del modello si ha
∂(Prob[nbaffairs>0|X])
∂age
=
x′i β
∂[Φ( σ )]
∂age
utilizzando le regole per la derivazione di funzioni composte e
sapendo che
∂Φ(x)
∂x =
φ(x) per definizione
∂(1−Prob[nbaffairs=0|X])
∂age
=
∂(Prob[nbaffairs>0|X])
∂age
=
x′i β βage
φ( σ ) σ
quindi sarà
∂(Prob[nbaffairs=0|X])
∂age
=
∂(1−Prob[nbaffairs>0|X])
∂age
=
x′i β βage
−φ( σ ) σ
M. Fort – p. 197/22
Interpretazione dei risultati nel modello Tobit standard: effetti
marginali su E[yi |x]
1/2
Per prima cosa deriviamo l’espressione di E[yi |x] nel caso
del modello Tobit sfruttando la legge del valore atteso iterato
E[yi |x] = E[yi |x, y∗i ≤ 0]Prob[y∗i ≤ 0|X]+
E[yi |x, y∗i > 0]Prob[y∗i > 0|X]
E[yi |x] = 0·(1 −
E[yi |x] =
x′i β
Φ σ )]
x′i β
Φ( σ )(x′i β)
+
+
x′i β
+σ
x′i β
φ( σ )
x′i β
Φ( σ )
x′i β
Φ( σ )
x′i β
σφ( σ )
M. Fort – p. 198/22
Interpretazione dei risultati nel modello Tobit standard: effetti
marginali (EM) su E[yi |x]
∂E[nbaffairs|X]
=
∂rate
si può dimostrare che
∂E[nbaffairs|X]
∂rate
=
2/2
′
′
xi β
xi β
′
∂ Φ( σ )(xi β)+σφ( σ )
∂rate
x′i β
βrate Φ( σ )
x′i β
Φ( σ )
quando
≈ 1, ossia è improbabile che l’individuo
non tradisca nell’esempio, il coefficiente βrate fornisce
una buona approssimazione dell’EM su E[nbaffairs|X]
L’EM su E[nbaffairs|X] tiene conto che la variazione di rate
può indurre un individuo a tradire il partner (o non farlo più)
M. Fort – p. 199/22
Esempio:
interpretazione dei risultati nel modello Tobit
standard
Gli effetti marginali sotto riportati sono calcolati nel punto
age = 32.5, ym = 8.18, religious = 3.12, rate = 3.93
(esplicative valutate al valor medio)
Qual è l’effetto
dell’età sulla proporzione
∂(1−Prob[nbaffairs=0|X])
∂age
di individui che tradisce
- 0.006
della soddisfazione del matrimonio
∂E[nbaffairs|X]
∂rate
sul numero medio di tradimenti?
-0.53
della durata del matrimonio sul
∂E[nbaffairs|X,nbaffairs>0]
∂ym
numero medio di tradimenti per chi tradisce?
0.13
M. Fort – p. 200/22
Il modello Tobit standard: test di specificazione,
estensioni
Lo stimatore MV è consistente se il modello è
correttamente specificato: se vi sono variabili
omesse o è violata l’ipotesi di normalità
lo stimatore non è più consistente
Esistono estensioni del modello che permettono di
utilizzare variabili esplicative diverse per
l’equazione di selezione e per la seconda equazione
e permettono alle stesse variabili di avere
influenza diversa sulle due scelte → modello di
selezione campionaria o modello tobit II// modello
Heckit perchè Heckman(1979) propose un metodo per stimarlo
M. Fort – p. 201/22
Il modello Heckit: esempio su partecipazione al lavoro delle
donne
Scelta 1 (selezione)
Scelta 2 (intensità | partecipazione
lavoro∗ = 1 se lavora, 0 altrimenti
se lavoro∗ = 1
lavoro∗ |Z = z e Bi(1, Φ(z′ α))
salario = x′ β + ε
Pr(lavoro∗ = 1|z) = Φ(z ′ α)
ossia salario = salario∗
lavoro∗i |z e Bi(1, Φ(z ′ α))
[ salario∗ salario potenziale ]
Φ(·) distr. normale standard
(ν, ε) e N2 (0, Σν,ε )
oppure salario = 0
h 1
i
Σν,ε = σν,ε σε2
A differenza del modello standard le esplicative che entrano nelle due parti
possono: (i) avere coefficienti diversi, quando le variabili coincidono; (ii)
essere diverse; (iii) può esserci correlazione tra le due equazioni; (iv) la
varianza nel modello probit di selezione è normalizzata ad 1.
M. Fort – p. 202/22
Il modello Heckit: l’idea sottostante lo stimatore e il problema di
identificazione
E[salarioi|lavoroi = 1] = x′i β + E[εi |lavoroi = 1]
per la definizione di lavoroi
= x′i β + E[εi |νi > −z′i α]
per le proprietà della normale condizionata
=
x′i β
+
σν,ε
σν2 E[νi |νi
per la normalizzazione σν2 = 1
E[salarioi|lavoroi = 1] =
> −z′i
φ(z′i α)
′
xi β+σν,ε Φ(z′ α)
i
Heckman propone di stimare il fattore di correzione ed includerlo nella
regressione (ai minimi quadrati) di salario sulle esplicative x
M. Fort – p. 203/22
“Bignami” e bibliografia
Modelli per variabile dipendente censurata:
ripasso delle proprietà della normale e
normale condizionata
Inferenza e interpretazione di modelli tobit
Estensione al caso di selezione non casuale
Bibliografia: CO[2005] Cap. 9 (9.1-9.3); Cap. 10 (10.4 (non tutto))
M. Verbeek (2006) Cap. 6 (6.1, 6.2, 6.3, 6.3.1) Cap. 7 (7.4, 7.5 (non tutto),
7.6 (non tutto) )
M. Fort – p. 204/22
Modelli per dati longitudinali: modelli lineari statici
Ripasso metodo di stima minimi quadrati
generalizzati
Modello a effetti fissi o ad effetti casuali?
Il test di Hausman
M. Fort – p. 205/22
Strutture di dati diverse dai dati sezionali
Campione di dati sezionali ripetuti nel tempo: si tratta di
campioni costituiti da soggetti diversi nella stessa
popolazione intervistati in diverse occasioni nel tempo
(ad es. una componente dell’indagine sulle forze di lavoro)
→ le osservazioni sono indipendenti ma difficilmente
sono realizzazioni della stessa variabile (ossia sono
identicamente distribuite)
Campione di dati longitudinali: si tratta di campioni costituti da
stessi soggetti intervistati in diverse occasioni nel tempo
(ad es. un’indagine sull’occupazione dei laureati a 6 mesi,
1 anno, 2 anni dalla laurea) → le osservazioni sullo stesso
individuo in istanti diversi tipicamente non sono indipendenti
M. Fort – p. 206/22
Esempio: determinanti dei tassi di criminalità
Si vuole studiare se alcuni fattori deterrenti hanno effetto sui
tassi di criminalità,
La teoria economica rilevante suggerisce il crimine si riduca in
seguito ad aumenti di: probabilità di arresto (arr), prob. di
essere condannati (condizionatamente ad essere arrestati,
conv), prob. di essere messi in prigione (condizionatamente
ad essere stati condannati, pris), e intensità della pena
(misurata come la durata media della sentenza sul tempo da
spendere in prigione, in giorni, sen)
Si rilevano il tasso di criminalità (crime) e le esplicative
sopra indicate su 90 contee (i = 1, ..., 90) per il periodo
1981-1987 (t = 81, ..., 87).
M. Fort – p. 207/22
Determinanti dei tassi di criminalità: dati
M. Fort – p. 208/22
Determinanti dei tassi di criminalità: analisi tramite un modello
di regressione
crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit
i indica la contea (va da 1 a 90)
t indica l’anno di riferimento (va da 81 a 87)
Periodicità: 7 (T), oss. max.: 630, (N)
Intervallo delle osservazioni: 1:1-90:7
M. Fort – p. 209/22
Determinanti dei tassi di criminalità: analisi tramite un modello
di regressione
crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit
i indica la contea (va da 1 a 90)
t indica l’anno di riferimento (va da 81 a 87)
Periodicità: 7 (T), oss. max.: 630, (N)
Intervallo delle osservazioni: 1:1-90:7
Stimando la regressione con il metodo dei minimi quadrati ordinari:
• non tengo conto dell’eventuale correlazione tra i tassi di criminalità di
una contea in anni diversi ed in generale sarà Cov(crimeit crimeis ) 6= 0
• non tengo conto dell’eventuale correlazione tra i tassi di criminalità di
contee diverse per lo stesso anno ed in generale sarà
Cov(crimeit crimejt ) 6= 0
M. Fort – p. 210/22
Determinanti dei tassi di criminalità:
generalizzazione del
modello di regressione lineare
crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit
νit = αi + λt +εit
Possiam considerare l’errore νit come somma di componenti
• una componente specifica della contea αi
• una componente specifica del periodo λt
• una componente residua εit
A seconda di come il modello caratterizza la relazione tra le
esplicative ed il termine di errore αi si considera un parametro
(intercetta specifica di contea) o una componente di varianza
M. Fort – p. 211/22
Modello ad effetti fissi: caratterizzazione
crimeit = β1 arrit + β2 convit + β3 prisit + β4 senit + νit
νit = αi + εit
Si assume che
E[εit |xis ] = 0 ∀i ∈ {1, 90}∀s, t ∈ {81, 87}
e εit siano omoschedastici ed incorrelati;
E[αi |x] 6= 0. Quindi, in generale
E[νit |xis ] 6= 0
se ∀i ∈ {1, . . . 90}∀s, t ∈ {81, . . . 87}.
! trappola delle dummy
M. Fort – p. 212/22
Modello ad effetti fissi: caratterizzazione
crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + νit
νit = αi + εit
Si assume che E[εit |xis ] = 0 ∀i ∈ {1, 90}∀s, t ∈ {81, 87}
e εit siano omoschedastici ed incorrelati; in generale
E[νit |xis ] 6= 0
∀i ∈ {1, 90}∀s, t ∈ {81, 87}.
Ad es. le contee 1 e 3 differiscono per come registrano i crimini:
nella contea 1 vengono registrati tutti i crimini, nella contea 2 solo
la metà. A parità di altre caratteristiche la contea 1 tenerà a registrare
valori più alti di crime della contea 3.
M. Fort – p. 213/22
Modello ad effetti casuali: caratterizzazione
crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit
νit = αi + εit
Si assume che ∀i ∈ {1, . . . 90} ∀s, t ∈ {81, . . . , 87}
E[νit |xis ] = 0
(quindi E[αi |xit ] = 0, E[εit |xis ] = 0).
Inoltre E[αi εit |xis ] = 0. Quindi tutta la correlazione
seriale nei termini νit è dovuta ad αi
mentre i termini εit e εis ∀s, t sono incorrelati.
Entrambe le componenti si assumono omoschedastiche.
M. Fort – p. 214/22
Modello ad effetti casuali: caratterizzazione
crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + νit
νit = αi + εit
Si assume che ∀i ∈ {1, 90}
∀s, t ∈ {81, 87} E[νit |xis ] = 0
(quindi E[αi |xit ] = 0, E[εit |xis ] = 0). Inoltre E[αi εit |xis ] = 0
ossia tutta la correlazione seriale nei termini νit è dovuta ad αi
mentre i termini εit e εis ∀s, t sono incorrelati.
Entrambe le componenti si assumono omoschedastiche.
Ad es. la correlazione tra tassi di criminalità della contea 1 nel 1986 e nel
1987 sono correlati perchè sono riferiti alla stessa contea, ma al netto
dell’effetto specifico di contea i tassi di criminalità sono incorrelati.
M. Fort – p. 215/22
Modello ad effetti casuali: inferenza
crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit
αi e IID(0, σα2 )
εit e IID(0, σε2 )
Il termine di errore νit = αi + εit sotto le assunzioni del modello, ha
proprietà che garantiscono la non distorsione ed efficienza dello stimatore
ai minimi quadrati generalizzati (GLS) dei parametri β di questo modello.
Per l’inferenza userò i risultati validi per βbGLS .
La matrice di var. e cov. di ν è funzione di σα2 , σε2 , T (laboratorio)
Poichè σα2 , σε2 non sono noti si ricorre al metodo FGLS (Feasible GLS)
→ lo stimatore combina l’informazione dalla dimensione within-group e
between-group (laboratorio)
M. Fort – p. 216/22
Modello ad effetti casuali: lo stimatore GLS
E’ possibile mostrare che lo stimatore GLS per i parametri β è
una media pesata di due stimatori per i parametri β: uno
stimatore che sfrutta la variabilità nel tempo entro i gruppi -le
contee nel nostro esempio- (stimatore within) e uno stimatore
che sfrutta la variabilità tra i gruppi (stimatore between)
I pesi dipendono dalla precisione degli stimatori e si attribuisce
maggiore influenza allo stimatore più preciso
Quale stimatore (within o between) trascura la dimensione
temporale?
Le differenze tra ed entro i gruppi si possono sfruttare per
stimare σα2 , σε2
M. Fort – p. 217/22
La trasformazione between
crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit
Considero la media sui periodi della dipendente e delle esplicative
xi. =
PT
t=1
T
xit
e la regressione ai minimi quadrati ordinari
crimei. = β0 + β1 arri. + β2 convi. + β3 prisi. + β4 seni. + αi + εi.
Sotto quali condizioni β\
M QO per questa equazione è consistente?
Quando è consistente, lo stimatore β\
M QO è anche efficiente?
M. Fort – p. 218/22
La trasformazione within
crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit
Considero la differenza dalla media sui periodi della dipendente e
delle esplicative xf
it = xit − xi. = xit
PT
t=1
T
xit
e la regressione ai
minimi quadrati ordinari
g it + β4 sg
^ it = β0 + β1 ag
crime
rrit + β2 conv
g it + β3 pris
enit + εeit
Sotto quali condizioni β\
M QO per questa equazione è consistente?
Quando è consistente, lo stimatore β\
M QO è anche efficiente?
M. Fort – p. 219/22
Modello ad effetti fissi: inferenza
crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +αi +
αi rappresenta il tasso di criminalità della contea i
a parità di altre caratteristiche
εit sotto le assunzioni del modello, ha proprietà che
garantiscono la non distorsione ed efficienza dello
stimatore OLS dei parametri β di questo modello.
Per l’inferenza userò i risultati validi per βbOLS
! Con un numero di contee (N) alto può essere problematico
stimare gli αi → stima within-group laboratorio
M. Fort – p. 220/22
La trasformazione within nel caso del modello ad
effetti fissi
crimeit = β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit
crimei. = β1 arri. + β2 convi. + β3 prisi. + β4 seni. + αi + εi.
crimeit − crimei. = β1 (arrit − arri. ) + β2 (convit − convi. )+
β3 (prisit − prisi. ) + β4 (senit − seni. ) + (αi − αi ) + (εit − εi. )
M. Fort – p. 221/22
Le trasformazioni
stimare σα2 , σε2
between
e
within
per
crimei. = β0 +β1 arri. +β2 convi. +β3 prisi. +β4 seni. +αi +ε
Var(εi. ) =
σα2
1 2
+ σε
T
g it +β4 sg
^ it = β0 +β1 ag
crime
rrit +β2 conv
g it +β3 pris
enit +e
εit
T−1 2
Var(e
εit ) =
σε
T
M. Fort – p. 222/22
Adattamento ai dati: indici descrittivi
R2 nel MRLM si può vedere come misura di
correlazione tra valori osservati e valori previsti
2
R2 = (Corr(yit , yc
)
rappresenta una misura
it
dell’adattamento totale
Nel contesto di dati longitudinali ci sono 3
grandezze potenzialmente rilevanti
yit (tasso di criminalità nella contea i al tempo t),
yi. (tasso di criminalità medio nella contea i) e
y.. (tasso di criminalità medio)
M. Fort – p. 223/22
Adattamento ai dati: indici descrittivi (cont.)
E[(yit − y.. )2 ] = E[(yit − yi. )2 ] + E[(yi. − y.. )2 ]
La variabilità totale è la somma di variabilità within
e between
2
)
(stime between)
R2B = (Corr(yi. , yc
i.
\
− yi. )2 (stime within)
R2W = (Corr(yit − yi. , yit
Sulla base dei valori previsti per le variabili
posso calcolare questi indici.
M. Fort – p. 224/22
Modello ad effetti casuali (RE) o modello ad effetti
fissi (FE)?
Il test di Hausman
H0 : E[αi |xis ] = 0 ∀s
Stimatore
βbeff
βbcons
βbRE
βbFE
H1 : ∃
H0
consist.
√
√
s E[αi |xis ] 6= 0
H1
effic. consist.
√
X
√
X
effic.
-
test di Hausman
V(βbFE ) − b
V(βbRE ))−1 (βbFE − βbRE )
H = (βbFE − βbRE )′ (b
Il test rifiuta per valori grandi ed ha distribuzione χ2q , dove q è il numero di
elementi di β
M. Fort – p. 225/22
Identificazione e alcune delle molte cose che non abbiamo trattato in
questo corso . . .
I dati longitudinali permettono di controllare per caratteristiche
individuali invarianti nel tempo in modo molto efficace es.
disoccupazione dipendenza effettiva dallo stato vs dipendenza spuria
Letteratura su identificazione, valutazione
Abbiamo studiato classi di modelli adatti a trattare problemi quali: la
scelta tra alternative, lo studio delle determinanti della spesa in beni
durevoli, l’esame di fenomeni che variano nel tempo e tra
osservazioni
Altri strumenti permettono di rispondere a domande diverse: modelli
multivariati (determinare il prezzo di mercato di un bene), modelli
per dati di durata (determinati del tempo impiegato per laurearsi),
modelli per dati di conteggio (relazione tra il numero di medaglie
vinte da un paese alle olimpiadi la ricchezza del paese)
M. Fort – p. 226/22
“Bignami” e bibliografia
Modelli lineari statici per dati longitudinali:
modello ad effetti fissi e modello ad effetti casuali
La trasformazione between e la trasformazione
within
Misure di adattamento di modelli lineari statici
Test di Hausman per la scelta tra modello ad
effetti fissi e modello ad effetti casuali
Bibliografia: M. Verbeek (2006) Cap. 4 (4.1, 4.2, 4.3) Cap. 10.1-10.2.4)
M. Fort – p. 227/22