Comments
Description
Transcript
Modello di Probabilità Lineare
Modelli Quantitativi per Microdati Corso di Econometria 2 Margherita Fort, Università di Bologna [email protected] Ultimo aggiornamento: 22 Febbraio 2010 M. Fort – p. 1/22 Informazioni pratiche La mia e-mail: [email protected] Il mio ufficio: I piano, piazzetta Scaravilli 2 Ricevimento: merc. ore 14.30 alle 16.00 (su appuntamento) Bibliografia: M. Verbeek (2006) Econometria [in italiano, a cura di S. Pastorello] Cappuccio e Orsi (2005), Econometria [CO(2005)] Altre info e materiale: Su UniversiBO al sito del corso; pagina docente Esame (I sessione): scritto (60%) [parziale 8 aprile] presentazione lavori di gruppo (40%) [8 aprile] assegnazione lavori di gruppo [24 marzo] M. Fort – p. 2/22 Altre informazioni pratiche: UniversiBO UniversiBO è ideato dagli studenti dell’Università di Bologna per le facoltà di Ingegneria, Economia, Scienze Motorie. Ci sono pagine dedicate a ciascun corso dove è possibile scaricare materiale (lucidi, dispense, appelli d’esame). Per accedere al servizio è necessario registrarsi al link https : //www.universibo.unibo.it/index.php?do = RegStudente Per attivare un account sono necessarie 24 ore . . . registratevi al più presto! Per qualsiasi problema o altre spiegazioni contattate lo staff di UniversiBO all’indirizzo [email protected]. M. Fort – p. 3/22 Altre informazioni pratiche: esercitazioni Il corso prevede 10 lezioni di 3 ore. 4 lezioni su 10 si svolgeranno in laboratorio informatico per sviluppare insieme applicazioni dei modelli visti a lezione (stima, verifica di ipotesi, interpretazione dei risultati, previsione). Software: GRETL. Da scaricare gratuitamente da http : //gretl.sourceforge.net/win32/index_it.html GRETL si può usare sia con menu a finestra sia scrivendo dei brevi programmi (script). Noi useremo script. Almeno un esempio di programma di GRETL per stima e analisi dei risultati dei modelli presentati a lezione viene fornito e spiegato in laboratorio M. Fort – p. 4/22 Altre informazioni pratiche: prove d’esame 1/2 Parziale: prova scritta con domande a risposta multipla e aperte+ lavoro di gruppo Appelli di giugno-luglio: si mantiene il voto della prova di gruppo + esame scritto in laboratorio con domande a scelta multipla e aperte ed esercizio pratico utilizzando il software GRETL Appelli di settembre e gennaio/febbraio: esame scritto in laboratorio con domande a scelta multipla e aperte ed esercizio pratico utilizzando GRETL Durante l’ultima lezione, faremo una simulazione di prova d’esame (e correzione). Il voto di questa parte dell’esame di Econometria vale fino alla sessione di gennaio-febbraio 2011. M. Fort – p. 5/22 Altre informazioni pratiche: prove d’esame 2/2 Esame scritto: dura 60 minuti, in ogni appello Domande esame scritto: di natura teorica o di carattere applicato, a scelta multipla o domande aperte; ciascuna domanda può valere da 1 a 10 punti Per l’esame parziale, le prove non richiederanno l’uso di GRETL, ma potranno richiedere l’interpretazione dell’output di GRETL Per tutte le prove finali, le prove scritte richiederanno l’uso di GRETL, ossia di scrivere un breve programma (script) E interpretare i risultati delle elaborazioni M. Fort – p. 6/22 Altre informazioni: lavoro di gruppo Consiste nella soluzione di un esercizio pratico seguendo una traccia, i.e. rispondendo a circa 6 domande Prevede l’analisi di dati tramite GRETL Include la preparazione di una relazione da consegnare 2 giorni prima della discussione (6 aprile) La relazione deve essere di non meno di 5 e non più di 10 pagine meno di 5 o più di 10 pagine non verranno considerate La discussione dura 45 minuti per gruppo: 35 minuti di presentazione + 10 minuti di domande Discussione: preparare circa 20 lucidi; organizzarsi in modo che ciascun membro del gruppo possa esporre una parte di esercizio M. Fort – p. 7/22 Sui lavoro di gruppo e valutazione prova parziale Entro il 9 Marzo comunicare chi intende fare i lavori di gruppo E’ possibile proporre dei gruppi di lavoro Numero minimo di persone per gruppo: 3 Numero massimo di persone per gruppo: 4 Tempo per il lavoro: 2 circa settimane (senza lezioni) Esempio di valutazione del parziale Somma dei punti del lavoro di gruppo e dello scritto come segue • se il gruppo ottiene una valutazione di 30, il candidato prende 12 punti (40% di 30) • se la valutazione dello scritto è 25, il candidato prende 15 punti (60% di 25) • valutazione finale: 12+15=27 M. Fort – p. 8/22 Introduzione ed Esempi Inferenza: metodo dei momenti e metodo di massima verosimiglianza Applicazione dei metodi : inferenza nel modello di regressione lineare semplice Modelli per variabile dipendente binaria M. Fort – p. 9/22 Altre informazioni: econometria & . . . In questo corso studieremo econometria applicata a microdati L’econometria è -definizione adatta da CO(2005)l’applicazione di modelli statistici condizionali a dati economici per descrivere sinteticamente e quantificare relazioni tra variabili economiche suggerite dalla teoria, per fornire supporto nella scelta tra teorie alternative, per formulare previsioni. M. Fort – p. 10/22 . . . microdati Si usa il termine microdati per riferirsi a dati sulle scelte e/o azioni di agenti (individui, imprese, . . .) Possono essere di fonte campionaria o censuaria. Possono essere riferiti ad un solo periodo nel tempo (in tal caso si parla di dati sezionali) o a diversi periodi di tempo. Se la stessa unità campionaria viene osservata ripetutamente si parla di dati longitudinali. M. Fort – p. 11/22 A quali domande possiamo rispondere con i modelli che studieremo? Esempi Quali sono le caratteristiche che influenzano in modo signifi-cativo le scelta di un individuo (ad es. scelta tra marche)? Le azioni di marketing (ad es. promozioni,fidelizzazione, pubblicità) intraprese da un’azienda sono efficaci? Quale è l’effetto di un aumento della probabilità di arresto e della probabilità di finire in carcere sui tassi di criminalità? paper G. Mastrobuoni et al. (2007) Cosa determina la partecipazione al lavoro ed il livello di salario per chi partecipa? (altri esempi: spesa per alcolici/sigarette, relazioni extra-coniugali, . . .) M. Fort – p. 12/22 Calendario informazioni indicative I settimana: lezione in aula (verosimiglianza, modelli per scelta binaria) II settimana: lezione in aula e in laboratorio (modelli per scelta binaria/ multipla) III settimana: lezione in aula e in laboratorio (modelli per scelta multipla, per variabile dipendente limitata) IV settimana: lezione in aula e in laboratorio (modelli per variabile dipendente limitata, lineari per dati longitudinali) V settimana: lezione in aula e in laboratorio (modelli lineari per dati longitudinali) M. Fort – p. 13/22 Questioni ‘statistiche’ legate all’analisi di dati su scelte Gli individui scelgono tra un numero limitato di alternative, ordinate e non I dati sulle scelte spesso non si possono misurare su una scala continua o si possono misurare su una scala continua ma l’insieme di valori che possono assumere è ‘limitato’ (ad es. si osservano la spesa in sigarette, se è positiva) In questi casi, vedremo che il modello di regressione lineare non è, tipicamente, lo strumento adatto per l’analisi di interesse ma è un utile riferimento, punto di punto di partenza. M. Fort – p. 14/22 Notazione (y, x) variabili casuali osservate nella popolazione di interesse o in campioni casuali dalla stessa {(yi , xi ), i = 1, . . . , n} (yi , xi ) indica il campione casuale di numerosità n. le realizzazioni (yi , xi ) sono i.i.d. i modelli sono caratterizzati da assunzioni sul processo generatore dei dati che si applicano alla popolazione ed a campioni casuali dalla popolazione M. Fort – p. 15/22 Perchè un modello di regressione lineare come prima approssimazione della relazione tra Y e X 1/2 Si vuole descrivere sinteticamente la relazione non deterministica tra Y e X: un indicatore sintetico è il parametro di popolazione E[Y|X], la media condizionale Proprietà della media condizionale: (1) E[Y|X] = argminm(X) E[(Y − m(X))2 ] (2) Y = E[Y|X] + ε; (3) Var[Y] = Var[E[Y|X]] + E[Var[Y|X]] La regressione lineare è Y = β0 + β1 X + ε, dove β = argminb E[(Y − b0 − b1 X)2 ], β = [β0 β1 ]′ M. Fort – p. 16/22 Perchè un modello di regressione lineare come prima approssimazione della relazione tra Y e T 2/2 1. Se la media condizionale è lineare in X, la regressione lineare è la media condizionale 2. La funzione X′ β fornisce la migliore approssimazione lineare di E[Y|X] (enfasi su parametro della distribuzione condizionata) 3. La funzione X′ β è il miglior predittore lineare di Y|X (enfasi su previsione di valore “individuale”) (2) & (3) ⇒ β è lo stesso se scelgo come variabile dipendente Y o E[Y|X] M. Fort – p. 17/22 Interpretazione dei parametri nel modello di regressione semplice, Y = β0 + β1 X + ε, q Var[Y] β1 = Cov[Y,X] = Corr[Y, X] , Var[X] 6= 0, Var[X] Var[X] Corr[Y, X] correlazione semplice tra Y e X nel modello di regressione multipla, Y = βe0 + βe1 X + β2 Z + ε, βe1 ∝ Corr[Y, X|Z], Corr[Y, X|Z] correlazione parziale tra Y e X, dato Z Se le ipotesi del modello di regressione sono verificate, β1 rappresenta la variazione in Y indotta/causata da una variazione unitaria di X. Cosa rappresenta βe1 ? Quando βe1 coincide con β1 ? Che relazione c’è tra β1 e βe1 ? ⊲ M. Fort – p. 18/22 Ipotesi del modello di regressione lineare (MRL) & violazioni Ipotesi 1. Linearità: E[Yi |Xi ] = β0 + β1 Xi , ∀i ⊳⊲ (che implicazioni su effetto di X su Y?) 2. Omoschedasticità: Var[Yi |X] = σ 2 , ∀i 3. Incorrelazione: Cov[Yi , Yj |X] = 0, ∀i, j Violazioni di queste ipotesi 1. Errata specificazione della forma funzionale (che implicazioni su interpretazione di β1 ?) 2. Eteroschedasticità 3. Correlazione seriale (quando ha senso esplorare questa ipotesi?) M. Fort – p. 19/22 Formulazione alternativa del MRL parte sistematica Yi = z }| { E[Yi |X] = β0 + β1 Xi + | {z } parte prevedibile parte casuale + z}|{ εi εi |{z} parte imprevedibile Ipotesi ⊳⊲ 1. Esogeneità stretta E[εi |X] = 0 da cui E[εi ] = 0, ∀i 2. Omoschedasticità E[ε2i |X] = σ 2 da cui E[ε2i ] = σ 2 , ∀i 3. Incorrelazione seriale E[εi εj |X] = 0, ∀i, j (1) z}|{ Cov[εX] = E[εX] + E[ε]E[X] = EX [E[ε|X]X] = 0 M. Fort – p. 20/22 Stima del MRL: Minimi Quadrati Ordinari 1/3 premessa: esistono diversi modi di stimare MRL . . . (1) z}|{ b b (β0 , β1 ) = argminβ0 ,β1 Var[ε] = argminb0 ,b1 E[ε2 ] (βb0 , βb1 ) = argminβ0 ,β1 E[(Y − β0 − β1 X)2 ] ! dati su popolazione vs dati su campione dalla popolazione ! somma dei quadrati dei residui, SQ (βb0 , βb1 ) = argminβ0 ,β1 n1 }| { z n X (yi − β0 − β1 xi )2 i=1 ⊳⊲ M. Fort – p. 21/22 Minimi Quadrati Ordinari (MQO) 2/3 somma dei quadrati dei residui, SQ (βb0 , βb1 ) = argminβ0 ,β1 n1 ∂SQ ∂β0 ∂SQ ∂β1 i=1 Pn Pn i=1 yi = β0 n + β1 i=1 xi Pn Pn Pn 2 i=1 xi yi = β0 i=1 xi + β1 i=1 xi =0 =0 βb0 = βb1 = Pn i=1 n }| { z n X (yi − β0 − β1 xi )2 yi − β1 Pn i=1 n xi = ȳ − β1 x̄ Pn i=1 yi ) x )( x y −( i=1 i P n i=1 i i n x Pn Pn i 2 ) ( i=1 xi )−( i=1 xi )( i=1 n Pn Pn = \ cov(y,x) , \ var(x) \ 6= 0 var(x) M. Fort – p. 22/22 Proprietà dello stimatore MQO 3/3 Cosa è uno stimatore? Quali son le proprietà desiderabili per uno stimatore? Non distorsione (in media “indovina”) E[βb0 ] = β0 , E[βb1 ] = β1 Efficienza (minima varianza) teorema di Gauss-Markov Consistenza (quando il campione è grande, “indovina” quasi sempre: la varianza diventa piccolissima e la distribuzione dello stimatore si concentra attorno alla media) plimn→∞ βb1 = β1 plimn→∞ βb0 = β0 ⊳⊲ M. Fort – p. 23/22 Scelta del consumatore: mezzo di trasporto Medie e deviazioni standard Tempo Mezzo di attesa Treno Costo Reddito di viaggio totale veicolo familiare ttme invt gc invc hinc 35.7 608.3 130.2 51.3 34.5 12.3 251.8 58.2 27.0 19.7 Proporzione di individui che utilizza il treno nel campione: 30%. Yi =modei = 1(individuo i sceglie il treno) yi = α0 + α1 ttmei + α2 gci + α3 invci + α4 invti +α5 hinci + ǫi M. Fort – p. 24/22 Analisi delle determinanti della scelta di prender il treno: modello di probabilità lineare regress mode ttme gc invc invt hinc Source | SS df Number of obs = 210 ---------+-----------F(5, 204) = 18.61 Model | 13.8 5 Prob > F = 0.0000 Residual | 30.3 204 R-squared = 0.3132 ---------+-------------- Adj R-squared = 0.2964 Total | 44.1 209 Root MSE = .38531 ----------------------------------------------------mode | Coef. Std.Err. t P>|t| [95% Conf.Int.] ------+---------------------------------------------ttme | -.014 .002 -5.87 0.0 -.019 -.009 invt | -.001 .0003 -1.55 0.1 -.001 .0001 (...) ----------------------------------------------------- M. Fort – p. 25/22 Ipotesi del modello di regressione lineare multipla (MRLM) Ipotesi 1. Linearità: E[Yi |X] = Xβ, ∀i 2. Omoschedasticità: Var[Yi |X] = σ 2 , ∀i 3. Incorrelazione: Cov[Yi , Yj |X] = 0, ∀i, j 4. Assenza di collinearità esatta: non esistono relazioni lineari esatte tra i regressori inclusi (variabili indicatrici (dummies); potenze di variabili indicatrici; discussione) 5. Normalità : Yi |X ∼ N(Xβ; σ 2 ) M. Fort – p. 26/22 Un Metodo di Stima Diverso dai Minimi Quadrati: il Metodo della Massima Verosimiglianza (MV) 1/5 Spesso è possibile ipotizzare (o si hanno informazioni su) la distribuzione dei dati, tipo yi |x ∼ p(yi |x; θ) dove θ è un parametro ignoto e p(·|·; θ) è la funzione di densità (se y è una v.c. continua) o di probabilità (se y è discreta), i indica un individuo nel campione. Si assume solitamente che le yi siano indipendenti, date le esplicative, ed identicamente distribuite (i.i.d.) secondo la legge p(yi |x; θ). M. Fort – p. 27/22 Un Metodo di Stima Diverso dai Minimi Quadrati: il Metodo della MV 2/5 La densità congiunta delle osservazioni si può scrivere come n Y p(y; x, θ) = p(y1 , . . . , yn ; x, θ) = p(yi |x; θ) i=1 ed è una funzione delle osservazioni dati i parametri. La funzione di verosimiglianza indicata dall’espressione n Y L(θ) = L(θ; y) = p(yi |xi ; θ) i=1 ed è una funzione dei parametri date le osservazioni. M. Fort – p. 28/22 Un Metodo di Stima Diverso dai Minimi Quadrati: il Metodo della MV 3/5 La funzione di log-verosimiglianza è indicata da n X l(θ) = log(L(θ)) = log(L(θ; y)) = log(p(yi |xi ; θ)) i=1 ed è una funzione dei parametri date le osservazioni. La stima di MV del parametro ignoto θ si ottiene massimizzando la verosimiglianza L(θ) o la logverosimiglianza log(L(θ)). L’idea è quella di scegliere il valore di θ per cui è massima la probabilità di osservare il campione che effettivamente si osserva. M. Fort – p. 29/22 Un Metodo di Stima Diverso dai Minimi Quadrati: il Metodo della MV 4/5 θbMV : l(θd MV ) = max l(θ) = max log(L(θ)) θbMV : max n X i=1 log(p(yi |xi ; θ)) Condizioni per un punto di massimo di una funzione: ∂l(θ) ∂θ ∂ 2 l(θ) ∂θ∂θ′ = 0, < 0, ∂l(θ) ∂θ ∂ 2 l(θ) ∂θ∂θ′ ≡ s(θ), s(θ) ≡ gradiente [score funct funzione punteggio] ≡ H(θ), H(θ) ≡ matrice hessiana M. Fort – p. 30/22 Un Metodo di Stima Diverso dai Minimi Quadrati: il Metodo della MV 5/5 Le condizioni del primo ordine (C.P.O.) ∂l(θ) ∂θ ∂l(θ) ∂θ = 0, ≡ s(θ) non sempre ammettono una soluzione esplicita E’ ignota l’espressione per lo stimatore di MV θMV e la stima dei parametri è calcolata utilizzando strategie di ottimizzazione numerica (Newton-Raphson) Idea: aggiornare una stima iniziale del parametro fino a che la differenza tra le corrispondenti l(θ̃) sia “piccola” (< ε). La sequenza di iterazioni di questo processo converge ad un massimo locale, non necessariamente globale. E’ importante partire da una stima vicina al vero valore del parametro. M. Fort – p. 31/22 Stima di un MRLM con il metodo della MV 1/4 L’operazione di inferenza sul valore dei parametri β e σ 2 è vista come inferenza non più su una caratteristica della popolazione indagata ma sul valore dei parametri che individuano una specifica distribuzione di Y|X nella famiglia delle distribuzioni normali. Fissato il campione {yi , xi }i=1,...,n la funzione di densità congiunta del campione F(y1 , . . . , yN , X; β, σ 2 ) è una funzione dei parametri che esprime la “probabilità” che a priori esisteva di osservare il valore realmente osservato. Essa fornisce un grado di accordo tra il valore dei parameri e l’osservazione empirica. M. Fort – p. 32/22 Stima di un MRLM con il metodo della Massima Verosimiglianza (MV) 2/4 2 L(β, σ |y1 , y2 , . . . , yi , . . . , yn , X) = Criterio “ragionevole” Qn 2 φ(y |X ; β, σ ) i i i=1 b σb2 ) =argmaxβ,σ2 L(β, σ 2 |y1 , y2 , . . . , yi , . . . , yn , X) (β, ⇐⇒ b σb2 ) =argmax 2 log(L(β, σ 2 |y1 , y2 , . . . , yi , . . . , yn , X)) (β, β,σ l(β, σ 2 ) ≡ log(L(β, σ 2 |y1 , y2 , . . . , yi , . . . , yn , X)) (sotto ipotesi di normalità) = − n2 log(2π) − n 1 2 ln(σ )− 2 2σ 2 Pn ′ 2 (y − β x ) i i=1 i M. Fort – p. 33/22 Stima di un MRLM con il metodo della Massima Verosimiglianza (MV) 3/4 Condizioni del primo ordine per punto di massimo per logverosimiglianza sotto ipotesi di normalità Pn ∂l(β,σ 2 ) 1 ′ = (y − β xi )xi = 0 2 i i=1 ∂β σ ∂l(β,σ 2 ) ∂σ 2 = − 2σn 2 + 1 2σ 4 Pn ′ 2 (y − β x ) =0 i i=1 i (valgono condizioni su derivate seconde per punto di massimo) βbMV = βbMQO Pn Pn ′ −1 = ( i=1 Xi Xi ) ( i=1 X′i yi ) Pn 1 b b 2 2 σ MV 6= σ MQO = n i=1 (yi − β ′ xi )2 (discussione) M. Fort – p. 34/22 Alcune proprietà dello Stimatore di Massima Verosimiglianza 4/4 θd M V è uno stimatore consistente per θ a 1 d ) θM V ∼ N(θ, i(θ) θd M V raggiunge il limite di Rao-Cramer, è asintoticamente efficiente I(θ) = Eθ0 [J(θ)] = ∂ ∂l(θ) E[− ∂θ ( ∂θ )] i(θ) informazione attesa di Fisher; j(θ) inf. osservata di Fisher Le proprietà elencate valgono qualunque sia la legge di yi sotto campionamento casuale semplice, sotto condizioni di regolarità (differenziabilità della verosimiglianza; condizioni sul supporto dei parametri ignoti). M. Fort – p. 35/22 Abbiamo (ri-)visto . . . Modello di regressione lineare: def., stima MQO Un diverso approccio alla stima: massima verosimiglianza La definizione dello stimatore di massima verosimiglianza Le proprietà dello stimatore di massima verosimiglianza Vediam come e perchè è utile per l’analisi del nostro caso . . . M. Fort – p. 36/22 Analisi delle determinanti della scelta di prender il treno: modello di probabilità lineare Probabilità di viaggiar con treno|tempo attesa −.5 0 .5 1 Scelta mezzo di trasporto e tempo di attesa in stazione (Associazione) 0 25 50 Tempo di attesa (minuti) y_{i}=1(i sceglie treno) 75 100 E=[y_{i}|t]=Pr(Treno|t) Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani. Interpretazione: se il tempo di attesa fosse 25 minuti, circa il 45% degli individui sceglierebbe il treno; se il tempo di attesa fosse 75 minuti, ??? M. Fort – p. 37/22 Osservazioni Esplicative 0/1 in MRL: • non pongono particolari problemi (trappola delle dummy) • possono essere utili per rendere un modello molto più flessibile (modelli con intercetta variabile o con effetti marginali non costanti) Variabile dipendente 0/1 in MRL: il modello non è, in generale, adatto a descriverne l’andamento (perchè?) M. Fort – p. 38/22 Se non fosse per la normalità . . . L’ipotesi 5. Normalità : Yi |X ∼ N(Xβ; σ 2 ) non è accettabile se yi può assumere solo i valori 0 e 1. Un’ipotesi ragionevole è invece yi ∼ B(1, π) ≡ Be(π) Prob[yi = 1] = π Prob[yi = 0] = 1 − π π ∈ (0, 1) E[yi ] = Prob[yi = 1] = π Var[yi ] = E[yi2 ] − E[yi ]2 = π − π 2 = π(1 − π) Modello di probabilità lineare ⊲ M. Fort – p. 39/22 Modello di probabilità lineare 1/2 I dati su Y: yi = 1 se i prende il treno; yi = 0 altrimenti Formulazione del modello di probabilità lineare yi = α0 + α1 ttmei+ǫi E[yi |ttme] ≡ Prob[yi = 1|ttme] = α0 + α1 ttmei e si ha ǫi = 1 − α0 − α1 ttmei se yi = 1 ǫi = −α0 − α1 ttmei se yi = 0 Calcolare la varianza degli errori! M. Fort – p. 40/22 Modello di probabilità lineare 2/2 E[yi |ttme] = Prob[yi = 1|ttme] = α0 + α1 ttmei = πi ǫi = yi − E[yi |ttme] ǫi = 1 − α0 − α1 ttmei se yi = 1 ǫi = −α0 − α1 ttmei se yi = 0 yi |ttme ∼ Be(α0 + α1 ttmei) v.c. bernoulli, binomiale ⊳ Var[ǫ] = E[ǫ2 ] − E[ǫ]2 = (−πi )2 (1 − πi ) + (1 − πi )2 πi Var[ǫi |ttme] = Var[yi |ttme] = πi (1 − πi ), πi ≡ α0 + α1 ttmei (discussione) M. Fort – p. 41/22 Ma si può fare meglio . . . yi |ttme ∼ Be(α0 + α1 ttmei), πi (α) ≡ α0 + α1 ttmei E[yi |ttme] = Prob[yi = 1|ttme] = α0 + α1 ttmei Var[yi |ttme] = (α0 + α1 ttmei )(1 − α0 + α1 ttmei ) L(α|y, X) = Q i:yi =1 πi (α) Q i:yi =0 (1 − πi (α)) Per garantire che πi ∈ (0, 1), si considera πi (α) ≡ F(α0 + α1 ttmei ) dove F(·) è una funzione reale che assume valori sull’intervallo (0,1). M. Fort – p. 42/22 Scelte di F(·) (“statistica”) e . . . yi |ttme ∼ Be(πi (α)), πi (α) ≡ F(α0 + α1 ttmei ) F(·) è la funzione di ripartizione logistica =⇒ modello logit anche detto =⇒ modello di regressione logistica F(·) è la funzione di ripartizione normale =⇒ modello probit Si noti che Modello di probabilità lineare: Modello logit o probit: ∂E[yi |ttme] ∂ttme ∂E[yi |ttme] ∂ttme = f(α0 f(x) ≡ ∂F(x) ∂x = α1 + α1 ttmei)α1 , M. Fort – p. 43/22 Probabilità di viaggiar con mezzo|tempo attesa 0 .25 .5 .75 1 Analisi delle determinanti della scelta di prender il treno: modello logit Scelta mezzo di trasporto e tempo di attesa in stazione (Associazione) 0 25 50 Tempo di attesa (minuti) 75 100 Pr(Treno|t) Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani. Interpretazione: se il tempo di attesa fosse 25 minuti, circa il 47% degli individui sceglierebbe il treno; se il tempo di attesa fosse 75 minuti, solo circa il 2% M. Fort – p. 44/22 Probabilità di viaggiar con mezzo|tempo attesa 0 .25 .5 .75 1 Analisi delle determinanti della scelta di prender il treno: modello probit Scelta mezzo di trasporto e tempo di attesa in stazione (Associazione) 0 25 50 Tempo di attesa (minuti) 75 100 Pr(Treno|t) Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani. Interpretazione: se il tempo di attesa fosse 25 minuti, circa il 44% degli individui sceglierebbe il treno; se il tempo di attesa fosse 75 minuti, solo circa il 3% M. Fort – p. 45/22 . . . formulazione latente dei modelli per variabili dipendenti binarie (“economia”) 1/3 McFadden (1974, 1981) yi variabile osservata che rappresenta la scelta dell’individuo i Esaminiamo il problema della scelta ottimale per l’individuo i tra alternative j: egli sceglierà la possibilità che fornisce la massima utilità (indiretta) maxα Uij , Uij = x′i θj + ηij in Uij c’è una componente che dipende da caratteristiche dell’individuo e/o o delle alternative ed una componente casuale. M. Fort – p. 46/22 . . . formulazione latente dei modelli per variabili dipendenti binarie (“economia”) 2/3 maxα Uij , Uij = ′ xi θj + ηij Data una coppia di alternative (ad esempio “treno”-scelta 1- versus “non-treno”-scelta 0-), l’individuo sceglierà sulla base della differenza di utilità, ossia sulla base di α ǫ z }| { z }| { yi∗ ≡ Ui1 − Ui0 = x′i (θ1 − θ0 ) + (ηi1 − ηi0 ) yi∗ ≡ Ui1 − Ui0 = x′i α + ǫi yi∗ non è osservata, è latente. Si osserva yi = 1 sse yi∗ > 0, yi = 0 sse yi∗ ≤ 0. M. Fort – p. 47/22 . . . formulazione latente dei modelli per variabili dipendenti binarie (“economia”) 3/3 yi∗ ≡ Ui1 − Ui0 = x′i α + ǫi Si osserva yi = 1 sse yi∗ > 0, yi = 0 sse yi∗ ≤ 0. E[yi = 1|xi ] = Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] = Prob[x′i α + ǫi > 0|xi ] = Prob[ǫi > −x′i α|xi ] M. Fort – p. 48/22 Qualche dettaglio importante . . . Collego le quantità osservate yi , xi ai parametri ignoti α E[yi = 1|xi ] = Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] = Prob[x′i α + ǫi > 0|xi ] = Prob[ǫi > −x′i α|xi ] Sia Fǫ (e) ≡ Prob[ǫ ≤ e] funz. di ripartizione di ǫi ∀i, calcolata nel punto e, allora Prob[ǫi > −x′i α|xi ] = 1 − Fǫ|xi (−x′i α) assumendo ǫ abbia densità simmetrica a media nulla si ha Prob[yi = 1|xi ] = 1 − Fǫ|xi (−x′i α) = Fǫ|xi (x′i α) Avanti ⊲ M. Fort – p. 49/22 Un esempio di densità simmetrica a media nulla . . . Distribuzione di t=(beta1−E[beta1])/se(beta1) 0 20 40 Densità 60 80 100 beta1, stimatore MQO di beta1 −4 −2 0 Statistica t associata a beta1 2 4 Indietro ⊳ M. Fort – p. 50/22 Efficacia di un’azione di marketing: caso scelta della marca di maionese Uij = x′i θj + ηij maxα Uij , La coppia di alternative è calve -scelta 1- versus kraft (“non-calve”) -scelta 0-). L’individuo sceglierà sulla base di α ǫ z }| { z }| { yi∗ ≡ Ui1 − Ui0 = x′i (θ1 − θ0 ) + (ηi1 − ηi0 ) ∗ yi ≡ Ui1 − Ui0 = ′ xi α + ǫi Si osserva che l’individuo acquista calve (yi = 1) sse yi∗ > 0, che acquista kraft (yi = 0) sse yi∗ ≤ 0. M. Fort – p. 51/22 Efficacia di un’azione di marketing: caso scelta della marca di maionese 1 Acquisti di Maionese di Marca Calve’ e Kraft .2 Proporzione Acquisti .4 .6 .8 0.89 0 0.11 Calve’ Kraft Dati (statunitensi) su acquisti ripetuti 300 famiglie; 2,768 acquisti. M. Fort – p. 52/22 Efficacia di un’azione di marketing: caso scelta della marca di maionese Acquisti di Maionese di Marca Calve’(Ca) ed Kraft(Kr) 1 per tipo di promozione 0.96 Proporzione Acquisti .2 .4 .6 .8 0.95 0.93 0.88 0 0.12 No Promo 0.05 Ca Disp Calve’ 0.04 Ca Feat 0.07 Ca D&F Kraft Dati (statunitensi) su acquisti ripetuti 300 famiglie; 2,768 acquisti. M. Fort – p. 53/22 Efficacia di un’azione di marketing: caso scelta della marca di maionese Acquisti di Maionese di Marca Calve’(Ca) ed Kraft(Kr) 1 per tipo di promozione Proporzione Acquisti .2 .4 .6 .8 1.00 0.87 0.56 0.54 0.46 0.44 0 0.13 Kr Disp Kr Feat Calve’ Kr D&F CaKr 0.00 Feat Kraft Dati (statunitensi) su acquisti ripetuti 300 famiglie; 2,768 acquisti. M. Fort – p. 54/22 Modello logit Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] = 1 − Fǫ|xi (−x′i α) ǫi ∼ λ, λ ≡ λ(ǫ) = exp(−ǫ) [1+exp(−ǫ)]2 Prob[yi = 1|xi ] = exp(x′i α) 1+exp(x′i α) Prob[yi = 0|xi ] = 1 1+exp(x′i α) Prob[yi =1|xi ] Prob[yi =0|xi ] = Λ(x′i α), F(·) ≡ Λ(·) = exp(x′i α) i =1|xi ] ′ log( Prob[y ) = x iα Prob[yi =0|xi ] M. Fort – p. 55/22 Modello probit Prob[yi = 1|xi ] = Prob[yi∗ > 0|xi ] = 1 − Fǫ|xi (−x′i α) 1 1 ǫi ∼ φ ǫ , φǫ ≡ φ(ǫ) = σ√2π exp − 2σ2 (ǫi )2 Prob[yi = 1|xi ] = x′i α Φ( σ ), F(·) ≡ Φ(·) distribuzione normale standard problemi di identificazione Convenzionalmente, si pone σ 2 = 1. M. Fort – p. 56/22 Modelli Probit e Logit: Scala delle variabili ed Identificazione dei Parametri 1/3 Anche nel caso del modello logit, la funzione F(·) è standardizzata e la varianza del termine di errore ǫ non è oggetto di inferenza (stima, verifica d’ipotesi) In entrambi i modelli, i dati osservati non sono informativi sulla varianza del termine d’errore ǫ che risulta non identificata e deve essere perciò fissata a priori La varianza di ǫ in un modello logit è fissata a π2 3 (circa 3.3); in un modello probit è 1 M. Fort – p. 57/22 Modelli Probit e Logit: Scala delle variabili ed Identificazione dei Parametri 2/3 I modelli logit e probit considerano il segno della variabile latente yi∗ . Sia z∗i = k yi∗ , k > 0 la nuova variabile latente sottostante il modello che stimiamo. Le variabili yi∗ e z∗i hanno sempre lo stesso segno e generano gli stessi valori osservati yi , quindi lo stesso modello (solo yi aiuta a identificare i parametri del modello) Per eliminare questa ambiguità è necessario fissare la varianza degli errori. M. Fort – p. 58/22 Modelli Probit e Logit: Scala delle variabili ed Identificazione dei Parametri 3/3 yi∗ ≡ Ui1 − Ui0 = x′i α + ǫi νi z}|{ z∗i = k yi∗ ≡ k(Ui1 − Ui0 ) = k x′i α+ k ǫi Var[ν] ≡ Var[k ǫ] = k2 Var[ǫ] M. Fort – p. 59/22 Efficacia di un’azione di marketing, caso scelta della marca di maionese: Modello di Probabilità Lineare (MPL) 1/2 L’individuo acquista calve (cal) (yi = 1) oppure kraft (kra) (yi = 0). pcal )+β2 calD+ Prob[Yi = 1|X] = E[Yi |X] = x′ β = β0 + β1 log( pkra β3 kraD + β4 calF + β5 kraF + β6 calFD + β7 kraFD ): logaritmo del rapporto dei prezzi di Calvè e Kraft log( pcal pkra Le variabili sottostanti valgono 0 se la condizione non è verificata. calD: vale 1 se Calvè è in promozione 1 (display) calF: vale 1 se Calvè è in promozione 2 (feature) calFD: vale 1 se Calvè è in promozione 1 e 2 (display e feature) [analoga definizione per kraD, kraF e kraFD] M. Fort – p. 60/22 Efficacia di un’azione di marketing, caso scelta della marca di maionese: MPL 2/2 Dato il modello ′ Prob[Yi = 1|X] = E[Yi |X] = x β = β0 + pcal β1 log( pkra )+β2 calD+ β3 kraD + β4 calF + β5 kraF + β6 calFD+ β7 kraFD Qual è l’effetto delle promozioni display & feature su Kraft sulla proporzione di clienti che acquista Calvè? M. Fort – p. 61/22 Efficacia di un’azione di marketing, caso scelta della marca di maionese: MPL 2/2 Dato il modello pcal Prob[Yi = 1|X] = E[Yi |X] = x′ β = β0 + β1 log( pkra )+β2 calD+ β3 kraD + β4 calF + β5 kraF + β6 calFD+ β7 kraFD Qual è l’effetto delle promozioni display & feature su Kraft sulla proporzione di clienti che acquista Calvè ? Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0] M. Fort – p. 62/22 Efficacia di un’azione di marketing, caso scelta della marca di maionese: MPL 2/2 Dato il modello pcal Prob[Yi = 1|X] = E[Yi |X] = x′ β = β0 + β1 log( pkra )+β2 calD+ β3 kraD + β4 calF + β5 kraF + β6 calFD+ β7 kraFD Qual è l’effetto delle promozioni display & feature su Kraft sulla proporzione di clienti che acquista Calvè ? Prob[Yi = 1|X/ ,hunFD= 1] − Prob[Yi = 1|X/ ,hunFD= 0] = β7 M. Fort – p. 63/22 Efficacia di un’azione di marketing, caso scelta della marca di maionese Dato il modello Prob[Yi = 1|X] = E[Yi |X] = F(x′ α) x′ α = α0 + α1 log( pcal pkra ) + α2 calD + α3 kraD + α4 calF + α5 kraF+ α6 calFD + α7 kraFD Qual è l’effetto delle promozioni display & feature su Kraft sulla proporzione di clienti che acquista Calvè ? Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0] = F(x′kraFD=1 α) − F(x′kraFD=0 α) M. Fort – p. 64/22 Efficacia di un’azione di marketing: caso scelta della marca di maionese Prob[Yi = 1|X] = E[Yi |X] = F(x′ α) x′ α = α0 + α1 log( pcal pkra ) + α2 calD + α3 kraD + α4 calF + α5 kraF+ α6 calFD + α7 krafFD L’effetto delle promozioni display & feature su Kraft sulla proporzione di clienti che acquista Calvè Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0] = F(x′kraFD=1 α) − F(x′kraFD=0 α) x′kraFD=1 α = α0 + α1 log( pcal pkra ) + α2 calD + α3 0 + α4 calF + α5 0+ α6 calFD + α7 1 x′kraFD=0 α = α0 + α1 log( pcal pkra ) + α2 calD + α3 0 + α4 calF + α5 0+ α6 calFD + α7 0 M. Fort – p. 65/22 Efficacia di un’azione di marketing, caso scelta della marca di maionese: modello logit Dato il modello ′ ′ Prob[Yi = 1|X] = E[Yi |X] = F(x α) = Λ(x α) = exp(x′i α) 1+exp(x′i α) x′ α = α0 + α1 log( pcal pkra ) + α2 calD + α3 kraD + α4 calF + α5 kraF+ α6 calFD + α7 kraFD Qual è l’effetto delle promozioni display & feature su Kraft sulla proporzione di clienti che acquista Calvè ? Prob[Yi = 1|X/ ,kraFD= 1] − Prob[Yi = 1|X/ ,kraFD= 0] = Λ(x′kraFD=1 α) − Λ(x′kraFD=0 α) M. Fort – p. 66/22 In breve . . . L’effetto di una variazione di una esplicativa X sulla dipendente X, in generale, è la variazione attesa in Y che corrisponde a cambiamenti di X Quando Y è binaria, è la variazione nella probabilità di successo, ovvero la probabilità che Y = 1 Per calcolarlo in un modello non lineare: (i) si stimano i valori predetti della probabilità di successo nei due punti X0 X1 e (ii) si confrontano i valori predetti M. Fort – p. 67/22 Interpretazione: altri commenti su effetti marginali Poichè ∂E[y|x] ∂x1 = f(α0 ∂F(x) ∂x , f(x) > + α1 x1 + α2 x2 )α1 , 0, il segno del coefficiente è f(x) ≡ informativo sulla direzione dell’impatto di un’esplicativa continua l’effetto marginale dipende da tutte le esplicative se l’esplicativa continua x entra in modo non lineare nell’indice, questo modificherà l’espressione dell’effetto marginale di conseguenza l’effetto relativo (x1 , x2 ) ∂Prob[y=1|x]/∂x1 ∂Prob[y=1|x]/∂x2 non dipende da M. Fort – p. 68/22 Logit, Probit, Modello di Probabilità Lineare: considerazioni Prob. scelta calve|differenziale prezzo 0 .25 .5 .75 1 Scelta della marca di Maionese Calve’ al variare differenziale prezzo con Kraft, no promozioni contro F&D Kraft −1 0 1 Log(prezzo calve/prezzo Kraft) PROBIT, kraft F&D LOGIT, kraft F&D MPL, kraft F&D 2 3 PROBIT, NoPromo LOGIT, NoPromo MPL, NoPromo Dati (statunitensi) su acquisti ripetuti 300 famiglie;2,768 acquisti. Effetto Kraft (D&F) vs NoPromo log(rapp. prezzi) alla media (.01) MPL Logit Probit −.39∗ −.18 −.19 M. Fort – p. 69/22 MPL, Logit e Probit a confronto Modello per y LPM yi |x e N(x′ β, σε2 ) Logit y∗i |x e Bi(1, Λ(x′ α)) Modello per E[y|X] Var[y|X] x′ β σε2 exp(x′ α) 1+exp(x′ α) Λ(x′ α) · (1 − Λ(x′ α Φ(x′ γ) Φ(x′ γ) · (1 − Φ(x′ γ Λ(·) f.r. logistica Probit y∗i |x e Bi(1, Φ(x′ γ)) Φ(·) f.r. normale standard M. Fort – p. 70/22 MPL, Logit e Probit a confronto: effetti marginali Modello per y Modello per E[y|X] MPL x′ · β Logit exp(x′ α) 1+exp(x′ α) Probit Φ(x′ γ) Effetti marginali ∂E[y|x] ∂xj βj exp(x′ α) 1+exp(x′ α) · 1 1+exp(x′ α) · αj φ(x′ γ) · γj Φ(·)/φ(·) f.r. e densità normale standard M. Fort – p. 71/22 Efficacia di azioni di marketing: la scelta di marca di maionese Prob. scelta Calve|differenziale prezzo e y 0 .5 1 1.5 2 Scelta della marca di maionese Calve’ al variare differenziale prezzo tra Calve’ e Kraft −4 −2 0 Log(prezzo Calve/prezzo Kraft) PROBIT, phat MPL, phat 2 4 LOGIT, phat y, obs Dati (statunitensi) su acquisti ripetuti 300 famiglie;2,768 acquisti. Valori osservati della scelta (0,1 -punti verdi-) e valori predetti utilizzando diversi modelli (probit -punti rossi-; logit -punti blu-; mpl -x nere-). M. Fort – p. 72/22 “Bignami” e bibliografia Modello di probabilità lineare Metodo di stima basato sulla verosimiglianza Proprietà stimatore di massima verosimiglianza Introduzione alla “statistica” ed all’ “economia” dei modelli logit e probit Descrizione caratteristiche principali dei modelli logit e probit e scala delle variabili ed identificazione Bibliografia: CO[2005] Capitolo 2 (2.4), Capitolo 10 (10.1, 10.2 (non tutto)) M. Verbeek (2006) Capitolo 6 (6.1) Capitolo 7 (7.1) M. Fort – p. 73/22 Stima con il metodo della massima verosimiglianza (approfondimento) Esempio analitici sul calcolo dello stimatore di MV Procedure di verifica di ipotesi basate sulla massima verosimiglianza Previsione e bontà di adattamento in modelli logit e probit (vs modello di probabilità lineare) M. Fort – p. 74/22 Massima verosimiglianza: ripasso concetti ’chiave’ e notazione ∃ f0 distribuzione che genera i dati y|x Si assume che f0 ∈ F ≡ {f (y|x, θ), θ ∈ Θ ⊂ Rp } ∃ θ0 : f (y|x, θ0 ) ∈ F, θ0 identificato Verosimiglianza misurabile, continua su Θ, derivabile Funzione punteggio (score) ∂li (θ) ′ i (θ) si (θ) = ∂l∂θ = ∇θ li (θ) = [ ∂l∂θi (θ) . . . ∂θp ] 1 Matrice hessiana Hi (θ) = ∂si (θ) ∂θ = ∂li (θ) ∂θ∂θ ′ M. Fort – p. 75/22 Proprietà di si (θ) E[si (θ0 )] = 0 I(θ0 ) ≡ −E[Hi (θ0 )] = E[si (θ0 )si (θ0 )′ ] La seconda proprietà è detta identità dell’informazione. La matrice di informazione riassume la quantità attesa di informazione contenuta nell’osservazione. Essa riflette la curvatura della logverosimiglianza. Se la funzione è abbastanza piatta, la curvatura sarà bassa e lo stimatore MV poco preciso, come vedremo M. Fort – p. 76/22 Proprietà stimatore MV Distribuzione asintotica dello stimatore MV θd MV √ a d n(θM V − θ0 ) → N (0, V ) a d θM V → N (θ0 , V /n), V /n = Avar(θd MV ) Esistono diversi stimatori della varianza asintotica di θd MV La scelta tra i diversi stimatori di Avar(θd MV ) è legata alle proprietà degli stimatori in campioni finiti e la semplicità di calcolo (derivazione risultati in aula) M. Fort – p. 77/22 Stima di −1 Avar(θd MV ) NB Con osservazioni I.I.D., contributo individuale coincide con le quantià qui sotto 1. J(θ) ≡ − n1 Hi (θ) matrice di informazione osservata Lo stimatore risultante può fornire stime non definite positive b i (θ) b′ 2. 1 si (θ)s n Lo stimatore risultante fornisce per costruzione matrici definite positive; può avere una performance non buona in campioni finiti (BHHH, 1974) 3. I(θ) ≡ −Eθ0 [Hi (θ)|xi ]matrice di informazione attesa Può essere necessario calcolare lo stimatore tramite simulazioni M. Fort – p. 78/22 Esempi Calcolo stima di MV nel modello binomiale (derivazione risultati in aula) Calcolo stima di MV nel modello normale con varianza non nota M. Fort – p. 79/22 Stima di Massima Verosimiglianza per modelli logit e probit 1/5 L(α|y, X) = l(α|y, X) = ∂l(α|y,X) ∂α ≡ Q ′ F(x i α) i:yi =1 P Pn i:yi =0 log[1 − i=1 si (α) = Q ′ (1 − F(x i α) i:yi =0 F(x′i α)] Pn + P ′ log[F(x i α)] i:yi =1 yi −F(x′i α) ′ f(x [ ′ ′ i β)]xi i=1 F(xi α)[1−F(xi α)] =0 • interpretazione della condizione di primo ordine • discussione (sistema non lineare; ricorso a metodi numerici -esempi-) M. Fort – p. 80/22 Stima di Massima Verosimiglianza per modelli logit e probit 2/5 Le equazioni di verosimiglianza sono non lineari nei parametri: non si ha espressione degli stimatori in forma chiusa Le equazioni di verosimiglianza sono risolte utilizzando algoritmi numerici (metodo di Newton-Raphson; metodo basato sullo score; metodo di Berndt-Hall-Hall-Hausman) Gli algoritmi numerici partono da una stima iniziale dei parametri: tanto più vicina è la stima inziale al vero valore, tanto più probabile sarà che l’algoritmo converga e velocemente M. Fort – p. 81/22 Algoritmi per la stima MV 1/2 Le equazioni del primo ordine possono non avere soluzione analitica Si utilizzano quindi metodi numerici per risolverle Tali metodi partono da un valore iniziale θ0 e aggiornano la stima di tale valore in modo da far raggiungere -ad es. in g passi- il massimo alla funzione obiettivo valutata in θg , il valore della stima alla g-esima iterazione Le iterazioni continuano fino a che la variazione nella funzione obiettivo indotta dal passare da θg a θg+1 è sufficientemente piccola M. Fort – p. 82/22 Algoritmi per la stima MV 2/2 1. Newton-Rapson: Pn Pn g+1 g g −1 θ = θ + r[ i=1 Hi (θ )] [ i=1 si (θg )] 2. Berndt, Hall, Hall, Hausman: Pn Pn g+1 g g g ′ −1 θ = θ + r[ i=1 si (θ )si (θ ) ] [ i=1 si (θg )] 3. Gauss-Newton: Pn Pn g+1 g −1 θ = θ + r[ i=1 −Eθg [Hi (θ)|xi ]] [ i=1 si (θg )] r > 0 è l’ampiezza del passo di iterazione M. Fort – p. 83/22 Stima di Massima Verosimiglianza per modelli logit e probit 3/5 Calcolando la derivata della funzione punteggio si (α) otteniamo la matrice hessiana la cui espressione si semplifica molto calcolando il valore atteso rispetto ad x, in particolare −Eθ0 [Hi (θ)|xi ] = f (xi α)2 x′i xi F (xi α)(1−F (xi α)) Per stimare la varianza asintotica dello stimatore MV per i modelli logit e probit si usa hP i−1 2 ′ f (xi αd n M V ) xi xi i=1 F (xi αd M V )(1−F (xi αd M V )) M. Fort – p. 84/22 Stima di Massima Verosimiglianza per modelli logit e probit 4/5 Lo stimatore di MV ha buone proprietà asintotiche quando il modello F(·), ossia la famiglia di distribuzioni entro cui si cerca quella “vera”, è correttamente specificato Lo stimatore MV è inconsistente per i parametri in caso di errata specificazione di F(·): si son introdotti metodi non parametrici di stima, che non fan assunzioni su F(·). In generale, gli stimatori così ottenuti, son meno efficienti nei casi in cui sarebbe disponibile una buona approssimazione di F(·). (perchè questa affermazione? discussione) M. Fort – p. 85/22 Stima di Massima Verosimiglianza per modelli logit e probit 5/5 L’omissione di variabili provoca inconsistenza dello stimatore MV anche quando le variabili omesse son ortogonali alle variabili incluse nel modello: esistono procedure per “tenere conto della presenza di variabili omesse” Nel caso di violazione dell’ipotesi di indipendenza delle realizzazioni ǫi : si mostra che in caso di errori autocorrelati lo stimatore è consistente ma le formule usuali per la varianza sono scorrette. M. Fort – p. 86/22 Modello di Probabilità Lineare (MPL) (sotto ipotesi di normalità), Logit e Probit a confronto Modello per y C.P.O MPL 1 σε2 Logit Pn Probit Pn Fi = F(x′i Hessiano Pn ′ (y − x i i i (yi −Fi ) i Fi ·(1−Fi ) (yi −Φi ) i Φi ·(1−Φi ) ′ ′ · α); Fi = F (x′i · β) · xi = 0 ′ · Fi · xi = 0 ′ · Φi · xi = 0 · α) = ∂F(x′i ·α) ∂x′i ·α - Pn - Pn - Pn i xi · x′i exp(x′i α) i=1 (1+exp(x′i α))2 · xi · x′i [φ(x′i γ)]2 i=1 Φ(x′i α))·[1−Φ(x′i γ)] · xi · x′i = [x1i , . . . , xji , . . . , xK i ] C.P.O. condizioni del primo ordine M. Fort – p. 87/22 Tests basati sulla verosimiglianza H0 : α = α 0 H1 : α = α 1 tipicamente H0 : (i) esclude qualche esplicativa (parsimonia); (ii) impone vincoli lineari tra i parametri del modello Intuizioni alla base di tests asintoticamente equivalenti basati su MV confronto del valore della funzione di verosimiglianza sotto H0 ed H1 confronto del valore della stima del parametro sotto H0 ed H1 valutazione della pendenza della funzione di verosimiglianza sotto H0 Quali sono “i criteri” associati a queste “idee” sulla base dei quali si valuterà la conformità dell’evidenza empirica con H0 ? M. Fort – p. 88/22 Tests basati sulla verosimiglianza Test del Rapporto di Verosimiglianza (RV): se le verosimiglianze son “simili”, non si rinuncia ad H0 Test di Wald (W) (Wald, 1943): se le stime dei parametri sono “vicine”, si mantiene H0 Test del Moltiplicatore di Lagrange (ML), (Aitchinson & Silvey, 1958): se la penalizzazione indotta dal modello vincolato è piccola, si mantiene H0 M. Fort – p. 89/22 Tests basati sulla verosimiglianza: generale formulazione Test del rapporto di verosmiglianza 0 RV = −2[log[L(α )] − log[L(αd MV )]] = L(α0 ) −2log[ L(αd ] MV ) Test di Wald 0 ′ 0 −1 0 W = (αd − α ) (Var[ α d − α ]) ( α d − α ) MV MV MV Test del moltiplicatore di Lagrange LM = n1 s(α0 )′ I(α0 )−1 s(α0 ) = n1 s(α0 )′ Avar(α)s(α0 ), M. Fort – p. 90/22 Esempio Calcolo dei diversi test nel caso del modello binomiale B(n, p) H0 : p = p0 H1 : p 6= p0 (derivazione risultati in aula) M. Fort – p. 91/22 Traccia esempio Per il calcolo del test di Wald è necessario calcolare 0 −1 −1 [V ar(pd − p )] = [V ar( p d )] p0 è una costante MV MV Un modo per calcolarla è basato su Pn Ep0 [−H(p)] = i=1 Ep0 [−Hi (p)] Hi (p) è il contributo della i-esima osservazione all’hessiano 1−yi −Hi (p) = + py2i + (1−p) 2 Ep [−Hi (p)] = p p2 + 1−p (1−p)2 , perchè Ep [yi ] = p 1 −1 [n · E [−H (p)]} = p(1 − p) Avar(pd ) = { p i MV n Stimerò la varianza con pd M V (1 − pd MV ) M. Fort – p. 92/22 Tests basati sulla verosimiglianza : considerazioni Wald richiede di stimare solo il modello non vincolato RV richiede di stimare sia il modello vincolato che il modello non vincolato Lagrange richiede di stimare solo il modello vincolato In generale la stima di modelli vincolati è semplice se le restrizioni son lineari, complessa se le restrizioni sono non lineari. M. Fort – p. 93/22 “Bignami” e bibliografia Esempi di calcolo dello stimatore MV Stima di MV nei modelli logit e probit Test basati sulla verosimiglianza (esempio analitico per illustrare la relazione tra i tests) Bibliografia: CO[2005] Capitolo 2 (2.4), Capitolo 9 (9.1-9.3) Capitolo 10 (10.1, 10.2 (non tutto)) M. Verbeek (2006) Capitolo 6 (6.1, 6.2, 6.3, 6.3.1) Capitolo 7 (7.1) M. Fort – p. 94/22 Esempi analitici sul calcolo dello stimatore di MV Procedure di verifica di ipotesi basate sulla massima verosimiglianza Previsione e bontà di adattamento in modelli logit e probit (vs modello di probabilità lineare) Esempio pratico (utilizzando GRETL) Introduzione ai modelli a risposta multipla M. Fort – p. 95/22 Esempi Calcolo stima di MV nel modello binomiale Calcolo stima di MV nel modello normale con varianza non nota Per il modello di regressione semplice con varianza non nota la verosimiglianza è funzione di un vettore di tre parametri θ = (β0 , β1 , σ 2 ) M. Fort – p. 96/22 Esempio 2: Modello di Regressione Lineare Semplice 1/11 (MRLS) Consideriamo il modello di regressione semplice yi = β0 + β1 xi + ǫi in cui ǫi ∼ N (0, σ 2 ) X ∼ N (0, σ 2 ) ⇒ Z = a + bX ∼ N (a, b2 σ 2 ) La variabile dipendente Y , condizionatamente al regressore X, si distribuisce come una v.c. normale con media e varianza funzione dei parametri θ = (β0 , β1 , σ 2 ) ∀i = 1, . . . , n | {z } campione i.i.d. (size=n) p(yi |xi , θ) ∼ N (β0 + β1 xi , |{z} σ 2 ). | {z } E[Y |X] Var[Y |X] M. Fort – p. 97/22 Esempio 2: Modello di Regressione Lineare Semplice 2/11 (MRLS) Come per il modello di regressione, si suppone che le coppie (xi , yi ) siano indipendenti. La funzione di densità congiunta del campione risulta quindi essere n Y 1 1 √ exp − 2 (yi − β0 − β1 xi )2 L(θ|X, y) = 2σ σ 2π i=1 Pn 2 1 i=1 (yi − β0 − β1 xi ) = − n exp 2 2σ 2 (2πσ ) 2 M. Fort – p. 98/22 Esempio 2: Modello di Regressione Lineare Semplice 3/11 (MRLS) La log-verosimiglianza risulta quindi essere n X 1 1/2 ℓ(θ|X, y) = − log(2π) − log σ − 2 (yi − β0 − β1 xi )2 2σ i=1 n X 1 1 1 2 = − log(2π) − log σ − 2 (yi − β0 − β1 xi )2 2 2 2σ i=1 n X 1 n (yi − β0 − β1 xi )2 ∝ − log σ 2 − 2 2 2σ i=1 M. Fort – p. 99/22 Esempio 2: Modello di Regressione Lineare Semplice 4/11 (MRLS) Se calcoliamo le derivate rispetto a β0 , β1 e σ 2 e le uguagliamo a zero si ottiene n 1 X ∂l(β0 , β1 , σ 2 |X, y) (yi − β0 − β1 xi ) = 0 = −2 2 ∂β0 2σ i=1 n X ∂l(β0 , β1 , σ |X, y) 1 xi (yi − β0 − β1 xi ) = 0 = −2 2 ∂β1 2σ i=1 2 n n 1 X ∂l(β0 , β1 , σ 2 |X, y) 2 (y − β − β x ) =0 = − + i 0 1 i 2 2 4 ∂σ 2σ 2σ i=1 M. Fort – p. 100/22 Esempio 2: Modello di Regressione Lineare Semplice 5/11 (MRLS) Gli stimatori di Massima Verosimiglianza per i tre parametri di interesse sono quindi β̂0,M V = ȳ − βˆ1 x̄ Pn (yi − ȳ)(xi − x̄) i=1 Pn β̂1,M V = 2 (x − x̄) i=1 i Pn 2 ǫ ˆ 2 i=1 i σ̂M V = in cui ǫˆi = (yi − β̂0 − β̂1 xi ) n Gli stimatori dei parametri β0 e β1 coincidono con quelli OLS. Lo stimatore per σ 2 è leggermente diverso. La somma dei quadrati dei residui viene divisa per n e non per n − 1. Questa causa una distorsione che però sparisce asintoticamente. M. Fort – p. 101/22 Esempio 2: Modello di Regressione Lineare Semplice 6/11 (MRLS) Il vettore degli score s(θ) = ∂l(θ) ∂l(θ) ∂l(θ) ∂β0 , ∂β1 , ∂σ 2 è n X 1 ∂l(θ) (yi − β0 − β1 xi ) = 2 ∂β0 σ i=1 n X 1 ∂l(θ) xi (yi − β0 − β1 xi ) = 2 ∂β1 σ i=1 Pn 2 ∂l(θ) n (y − β − β x ) 0 1 i i=1 i = − 2+ 2 ∂σ 2σ 2σ 4 M. Fort – p. 102/22 Esempio 2: Modello di Regressione Lineare Semplice 7/11 (MRLS) La matrice delle derivate seconde è simmetrica, è sufficiente quindi calcolare le seguenti ∂ 2 l(θ) n = − 2 2 ∂ β0 σ n ∂ 2 l(θ) 1 X xi = − 2 ∂β0 ∂β1 σ i=1 2 ∂ l(θ) ∂β0 ∂σ 2 n X 1 (yi − β0 − β1 xi ) = − 4 σ i=1 n 1 X ∂ 2 l(θ) xi (yi − β0 − β1 xi ) = − 4 2 ∂β1 ∂σ σ i=1 n X ∂ l(θ) 1 2 x = − ∂ 2 β1 σ 2 i=1 i P 2 M. Fort – p. 103/22 Esempio 2: Modello di Regressione Lineare Semplice 8/11 (MRLS) ∂ 2 l(θ) − ∂θ∂θ′ La matrice di Informazione Osservata Ioss (θ) = di dimensione 3 × 3, tenendo conto che yi − β0 − β1 xi = ǫi , è ∂ 2 l(θ) ∂ 2 l(θ) ∂ 2 l(θ) − ∂β0 ∂β0 ∂β0 ∂β1 ∂β0 ∂σ2 2 ∂ l(θ) 2 l(θ) 2 l(θ) 2 l(θ) ∂ ∂ ∂ = Ioss (θ) = − 2 ∂β1 ∂β0 ∂β1 ∂β1 ∂β1 ∂σ ∂θ∂θ′ 2 2 2 = ∂ l(θ) ∂β0 ∂σ 2 n σ2 Pn i=1 Xi σ2 Pn i=1 ǫi σ4 Pn i=1 xi σ2 Pn 2 i=1 xi σ2 Pn i=1 Xi ǫi σ4 ∂ l(θ) ∂β1 ∂σ 2 Pn ∂ l(θ) ∂σ 2 ∂σ 2 i=1 ǫi σ4 Pn i=1 xi ǫi σ4 Pn 2 n i=1 ǫi − 2σ4 + σ6 Sotto le ipotesi di MRLS, E[ǫi ] = 0 e Var(ǫi ) = E[ǫ2i ] = σ 2 M. Fort – p. 104/22 Esempio 2: Modello di Regressione Lineare Semplice 9/11 (MRLS) La matrice di Informazione attesa I(θ) = E [Ioss (θ)] risulta I(θ) = = n h Pn x i h Pn ǫ i i i=1 i E σ2 E i=1 E σ2 σ4 h Pn 2 i h Pn i h Pn i xi i=1 xi i=1 xi ǫi E E E i=1 σ2 σ2 σ4 h Pn i h Pn i n i=1 xi ǫi i=1 ǫi E E 2σ4 E σ4 σ4 nE[X] n 0 σ2 σ2 2 nE[X] nE[X ] 0 2 2 σ σ n 0 0 2σ 4 M. Fort – p. 105/22 Esempio 2: Modello di Regressione Lineare Semplice 10/11 (MRLS) Le varianze e covarianze asintotiche sono espresse da = −1 Avar(θ) = nI(θ) 2 2 2 σ E[X ] 2 σX σ 2 E[X] − σ2 X σ E[X] − σ2 X 0 0 0 0 2σ 4 σ2 2 σX e un possibile stimatore di V ≡ Avar(θ) basato su l’osservazione attesa è Vb = σ̂ P 2 P 2 i xi −x̄)2 i (xiP 2 σ̂ i xi P − (xi −x̄)2 i 0 σ̂ P − 2 P xi 2 i (xi −x̄) 2 P nσ̂ 2 i (xi −x̄) i 0 0 0 2σ̂ 4 M. Fort – p. 106/22 Esempio 2: Modello di Regressione Lineare Semplice 11/11 (MRLS) Stimatore della matrice di varianze e covarianze asintotica V basato sulla matrice di informazione attesa di Fisher √ Vb = σ̂ P 2 P 2 x i i −x̄)2 i (xiP 2 σ̂ i xi − P (xi −x̄) 2 i 0 σ̂ P − 2 P xi 2 i (xi −x̄) 2 P nσ̂ 2 (x −x̄) i i i 0 0 0 2σ̂ 4 n(θ̂M V − θ) ∼ N (0, V ) ⇒ θ̂M V ∼ N θ, V n . NB gli stimatori delle varianze per i parametri β0 e Vb n, β1 , nelle posizioni (1,1) e (2,2) della matrice coincidono (asintoticamente; perchè?) con quelli derivati secondo MQO. M. Fort – p. 107/22 Tests basati sulla verosimiglianza: formulazione generale Test del rapporto di verosmiglianza 0 RV = −2[log[L(α )] − log[L(αd MV )]] = L(α0 ) −2log[ L(αd ] MV ) Test di Wald 0 ′ 0 −1 0 W = (αd − α ) (Var[ α d − α ]) ( α d − α ) MV MV MV Test del moltiplicatore di Lagrange LM = n1 s(α0 )′ I(α0 )−1 s(α0 ) = n1 s(α0 )′ Avar(α)s(α0 ), M. Fort – p. 108/22 Tests basati sulla verosimiglianza: test del rapporto di verosimiglianza RV con MRLS e vincoli lineari Formulazione generale 0 RV = −2[log[L(α )] − log[L(αd MV )]] = L(α0 ) ] −2log[ L(αd ) MV Nel caso particolare y = Xα + ε, ε|X ∼ N(0; σ 2 I) H0 : Rα = r H1 : Rα 6= r si mostra RV = e′0 e0 n log( e′ e1 ) 1 RV = n log[1 + q n−k F], F= e′0 e0 −e′1 e1 n−k e′1 e1 q M. Fort – p. 109/22 Tests basati sulla verosimiglianza: : test di Wald, W, con MRLS e vincoli lineari Formulazione generale 0 ′ 0 −1 0 W = (αd − α ) (Var[ α d − α ]) ( α d − α ) MV MV MV Nel caso particolare y = Xα + ε, ε|X ∼ N(0; σ 2 I) H0 : Rα = r H1 : Rα 6= r si mostra ′ −1 ′ W = (Rαd d d MV − r) (Var[Rα MV − r]) (Rα MV − r) = σ1 2 σ c0 2 −c n σc2 1 W= nq n−k F, F= e′0 e0 −e′1 e1 n−k e′1 e1 q M. Fort – p. 110/22 Tests basati sulla verosimiglianza : test del moltiplicatore di Lagrange, LM, con MRLS e vincoli lineari Formulazione generale LM = 1 0 ′ 0 −1 0 s(α ) I(α ) s(α ), n 0 s(α ) ≡ ∂log(L(α) α ≡ score Nel caso particolare y = Xα + ε, ε|X ∼ N(0; σ 2 I) H0 : Rα = r H1 : Rα 6= r si mostra LM = X′ X −1 ′ 1 ′ X e 2 e0 X( n ) 0 nc σ0 LM = n qF (n−k)+q F , F= e′0 e0 −e′1 e1 n−k e′1 e1 q M. Fort – p. 111/22 Tests basati sulla verosimiglianza : considerazioni riferite all’esempio con MRLS e vincoli lineari L(α0 ) ] RV = −2log[ L(αd MV ) 0 ′ W = (αd − α ) (Var[αd MV MV LM = n1 s(α0 )′ I(α0 )−1 s(α0 ) a RV ∼ a 0 −1 0 − α ]) (αd W∼ MV − α ) a LM ∼ Nel caso particolare illustrato, è possibile ordinate i test in campioni finiti W ≥ RV ≥ ML Se W accetta H0 , accetto con tutti. Se ML rifiuta H0 , rifiuto con tutti. Poche situazioni di conflitto, se n è grande. M. Fort – p. 112/22 MPL, Logit e Probit misure di adattamento Modello di Regressione: R2 = R̄2 = 1 − W−1 W−k (1 a SQS SST = confronto: 1− SQR SQT − R2 ) Modello Logit/Probit: pseudo R2 = 1 − L1 L0 L0 log-verosimiglianza nel modello con solo la costante L1 log-verosimiglianza nel modello con regressori P n yi P n yi L0 = n[( i=1 n )log( i=1 n ) P n yi P n yi +(1 − i=1 n )log(1 − i=1 n )] Pn L1 = i=1 [yi F(x′i α b) + (1 − yi )(1 − F(x′i α b)] M. Fort – p. 113/22 MPL, Logit e Probit a confronto: previsione \ Modello di regressione ybi = E[y b] i |X] = E[yi |X, α Modello di logit/ probit ′ \ \ E[y |X] = Prob[y = 1|X] = F(x i i ′ \ ybi = 0 se E[y |X] = F(x α b) ≤ .5 i ′ \ ybi = 1 se E[y |X] = F(x α b) > .5 i M. Fort – p. 114/22 Logit e Probit a confronto: previsiva e bontà di adattamento capacità osservato/predetto ybi = 1 ybi = 0 yi = 1 n11 n10 n1. yi = 0 n01 n00 n0. n.1 n.0 n Proporzione classificazioni corrette: n11 +n00 n Proporzione classificazioni corrette per y = 0: Proporzione classificazioni corrette per y = 1: n00 n0. n11 n1. M. Fort – p. 115/22 Logit, Probit, Modello di Probabilità Lineare (MPL): considerazioni MPL può essere una ragionevole approssimazione se: (i) i regressori sono per lo più variabili dummy; (ii) n è molto grande MPL: più facilmente interpretabile; fornisce spesso buone stime degli effetti marginali per valori medi o mediani delle covariate Logit e probit: utili se si hanno molte covariate continue Logit e probit: α danno indicazione della direzione non dell’entità dell’effetto sulle probabilità di risposta M. Fort – p. 116/22 Esempi utilizzando GRETL 1. Scelta del mezzo di trasporto: interessa valutare come disegnare politiche mirate ad incrementare la proporzione di individui che utilizzano mezzi di trasporto poco inquinanti, ad es. treno e bus versus aereo e auto 2. Si è interessati a studiare le determinanti della allocazione del tempo libero tra lavoro e due tipi di attività per il tempo libero: relazione con marito/moglie e relazione/i extra-coniugali (Fair, JPE 1978) M. Fort – p. 117/22 Scelta del consumatore: mezzo di trasporto 1/3 Scelta del mezzo di trasporto Freq. Ass. Freq. Rel. (%) Freq. Ass. Freq. Rel. (%) Non Amico-Ambiente Amico-Ambiente Aereo Auto Treno Autobus 58 59 63 30 210 27.62 28.10 30.00 14.29 100 117 93 210 55.71 44.29 100 Dati sulla scelta del mezzo di trasporto per viaggi da Sydney a Melbourne, Australia. Come potrei “convincere” qualche persona ad utilizzare mezzi che generano minore inquinamento? M. Fort – p. 118/22 Probabilità di viaggiar con mezzo|tempo attesa 0 .25 .5 .75 1 Scelta del consumatore 2/3 Scelta mezzo di trasporto e tempo di attesa in stazione (Associazione) 0 25 50 Tempo di attesa (minuti) Pr(Aereo|t) Pr(Bus|t) 75 100 Pr(Treno|t) Pr(Auto|t) Osservazioni individuali (210 individui). Viaggio Sidney−Melbourne. Dati australiani. ⊳⊲ M. Fort – p. 119/22 Osservazioni 3/3 Possiam ri-codificare i dati sulla scelta di trasporto come dati su una scelta tra due alternative (tipo ‘amico-ambiente’ vs ‘non amico-ambiente’) ma le alternative possibili per la scelta dell’individuo sono più di 2. Le alternative tra cui l’individuo può scegliere hanno una peculiarità: non sono ordinate, ovvero non esiste un criterio di ordinamento ovvio tra di esse M. Fort – p. 120/22 Scelta del consumatore: livello di soddifazione della clientela 1/2 Valutazione di un corso universitario (corso di modelli?) Non Soddifatto Soddisfatto Inutile Poco Utile Utile Molto Utile Freq. Ass. 49 73 111 12 2 Freq. Rel. (%) 20 29.8 45.3 4.9 1 Freq. Ass. 122 123 2 Freq. Rel. (%) 49.8 50.2 1 Dati sulla valutazione della didattica, A.A. 2007-2008. Quali sono le determinanti del livello di soddisfazione? chiarezza espositiva, livello di difficoltà lezioni, qualità del materiale didattico distribuito, disponibilità del docente, . . . M. Fort – p. 121/22 Osservazioni 2/2 Possiam ri-codificare i dati sul livello di soddisfazione come dati su una scelta tra due alternative (tipo ‘soddisfatto’ vs ‘non soddisfatto’) ma le alternative possibili per la scelta dell’individuo sono più di 2. Le alternative tra cui l’individuo può scegliere hanno una peculiarità: sono ordinate, ovvero esiste un criterio di ordinamento ovvio tra di esse M. Fort – p. 122/22 Implicazioni delle osservazioni L’esistenza di un ordinamento tra le scelte è un aspetto importante del fenomeno che si studia. Se esiste, se ne tiene conto nella modellazione e si utilizzano modelli per dati su scelta multipla di tipo logit ordinato o probit ordinato (modelli con risposte ordinate) In assenza di un ordinamento implicito, si utilizzano modelli per dati su scelta multipla di tipo logit multinomiale, logit condizionale o logit nidificato (nested logit), probit multinomiale (modelli con risposte non ordinate) M. Fort – p. 123/22 Dati disponibili (sulle esplicative x) . . . Convenzione: i indica l’individuo, j l’alternativa 1. esplicative che sono diverse tra individui ma costanti tra alternative xi (ad es. età o condizione lavorativa studente che valuta un corso universitario) 2. esplicative che sono diverse tra individui e tra alternative wij (ad es. tempo di attesa al terminale per cliente che aspetta il treno, l’aereo o l’autobus) 3. esplicative che sono le stesse tra individui ma sono diverse tra alternative zj (ad es. numero di pacchetti di crackers nella confezione di una certa marca) M. Fort – p. 124/22 . . . terminologia . . . Convenzione: i indica l’individuo, j l’alternativa xi sono indicate anche come caratteristiche dell’individuo zj (e wij ) sono indicate anche come attributi dell’alternativa M. Fort – p. 125/22 . . . e implicazioni per la modellazione modello di riferimento: modello per la variabile latente; approccio basato su confronto utilità -indiretta- delle diverse alternative Quali tipi di dati mi permettono di avere, nel modello latente, un effetto variabile dell’esplicativa tra diverse alternative? (es. la condizione lavorativa influenza in modo diverso la scelta tra valutazione “utile” e la valutazione “inutile” di un corso universitario) Quali tipi di dati obbligano ad imporre, nel modello latente, che l’impatto dell’esplicativa sia costante tra le diverse alternative? (es. l’influenza del tempo di attesa sulla scelta tra i diversi mezzi di trasporto è la stessa, non dipende dall’alternativa considerata) M. Fort – p. 126/22 Modelli con risposte non ordinate logit multinomiale: adatto a descrivere dati su risposte non ordinate dove si osservano le caratteristiche degli individui che compiono le scelte tra più di due alternative logit condizionale: adatto a descrivere dati su risposte non ordinate dove si osservano gli attributi delle alternative (più di due) tra cui gli individui scelgono logit nidificato: estensione dei modelli logit multinomiale e condizionale adatta a descrivere i casi in cui individui compiono le scelte tra alternative in modo sequenziale (ad es. scelta tra trasporto pubblico e privato e poi scelta del mezzo di trasporto) M. Fort – p. 127/22 Interpretazione come modelli di utilità 1/7 stocastica McFadden (1974, 1981) {yij }j=1,...,J serie di J variabili osservate che rappresentano la scelta dell’individuo i rispetto a ciascuna alternativa j tra le J alternative disponibili Nell’esempio sul trasporto: J = 4 (ovvero: “aereo”, “treno”, “bus”, “auto”); e osservo ∀i, yi1 = 1 se i sceglie areo, altrimenti 0 yi2 = 1 se i sceglie treno, altrimenti 0 yi3 = 1 se i sceglie bus, altrimenti 0 yi4 = 1 se i sceglie auto, altrimenti 0 M. Fort – p. 128/22 Interpretazione come modelli di utilità 2/7 stocastica Esaminiamo il problema della scelta ottimale per l’individuo i tra alternative (j ∈ {1, . . . , J}): egli sceglierà la possibilità che fornisce la massima utilità (indiretta) maxj∈{1,...,J} Uij , Uij = w′ij β + εij in Uij c’è una componente che dipende da caratteristiche dell’individuo e/o o delle alternative ed una componente casuale. Con due alternative (0, 1), individuo i sceglie 1 se Ui1 > Ui0 M. Fort – p. 129/22 Interpretazione come modelli di utilità 3/7 stocastica Data J alternative -ad es. 4 (come in esempio su trasporto)-, l’individuo sceglierà l’alternativa k -ad es. k=2 (treno nell’esempio)- se Uik = maxj∈{1,...,4} Uij = max{Ui1 , Ui2 , Ui3 , Ui4 } Prob[yi2 = 1]= Prob[Ui2 > max{Ui1, Ui3 , Ui4 }] = Prob[Ui2 > maxj∈{1,...,J},j6=2 {Uij }] dove ∀j, Uij = µij + εij M. Fort – p. 130/22 Interpretazione come modelli di utilità 4/7 stocastica Per rendere la formulazione di questi modelli operativa, è necessario essere in grado di dire qualcosa sul massimo di un insieme di variabili casuali -le variabili casuali Uij , j = 1, . . . , J- ovvero sulle variabili casuali εij , j = 1, . . . , J, Si assume ∀i, j εij ∼ Fεij (u) ≡ Fε (u) ≡ exp(−e−u) e che le componenti casuali εij sian indipendenti Allora, si ha che εMAX = maxj∈{1,...,J} εij , ε ∼ FεMAX (u) ≡ [Fε (u)]J = [exp(−e− M. Fort – p. 131/22 Interpretazione come modelli di utilità stocastica (approfondimento) 5/7 ∀j, Uij = ′ wij β + εij FUij (u) = Prob[Uij ≤ u] = Prob[w′ij β + εij < u] = Prob[εij < u − w′ij β] = Fεij (u − w′ij β) εMAX = maxj∈{1,...,J} εij , ε ∼ FεMAX (u) ≡ [Fε (u)]J = [exp(−e− La funzione di densità del massimo calcolata in u è fεMAX (u) = ∂FεMAX (u) = ∂u J[Fε (u)]J−1 fε (u) = J[−exp(−e−u)]J−1 [−e−u ][−1] = J[−exp(−e−u)]J−1 e−u M. Fort – p. 132/22 Interpretazione come modelli di utilità stocastica (approfondimento) 6/7 • FUij (u) = Fεij (u − w′ij β) • εMAX = maxj εij , FεMAX (u) ≡ [Fε (u)]J = [exp(−e−u )]J U = maxj∈{1,...,J} Uij , ε ∼ FU (u) ≡ QJ ′ F (u − w ij β) j=1 ε QJ −u+w′ij β QJ j=1 FUij (u) = QJ FU (u) = j=1 [−exp(−e )] = j=1 [−exp(−e−u )] QJ PJ PJ w′ij β w′ij −u )] = −exp( j=1 −e ) exp( j=1 −e j=1 [exp(−e M. Fort – p. 133/22 Interpretazione come modelli di utilità 7/7 stocastica Si mostra che Prob[yi2 = 1]= Prob[Ui2 > max{Ui1, Ui3 , Ui4 }] = Prob[Ui2 > maxj∈{1,...,4},j6=2 {Uij }] = exp(w′i2 β) P4 ′ β) exp(w j=1 ij = exp(w′i2 β) exp(w′i1 β)+exp(w′i2 β)+exp(w′i3 β)+exp(w′i4 β) Prob[yi1 = 1] + Prob[yi2 = 1] + Prob[yi3 = 1] + Prob[yi4 = 1] = ∀j, 0 ≤ Prob[yij = 1] ≤ 1 M. Fort – p. 134/22 Modello logit multinomiale {yij }j=1,...,J serie di J variabili osservate binarie che rappresentano la scelta dell’individuo i rispetto a ciascuna alternativa j tra le J alternative disponibili Prob[yik = 1] = Prob[Uik > maxj∈{1,...,J},j6=k {Uij }] = exp(x′i βk ) PJ ′β ) exp(x j=1 i j ∀j, y∗ij ≡ Uij = x′i βj + εij M. Fort – p. 135/22 Modello logit condizionale {yij }j=1,...,J serie di J variabili osservate binarie che rappresentano la scelta dell’individuo i rispetto a ciascuna alternativa j tra le J alternative disponibili Prob[yik = 1] = Prob[Uik > maxj∈{1,...,J},j6=k {Uij }] = exp(w′ik γ) PJ ′ γ) exp(w j=1 ij ∀j, ∗ yij ≡ Uij = ′ wij γ + εij M. Fort – p. 136/22 Osservazioni nel modello logit multinomiale il numero dei parametri ignoti β da stimare dipende dal numero di alternative (e dal numero di caratteristiche degli individui) considerate al momento della specificazione (e stima) del modello nel modello logit condizionale il numero dei parametri ignoti γ da stimare dipende dal numero di attributi considerati per ciascuna alternativa al momento della specificazione (e stima) del modello (che implicazioni per la previsione di Prob[yik = 1|X]?) M. Fort – p. 137/22 “Bignami” e bibliografia Esempio analitico SMV (modello di regressione lineare) Esempio di test basati sulla verosimiglianza Previsione e bontà di adattamento nei modelli logit/probit Esempi pratici utilizzando GRETL Introduzione ai modelli a risposta multipla (scelte non ordinate) Bibliografia: CO[2005] Capitolo 2 (2.4), Capitolo 9 (9.1-9.3) Capitolo 10 (10.1, 10.2, 10.3.1); M. Verbeek (2006) Capitolo 6 (6.1, 6.2, 6.3, 6.3.1) Capitolo 7 (7.1, 7.2 (intro), 7.2.4 (non tutto)) M. Fort – p. 138/22 Stima di modelli logit per scelte multiple non ordinate I.A.I.: l’ipotesi di indipendenza dalle alternative irrilevanti Misure di bontà di adattamento e capacità previsiva per modelli logit per scelte multiple non ordinate Esempi utilizzando GRETL Modelli per dati su scelte multiple ordinate: probit ordinato (caratterizzazione e inferenza) Esempio utilizzando GRETL M. Fort – p. 139/22 Esempio e . . . McFadden (1974, 1981) {yij }j=1,...,J serie di J variabili osservate che rappresentano la scelta dell’individuo i rispetto a ciascuna alternativa j tra le J alternative disponibili Nell’esempio: J = 4 (ovvero: “aereo”, “treno”, “bus”, “auto”); e osservo ∀i, yi1 = 1 se i sceglie areo, altrimenti 0 yi2 = 1 se i sceglie treno, altrimenti 0 yi3 = 1 se i sceglie bus, altrimenti 0 yi4 = 1 se i sceglie auto, altrimenti 0 M. Fort – p. 140/22 . . . interpretazione come modello di utilità stocastica Data J alternative -ad es. 4 (come in esempio su trasporto)-, l’individuo sceglierà l’alternativa k -ad es. k=2- se Uik = maxj∈{1,...,4} Uij = max{Ui1 , Ui2 , Ui3 , Ui4 } Prob[yi2 = 1]= Prob[Ui2 > max{Ui1, Ui3 , Ui4 }] dove ∀j, Uij = µij + εij µij z}|{ mod. logit multinomiale: Uij = x′i αj +εij µij z}|{ mod. logit condizionale: Uij = w′ij β +εij M. Fort – p. 141/22 Stima con il metodo della massima verosimiglianza dei modelli con risposte non ordinate 1/6 I dati osservati sono nella forma i = 1, . . . , n (y′i , x′i ) dove y′i ≡ [yi1 yi2 . . . yiJ ] o equivalentemente nella forma i = 1, . . . , n (yi , x′i ) dove yi è una variabile categoriale che assume valori j = 1, . . . , J (nell’esempio la variabile alternative assume valori 1,2,3,4)) La funzione di probabilità per l’ i-esima unità è y y y p(yi1 , . . . , yiJ ) =π1 i1 π2 i2 . . . πJ iJ , πk = Prob[yik = 1], ∀k PJ dove k=1 yik = 1 quindi p(yi1 , . . . , yiJ−1 ) yi1 =π1 yi2 π2 ... 1− πJ PJ k=1 yik M. Fort – p. 142/22 Stima con il metodo della massima verosimiglianza dei modelli con risposte non ordinate 2/6 funzione di probabilità • per l’ i-esima unità (distribuzione bernoulli multivariata) p(yi1 , . . . , yiJ ) yi1 =π1 yi2 π2 ... yiJ πJ , πk = Prob[yik = 1], ∀k • per un campione di n unità i.i.d. (distr. multinomiale) p(y′1 , . . . , y′n ) = p(n1 , . . . , nJ ) = n1 !n2n!!...nJ ! π1n1 π2n2 . . . πJnJ Pn yik = nk numero di unità nel campione che scelgono k PJ πk ≡ Prob[yi = k] ≡ Prob[yik = 1] k=1 πk = 1 k=1 M. Fort – p. 143/22 Stima con il metodo della massima verosimiglianza dei modelli con risposte non ordinate 3/6 Funzione di verosimiglianza per un campione di n unità L(π1 , π2 , . . . , πJ ) = ≡ L(π1 , . . . , πJ−1 ) = n1 n! π n1 !n2 !...nJ ! 1 n1 n!P π n1 !n2 !...(1− Jk=1 nk )! 1 π2n2 . . . πJnJ π2n2 . . . (1 − PJ 1− ) π k=1 k PJ k=1 nk Massimizzare questa funzione rispetto ai parametri ignoti (π1 , . . . , πJ−1 ) equivale a massimizzare PJ nJ n1 n2 log[π1 π2 . . . πJ ] = j=1 nj log(πj ) Pn PJ Qn QJ yij log[ i=1 j=1 πj ] = i=1 j=1 yij log(πj ) ≡ (cambio indice) PJ−1 i=1 j=0 Pn yij log(πj ) M. Fort – p. 144/22 Stima con il metodo della massima verosimiglianza (SMV) dei modelli con risposte non ordinate 4/6 Sia πk = Prob[yik = 1|X] exp(µik ) P = 1+ J−1 j=1 exp(µij ) modello logit condizionale modello logit multinomiale µik ≡ w′ik β µik ≡ x′i αk Per trovar le stime di αj , j = 1, . . . , J e β si deve trovar il massimo rispetto a questi parametri di n X J X i=1 j=1 yij log(πj ) ∝ L(β) L(α) M. Fort – p. 145/22 SMV dei modelli con risposte non ordinate: caso del modello 5/6 logit multinomiale (condizioni per massimo: derivata prima nulla; derivata seconda negativa) ∂log(L(α)) = ∂αk n X i=1 yik [1 − πik ]xi − n J X X i=1 j=1,j6=k n X 2 ∂ log(L(α)) ′ = − π (1 − π )x x k k i i ′ ∂αk ∂αk i=1 2 ∂ log(L(α)) = ′ ∂αk ∂αl n X i=1 πik yij xi = πl πk xi x′i l=k l 6= k Matrice Hessiana non blocco diagonale → non è equivalente stimare un modello logit per ogni scelta o stimare il logit multinomiale M. Fort – p. 146/22 SMV dei modelli con risposte non ordinate: caso del modello logit condizionale 6/6 (condizioni per massimo: derivata prima nulla; derivata seconda negativa) NB a differenza del caso precedente in questo caso i parametri sono invarianti rispetto all’alternativa j ∂log(L(β)) = ∂β 2 n X J X i=1 j=1 n X J X ∂ log(L(α)) =− ′ ∂β∂β i=1 j=1 yij (xij − x̄i ) = 0 πj (xij − x̄i )(xij − x̄i )′ M. Fort – p. 147/22 Odds Ratio in modelli a risposta multipla non ordinata Prob[yi =k|X] Prob[yi =j] = modello logit condizionale modello logit multinomiale exp((wik − wij )′ β) exp(xi ′ (αk − αj )) categoria di riferimento (rischio relativo): categoria 0 Prob[yi =k|X] Prob[yi =0|X] = modello logit condizionale exp(w′ik β) modello logit multinomiale exp(x′i αk ) M. Fort – p. 148/22 Log Odds Ratio in modelli a risposta multipla non ordinata Prob[yi =k|X] log( Prob[yi =j|X] ) modello logit condizionale modello logit multinomiale = (wik − wij )′ β xi ′ (αk − αj ) Il logaritmo del rapporto delle probabilità di scegliere una alternativa k rispetto ad un altra j dipende linearmente dalle caratteristiche degli individui e dagli attributi delle alternative che si stanno confrontando e non dagli attributi delle altre alternative → non viene modificato se vengono considerate altre alternative. M. Fort – p. 149/22 Effetti marginali di un regressore continuo x logit multinomiale Prob[yik = 1|X] = ∂πk = πk [αk − ∂xi J X j=2 exp(x′i αk ) PJ ′α ) exp(x j=0 i j πj αj ] = πk [αk − ᾱ] ! Il segno della derivata dipende dal segno del termine tra parentesi e può essere positivo per alcuni valori di x e negativo per altri Nel modello logit invece gli effetti marginali sono una funzione monotona di x M. Fort – p. 150/22 Effetti marginali di un regressore continuo w logit condizionale Prob[yik = 1|X] = exp(wik β) PJ j=1 exp(wij β) ∂πk = β πk (1 − πk ) ∂wik ! Il segno della derivata dipende dal segno di β Il valore della derivata dipende da tutte le esplicative nel modello ∂πk = −β πk πj ∂wij ! Il segno della derivata dipende dal segno di −β Il valore della derivata dipende da tutte le esplicative nel modello M. Fort – p. 151/22 Indipendenza dalle alternative irrilevanti (I.A.I.) McFadden (1974) modello logit multinomiale Prob[yi =k|X] log( Prob[yi =j|X] ) = x′i (βk − βj ) modello logit condizionale Prob[yi =k|X] log( Prob[yi =j|X] ) = (wik − wij )′ β L’indipendenza dei log odds tra due alternative dagli attributi delle altre alternative è indicata come indipendenza dalle alternative irrilevanti e segue dall’indipendenza stocastica degli errori εij i livelli di utilità per le alternative Uij Uik sono indipendenti |X (presentazione e discussione esempio) M. Fort – p. 152/22 Indipendenza dalla alternative irrilevanti (I.A.I.): commenti l’ipotesi di I.A.I. è molto restrittiva la validità dell’ipotesi I.A.I. dipende dall’applicazione l’ipotesi di I.A.I. è verosimile in contesti in cui le alternative sono diverse e indipendenti per chi sceglie l’ipotesi di I.A.I. può non essere verificata su tutto l’insieme di scelte disponibili ma tra sottoinsiemi di esse M. Fort – p. 153/22 Verifica dell’ipotesi di I.A.I. Intuizione di base: se un insieme A di alternative è irrilevante (H0 ), escluderle dall’insieme delle scelte possibili non dovrebbe influenzare il valore delle stime dei parametri del modello ma solo la loro precisione; se le alternative non sono indipendenti (H0 è violata), le stime dei parametri nei due scenari (con βall e senza βvin le alternative in A) differiranno significativamente → test di Hausman M. Fort – p. 154/22 ! Ripasso ! Proprietà desiderabili di uno stimatore Quali sono le proprietà dello stimatore di MV? sotto quali ipotesi? Definizione di consistenza Definizione di efficienza M. Fort – p. 155/22 Il test di Hausman per la verifica dell’ipotesi di indipendenza dalle alternative irrilevanti (I.A.I.) 1/2 Hausmann & McFadden (1984) Sotto l’ipotesi nulla di indipendenza delle alternative irrilevanti, lo stimatore dei coefficienti θ del modello basato sul campione che include tutte le scelte θbeff è consistente ed efficiente, mentre lo stimatore θbcons basato sul campione che esclude le alternative (irrilevanti) nell’insieme A è consistente ma inefficiente. Se l’ipotesi nulla è violata (sotto H1 ), θbeff non è consistente, mentre θbcons è ancora consistente. M. Fort – p. 156/22 Il test di Hausman per la verifica dell’ipotesi di indipendenza dalle alternative irrilevanti (I.A.I.) 2/2 Stimatore θbeff θbcons H0 consist. √ √ H1 effic. consist. √ X √ X effic. - test di Hausman H = (θbcons − θbeff )′ (b V(θbcons ) − b V(θbeff ))−1 (θbcons − θbeff ) Il test rifiuta per valori grandi ed ha distribuzione χ2q , dove q è il numero di elementi di θbcons M. Fort – p. 157/22 Quando l’ipotesi di I.A.I. è violata . . . si rilassa l’ipotesi di indipendenza degli errori, si assume che gli errori abbiano una distribuzione normale multivariata e si considera un modello probit multinomiale; ma se il numero di alternative è alto (>4), la scelta di un modello probit multinomiale è sconsigliata ; in alternativa si considerano modelli logit nidificati che prevedono di raggruppare le alternative in modo che l’ipotesi I.A.I. non sia violata entro i gruppi, ma possa esser violata tra gruppi di scelte M. Fort – p. 158/22 Diagnostica e misure di bontà di adattamento di modelli con risposte non ordinate Non esistono molti tests diagnostici per questi modelli perchè non esiste un modo naturale di costruire i residui. Il test (di Hausman) per l’ipotesi I.A.I. pseudo R2 = 1 − L1 L0 L0 log-verosimiglianza nel modello con solo la costante L1 log-verosimiglianza nel modello con regressori (criteri basati su informazione AIC e BIC) M. Fort – p. 159/22 Selezione del modello e misure di capacità previsiva di modelli con risposte non ordinate test di esclusione di singole variabili: test t su singoli coefficienti test di esclusione su gruppi di variabili: test RV del rapporto di verosimiglianza (previsione entro e/o fuori dal campione) \ \ ybi = k se Prob[y i = k|X] = maxj=1,...,J {Prob[yi = k|X]} con questa regola, si considera la proporzione (o percentuale) di previsioni corrette (come in modelli logit) M. Fort – p. 160/22 Esempi utilizzando GRETL 1. Scelta del mezzo di trasporto: interessa valutare come disegnare politiche mirate ad incrementare la proporzione di individui che utilizzano mezzi di trasporto poco inquinanti, ad es. treno e bus versus aereo e auto 2.Scelta dell’auto: interessa studiare cosa determina la scelta della casa produttrice; dati rilevati su 295 consumatori: scelta tra produttore americano, giapponese, europeo; genere e reddito dell’acquirente; numero di concessionari di ciascun produttore presenti in città M. Fort – p. 161/22 Esempio 2: choice based sampling +--------------------------------------+ | id car choice dealer sex income | |--------------------------------------| | 1 US 0 18 male 46.7 | | 1 Jap 0 8 male 46.7 | | 1 EU 1 5 male 46.7 | | 2 US 1 17 male 26.1 | | 2 Jap 0 6 male 26.1 | | 2 EU 0 2 male 26.1 | +--------------------------------------+ car variabile discreta indica l’alternativa scelta (yi ) choice variabile binaria indica l’alternativa scelta (yij ) dealer esplicativa varia tra individui e alternative (wij ) sex/income esplicativa varia tra individui (xi ) M. Fort – p. 162/22 Esempio 2: data set con un record per individuo +--------------------------------------+ | id car dealer sex income | |--------------------------------------| | 1 Europe 5 male 46.7 | | 2 American 17 male 26.1 | | 3 American 12 male 32.7 | | 4 Japan 7 female 49.2 | +--------------------------------------+ car variabile discreta indica l’alternativa scelta (yi ) sex/income esplicativa varia tra individui (xi ) La matrice delle esplicative per i modello logit multinomiale: X = [sex income costante] M. Fort – p. 163/22 Esempio 2: dealer come attributo dell’alternativa Tab. di dealer (righe) rispetto a car (colonne) dealer [ US][ japan][ EU] TOT. [ 2] 8 8 [ 3] 15 15 [ 4] 8 8 [ 5] 16 16 [ 7] 16 16 [ 9] 8 8 16 (....) [ 21] 24 24 [ 23] 40 40 [ 24] 24 24 TOTALE 192 64 39 295 M. Fort – p. 164/22 Esempio 2: stima di un modello logit multinomiale Modello 1: Stime ML usando le 295 osservazioni 1-295 loglik = mlogitlogprobs(car1,X,theta) Errori standard basati sull’Hessiana stima err. std. t p-value -----------------------------------------------theta[1] -0.469 0.311 -1.511 0.1308 theta[2] 0.028 0.012 2.239 0.0251** theta[3] -1.962 0.621 -3.160 0.0016*** -------------------------------------------------theta[4] 0.539 0.452 1.193 0.2327 theta[5] 0.027 0.014 1.985 0.0472** theta[6] -3.180 0.755 -4.213 2.52e-05*** M. Fort – p. 165/22 Esempio 2: stima di un modello logit multinomiale, escludendo una alternativa (japan) Modello 2: Stime ML usando le 231 osservazioni 1-231 loglik = mlogitlogprobs(car1,X,theta) Errori standard basati sull’Hessiana stima err.std. t p-value --------------------------------------------------theta[1] 0.535 0.453 1.180 0.2379 theta[2] 0.026 0.013 1.915 0.0554* theta[3] -3.796 0.742 -5.114 3.15e-07*** Le stime dei coefficienti relativi alla scelta 3 (europe) β3 non sono molto diverse da quelle che abbiamo ottenuto includendo l’alternativa japan.. come concludiamo su ipotesi indipendenza dalle alternative irrilevanti (I.A.I./I.I.A.)? M. Fort – p. 166/22 Modelli per dati su scelte ordinate: esempio (valutazione condizionale) Interessa valutare le determinanti della qualità (percepita dagli utenti) del servizio di riparazione auto di un concessionario Si hanno dati sulle 69 riparazioni effettuate nel 1978 Alcune variabili osservate: make modello dell’auto; mpg km percorsi; foreign provenienza (1 se non locale); length lunghezza; price prezzo; rep78 valutazione del servizio come segue: 1 servizio scarso; 2 s. discreto; 3: nella media; 4:Buono, 5: Eccellente M. Fort – p. 167/22 Modelli per dati su scelte ordinate: formulazione in termini di variabili latenti y∗i descrive il livello di soddisfazione latente (non osservato) del cliente. Si assume esso sia funzione di caratteristiche X y∗i = x′i β + εi . Si osserva la variabile yi che assume valori in base alla regola yi = 1 yi = 2 y∗i ≤ 0 0 < y∗i ≤ γ1 yi = 3 γ1 < y∗i ≤ γ2 yi = 4 γ2 < y∗i ≤ γ3 yi = 5 γ3 < y∗i ≤ γ4 M. Fort – p. 168/22 Modelli per dati su scelte ordinate: formulazione in termini di variabili latenti Prob[yi = 1|X] = Prob[y∗i ≤ 0] Prob[yi = 5|X] = 1 − Prob[y∗i ≤ γ3 ] Prob[yi = 2|X] = Prob[0 < y∗i ≤ γ1 ] Prob[yi = 3|X] = Prob[y∗i > γ1 ] − Prob[y∗i ≤ γ2 ] Prob[yi = 4|X] = 1 − Prob[y∗i ≤ γ2 ] − Prob[y∗i ≤ γ3 ] (se la legge di y∗ è simmetrica) Prob[yi = 4|X] = Prob[y∗i ≤ γ2 ] − Prob[y∗i ≤ γ3 ] se y∗ = x′ β + ε e ε e N (0, 1) Prob[yi = 4|X] = Prob[x′i β + εi ≤ γ2 ] − Prob[x′i β + εi ≤ γ3 ] Prob[yi = 4|X] = Prob[εi ≤ γ2 − x′i β] − Prob[εi ≤ γ3 − x′i β] M. Fort – p. 169/22 Modelli per dati su scelte ordinate: modello probit ordinato se y∗ = x′ β + ε e ε e N (0, 1) Prob[yi Prob[yi Prob[yi Prob[yi Prob[yi = 1|X] = Φ[−x′i β] = 2|X] = Φ(−x′i β) − Φ(εi ≤ γ1 − x′i β) = 3|X] = Φ(γ1 − x′i β) − Φ(εi ≤ γ2 − x′i β) = 4|X] = Φ(γ2 − x′i β) − Φ(εi ≤ γ3 − x′i β) = 5|X] = Φ[γ3 − x′i β] I parametri che caratterizzano il modello sono β e γ (le soglie) σ 2 = 1 (identificazione) M. Fort – p. 170/22 Modello probit ordinato: esempio di output di GRETL Modello 2: Stime Probit ordinato usando le 69 Variabile dipendente: rep78 coeff. err. std. t p-value ----------------------------------------------------price 3.45e-05 5.55e-05 0.622 0.534 mpg 0.121 0.047 2.565 0.010** length 0.023 0.012 1.828 0.068* nonloc 1.877 0.436 4.302 1.69e-05*** cut1 cut2 cut3 cut4 7.186 8.104 9.703 10.950 3.387 3.380 3.404 3.458 2.122 2.398 2.850 3.167 0.0338** 0.0165** 0.0044*** 0.0015*** M. Fort – p. 171/22 “Bignami” e bibliografia Modelli a risposta multipla (scelte non ordinate): inferenza, adattamento Esempio utilizzando GRETL Modelli a risposta multipla (scelte ordinate): inferenza, adattamento Esempio utilizzando GRETL Bibliografia: CO[2005] Cap. 9 (9.1-9.3); Cap. 10 (10.1, 10.2, 10.3) M. Verbeek (2006) Cap. 6 (6.1, 6.2, 6.3, 6.3.1) Cap. 7 (7.1, 7.2, 7.2.1- 7.2.4) M. Fort – p. 172/22 Introduzione ai modelli per variabile dipendente censurata Modello tobit standard e selezione del campione: inferenza ed interpretazione Esempi utilizzando GRETL (solo output) Dati longitudinali e dati sezionali Modelli per dati longitudinali Ripasso metodo di stima minimi quadrati generalizzati Modello a effetti fissi o ad effetti casuali? Il test di Hausman M. Fort – p. 173/22 Che modello possiamo utilizzare per questo esempio? Si è interessati a studiare le determinanti della allocazione del tempo libero tra lavoro e due tipi di attività per il tempo libero: relazione con marito/moglie e relazione/i extra-coniugali (Fair, JPE 1978) nbaffairs è la variabile che registra il numero di relazioni extra-coniugali: da Tab 1, Fair (1978): 0= mai; 1=una volta; 2= due volte; 3= 3 volte; 7= 4-10 volte; 12= mensile, settimanale, giornaliero. nbaffairs misura l’intensità del fenomeno M. Fort – p. 174/22 Distribuzione empirica della variabile nbaffairs 0.8 nbaffairs N(1.4559,3.2988) 0.7 0.6 Densità 0.5 0.4 0.3 0.2 0.1 0 −5 0 5 10 nbaffairs La variabile assume un numero finito di valori C’e’ una massa di probabilità su 0 M. Fort – p. 175/22 Un modello con due stadi/decisioni per l’esempio 1/2 Il problema in esame si può vedere come un problema di scelta in due stadi: 1. l’individuo sceglie se avere almeno una relazione extra-coniugale 2. l’individuo sceglie quante relazioni extra-coniugali avere, dato che ha deciso di averne almeno 1 M. Fort – p. 176/22 Un modello con due stadi/decisioni per l’esempio 2/2 Formalizzazione Scelta 1 (incidenza) nbaffairs∗ e ∗ Pr(nbaffairs nbaffairs∗i |x Scelta 2 (intensità | incidenza) X′ δ Bi(1, Φ( σν )) se nbaffairs∗ > 0 X′δ = 1|x) = Φ( σν ) X′δ e Bi(1, Φ( σν )) nbaffairs = x′ δ + ν Φ(·) distr. normale standard ossia nbaffairs = nbaffairs∗ ν e N (0, σν2 ) altrimenti nbaffairs = 0 N.B. A differenza del caso del modello probit, non è necessario imporre che σν2 = 1: le osservazioni su nbaffairs permettono di identificare σν2 . Questo modello fa parte di una classe di modelli . . . M. Fort – p. 177/22 Esempi di casi in cui la variabile dipendente è limitata: .05 Density .1 .15 troncamento e censura Var. latente y∗i = x′i β + εi Troncamento yi = y∗i se y∗i > 0 Censura yi = y∗i se y∗i > 0, 0 0 εi e N (0, 1) −10 0 y 10 20 0 .05 Density .1 .15 .2 −20 0 5 10 15 10 15 0 .5 Density 1 1.5 y altrimenti 0 5 z M. Fort – p. 178/22 Modelli per variabile dipendente limitata: perchè il MRL non è Troncamento E[yi |X] = E[yi |X] = E[y∗i |X, y∗i > 0] 6= E[y∗i |X] Censura E[yi |X] = E[y∗i |X, y∗i > 0]· −20 −10 0 y .2 E[y∗i |X] = x′i β 0 .05 Density .1 .15 Var. latente 0 .05 Density .1 .15 adeguato? 0 5 0 .5 Density 1 1.5 y 0 5 z Prob[y∗i > 0|X] + 0 · Prob[y∗i = 0|X] 6= E[y∗i |X] M. Fort – p. 179/22 La distribuzione normale troncata yi troncata da y∗i poniamo Tronc. dall’alto a = (c − µ)/σ y∗ e N (0, 1) dal basso f(y|y > c) f(y|y < c) 1/2 φ(y) = 1−Φ(c) = φ(y) Φ(c) y∗ e N (µ, σ 2 ) f(y|y > c) = f(y|y < c) 1 σ φ((y−µ)/σ)) 1−Φ(a) − σ1 φ((y−µ)/σ) = Φ(a) M. Fort – p. 180/22 La distribuzione normale troncata 2/2 e le corrispondenti medie E[yi ], prendendo c = 0 e a = (−µ)/σ Tronc. dal basso y∗ e N (0, 1) y∗ e N (µ, σ 2 ) φ(0) 1−Φ(0) µ+ φ(a) σ 1−Φ((a) La quantità λ(a) ≡ dall’alto −φ(0) Φ(0) µ− φ(a) σ Φ((a) φ(a) 1−Φ((a) l’inverse Mills ratio M. Fort – p. 181/22 Osservazioni La media condizionale di una v.c. censurata o troncata (yi ) non coincide con la media condizionale della variabile sottostante (y∗i ) Nei casi in cui c’e’ troncamento, le unità (individui, famiglie) per cui, ad es., y∗i < 0 non sono osservate ⇒ non osservo né yi né xi Nei casi in cui c’e’ censura, le unità (individui, famiglie) per cui, ad es., y∗i < 0 sono osservate ma per esse osservo yi = 0 ed xi M. Fort – p. 182/22 Il modello Tobit standard: formulazione J. Tobin (1958) La variabile osservata è yi (nell’esempio nbaffairs) yi = y∗i se y∗i > 0, 0 altrimenti Si assume che la variabile latente sottostante sia generata secondo yi = x′i β + ui ui e N (0, σ 2 ) yi e N (x′i β, σ 2 ) errori omoschedastici a media nulla; non viene normalizzata la varianza come nel caso di modelli probit I dati generati da n realizzazioni indipendenti secondo questa stessa legge M. Fort – p. 183/22 Il modello Tobit standard: inferenza Il modello Tobit è stimato con il metodo della massima verosimiglianza Abbiamo specificato il modello generatore dei dati osservati come funzione di parametri θ = (β, σ 2 ) Scriviamo l’i-esimo contributo alla verosimiglianza (date le esplicative) f(yi |θ, xi ) = [Prob(yi = 0|xi , θ)]· 1(yi ≤0) [f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0) ( parte censurata) (parte non-censur M. Fort – p. 184/22 Il modello Tobit standard: verosimiglianza Scriviamo l’i-esimo contributo alla verosimiglianza (date le esplicative) f(yi |θ, xi ) = [Prob(yi = 0|xi , θ)]·1(yi ≤0) ( parte censurata) 1(yi >0) f(yi |xi ,θ) · P(y > 0|x , θ)] [ P(y i i i >0|xi ,θ) (parte non-censurata) Nei prossimi lucidi scriveremo l’espressione della verosimiglianza incorporando le altre assunzioni sul modello, ossia la relazione tra yi , y∗i , xi e la normalità di ui . Evidenzieremo via via la componente dell’espressione che stiamo considerando. M. Fort – p. 185/22 Il modello Tobit standard: i-esimo contributo alla verosimiglianza 1/4 f(yi |θ, xi ) = [Prob(yi = 0|xi , θ)]·1(yi ≤0) ( parte censurata) [f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0) (parte non-censurata) dove yi = 0 ⇔ y∗i ≤ 0, y∗i = x′i β + ui , ui e N (0, σ 2 ) Prob(yi = 0|xi , θ) = Prob[y∗i ≤ 0|xi , θ] = Prob[x′iβ + ui ≤ 0|xi , θ] = Prob[ui ≤ −x′i β|xi , θ] = x′i β Φ(− σ ) =1− x′i β Φ( σ ) φ(·) densità della normale standard Φ(·) funz. di ripartizione della normale standard M. Fort – p. 186/22 Il modello Tobit standard: i-esimo contributo alla verosimiglianza 2/4 f(yi |θ, xi ) = [Prob(yi = 0|xi , θ)]·1(yi ≤0) ( parte censurata) [f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0) (parte non-censurata) dove yi = y∗i ⇔ y∗i > 0, y∗i = x′i β + ui , ui e N (0, σ 2 ) Prob(yi > 0|xi , θ) = Prob[y∗i > 0|xi , θ] = Prob[x′iβ + ui > 0|xi , θ] = Prob[ui > −x′i β|xi , θ] =1− x′i β Φ(− σ ) = x′i β Φ( σ ) φ(·) densità della normale standard Φ(·) funz. di ripartizione della normale standard M. Fort – p. 187/22 Il modello Tobit standard: i-esimo contributo alla verosimiglianza 3/4 f(yi |θ, xi ) = [Prob(yi = 0|xi , θ)]·1(yi ≤0) ( parte censurata) [f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0) (parte non-censurata) dove yi = y∗i ⇔ y∗i > 0, y∗i = x′i β + ui , ui e N (0, σ 2 ) f(yi |xi , yi > 0, θ) f(yi |xi ,θ) = Prob[yi >0|xi ,θ] = f (yi∗ |xi ,θ) Φ(x′i β/σ) = 1 ′ φ(x i β/σ) σ Φ(x′i β/σ) La prima uguaglianza segue dalla definizione di densità condizionata (densità di una variabile troncata) La seconda uguaglianza segue dalla def. di yi in funzione di y∗i La terza uguaglianza segue dalla relazione tra y∗i ed ui e dal fatto che ui ha distribuzione normale con media nulla e varianza σ 2 M. Fort – p. 188/22 Il modello Tobit standard: i-esimo contributo alla verosimiglianza 4/4 f(yi |θ, xi ) = [Prob(yi = 0|xi , θ)]·1(yi ≤0) ( parte censurata) [f(yi |xi , yi > 0, θ) · P(yi > 0|xi , θ)]1(yi >0) (parte non-censurata) dove yi = 0 ⇔ y∗i ≤ 0, y∗i = x′i β + ui , ui e N (0, σ 2 ) f(yi |θ, xi ) = 1 ′ φ(x i β/σ) σ Φ(x′i β/σ) x′i β 1(yi >0) Φ( σ )] = [1 − x′i β 1(yi ≤0) Φ( σ )] = [1 − x′i β 1(yi ≤0) 1 yi −x′i β 1(yi >0) Φ( σ )] [ σ φ( σ )] [ φ(·) densità della normale standard Φ(·) funz. di ripartizione della normale standard M. Fort – p. 189/22 Il modello Tobit standard: logverosimiglianza L’i-esimo contributo alla verosimiglianza (date le esplicative) f(yi |θ, xi ) = = [1 − yi −x′i β 1(yi >0) x′i β 1(yi ≤0) 1 [ σ φ( σ )] Φ( σ )] φ(·) densità della normale standard quindi l’i-esimo contributo alla logverosimiglianza li = l(θ|yi , xi ) = 1(yi ≤ x′i β 0)log(1−Φ( σ )) + 1(yi > yi −x′i β 1 0)log( σ φ( σ )) e la log-verosimiglianza delle n realizzazioni indipendenti di questa variabile è la somma di termini li Pn l(θ|xi , yi ) = i=1 li (θ|xi , yi ) M. Fort – p. 190/22 Il modello Tobit standard: inferenza Si può mostrare che la funzione di log-verosimiglianza del modello ammette un massimo Lo stimatore di massima verosimiglianza per i parametri del modello, se il modello è correttamente specificato, gode di tutte le proprietà (asintotiche) valide per lo SMV nel caso generale Le procedure di verifica di ipotesi basate sulla MV (test del rapporto di verosimiglianza, di Wald, test LM) possono essere utilizzate nell’ambito di dei modelli tobit M. Fort – p. 191/22 Esempio Scelta 1 (incidenza) x′ δ e Bi(1, Φ( σν )) x′ δ ∗ Pr(nbaffairs = 1|x) = Φ( σν ) x′ δ ∗ nbaffairsi |x e Bi(1, Φ( σν )) nbaffairs∗ Φ(·) distr. normale standard Scelta 2 (intensità | incidenza) se nbaffairs∗ > 0 nbaffairs = x′ δ + ν ossia nbaffairs = nbaffairs∗ ν e N (0, σν2 ) altrimenti nbaffairs = 0 Implicazione del modello: i parametri δ indicano la direzione della relazione tra le esplicative e la probabilità di avere almeno una relazione extra-coniugale e la relazione tra le esplicative ed il numero di relazioni M. Fort – p. 192/22 Risultati della stima dei parametri del modello di regressione (punto di riferimento) Stime OLS usando le 601 osservazioni 1-601 Variabile dipendente: nbaffairs coeff. err.std. t p-value ----------------------------------------------------const 5.886 0.775 7.592 1.22e-013*** age -0.043 0.022 -2.004 0.0455** ym 0.155 0.037 4.231 2.69e-05*** religious -0.487 0.111 -4.378 1.41e-05*** rate -0.705 0.118 -5.962 4.27e-09*** In questo modello i coeff. sono informativi sull’effetto marginale delle esplicative su E[nbaffairs|X] = E[y|X] M. Fort – p. 193/22 Risultati della stima di alcuni parametri del modello TOBIT con MV Variabile dipendente: nbaffairs coeff. err.std. t p-value --------------------------------------------------age -0.160 0.075 -2.144 0.0320** ym 0.538 0.140 3.847 0.0001*** religious -1.723 0.412 -4.179 2.92e-05*** rate -2.267 0.445 -5.098 3.43e-07*** In questo modello i coeff. sono informativi sull’effetto marginale delle esplicative su E[nbaffairs∗|X] = E[y∗ |X] Cosa ci dicono sugli effetti marginali delle esplicative su E[nbaffairs|X, nbaffairs > 0] = E[y|X, y > 0]? su Prob[nbaffairs = 0|X] = Prob[y = 0|X]? M. Fort – p. 194/22 Il modello Tobit standard: riassunto di quanto visto fino ad ora Il modello viene utilizzato per studiare la relazione tra le x e la variabile risposta quando quest’ultima è limitata Il modello assume che la media della variabile latente sia funzione lineare dei parametri La media della variabile latente y∗i e della variabile osservata yi -e censurata- sono in generale diverse Attraverso il modello Tobit nel nostro caso possiamo rispondere a domande come: qual è l’effetto • dell’età sulla proporzione di individui che tradisce? • della soddisfazione del proprio matrimonio sul numero medio di tradimenti? • della durata del matrimonio sul numero medio di tradimenti commessi per chi tradisce? M. Fort – p. 195/22 Il modello Tobit standard: interpretazione Per rispondere a domande Dovremo come: qual è l’effetto calcolare dell’età sulla proporzione ∂(1−Prob[nbaffairs=0|X]) ∂age di individui che tradisce ? della soddisfazione del matrimonio ∂E[nbaffairs|X] ∂rate sul numero medio di tradimenti? della durata del matrimonio sul ∂E[nbaffairs|X,nbaffairs>0] ∂ym numero medio di tradimenti per chi tradisce? M. Fort – p. 196/22 Interpretazione dei risultati nel modello Tobit standard: effetti marginali su Prob[yi > 0|x] ∂(1−Prob[nbaffairs=0|X]) ∂age ≡ ∂(Prob[nbaffairs>0|X]) ∂age per le ipotesi del modello si ha ∂(Prob[nbaffairs>0|X]) ∂age = x′i β ∂[Φ( σ )] ∂age utilizzando le regole per la derivazione di funzioni composte e sapendo che ∂Φ(x) ∂x = φ(x) per definizione ∂(1−Prob[nbaffairs=0|X]) ∂age = ∂(Prob[nbaffairs>0|X]) ∂age = x′i β βage φ( σ ) σ quindi sarà ∂(Prob[nbaffairs=0|X]) ∂age = ∂(1−Prob[nbaffairs>0|X]) ∂age = x′i β βage −φ( σ ) σ M. Fort – p. 197/22 Interpretazione dei risultati nel modello Tobit standard: effetti marginali su E[yi |x] 1/2 Per prima cosa deriviamo l’espressione di E[yi |x] nel caso del modello Tobit sfruttando la legge del valore atteso iterato E[yi |x] = E[yi |x, y∗i ≤ 0]Prob[y∗i ≤ 0|X]+ E[yi |x, y∗i > 0]Prob[y∗i > 0|X] E[yi |x] = 0·(1 − E[yi |x] = x′i β Φ σ )] x′i β Φ( σ )(x′i β) + + x′i β +σ x′i β φ( σ ) x′i β Φ( σ ) x′i β Φ( σ ) x′i β σφ( σ ) M. Fort – p. 198/22 Interpretazione dei risultati nel modello Tobit standard: effetti marginali (EM) su E[yi |x] ∂E[nbaffairs|X] = ∂rate si può dimostrare che ∂E[nbaffairs|X] ∂rate = 2/2 ′ ′ xi β xi β ′ ∂ Φ( σ )(xi β)+σφ( σ ) ∂rate x′i β βrate Φ( σ ) x′i β Φ( σ ) quando ≈ 1, ossia è improbabile che l’individuo non tradisca nell’esempio, il coefficiente βrate fornisce una buona approssimazione dell’EM su E[nbaffairs|X] L’EM su E[nbaffairs|X] tiene conto che la variazione di rate può indurre un individuo a tradire il partner (o non farlo più) M. Fort – p. 199/22 Esempio: interpretazione dei risultati nel modello Tobit standard Gli effetti marginali sotto riportati sono calcolati nel punto age = 32.5, ym = 8.18, religious = 3.12, rate = 3.93 (esplicative valutate al valor medio) Qual è l’effetto dell’età sulla proporzione ∂(1−Prob[nbaffairs=0|X]) ∂age di individui che tradisce - 0.006 della soddisfazione del matrimonio ∂E[nbaffairs|X] ∂rate sul numero medio di tradimenti? -0.53 della durata del matrimonio sul ∂E[nbaffairs|X,nbaffairs>0] ∂ym numero medio di tradimenti per chi tradisce? 0.13 M. Fort – p. 200/22 Il modello Tobit standard: test di specificazione, estensioni Lo stimatore MV è consistente se il modello è correttamente specificato: se vi sono variabili omesse o è violata l’ipotesi di normalità lo stimatore non è più consistente Esistono estensioni del modello che permettono di utilizzare variabili esplicative diverse per l’equazione di selezione e per la seconda equazione e permettono alle stesse variabili di avere influenza diversa sulle due scelte → modello di selezione campionaria o modello tobit II// modello Heckit perchè Heckman(1979) propose un metodo per stimarlo M. Fort – p. 201/22 Il modello Heckit: esempio su partecipazione al lavoro delle donne Scelta 1 (selezione) Scelta 2 (intensità | partecipazione lavoro∗ = 1 se lavora, 0 altrimenti se lavoro∗ = 1 lavoro∗ |Z = z e Bi(1, Φ(z′ α)) salario = x′ β + ε Pr(lavoro∗ = 1|z) = Φ(z ′ α) ossia salario = salario∗ lavoro∗i |z e Bi(1, Φ(z ′ α)) [ salario∗ salario potenziale ] Φ(·) distr. normale standard (ν, ε) e N2 (0, Σν,ε ) oppure salario = 0 h 1 i Σν,ε = σν,ε σε2 A differenza del modello standard le esplicative che entrano nelle due parti possono: (i) avere coefficienti diversi, quando le variabili coincidono; (ii) essere diverse; (iii) può esserci correlazione tra le due equazioni; (iv) la varianza nel modello probit di selezione è normalizzata ad 1. M. Fort – p. 202/22 Il modello Heckit: l’idea sottostante lo stimatore e il problema di identificazione E[salarioi|lavoroi = 1] = x′i β + E[εi |lavoroi = 1] per la definizione di lavoroi = x′i β + E[εi |νi > −z′i α] per le proprietà della normale condizionata = x′i β + σν,ε σν2 E[νi |νi per la normalizzazione σν2 = 1 E[salarioi|lavoroi = 1] = > −z′i φ(z′i α) ′ xi β+σν,ε Φ(z′ α) i Heckman propone di stimare il fattore di correzione ed includerlo nella regressione (ai minimi quadrati) di salario sulle esplicative x M. Fort – p. 203/22 “Bignami” e bibliografia Modelli per variabile dipendente censurata: ripasso delle proprietà della normale e normale condizionata Inferenza e interpretazione di modelli tobit Estensione al caso di selezione non casuale Bibliografia: CO[2005] Cap. 9 (9.1-9.3); Cap. 10 (10.4 (non tutto)) M. Verbeek (2006) Cap. 6 (6.1, 6.2, 6.3, 6.3.1) Cap. 7 (7.4, 7.5 (non tutto), 7.6 (non tutto) ) M. Fort – p. 204/22 Modelli per dati longitudinali: modelli lineari statici Ripasso metodo di stima minimi quadrati generalizzati Modello a effetti fissi o ad effetti casuali? Il test di Hausman M. Fort – p. 205/22 Strutture di dati diverse dai dati sezionali Campione di dati sezionali ripetuti nel tempo: si tratta di campioni costituiti da soggetti diversi nella stessa popolazione intervistati in diverse occasioni nel tempo (ad es. una componente dell’indagine sulle forze di lavoro) → le osservazioni sono indipendenti ma difficilmente sono realizzazioni della stessa variabile (ossia sono identicamente distribuite) Campione di dati longitudinali: si tratta di campioni costituti da stessi soggetti intervistati in diverse occasioni nel tempo (ad es. un’indagine sull’occupazione dei laureati a 6 mesi, 1 anno, 2 anni dalla laurea) → le osservazioni sullo stesso individuo in istanti diversi tipicamente non sono indipendenti M. Fort – p. 206/22 Esempio: determinanti dei tassi di criminalità Si vuole studiare se alcuni fattori deterrenti hanno effetto sui tassi di criminalità, La teoria economica rilevante suggerisce il crimine si riduca in seguito ad aumenti di: probabilità di arresto (arr), prob. di essere condannati (condizionatamente ad essere arrestati, conv), prob. di essere messi in prigione (condizionatamente ad essere stati condannati, pris), e intensità della pena (misurata come la durata media della sentenza sul tempo da spendere in prigione, in giorni, sen) Si rilevano il tasso di criminalità (crime) e le esplicative sopra indicate su 90 contee (i = 1, ..., 90) per il periodo 1981-1987 (t = 81, ..., 87). M. Fort – p. 207/22 Determinanti dei tassi di criminalità: dati M. Fort – p. 208/22 Determinanti dei tassi di criminalità: analisi tramite un modello di regressione crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit i indica la contea (va da 1 a 90) t indica l’anno di riferimento (va da 81 a 87) Periodicità: 7 (T), oss. max.: 630, (N) Intervallo delle osservazioni: 1:1-90:7 M. Fort – p. 209/22 Determinanti dei tassi di criminalità: analisi tramite un modello di regressione crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit i indica la contea (va da 1 a 90) t indica l’anno di riferimento (va da 81 a 87) Periodicità: 7 (T), oss. max.: 630, (N) Intervallo delle osservazioni: 1:1-90:7 Stimando la regressione con il metodo dei minimi quadrati ordinari: • non tengo conto dell’eventuale correlazione tra i tassi di criminalità di una contea in anni diversi ed in generale sarà Cov(crimeit crimeis ) 6= 0 • non tengo conto dell’eventuale correlazione tra i tassi di criminalità di contee diverse per lo stesso anno ed in generale sarà Cov(crimeit crimejt ) 6= 0 M. Fort – p. 210/22 Determinanti dei tassi di criminalità: generalizzazione del modello di regressione lineare crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit νit = αi + λt +εit Possiam considerare l’errore νit come somma di componenti • una componente specifica della contea αi • una componente specifica del periodo λt • una componente residua εit A seconda di come il modello caratterizza la relazione tra le esplicative ed il termine di errore αi si considera un parametro (intercetta specifica di contea) o una componente di varianza M. Fort – p. 211/22 Modello ad effetti fissi: caratterizzazione crimeit = β1 arrit + β2 convit + β3 prisit + β4 senit + νit νit = αi + εit Si assume che E[εit |xis ] = 0 ∀i ∈ {1, 90}∀s, t ∈ {81, 87} e εit siano omoschedastici ed incorrelati; E[αi |x] 6= 0. Quindi, in generale E[νit |xis ] 6= 0 se ∀i ∈ {1, . . . 90}∀s, t ∈ {81, . . . 87}. ! trappola delle dummy M. Fort – p. 212/22 Modello ad effetti fissi: caratterizzazione crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + νit νit = αi + εit Si assume che E[εit |xis ] = 0 ∀i ∈ {1, 90}∀s, t ∈ {81, 87} e εit siano omoschedastici ed incorrelati; in generale E[νit |xis ] 6= 0 ∀i ∈ {1, 90}∀s, t ∈ {81, 87}. Ad es. le contee 1 e 3 differiscono per come registrano i crimini: nella contea 1 vengono registrati tutti i crimini, nella contea 2 solo la metà. A parità di altre caratteristiche la contea 1 tenerà a registrare valori più alti di crime della contea 3. M. Fort – p. 213/22 Modello ad effetti casuali: caratterizzazione crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +νit νit = αi + εit Si assume che ∀i ∈ {1, . . . 90} ∀s, t ∈ {81, . . . , 87} E[νit |xis ] = 0 (quindi E[αi |xit ] = 0, E[εit |xis ] = 0). Inoltre E[αi εit |xis ] = 0. Quindi tutta la correlazione seriale nei termini νit è dovuta ad αi mentre i termini εit e εis ∀s, t sono incorrelati. Entrambe le componenti si assumono omoschedastiche. M. Fort – p. 214/22 Modello ad effetti casuali: caratterizzazione crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + νit νit = αi + εit Si assume che ∀i ∈ {1, 90} ∀s, t ∈ {81, 87} E[νit |xis ] = 0 (quindi E[αi |xit ] = 0, E[εit |xis ] = 0). Inoltre E[αi εit |xis ] = 0 ossia tutta la correlazione seriale nei termini νit è dovuta ad αi mentre i termini εit e εis ∀s, t sono incorrelati. Entrambe le componenti si assumono omoschedastiche. Ad es. la correlazione tra tassi di criminalità della contea 1 nel 1986 e nel 1987 sono correlati perchè sono riferiti alla stessa contea, ma al netto dell’effetto specifico di contea i tassi di criminalità sono incorrelati. M. Fort – p. 215/22 Modello ad effetti casuali: inferenza crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit αi e IID(0, σα2 ) εit e IID(0, σε2 ) Il termine di errore νit = αi + εit sotto le assunzioni del modello, ha proprietà che garantiscono la non distorsione ed efficienza dello stimatore ai minimi quadrati generalizzati (GLS) dei parametri β di questo modello. Per l’inferenza userò i risultati validi per βbGLS . La matrice di var. e cov. di ν è funzione di σα2 , σε2 , T (laboratorio) Poichè σα2 , σε2 non sono noti si ricorre al metodo FGLS (Feasible GLS) → lo stimatore combina l’informazione dalla dimensione within-group e between-group (laboratorio) M. Fort – p. 216/22 Modello ad effetti casuali: lo stimatore GLS E’ possibile mostrare che lo stimatore GLS per i parametri β è una media pesata di due stimatori per i parametri β: uno stimatore che sfrutta la variabilità nel tempo entro i gruppi -le contee nel nostro esempio- (stimatore within) e uno stimatore che sfrutta la variabilità tra i gruppi (stimatore between) I pesi dipendono dalla precisione degli stimatori e si attribuisce maggiore influenza allo stimatore più preciso Quale stimatore (within o between) trascura la dimensione temporale? Le differenze tra ed entro i gruppi si possono sfruttare per stimare σα2 , σε2 M. Fort – p. 217/22 La trasformazione between crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit Considero la media sui periodi della dipendente e delle esplicative xi. = PT t=1 T xit e la regressione ai minimi quadrati ordinari crimei. = β0 + β1 arri. + β2 convi. + β3 prisi. + β4 seni. + αi + εi. Sotto quali condizioni β\ M QO per questa equazione è consistente? Quando è consistente, lo stimatore β\ M QO è anche efficiente? M. Fort – p. 218/22 La trasformazione within crimeit = β0 + β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit Considero la differenza dalla media sui periodi della dipendente e delle esplicative xf it = xit − xi. = xit PT t=1 T xit e la regressione ai minimi quadrati ordinari g it + β4 sg ^ it = β0 + β1 ag crime rrit + β2 conv g it + β3 pris enit + εeit Sotto quali condizioni β\ M QO per questa equazione è consistente? Quando è consistente, lo stimatore β\ M QO è anche efficiente? M. Fort – p. 219/22 Modello ad effetti fissi: inferenza crimeit = β0 +β1 arrit +β2 convit +β3 prisit +β4 senit +αi + αi rappresenta il tasso di criminalità della contea i a parità di altre caratteristiche εit sotto le assunzioni del modello, ha proprietà che garantiscono la non distorsione ed efficienza dello stimatore OLS dei parametri β di questo modello. Per l’inferenza userò i risultati validi per βbOLS ! Con un numero di contee (N) alto può essere problematico stimare gli αi → stima within-group laboratorio M. Fort – p. 220/22 La trasformazione within nel caso del modello ad effetti fissi crimeit = β1 arrit + β2 convit + β3 prisit + β4 senit + αi + εit crimei. = β1 arri. + β2 convi. + β3 prisi. + β4 seni. + αi + εi. crimeit − crimei. = β1 (arrit − arri. ) + β2 (convit − convi. )+ β3 (prisit − prisi. ) + β4 (senit − seni. ) + (αi − αi ) + (εit − εi. ) M. Fort – p. 221/22 Le trasformazioni stimare σα2 , σε2 between e within per crimei. = β0 +β1 arri. +β2 convi. +β3 prisi. +β4 seni. +αi +ε Var(εi. ) = σα2 1 2 + σε T g it +β4 sg ^ it = β0 +β1 ag crime rrit +β2 conv g it +β3 pris enit +e εit T−1 2 Var(e εit ) = σε T M. Fort – p. 222/22 Adattamento ai dati: indici descrittivi R2 nel MRLM si può vedere come misura di correlazione tra valori osservati e valori previsti 2 R2 = (Corr(yit , yc ) rappresenta una misura it dell’adattamento totale Nel contesto di dati longitudinali ci sono 3 grandezze potenzialmente rilevanti yit (tasso di criminalità nella contea i al tempo t), yi. (tasso di criminalità medio nella contea i) e y.. (tasso di criminalità medio) M. Fort – p. 223/22 Adattamento ai dati: indici descrittivi (cont.) E[(yit − y.. )2 ] = E[(yit − yi. )2 ] + E[(yi. − y.. )2 ] La variabilità totale è la somma di variabilità within e between 2 ) (stime between) R2B = (Corr(yi. , yc i. \ − yi. )2 (stime within) R2W = (Corr(yit − yi. , yit Sulla base dei valori previsti per le variabili posso calcolare questi indici. M. Fort – p. 224/22 Modello ad effetti casuali (RE) o modello ad effetti fissi (FE)? Il test di Hausman H0 : E[αi |xis ] = 0 ∀s Stimatore βbeff βbcons βbRE βbFE H1 : ∃ H0 consist. √ √ s E[αi |xis ] 6= 0 H1 effic. consist. √ X √ X effic. - test di Hausman V(βbFE ) − b V(βbRE ))−1 (βbFE − βbRE ) H = (βbFE − βbRE )′ (b Il test rifiuta per valori grandi ed ha distribuzione χ2q , dove q è il numero di elementi di β M. Fort – p. 225/22 Identificazione e alcune delle molte cose che non abbiamo trattato in questo corso . . . I dati longitudinali permettono di controllare per caratteristiche individuali invarianti nel tempo in modo molto efficace es. disoccupazione dipendenza effettiva dallo stato vs dipendenza spuria Letteratura su identificazione, valutazione Abbiamo studiato classi di modelli adatti a trattare problemi quali: la scelta tra alternative, lo studio delle determinanti della spesa in beni durevoli, l’esame di fenomeni che variano nel tempo e tra osservazioni Altri strumenti permettono di rispondere a domande diverse: modelli multivariati (determinare il prezzo di mercato di un bene), modelli per dati di durata (determinati del tempo impiegato per laurearsi), modelli per dati di conteggio (relazione tra il numero di medaglie vinte da un paese alle olimpiadi la ricchezza del paese) M. Fort – p. 226/22 “Bignami” e bibliografia Modelli lineari statici per dati longitudinali: modello ad effetti fissi e modello ad effetti casuali La trasformazione between e la trasformazione within Misure di adattamento di modelli lineari statici Test di Hausman per la scelta tra modello ad effetti fissi e modello ad effetti casuali Bibliografia: M. Verbeek (2006) Cap. 4 (4.1, 4.2, 4.3) Cap. 10.1-10.2.4) M. Fort – p. 227/22