Comments
Description
Transcript
lezioni di analisi econometrica
LEZIONI DI ANALISI ECONOMETRICA Indice Lista degli esempi applicativi 1 Introduzione 2 Il modello lineare 2.1 Analisi economica ed analisi econometrica Primi obiettivi dell’Econometria 2.2 I modelli e il lungo periodo Modelli statici e dinamici Il sentiero di equilibrio di lungo periodo La tendenza di lungo periodo come modello semilogaritimico Approssimazione del saggio di crescita Primi caratteri delle serie storiche: tendenza, stagionalità e ciclo 2.3 La stima dei minimi quadrati (OLS) della tendenza lineare 2.4 I residui 2.5 Il breve e il lungo periodo 2.6 Le stime dei minimi quadrati (OLS) nel modello lineare semplice 2.7 L’interpretazione statistica 2.8 La scomposizione della devianza e il coefficiente di determinazione Il coefficiente di determinazione non centrato Cautela nell’uso del coefficiente di determinazione Eliminazione della tendenza lineare con una differenza prima 2.9 Stima di una funzione del consumo Coefficiente di determinazione e scelta del modello Omogeneità dei dati Non linearità rispetto alle variabili 2.10 Propensione media ed elasticità 1 L’elasticità 2.11 Altri esempi La legge di Okun Relazione tra tasso di cambio nominale e prezzi relativi Appendice 2.1 Serie storiche, dati sezionali e longitudinali Dati longitudinali Appendice 2.2 Complementi analitici Differenza prima logaritmica Le condizioni sufficienti per la stima dei minimi quadrati Nullità del termine misto nella scomposizione della devianza totale Appendice 2.3 Appendice 2.4 3 L’ambiente stocastico 3.1 I residui come enti aleatori: le ipotesi deboli 3.2 Definizioni e risultati nell’approccio stocastico Stime e stimatori dei minimi quadrati Il teorema di Gauss-Markov 3.3 La correlazione tra le variabili e tra gli stimatori dei parametri La correlazione tra gli stimatori dei parametri 3.4 Le ipotesi forti sui residui Intervalli di confidenza Stima intervallare Verifiche (o test) di ipotesi Residui normali Indipendenza in probabilità 3.5 Inferenza statistica per i parametri del modello lineare semplice Verifica di ipotesi 3.6 Inferenza statistica per la varianza dei residui Stima intervallare per s 2 Verifica di ipotesi lineari semplici per s 2 3.7 Inferenza statistica per i parametri del modello lineare semplice con s 2 ignoto Errori standard delle stime Verifica di ipotesi 3.8 Tre esempi Retta interpolante il logaritmo dei consumi 2 Funzione del consumo Relazione tra tasso di cambio nominale e prezzi relativi Appendice 3.1 Complementi analitici La varianza di una somma di variabili aleatorie La struttura di varianza – covarianza invariante rispetto ad una costante additiva Gli stimatori dei minimi quadrati Le varianze degli stimatori dei minimi quadrati La covarianza tra gli stimatori dei minimi quadrati Campo di variazione del coefficiente di correlazione Indipendenza stocastica del numeratore e del denominatore nelle t di Student Appendice 3.2 Distribuzioni di probabilità rilevanti Distribuzione normale Distribuzione del chi quadrato Distribuzione della t di Student Distribuzione della F di Fisher 4 La proiezione 4.1 Proiezione e proiettore nei modelli lineari 4.2 La proiezione con il criterio dei minimi quadrati L’errore di proiezione Proiezioni ex post ed ex ante L’errore quadratico medio di proiezione 4.3 Intervalli di confidenza per le proiezioni 4.4 Tre esempi Retta interpolante il logaritmo dei consumi Funzione del consumo Relazione tra tasso di cambio nominale e prezzi relativi 4.5 Indicatori dell’accuratezza delle proiezioni Appendice 4.1 Complementi analitici La varianza dell’errore di proiezione 5 La malaspecificazione 5.1 Aspetti variegati della malaspecificazione 5.2 Eteroschedasticità dei residui La stima dei minimi quadrati ponderati (WLS) 5.3 Test di omoschedasticità 3 Il test di Breusch e Pagan Il test del chi quadrato La formulazione di Koenker 5.4 La correzione per l’eteroschedasticità di White 5.5 Fonti e conseguenze dell’autocorrelazione 5.6 Test di autocorrelazione dei residui Il test di Durbin e Watson Tre esempi 5.7 Il trattamento dell’autocorrelazione di ordine uno j determinato dalla statistica di Durbin e Watson Il metodo di Cochrane e Orcutt 5.8 Test di cambiamento strutturale per il modello semplice (Test del Chow) Il caso n1 > k , n2 > k Il test della F di Fisher Il caso n1 > k , n2 £ k 5.9 Il test di normalità di Jarque–Bera Appendice 5.1 Complementi analitici Uguaglianza tra coefficiente di autoregressione del primo ordine e r 6 Il modello lineare multiplo 6.1 I vettori e la moltiplicazione righe per colonne 6.2 Il modello lineare multiplo 6.3 I minimi quadrati nel modello lineare multiplo 6.4 Vettori e matrici Vettori Operazioni tra vettori Matrici 6.5 Operazioni tra matrici La matrice inversa Il determinante 6.6 Le stime dei minimi quadrati Le stime dei residui 6.7 Il coefficiente di determinazione corretto 4 Appendice 6.1 Complementi analitici Condizioni per la minimizzazione della devianza residuale Ortogonalità dei residui stimati rispetto alle variabili esplicative Appendice 6.2 L’inversa di una matrice Il determinante di una matrice quadrata L’aggiunta di una matrice quadrata Il modello lineare semplice in termini matriciali Lista degli esempi applicativi 1. (Esempio 2.1) Tendenza lineare del logaritmo dei consumi privati nominali in Italia 2. (Esempio 2.1) Tendenza esponenziale dei consumi privati nominali in Italia 3. (Esempio 2.2) Tendenza lineare dei consumi privati nominali in Italia 4. (Esempio 2.3) PIL e propensione media al consumo (ipotesi del Duesenberry) 5. Funzione del consumo (rispetto al reddito corrente) in Italia 6. (Esempio 2.1) Elasticità del consumo privato rispetto al reddito e al reddito disponibile in Italia 7. Legge di Okun per gli USA e per l’Italia 8. Relazione tra tasso di cambio nominale (valuta italiana/$) e prezzi relativi 5 CAPITOLO I INTRODUZIONE Per oltre cinque lustri i miei studenti del corso quadriennale di Econometria nella Facoltà di Economia de “La Sapienza” si sono preparati essenzialmente sulla “Traccia”, dispense disponibili sia sulla rete che in forma cartacea, fotocopiabile. Anno dopo anno questo testo si è ingrandito, fino a raggiungere un migliaio di pagine, comprendendo anche temi non trattati nel corso ma dichiaratamente utili agli studenti più avanzati, come i modelli di serie storiche, lineari e non, quelli autoregressivi vettoriali, o l’analisi spettrale. Passando dal vecchio al nuovo ordinamento, la didattica ha dovuto essere cambiata, nel senso di dover essere basata su temi più circoscritti, direttamente operativi, fruibili da studenti interessati a settori variegati dell’Economia, da quella macro all’aziendale, dalle ricerche di mercato alla finanza. Così è nata l’esigenza di fornire agli studenti del corso semestrale di base di Econometria un testo che assemblasse gli elementi introduttivi della “Traccia”, curandone in particolare gli aspetti interpretativi e quelli empirici, e relegando in appendice la materia analiticamente più avanzata. Queste “Lezioni” costituiscono tale testo. La “Traccia”, tuttora disponibile in rete, raccoglie temi di Econometria esposti in forma a volte tendenzialmente metodologica e altre volte più orientata alle applicazioni; queste Lezioni sono viceversa più omogenee e finalizzate a rendere semplice e appetibile l’apprendimento di una materia che di per sé è complessa. La didattica, dunque, ne costituisce uno degli aspetti dominanti; con tre caratteristiche che mi preme rimarcare. Prima: le nozioni che vengono esposte inizialmente lo sono in termini più elementari e distesi; man mano che il testo procede, l’esposizione è fatta in forma più compatta e immediata. Questo affinché lo studente sia facilitato nell’impatto iniziale dello studio di una materia non semplice; assuefatto al metodo e agli strumenti, può apprendere ulteriori nozioni in modo più diretto. Seconda: generalmente, nei libri di testo di carattere analitico l’esposizione di un argomento è accompagnata da un’ampia e il più possibile esaustiva sequela 6 di specificazioni, complementi, corollari; in queste Lezioni si segue, viceversa, il criterio di esporre i concetti accompagnati soltanto dalle caratterizzazioni che servono al momento. Si rinunzia alla completezza scientifica a favore dell’efficacia didattica: prima di imparare le specificazioni, i complementi, i corollari di un argomento, sia esso un concetto o un criterio o un teorema, lo studente deve averne ben chiari la motivazione, l’interpretazione, il dominio di applicabilità. Terza: l’Econometria è una branca dell’Economia spiccatamente interdisciplinare; comprende parti rilevanti anche della Teoria delle probabilità, dell’Inferenza statistica, dell’Analisi matematica (ottimizzazione e algebra matriciale) e della Statistica economica, che spesso sono sintetizzate in capitoli o in appendici specifici. In queste Lezioni, al contrario, le nozioni (quelle strettamente necessarie) di queste branche sono disseminate nel testo là dove servono, con l’idea di non considerare l’Econometria come somma di pezzi di discipline distinte, ma come integrazione naturale di concetti che soltanto per convenzione o convenienza sono attribuiti a settori disciplinari diversi. E così, e questa potrebbe essere considerata come una quarta caratteristica didattica, sono anche aggiunte, spesso in specifici Box, nozioni probabilistiche, di Inferenza statistica, di Algebra delle matrici, in forma non sempre completa ma immediatamente comprensibile, inadatta forse a probabilisti, statistici e matematici ma appositamente elaborata per chi deve occuparsi di Scienze umane. Curiosamente, oggi l’Econometria è ritenuta una raccolta di metodi; operativamente poi, diventa un’altra cosa, l’Econometria applicata. Esistono molti buoni testi, in inglese e anche in italiano, scritti da italiani, di Econometria metodologica; alcuni sono di tipo enciclopedico, altri monografici, altri ancora privilegianti l’aspetto probabilistico o il rigore matematico. Esistono altri ottimi testi, generalmente in inglese, di applicazioni. Queste Lezioni, al contrario, si pongono un obiettivo molto più limitato: insegnare l’Econometria. Non i suoi metodi, ma come l’intese il suo fondatore, Ragnar Frisch, una settantina d’anni fa. 7 Nello scrivere queste Lezioni sono stato estesamente aiutato dalla dott.ssa Agnieszka Niewinska. A lei va il mio più cordiale ringraziamento. 8 CAPITOLO II IL MODELLO LINEARE 9 2.1 Analisi economica e analisi econometrica Per illustrare con chiarezza il significato e gli obiettivi dell’Econometria è opportuno partire da alcuni contenuti dell’analisi economica ed effettuarne poi un’estensione in termini di elaborazione econometrica; si riesce così più facilmente a metterne in risalto le caratteristiche specifiche e ad evidenziarne le potenzialità. Un’analisi economica di grande rilevanza fu fatta da J.M. Keynes (1936) quando formulò la relazione tra il consumo c e il reddito y rappresentabile nella forma c =m+b y (2.1.1) dove c ed y sono variabili mentre m e b sono parametri, e la caratterizzò mediante le proposizioni seguenti: - la funzione (2.1.1), che possiamo scrivere nella forma generale c = f ( y ) , la funzione del consumo, è stabile nel tempo; - l’intercetta m è positiva e la propensione marginale al consumo b è positiva e inferiore all’unità m >0 , - 0 < b <1 (2.1.2) la propensione b è inferiore alla propensione media c y . Osservazione 2.1 – La stabilità della (2.1.1) indica che la funzione può essere considerata valida per periodi di tempo relativamente lunghi, ad esempio per alcuni decenni. Questo, ovviamente, in media, perché da un tempo all’altro, ad esempio da un anno all’altro, ci possono essere leggere discrepanze tra il membro a sinistra e quello a destra. Osservazione 2.2 – Matematicamente parlando, m è il termine noto e b è il coefficiente angolare della retta (2.1.1). In altre parole, m rappresenta l’intercetta di c con l’asse y = 0 , e b la pendenza della retta, che cresce se b > 0 e decresce se b < 0 . Osservazione 2.3 – Sempre matematicamente, la propensione marginale al consumo è b= d f (y) dy 10 mentre la propensione media è data dal rapporto c y . Osservazione 2.4 – La forma (2.1.1) è lineare rispetto sia ai parametri che alle variabili. Per ipotizzare le relazioni (2.1.1)-(2.1.2) il Keynes si basò essenzialmente su considerazioni teoriche ed il funzionamento reale del sistema economico fu da lui esaminato, a questo proposito, soltanto in maniera descrittiva. Sempre nell’ambito dell’analisi economica è possibile supporre che la funzione del consumo offra una descrizione migliore della realtà economica se y viene sostituito dal reddito disponibile che definiamo nella semplice forma (2.1.3) yd = y - v dove v è l’imposta complessiva sul reddito c = m + b ( y - v) (2.1.4) in quanto un esame anche semplificato del comportamento dei consumatori può condurre a ritenere che essi basino le decisioni di spesa sulla quantità di reddito che hanno effettivamente a disposizione una volta che siano detratte le imposte. Le relazioni matematiche (2.1.1) e (2.1.4) sono modelli, molto semplici, rappresentativi del modo di consumare di una famiglia, o di un gruppo di persone o di una popolazione. Sono statiche, in quanto legano le variabili c, y e v allo stesso tempo; ma si può presumere, sempre congetturando in termini di teoria economica, che il consumo c al tempo t sia piuttosto funzione del reddito goduto nei periodi precedenti come nella relazione seguente ct = m + b yt -1 m > 0 , 0 < b <1 (2.1.5) dove le variabili sono associate ad un indice (o pedice) temporale e ct è funzione lineare del reddito ritardato di un’unità temporale, oppure nell’altra ct = m + b 0 yt + b1 yt -1 + b 2 yt - 2 (2.1.6) dove la variabile y sussiste sia al tempo corrente che a quello ritardato di una e due unità. La relazione (2.1.6) può essere ulteriormente generalizzata fino a considerare infiniti ritardi del reddito ct = m + b 0 yt + b1 yt -1 + K + b k yt - k 11 ma sorge in tal caso un dissidio fra gli aspetti teorici e quelli empirici dell’analisi, dovuto al fatto che il numero di ritardi k, pur essendo relativamente semplice da determinare in termini empirici, è difficile da giustificare in termini teorici (perché k e non k +1 o k -1?). Questa ulteriore estensione ha quindi un aspetto di arbitrarietà (il numero di ritardi k) che risulta difficilmente conciliabile con le esigenze di generalità dell’analisi teorica. Questo dissidio può essere in parte ricomposto se si generalizza la (2.1.6) fino a considerare infiniti ritardi temporali, ottenendosi lo schema a ritardi distribuiti infiniti ¥ ct = m + b0 yt + b1 yt -1 + b 2 yt - 2 + ... = m + å b j yt - j (2.1.7) j=0 nel quale la motivazione economica consiste nel ritenere che il consumo sia funzione di tutta la storia passata inerente il reddito, con fattori di proporzionalità b j decrescenti all’aumentare della lontananza del tempo. In realtà la giustificazione della (2.1.7) non è unicamente economica, in quanto è difficile poter supporre che esistano influenze significative dalle yt - j sulla ct per ritardi j molto grandi; una parte rilevante di tale motivazione consiste, in effetti, nella facilità con cui lo schema a ritardi distribuiti può essere trasformato, matematicamente, in modo da ridurre il numero, infinito, di parametri b j presenti ed ottenere una relazione molto parsimoniosa. Infatti, se si fanno le ipotesi b j = b ×r j , 0 < r <1 (2.1.8) che sono fortemente vincolanti dal punto di vista economico, sostituendo nella (2.1.7) si ottiene ct = m + b yt + br yt -1 + br 2 yt -2 + ... (2.1.9) che, ritardata di un’unità temporale, diventa ct -1 = m + b yt -1 + br yt -2 + br 2 yt -3 + ... (2.1.10) Sottraendo, infine, dalla (2.1.9) la (2.1.10) moltiplicata per r si ottiene ct - r ct -1 = (1 - r ) m + b yt (2.1.11) cioè, ponendo (1 - r ) m = m ¢ , ct = m '+ r ct -1 + b yt (2.1.12) che mostra come lo schema (2.1.7) con infiniti parametri b j possa essere trasformato in un altro contenente soltanto m , b e r . 12 Dunque, sotto le ipotesi (2.1.8) i due modelli (2.1.7) e (2.1.12) sono equivalenti, sebbene il secondo sia ben più parsimonioso del primo. Dal punto di vista economico, tuttavia, ribadiamo che non è affatto detto che le (2.1.8) siano aderenti alla realtà. Primi obiettivi dell’Econometria All’interno della teoria, a questo punto, è difficile, per non dire impossibile, determinare quale sia la relazione migliore, tra quelle esposte, in termini di adeguatezza alla rappresentazione del funzionamento reale del sistema economico; in particolare, la speculazione teorica non è idonea a definire compiutamente la dinamica economica e quindi a discriminare tra le funzioni (2.1.5), (2.1.6) e (2.1.12), che presentano il reddito ed il consumo associati ad indici temporali diversi. Per effettuare una scelta razionale, allora, è necessario esaminare la realtà empirica non più soltanto in forma meramente descrittiva, ma con un’indagine più avanzata, che utilizzi convenientemente i metodi della Statistica1. Questi sono adoperati per stimare (determinare i valori sfruttando dei dati campionari) i parametri m , b , m¢ , r dei tre modelli e per valutarli secondo un criterio di ottimo prestabilito. Dall’analisi economica si passa, in tal guisa, all’analisi econometrica. Durante le indagini empiriche accade sovente che si abbiano dei suggerimenti o delle indicazioni sul come modificare le ipotesi economiche di partenza, che quindi sono soggette ad essere nuovamente dettagliate ed analizzate con la metodologia statistica, oppure, ancora, data una formulazione teorica di partenza, avviene frequentemente che l’uso del procedimento econometrico per convalidarla o per confrontarla con altre ipotesi non tanto conduca ad una sua conferma o negazione ma piuttosto possa suggerire, in virtù dei ritrovati empirici, modificazioni o ampliamenti di carattere teorico che naturalmente soltanto il ricercatore con adeguata preparazione economica può sfruttare integralmente. La conseguenza di queste argomentazioni è che si sviluppa un’analisi econometrica composta da fasi di speculazione economica teorica e da fasi di indagine empirica non separabili bensì fortemente integrate tra di loro.2 Dunque non è sufficiente l’uso dei dati osservati, come ad esempio l’asserito da Spanos (1986, p.3), a distinguere l’econometria dalle altre forme di studio dei fenomeni economici. L’analisi descrittiva di questi può esser effettuata all’interno di una speculazione economica ma non è condizione sufficiente a farla denominare econometrica. 1 Non ha ragion d’essere, quindi, idea, purtroppo molto diffusa, secondo la quale la disamina econometrica è soltanto strumentale rispetto a quella economica. 2 13 2.2 I modelli e il lungo periodo Modelli statici e dinamici Le relazioni (2.1.1) e (2.1.4) tra le variabili c ed y costituiscono, come si è detto, dei modelli rappresentativi3 di ipotesi economiche, e le disuguaglianze (2.1.2) cui sono soggetti loro parametri m e b ne costituiscono parte integrante. Questi modelli sono rappresentazioni formali ed idealizzate delle caratteristiche osservate di regolarità e di stabilità dei fenomeni economici sotto studio e vengono specificati in base al processo interattivo di speculazione teorica ed indagine empirica descritto nel paragrafo precedente. Tali caratteristiche sono anche chiamate fatti stilizzati (si veda più avanti la figura 2.1). I modelli (2.1.1) ed (2.1.4) sono detti statici poiché vi intervengono solo variabili correnti, cioè associate allo stesso tempo t ; i modelli (2.1.5) (2.1.6) (2.1.7) e (2.1.12) sono detti dinamici in quanto contengono variabili sia correnti che ritardate di una o più unità temporali. Il sentiero di equilibrio di lungo periodo Poiché i fenomeni economici evolvono nel tempo, i modelli dinamici hanno una rilevanza ben più grande degli statici, ma occorre tener presente che questi ultimi possono sovente essere considerati come rappresentativi dei sentieri di equilibrio di lungo periodo dei modelli dinamici. Se, ad esempio, si considera la relazione dinamica (2.1.12) e si suppone che il consumo cresca al saggio costante di g per unità di tempo, cosicché sia ct = (1 + g ) ct -1 (2.2.1) sostituendo, la (2.1.12) diventa ct = m ¢ (1 + g ) (1 + g ) +b yt 1+ g - r 1+ g - r (2.2.2) che è analoga al modello statico (2.1.1); quest’ultimo, dunque, può essere visto come la relazione di equilibrio di lungo periodo tra il consumo ed il reddito nel caso in cui il modello di breve periodo sia quello dinamico (2.1.12) e il comportamento di lungo periodo del consumo sia definito dalla (2.2.1). Il concetto moderno di modello può essere fatto risalire i lavori di R. Frisch [1935-36] e J. Tinbergen [1939]. 3 14 La (2.2.1) può essere scritta nella forma ct - ct -1 = g × ct -1 (2.2.3) o ancora, più concisamente, nell’altra Dct = g × ct -1 (2.2.4) dove l’operatore Δ opera su ct trasformandola nella differenza ct - ct -1 . Dunque, se vale la (2.2.1) in un certo intervallo di tempo, il consumo aumenta (se g > 0 ) o diminuisce (se g < 0 ) di una porzione di ct -1 in ogni unità temporale, ad esempio in ogni anno se misuriamo il tempo in anni. La porzione di ct -1 è data appunto dal saggio g . La tendenza di lungo periodo come modello semilogaritmico Soffermiamoci nuovamente sulla (2.2.1) che rappresenta un modo molto frequente di evolvere nel tempo del consumo ct . Se g > 0 ( g < 0 ), il sentiero di evoluzione di lungo periodo per il reddito è di crescita (di decrescita), come spesso si ha in economia. Inserendo nella (2.2.1) t = 1, poi t = 2, t = 3, ... , si ottiene c1 = (1 + g )c0 c2 = (1 + g )c1 = (1 + g )2 c0 ... e quindi, sostituendo iterativamente, ct = (1 + g )t c0 (2.2.5) dove c0 è una costante, corrispondente al valore che ct assume all’origine dei tempi (t = 0). La c0 è detta rappresentare una condizione iniziale, al di fuori della serie storica {ct } = {c1 , c2 ,..., cn } (2.2.6) costituita dalle osservazioni disponibili. La funzione (2.2.5) può essere convenientemente scritta in un altro modo. Se prendiamo il logaritmo4 dei due membri otteniamo ln ct = ln c0 + t × ln(1 + g ) cioè ln ct = m + b × t (2.2.7) In econometria si usano soltanto i logaritmi (naturali) in base e, indicati con “ln” ; “log” indica il logaritmo in base 10. 4 15 se chiamiamo le costanti ln c0 = m e ln(1 + g ) = b . Il modello (2.2.7), detto semilogaritmico perché esprime una variabile logaritmizzata (la ct ) in funzione di una non trasformata (il tempo t ), corrisponde esattamente al (2.2.5) e costituisce un esempio di forma non lineare nelle variabili. Il saggio di crescita g tra il tempo t–1 e il t è facilmente ottenuto: infatti, se ln(1 + g ) = b , segue che g = exp( b ) - 1 (2.2.8) La forma (2.2.7) esprime dunque come ln ct evolve in funzione del tempo; ne denota, cioè, la sua tendenza di lungo periodo. Approssimazione del saggio di crescita Il saggio di crescita γ nell’unità di tempo di una variabile x t . g = (xt - xt -1 ) xt -1 (2.2.9) può essere convenientemente approssimato da una differenza prima logaritmica D ln xt = ln xt - ln xt -1 (2.2.10) dove il simbolo “Δ” denota appunto una differenza prima. La differenza prima logaritmica di xt è talvolta indicata con la xt sormontata da un punto: x& t . L’approssimazione di γ con la (2.2.10) è dimostrata analiticamente nell’appendice 2.1. Questa è molto buona per valori piccoli di γ, diciamo tra 0 e 0.06; per valori superiori a 0.06 lo è meno, come si può vedere dalla tavola 2.1: 7% è approssimato con 6.77%, 8% con 7.69% e così via. γ 0.000 0.01000 0.0200 0.0300 0.0400 0.0500 0.0600 0.0700 0.0800 0.0900 0.1000 D ln xt 0.000 0.00995 0.0198 0.0296 0.0392 0.0487 0.0583 0.0677 0.0769 0.0862 0.0953 Tavola 2.1 – Approssimazione del saggio di crescita γ con la differenza prima logaritmica. Primi cara tteri delle serie storiche: tendenza, stagionalità e ciclo La (2.2.7) rappresenta il modo di evolvere lineare della serie storica {ln ct } ; ne costituisce, cioè, la tendenza lineare. La tendenza, che può essere anche esponenziale, quadratica, cubica, …, a seconda del tipo di funzione che la rappresenta, forma una prima conformazione stilizzata delle serie storiche economiche, ed è ad esempio visibile nelle figure 2.2 (lineare) e 2.3 (esponenziale). 16 Una seconda conformazione stilizzata molto importante è costituita, nelle serie storiche economiche determinate con una cadenza infraannuale, ad esempio mensile o trimestrale, dal fatto che esistono andamenti infraannuali che si ripetono similmente, nei tempi così come nelle dimensioni, anno dopo anno: le cosiddette stagionalità. Nella figura 3.1 si nota chiaramente il profilo stagionale che si ripete ogni anno (prescindendo dalle ampiezze delle oscillazioni che aumentano costantemente all’aumentare del tempo) nella serie trimestrale. La terza conformazione stilizzata che per il momento viene considerata nelle serie storiche economiche è costituita dall’alternarsi di fasi di espansione dell’attività con fasi di recessione, fenomeno che viene indicato con il nome di ciclo economico. La serie storica del PIL italiano depurata della tendenza lineare nella figura 2.8 mette ben in rilievo il ciclo nel periodo 1970 – 2002, con le recessioni (aree in grigio) negli anni 1975 e 1981– 1983 (dovute alle crisi petrolifere), e degli altri 1991–1993 (dovuta alla politica monetaria della Germania a seguito della riunificazione). Si può notare che in tutti e tre i casi la recessione sia avvenuta repentinamente (1–3 anni), mentre le fasi di ripresa 5 più espansione si siano svolte molto più lentamente (in 5–7 anni). Quest’altro fatto stilizzato costituisce l’asimmetria del ciclo economico. 5 In inglese: recovery. 17 2.3 La stima dei minimi quadrati (OLS) della tendenza lineare Affrontiamo ora il problema di stimare (determinare i valori de) i parametri m e b della (2.2.7) a partire da un campione di dati costituita dalla serie storica (2.2.6) e utilizzando il criterio di stima dei minimi quadrati. Questo è facilmente illustrabile se i parametri da stimare appartengono ad un’equazione lineare non solo nei parametri ma anche nelle variabili. Linearizziamo pertanto la (2.2.7) ponendo ln ct = zt , t = 1, 2, 3, ... , n; si ottiene il modello lineare semplice zt = m + b t t = 1, 2,..., n (2.3.1) valido nei tempi da 1 fino al generico n. I dati zt possono essere disegnati in un diagramma cartesiano che ha i tempi sull’asse delle ascisse, come nella figura 2.1; essi costituiscono una nuvola di punti attraverso la quale passa la retta (2.3.1). Questa, naturalmente, non può toccare tutti i punti (che nella figura 2.1 sono, a titolo di esempio, quattro), che quindi rimangono ad una distanza (misurata lungo l’asse delle ordinate) generalmente nonnulla ut dalla retta stessa. A seconda del criterio che vincola queste distanze ut si ottiene una retta (2.3.1) diversa, contenente cioè valori differenti per i parametri m e b . Ovviamente, si tenta di determinare quella retta per la quale le distanze ut siano “globalmente le più piccole” secondo un dato criterio. Ad esempio, si può pensare di usare il criterio di minimizzare la somma delle ut 4 min å ut (2.3.2) t =1 ma questo non è buono perché le ut sotto la retta (negative) si possono compensare con le ut sopra la retta (positive), e la somma (2.3.2) può essere molto piccola pur in presenza di distanze ut molto grandi in valore assoluto. La minimizzazione della (2.3.2) costituisce quindi un criterio che ha poco senso. Si potrebbe pensare al criterio di minimizzare la somma delle ut prese in valore assoluto 4 m in å u t t =1 (2.3.3) 18 evitando quindi il difetto di cui sopra. Questo criterio potrebbe essere valido se non accadesse che la minimizzazione (2.3.3) non è facilmente eseguibile in matematica. Allora si usa il criterio di minimizzare i quadrati delle ut 4 min å u t2 (2.3.4) t =1 che è matematicamente trattabile in forma semplice e non presenta il difetto della compensazione descritto sopra. È il criterio dei minimi quadrati e determina una retta i cui parametri sono detti stime dei minimi quadrati (OLS) 6. zt z4 u4 zt = m + b t z2 u2 u3 z3 z1 u1 1 2 3 4 t Figura 2.1 – Nuvola di punti zt distanti (lungo l’asse delle ordinate) ut da una generica retta zt = m + b t . Esempio 2.1 – Estraiamo dal CD dell’OECD (Statistical Compendium, Versione 2004 -1)7 la serie storica { ct } dei consumi privati reali totali8 dell’Italia ITACPV, espressi in milioni di euro. Moltiplicando la serie per il deflatore dei consumi privati ITAPCP otteniamo la serie dei consumi privati in termini nominali, ne prendiamo il logaritmo e Questi minimi quadrati sono detti ordinari (in inglese Ordinary Least Squares; OLS) per distinguerli da altri meno semplici, ad esempio i non lineari (in inglese Non Linear Least Squares; NLLS) oppure i generalizzati, (in inglese Generalized Least Squares; GLS) che vedremo in seguito. 7 Alcuni cenni sull’uso di questa base di dati sono esposti nell’Appendice 2.3 di questo capitolo 8 In base 1995, quindi reali. 6 19 ne costruiamo il modello (2.2.7); se stimiamo9 i parametri del modello (più semplicemente si dice: stimiamo il modello) con gli OLS otteniamo ln ct = 13.248 + 0.129 t (2.3.5) curva disegnata nella figura 2.2 insieme ai punti che definiscono la serie storica {ln ct } . ln(c t ) ln(consumi) Lineare (ln(consumi)) 17 16 15 14 t 13 1960 1965 1970 1975 1980 Figura 2.2 – Serie storica dei logaritmi dei consumi privati totali nominali in Italia interpolati con la retta (2.3.5); anni 1960-1980. Poiché la stima bˆ = 0.129 , il suo antilogaritmo (cioè il valore della funzione inversa del logaritmo, che è l’esponenziale) è 1.138 e quindi il saggio di crescita annuale è, per la (2.2.8), gˆ = 1.138 - 1 = 0.138 cioè il 13.8% (il saggio sembra alto, ma si ricordi che i consumi sono nominali). Nella figura 2.3 sono esposti i punti ct (quindi gli antilogaritmi dei punti della figura 2.2) e la curva interpolante, che ora non è più una retta ma l’esponenziale che deriva dalla (2.3.5) ct = exp {13.248 + 0.129 t} (2.3.6) La stima è calcolata con il software EasyReg versione 1.23, scritta da H.J.Bierens, che utilizzeremo in tutto il testo. Esistono molti ottimi programmi di econometria nel mercato ma si è scelto EasyReg perché è gratuito e facilmente scaricabile da Internet. Cenni sul suo uso sono esposti nell’Appendice 2.4. 9 20 cons nom Espo. (cons nom) ct 10500 5500 500 1960 t 1965 1970 1975 1980 Figura 2.3 – Serie storica dei consumi privati totali nominali in Italia interpolati con l’esponenziale (2.3.6); anni 1960-1980; dati in miliardi di euro. Osservazione 2.5 – Poiché la variabile consumo nominale ct è pari al prodotto del consumo reale c t per il prezzo pt il suo saggio di crescita è approssimativamente uguale alla somma dei saggi di crescita di c t e pt . Infatti c t = c t × pt da cui logaritmizzando ln ct = ln ct + ln pt (2.3.7) ed ancora, ritardando di un’unità temporale ln ct -1 = ln ct -1 + ln pt -1 (2.3.8) per cui, facendo la differenza tra la (2.3.7) e la (2.3.8), si ottiene D ln ct = D ln ct + D ln pt che dimostra, considerando la (2.2.10), l’affermazione precedente. Si lascia al lettore trovare che il saggio di crescita dei consumi privati totali reali in Italia nel periodo 1960 – 1980 è pari a 0.049 e quello del deflatore relativo è pari a 0.085, per cui la loro somma è uguale a 0.134 approssimativamente pari proprio a 0.138 (il saggio di crescita dei consumi privati totali nominali). 21 L’approssimazione (e la non perfetta uguaglianza) deriva dal fatto che le tre quantità, consumo nominale, consumo reale e deflatore, sono ciascuna una media (calcolata separatamente dalle altre) nel periodo campionario. Ovviamente questo risultato è del tutto generale: il saggio di crescita del prodotto di più fattori è approssimativamente pari alla somma dei loro saggi di crescita. Esempio 2.2 E’ istruttivo costruire il modello (2.3.1) senza logaritmizzare preventivamente i consumi ct , e ponendo quindi direttamente zt = ct nella (2.3.1). Nella figura 2.4 sono esposti i risultati: i dati sono gli stessi della figura 2.3 ma la curva interpolante è una retta e non più un’esponenziale. Il modello è stato stimato con i minimi quadrati ma la somma dei quadrati delle distanze ut , che è 21 åu t =1 2 t essendo n = 21, il numero delle osservazioni disponibili, è molto maggiore: 42103686, invece che 11671187 (caso dell’interpolante (2.3.6)). cons nom ct Lineare (cons nom) 10000 6000 2000 t 1960 -2000 1965 1970 1975 1980 Figura 2.4 – Serie storica dei consumi privati totali nominali in Italia interpolati con la funzione lineare; anni 1960-1980, dati in miliardi di euro. Osservazione 2.6 – Conviene sempre prestare attenzione al numero di cifre significative (diverse dallo zero) che manteniamo nei calcoli. Un numero troppo grande rende farraginosa la scrittura ed è foriero di errori di 22 imputazione dei dati (ad esempio nei computer); un numero troppo piccolo può condurre ad approssimazioni imprecise. Dal punto di vista statistico della significatività dei dati è difficile che possano servire più di quattro cifre significative (ad esempio 5013 oppure 5.013 o anche 0.5013) perché già con esse si ottiene un’approssimazione inferiore al millesimo. Da quello economico, poi, già tre cifre significative danno un’approssimazione inferiore al centesimo, più che sufficiente per ogni tipo di analisi. I logaritmi, tuttavia, sono molto sensibili ai decimali ed è quindi consigliabile calcolarli con almeno cinque cifre decimali. Una stima precisa della (2.3.5) fornisce, ad esempio ln ct = 13.248342 + 0.129479 t che può essere convenientemente considerata migliore. Si ricordi, ad ogni modo, di approssimare alla cifra superiore o inferiore a seconda dei casi (nel caso della (2.3.5) 13.248342 è approssimato a 13.24834 e 0.129479 a 0.12948). 23 2.4 I residui Le distanze ut tra i dati osservati zt e quelli con la stessa ascissa sulla retta nella figura 2.1, detti teorici, sono chiamate in vario modo, il più frequente dei quali è errori, intendendosi per errore il fatto di aver sostituito ai dati osservati altri valori da essi generalmente (ed erroneamente, secondo questa impostazione) diversi. In realtà di sbaglio non si tratta, ma della nostra volontà (perché ciò ci fa comodo) di ridurre la nuvola dei punti ad una retta; chiamiamo allora meglio le distanze ut residui, derivanti dall’aver voluto approssimare i punti della nuvola con quelli della retta. Se la realtà è definita, ad esempio minimizzando la somma dei quadrati dei residui (2.3.4) (cioè con il criterio dei minimi quadrati), sono anche individuate le stime m̂ e bˆ dei parametri della retta (2.3.1), che scriviamo nella forma zˆt = mˆ + bˆ t t = 1, 2,..., n (2.4.1) Anche i residui sono allora determinati e li indichiamo con uˆt per cui diventano uˆt = zt - zˆt = zt - mˆ - bˆ t t = 1, 2,..., n (2.4.2) distanze tra i valori osservati e quelli teorici dati dalla retta (2.4.1). Dalla (2.4.2) si trae che uˆt è determinato una volta che siano determinate m̂ e bˆ . Se queste ancora non lo sono, anche uˆt non lo è, per cui possiamo scrivere ut = zt - m - b t t = 1, 2,..., n (2.4.3) zt = m + b t + ut t = 1, 2,..., n (2.4.4) oppure volendosi intendere il residuo ut come quel termine da aggiungere (o sottrarre, se negativo) al valore teorico ( m + b t ) per aversi il dato osservato zt . Le uˆt , determinate numericamente come differenze tra i valori osservati zt e quelli teorici zˆt , possono essere considerate come stime delle ut e quindi residui stimati. E’ in genere molto utile rappresentare graficamente i residui, al fine di verificare più in dettaglio, sia pure visivo, l’adeguatezza dell’interpolazione. Nelle figure 2.5, 2.6 e 2.7 sono esposti i residui (stimati) delle tre interpolazioni ln ct = m + b t + ut (2.4.5) 24 ct = exp {m + b t } + ut (2.4.6) ct = m + b t + ut (2.4.7) che ora scriviamo con i residui esplicitati, rappresentate nelle figure 2.2, 2.3 e 2.4, rispettivamente. residui ut 0.6 0.3 0 t 1960 -0.3 1965 1970 1975 1980 -0.6 Figura 2.5 – Serie storica dei residui stimati {uˆt } relativi al modello (2.4.5) dei consumi privati totali nominali in Italia; anni 1960 – 1980. ut 5000 2500 0 1960 -2500 1965 1970 1975 t 1980 -5000 Figura 2.6 – Serie storica dei residui stimati {uˆt } relativi al modello (2.4.6) dei consumi privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro. 25 ut residui 4000 2000 0 1960 -2000 t 1965 1970 1975 1980 -4000 Figura 2.7 – Serie storica dei residui stimati {uˆt } relativi al modello (2.4.7) dei consumi privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro. Box 1 I residui Dati osservati { z1 z2 ... zn } Retta generica interpolante (tendenza lineare) i dati osservati zt = m + b t Retta interpolante stimata (con un certo criterio) zˆt = mˆ + bˆ t { da cui i dati teorici zˆ1 zˆ2 ... zˆn Residui stimati } uˆt = zt - zˆt = zt - mˆ - bˆ t 26 2.5 Il breve e il lungo periodo La differenziazione tra il breve e il lungo periodo assume importanza basilare non soltanto quando si tratta la teoria economica ma anche quando si costruisce un modello econometrico. Si ebbe un esempio di questo concetto quando fu osservato che negli anni compresi tra le due guerre mondiali negli USA la relazione tra il consumo e il reddito, piuttosto che essere del tipo (2.1.1), risultava tale che: - nel lungo periodo la propensione media al consumo c y era costante; - nel breve periodo tale rapporto oscillava, aumentando nelle fasi di recessione e diminuendo in quelle di espansione. Inoltre fu notato che per ogni dato individuo tale rapporto diminuiva all’aumentare del reddito, fatto questo che J.S. Duesenberry [1949] spiegò con la ipotesi del reddito relativo, secondo la quale la percentuale di reddito consumato da ogni individuo non dipendeva direttamente dal suo reddito assoluto, ma dalla sua posizione, in termini di percentili (si veda il Box 2), nella sua distribuzione; in altre parole, dal suo reddito relativo. Analiticamente questa ipotesi può essere scritta, prescindendo da una eventuale tendenza, nella forma ct y = m + b 0t , yt y m > 0 , b < 0 ; y 0 = max ( y s ; s < t ) (2.5.1) dove y 0 è il reddito massimo goduto dall’individuo nel passato; nel lungo periodo si può ritenere che il reddito cresca ad u n saggio costante g > 0 per unità di tempo yt = (1 + g ) yt -1 (2.5.2) analogamente a quanto ipotizzato nella (2.2.1) per il consumo, per cui è y 0 = y t -1 , e la (2.5.1) diviene ct = m + b (1 + g ) yt (2.5.3) con rapporto ct / y t costante. Nel breve periodo, d’altro canto, si ha che durante le fasi di recessione è yt < y 0 e quindi ct / y t aumenta, mentre in quelle di espansione è yt > y 0 ed il rapporto consumo su reddito diminuisce. . 27 Box 2 I quantili Per chiarire il significato di percentile (di una distribuzione, che nel caso specifico riguarda i redditi) si pensi di ordinare in senso crescente i redditi, suddivisi in classi, e di associare a ciascuna classe il numero degli individui che lo ottengono. Il dispiegarsi di questo numero in funzione delle classi costituisce la distribuzione dei redditi di questi individui. Il percentile n-esimo di questa distribuzione indica il reddito ottenuto da quell’individuo al di sotto del quale si situa l’n per cento degli individui. Ovviamente n può variare da 1 a 99. Il concetto di percentile può essere esteso a quello di quartile, in cui il reddito è diviso in quattro parti, e in quello di decile, in cui la divisione è in dieci. I quartili sono tre e i decili nove. Il 50° percentile, uguale al 2° quartile e al 5° decile, corrisponde alla mediana della distribuzione. I percentili, i quartili, i decili, e gli altri valori ottenuti dividendo in classi uguali i dati di una distribuzione (qualsiasi, che non necessariamente riguarda i redditi) sono genericamente chiamati quantili. Il secondo decile (corrispondente al 20° percentile) della distribuzione dei redditi può essere preso come indicatore della povertà (o della ricchezza) economica in una popolazione: più è basso (alto) più poveri (ricchi) vi sono. Esempio 2.3 – Verifichiamo l’ipotesi del Duesenberry per l’Italia negli anni 1970 – 2002 con l’aiuto della figura 2.8. In questa sono raffigurate la serie { yt } del reddito totale italiano (scala a sinistra) che permette di individuare gli anni di recessione (aree in grigio) e la serie {ct yt } della propensione media al consumo (scala a destra). Alla serie del reddito è stata sottratta una tendenza esponenziale, determinata come nell’esempio 2.1, mentre al rapporto ct yt è stata sottratta una tendenza lineare. I periodi di recessione segnati in grigio sono conseguenze dei due shock petroliferi degli anni settanta (1974 e 1979) e mostrano una chiara tendenza al rialzo della propensione media al consumo, come previsto dall’ipotesi del Duesenberry. Negli anni di recessione 1991 – 1993 l’ipotesi è ancora convalidata per il 1991 e il 1992; non lo è per il 1993. 28 Figura 2.8 – Andamento del PIL (scala a sinistra) e della propensione media al consumo (scala a destra) in Italia negli anni 1970 – 2002; ambedue le serie sono state depurate della tendenza con funzioni lineari. Le aree tratteggiate indicano i periodi di recessione degli anni settanta innescati dalle crisi petrolifere; in questi periodi la propensione media aumenta, come previsto dall’ipotesi del Duesenberry. 29 2.6 Le stime dei minimi quadrati (OLS) nel modello lineare semplice Vediamo ora come si ottengono le stime dei minimi quadrati nel modello lineare (2.4.4) che scriviamo in una forma più generale t = 1, 2,..., n yt = m + b xt + ut (2.6.1) ponendo al posto di z t una generica variabile endogena yt e al posto di t una generica esplicativa xt . Questi due aggettivi derivano dal fatto che nel modello (2.6.1) la xt spiega la y t , che è determinata endogenamente (all’interno) al modello. Talvolta la x t è anche detta variabile esogena, in quanto determinata esogenamente (all’esterno) al modello. Il modello lineare (2.6.1) è detto semplice perché contiene una sola variabile esplicativa oltre l’intercetta. Se ne contenesse di più sarebbe multiplo, caso che esamineremo in seguito. Ovviamente è anche yˆ = mˆ + bˆ xt uˆ t = yt - yˆ t e (2.6.2) Il criterio di stima dei minimi quadrati consiste nel trovare i valori di m e di b che rendono minima la somma dei quadrati dei residui (2.3.4), cosa che nel caso di n dati si scrive n n min å ut2 = min å ( yt - m - b xt ) m ,b t =1 m ,b 2 t =1 (2.6.3) intendendosi con questa scrittura che la minimizzazione avviene al variare di a e di b . La somma dei quadrati nella (2.6.3) è una funzione di m e b che indichiamo con S( m , b ) e la matematica ci fornisce le condizioni necessarie (ma non sufficienti) per ottenere il minimo (2.6.3): occorre che siano uguali a zero le derivate parziali prime di S rispetto sia ad m che a b n ì ¶S = 2 ( yt - m - b xt )( -1) = 0 å ï ¶m ï t =1 í n ï ¶S = 2 ( y - m - b x )( - x ) = 0 å t t t ïî ¶b t =1 cioè che sia 30 n ì n y = n × m + b xt å ïå t ï t =1 t =1 í n n n ï x y = m x + b x2 å å t t t t ïîå t =1 t =1 t =1 (2.6.4) che vengono chiamate equazioni normali. Se si pone x= 1 n å xt , n t =1 y= 1 n 1 n yt , m xx = å xt2 , å n t =1 n t =1 m xy = 1 n å xt yt n t =1 (2.6.5) dalla prima delle (2.6.4) si ricava, dividendo per n, y = m+b x (2.6.6) e dalla seconda, sostituendo il valore di m dato dalla (2.6.6), å xt yt = (y - b x )å xt + b å xt2 n n n t =1 t =1 t =1 cioè ( m xy = yx + b m xx - x 2 ) dalle quali si ottiene la stima dei minimi quadrati (ordinari) di b m - yx bˆ = xy mxx - x 2 m xx ¹ x 2 (2.6.7) e, sostituendo nella (2.6.6), quella di m mˆ = y - bˆ x (2.6.8) Le condizioni sufficienti affinché m̂ e b̂ costituiscano il minimo (2.6.3) sono esposte nell’Appendice 2.2. I due valori m̂ e b̂ costituiscono il punto di ottimo ( m̂ b̂ ) nella minimizzazione (2.6.3) e ad essi, tramite la (2.6.1), corrispondono i valori uˆt = yt - yˆt = yt - mˆ - bˆ xt t = 1, 2,..., n (2.6.9) dei residui stimati. 31 Si tenga ben in mente che m̂ e b̂ possono essere determinate soltanto se m xx ¹ x 2 come risulta dalla (2.6.7). Osservazione 2.7 – Dalla (2.6.6) segue che la retta yt = m + b xt passa sempre nel punto ( y, x ) quali che siano i valori di m e b che soddisfano alle equazioni normali (2.6.4). Osservazione 2.8 – Si noti che in corrispondenza del punto di ottimo le equazioni normali possono essere scritte come segue ( ) ( ) n ì n ˆ x = uˆ = 0 ˆ y m b å t t ïå t ï t =1 t =1 í n n ï yt - mˆ - bˆ xt xt =å uˆt xt = 0 å ïî t =1 t =1 (2.6.10) La prima di queste mostra che la somma dei residui stimati è nulla; la seconda denota una proprietà dei residui stimati: la loro ortogonalità nei confronti della variabile esplicativa. Osservazione 2.9 – Utilizzeremo nel seguito il risultato che consegue dalla catena di uguaglianze ( ) n 1 n 1 n 1æ ö yˆ t = å mˆ + bˆ xt = ç n mˆ + bˆ å xt ÷ = mˆ + bˆ x å n t =1 n t =1 nè t =1 ø che per l’osservazione 2.7 è pari a y . Quindi si ha 1 n 1 n ˆ y = y = å t å yt n t =1 n t =1 (2.6.11) 32 2.7 L’interpretazione statistica Il criterio dei minimi quadrati illustrato nei paragrafi precedenti, che fu sviluppato indipendentemente da K. F. Gauss e A. M. Legen dre tra la fine del diciottesimo e gli inizi del diciannovesimo secolo, utilizza concetti puramente matematici (deterministici e non probabilistici). Ad esso, tuttavia, possiamo dare anche un’interpretazione statistica, che riguarda, quindi, solamente i nomi. Il modello (2.6.1) viene detto di regressione, la somma dei quadrati n åu t =1 storiche { xt } e { yt } 2 t = S ( m, b ) è la devianza (dei residui o residuale), le serie costituiscono il campione di dati, i valori x e y sono le medie aritmetiche delle due variabili xt ed yt , mxx è il momento secondo di xt ed mxy il momento secondo misto. I valori m̂ e b̂ sono ancora delle stime, ma in senso statistico. Volendo utilizzare questa interpretazione, allora, la (2.6.7) indica che la stima b̂ è data dal rapporto (covarianza tra x e y ) / (varianza di x ). In questo modo la (2.6.11) dell’osservazione precedente può essere letta nel senso: la media aritmetica della variabile osservata yt è uguale a quella della variabile teorica yˆt . D’ora in poi utilizzeremo normalmente questa nomenclatura. 33 2.8 La scomposizione della devianza e il coefficiente di determinazione Si è visto nel paragrafo 2.3 che la serie del consumo {ct } può essere interpolata sia con un’esponenziale (figura 2.3) sia con una retta (figura 2.4), dando luogo a stime delle devianze dei residui fortemente diverse, 11671187 nel primo caso e 42103686 nel secondo. Ci domandiamo allora se sia possibile costruire un indicatore basato sulle devianze che permetta di “misurare” il grado di adattamento (o di accostamento) di un modello al campione di dati. La risposta è positiva e passiamo alla determinazione di uno di tali indicatori, il più importante, chiamato coefficiente di determinazione. Per definirlo supponiamo, ovviamente senza perdere in generalità, che il modello contenga l’intercetta (che, stimata, può anche valere zero) e scomponiamo la devianza (la somma dei quadrati degli scarti dalla media) delle yt nel seguente modo n n å ( y t - y ) 2 = å ( yt - yˆ t + yˆ t - y ) 2 = t =1 (2.8.1) t =1 n n n t =1 t =1 t =1 = å ( y t - yˆ t ) 2 + å ( yˆ t - y ) 2 + 2å ( y t - yˆ t )( yˆ t - y ) dove y = 1 n å yt come nelle (2.6.5) e si è tolta e aggiunta la stessa quantità ŷt . Il termine n t =1 misto è nullo, come dimostrato nell’appendice 2.2 per cui vale la scomposizione della devianza (totale) TSS di yt nella devianza di regressione ESS ed in quella residuale 10 RSS, essendo y per la (2.6.11) la media sia delle yt che delle ŷ t , å(y t - y )2 t = å ( yˆ t - y )2 t Dev. totale Dev. di regress. + å(y t - yˆ t ) 2 (2.8.2) t Dev. residuale Se dividiamo i due membri della (2.8.2) per la devianza totale otteniamo 1 = (Dev. di regressione)/(Dev. totale) + (Dev. residuale)/(Dev. totale) per mezzo della quale definiamo il coefficiente di determinazione R2 = Dev. di regressione Dev. residuale = 1Dev. totale Dev. totale (2.8.3) In lingua inglese: Dev. totale = Total Sum of Squares (TSS); Dev. di regressione = Explained Sum of Squares (ESS); Dev. residuale = Residual Sum of Squares (RSS). 10 34 pari al quadrato del coefficiente di correlazione multipla tra yt e l’insieme delle variabili esplicative. Quando tutta la variabilità della yt (cioè l’insieme di tutte le sue deviazioni dalla media) è spiegata da quella di regressione (cioè dall’insieme di tutte le deviazioni della variabile teorica yˆt dalla media) si ha che l’andamento del modello è perfetto, la devianza residua è nulla ed R2 = 1; nel caso opposto la parte sistematica del modello non spiega niente e la variabilità totale coincide con quella residua, per cui R2 = 0. In generale dunque, si ha 0 £ R2 £ 1 (2.8.4) Il coefficiente di determinazione non centrato La devianza totale (2.8.1) può essere scritta nella forma n n n n n t =1 t =1 t =1 t =1 t =1 å ( yt - y )2 = å yt2 + å y - 2 y å yt = å yt2 - ny 2 per cui il coefficiente di determinazione (2.8.3) diviene n R2 = 1 - å uˆ t =1 åy 2 t 2 t (2.8.5) - ny 2 ed è detto centrato. Se si elimina ny 2 si ottiene il coefficiente di determinazione non centrato n Ru 2 = 1 - å uˆ t =1 2 t åy (2.8.6) 2 t dove il pedice u indica l’aggettivo inglese uncentered, che significa, appunto, non centrato. Generalmente i programmi di calcolo econometrico forniscono ambedue i coefficienti (2.8.5) e (2.8.6) ma mentre il secondo è utile nell’effettuare particolari diagnosi sul modello, come vedremo in seguito, il primo è direttamente utilizzabile per valutare la bontà di adattamento11 del modello ai dati, cioè per scegliere le variabili da tenere in considerazione. 11 In inglese: goodness of fit. 35 Esempio 2.4 – I coefficienti di determinazione non centrati per i tre modelli della tendenza nella serie storica dei consumi privati totali nominali in Italia sono esposti nella tavola 2.2. Tra di essi il più grande è il primo e quindi si può asserire che il modello con migliore bontà di adattamento sia il (2.4.5). Modello Equazione R2 ln ct = a + b t + ut (2.4.5) 0.968 ct = exp {a + b t } + ut (2.4.6) 0.931 ct = a + b t + ut (2.4.7) 0.751 Tavola 2.2 – Coefficiente di determinazione non centrato per i tre modelli della tendenza nella serie dei consumi privati totali nominali in Italia. Cautela nell’uso del coefficiente di determinazione L’interpretazione dell’ R 2 (o dell’ Ru2 ) richiede una particolare attenzione, specialmente se il modello contiene più di due variabili esplicative. Ma anche nel caso del modello semplice (2.6.1) può accadere che un valore molto alto (prossimo ad 1) di R 2 sia dovuto ad m e che invece β sia poco significativo, di fatto che sia yt = m + ut che sta ad indicare come yt sia sostanzialmente pari ad una costante e che la variabile xt (il tempo o una qualsiasi altra variabile esplicativa) sia del tutto ininfluente. In questo modo il modello lineare semplice (2.6.1) non fornisce alcuna informazione utile all’analisi economica pur essendo R 2 alto. Questo problema assume una particolare rilevanza anche quando ln yt e l’esplicativa xt contengono ambedue una tendenza: può accadere che un eventuale R 2 alto sia la conseguenza di questa e non di una effettiva relazione economica tra le due variabili. Una semplice verifica di questo fatto può essere realizzata stimando la (2.6.1) nelle differenze ed eliminando quindi, come mostreremo tra poco, un’eventuale tendenza lineare. Ritardando, infatti, la (2.6.1) di una unità temporale si ottiene 36 yt -1 = m + b xt -1 + ut -1 (2.8.7) e facendo la differenza tra la (2.6.1) e la (2.8.7) si ha Dyt = b Dxt + e t (2.8.8) con il residuo rappresentato ora da e t = ut - ut -1 . Stimando la (2.8.8) si ottiene un R 2 non influenzato dalla tendenza; se è alto si può dire che sussiste effettivamente una relazione tra xt e yt . Eliminazione della tendenza lineare con una differenza prima E’ semplice verificare che una differenza prima elimina un’eventuale tendenza lineare. Infatti questa eventualità è rappresentabile nella forma yt = m + b t + ut e prendendo la differenza prima si ha Dyt = yt - yt -1 = ( m + b t + ut ) - éë m + b ( t - 1) + ut -1 ùû = b + e t (2.8.9) con e t = ut - ut -1 . La (2.8.9) non contiene più la tendenza lineare ma include il coefficiente angolare b che ora è diventato il termine noto. Qualora la yt non contenesse una tendenza lineare, il parametro b sarebbe nullo e nella (2.8.9) semplicemente mancherebbe. Si lascia al lettore mostrare che una differenza seconda D × D = D 2 elimina un’eventuale tendenza parabolica (un polinomio di secondo grado in t ) e che in generale una differenza d–esima elimina un’eventuale tendenza rappresentabile mediante un polinomio di grado d nel tempo. 37 2.9 Stima di una funzione del consumo E’ utile applicare i concetti esposti in precedenza in relazione non più ad un’equazione del tipo (2.4.4) che esprime il consumo in funzione del tempo (e rappresenta la tendenza interpolante lineare), bensì alla seguente (2.9.1) zt = m + b yt + ut che esprime il consumo reale zt in funzione del reddito reale (come nella (2.1.1)). Al posto della figura 2.1 si ha la 2.6 che riporta il grafico, detto diagramma di dispersione, delle coppie di valori ( zt , yt ) tratti da un campione di osservazioni formato dalle due serie storiche dei consumi { z1 z2 ... z n } e dei corrispondenti redditi { y1 y 2 ... y n } , i quali ultimi prendono il posto dei tempi contenuti nella serie storica {1 2 ... n} . I consumi { zt } sono costituiti dalla serie ITACPV e il reddito { yt } dall’altra ITAGDPV della base di dati OCSE, presi per gli anni 1980–2002. Le stime dei due parametri nella (2.9.1) determinano la corrispondente della (2.4.1) zˆt = -53684 + 0.657 yt t = 1,2,..., n (2.9.2) che è costituita da una retta che attraversa la nuvola di punti della figura 2.6 e per mezzo della quale si stimano i residui (2.4.2), rappresentati graficamente nella figura 2.7. Si noti che l’intercetta è negativa, contrariamente a quanto ipotizzato dal Keynes; è questo uno dei tanti casi in cui le ipotesi teoriche non trovano conferma nell’analisi empirica. La devianza residuale (espressa in miliardi di euro) vale 23 å ( zt - zˆt ) t =1 2 23 = å uˆt2 = 831954 t =1 e il coefficiente di determinazione centrato è R 2 = 0.993 (2.9.3) Questo coefficiente è molto alto e può venire il dubbio che, come esposto nel paragrafo precedente, sia derivato essenzialmente dalla presenza della tendenza, ben chiara per i consumi nella figura 2.3, nelle serie delle due variabili. Allora calcoliamo le due serie delle differenze e stimiamo l’equazione (2.8.8); otteniamo 38 (2.9.4) Dzˆt = 0.674 Dyt con R 2 = 0.609 , ma anche questo coefficiente di determinazione è relativamente alto e si può concludere che effettivamente sussiste una relazione economica tra il reddito e consumi nell’Italia degli anni ’80 e ’90. funzione del consumo zt 680 630 580 530 480 430 380 680 yt 730 780 830 880 930 980 1030 1080 Fonte: OECD (2004) Figura 2.6 – Diagramma di dispersione che rappresenta il consumo zt in funzione del reddito yt ; dati annuali reali per l’Italia 1980 – 2002 espressi in miliardi di euro. ut 600 400 200 0 t -200 -400 -600 Figura 2.7 – Serie storica dei residui uˆ t = z t - zˆt della relazione lineare tra il consumo e il reddito reali (annuali) in Italia, anni 1980 – 2002. 39 Si osservi che l’ R 2 è più basso quando si usano le differenze delle variabili al posto dei loro livelli. Questo fatto è abbastanza generale e quando ad un R 2 per un’equazione dei livelli superiore all’80% corrisponde un R 2 nelle differenze superiore al 60% ci si può ritenere soddisfatti. Coefficiente di determinazione e scelta del modello Si è detto nel paragrafo 2.1 che una funzione del consumo diversa dalla (2.9.2) potrebbe essere ottenuta sostituendo ad yt il reddito disponibile ytd . Facciamolo, con l’aiuto della serie ITAYDRH tratta anche questa dalla base di dati dell’OCSE. Stimiamo dunque la (2.9.1) con i nuovi dati e otteniamo zˆt = -292775 + 1.198 y d t t = 1,2,..., n (2.9.5) con un coefficiente di determinazione centrato pari a R 2 = 0.837 (2.9.6) più basso del (2.9.3) per cui è statisticamente preferibile scegliere il (2.9.2) come modello rappresentativo della funzione del consumo. E’ questo un semplice esempio di uso del coefficiente di determinazione per la scelta del modello. Omogeneità dei dati La stima della funzione del consumo ci permette di fare una considerazione rilevante nell’analisi economica. Abbiamo stimato la (2.9.1) supponendo che essa sia valida, come forma, nell’intero orizzonte campionario 1980–2002 e che i parametri m e b non varino troppo in tale periodo; in particolare che la propensione marginale al consumo sia approssimativamente costante. Abbiamo, in ultima analisi, congetturato che il campione sia omogeneo in tale periodo: è un’ipotesi che può valere ma che anche può non valere. Infatti proviamo a dividere il campione in due parti, dal 1980 al 1994, e dal 1990 al 2002 e stimiamo la (2.9.1) con questi due sottocampioni (che in parte si sovrappongono). Otteniamo zˆt = -86408 + 0.701 yt (2.9.7) zˆt = -15545 + 0.617 yt (2.9.8) per gli anni 1980 – 1994, e per gli anni 1990 – 2002. Queste equazioni sono ben diverse dalla (2.9.2) e allora si deve dire che il modello (2.9.2) è sbagliato e deve essere sostituito dalla coppia (2.9.7), (2.9.8)? Non necessariamente. 40 La scelta dipende infatti dagli obiettivi che l’analista si pone. Se ha la necessità di considerare il periodo 1980–2002 come un tutt’uno e di ottenere un dato medio (ad esempio la propensione marginale media nel periodo), deve preferire la (2.9.2) alla coppia (2.9.7), (2.9.8). Ma la scelta può anche dipendere dalla numerosità del campione: vedremo in seguito che più il campione è numeroso e più precise sono le stime e potrebbe accadere che la suddivisione del campione produca stime diverse sì, ma non affidabili. Anche la specificazione dell’equazione da stimare dipende dagli obiettivi che ci si propone di conseguire, dal grado di approssimazione che si vuole ottenere, e dal campione di dati disponibili. Non linearità rispetto alle variabili Un’altra osservazione è pertinente. Si è visto che la propensione marginale al consumo sembra in Italia essere decrescente; allora, volendo essere molto precisi, potremo interpolarla con una retta b = g +d t (2.9.9) per cui la funzione del consumo (2.9.1) verrebbe ad essere scritta nella forma zt = m + ( g + d t ) yt = m + g yt + d t × yt non lineare rispetto alle variabili (a causa del prodotto t × yt ). Ma potremo porre wt = t × yt ottenendosi la forma zt = m + g yt + d wt che è lineare anche rispetto alle variabili (e quindi facilmente stimabile) ma contenente tre parametri. 2.10 Propensione media ed elasticità Stimiamo ora l’equazione zt = b yt + ut (2.10.1) dove b rappresenta una sorta di propensione media al consumo e ci proponiamo di determinare come questa sia variata in Italia negli ultimi quaranta anni. Prendiamo dalla base di dati dell’OCSE ancora i consumi ITACPV e il reddito GDPV, ma questa volta trimestrali, nel 2° e nel 4° trimestre di ogni anno dal 1965 al 2002, e dividiamo il campione in cinque sottocampioni formati da 16 elementi ciascuno. Stimiamo ed otteniamo 41 Sottocampione N° osservazioni b R2 1965/1-1972/2 16 0.557 0.986 1973/1-1980/2 16 0.560 0.966 1981/1-1988/2 16 0.585 0.976 1989/1-1996/2 16 0.599 0.603 1995/1-2002/2 16 0.600 0.943 da cui si osserva che la propensione media al consumo è andata sempre aumentando dalla metà degli anni sessanta fino alla fine degli ottanta, dopodiché sembra essersi arrestata. L’elasticità E’ di grande interesse, nello studio delle relazioni economiche, la determinazione di quanto una variabile possa cambiare in funzione di una variazione dell’esplicativa yt ; se i due cambiamenti sono valutati in termini di variazioni percentuali questo equivale a calcolare l’incremento percentuale di ct indotto dall’incremento percentuale unitario della variabile esplicativa yt , cioè l’elasticità della prima rispetto alla seconda. Ricordando che la variazione percentuale è rappresentata dalla differenza logaritmica (2.2.10) si ha che l’elasticità è h» D ln ct D ln yt (2.10.2) Passando dal discreto al continuo si è più precisi sostituendo al rapporto tra due incrementi finiti la derivata logaritmica h= d ( ln ct ) d ct / ct y d ct = = t d ( ln yt ) d yt / yt ct d yt (2.10.3) corrispondente al parametro β dell’equazione ln ct = b ln yt 42 che in termini stocastici scriviamo nella forma ln ct = b ln yt + ut (2.10.4) Esempio 2.5 – La stima dell’equazione (2.10.1) per l’Italia fornisce ln cˆt = 0.962 ln yt (2.10.5) campione 1980-2002, R 2 = 0.975 se si utilizza il reddito. L’elasticità del consumo privato totale rispetto al reddito reale è pertanto h = 0.962. Ad un incremento dell’1% del reddito corrisponde un incremento dello 0.962% del consumo privato. Se si utilizzasse il reddito disponibile reale l’elasticità varrebbe h = 0.979. 43 2.11 Altri esempi La legge di Okun L’economista statunitense Arthur Okun, basandosi su dati USA relativi al periodo 1947–1960 determinò una relazione tra il tasso di disoccupazione e la crescita economica del tipo Dut = b ( x&t - g ) (2.11.1) dove Dut = ut - ut -1 è la variazione del tasso di disoccupazione x&t = ( xt - xt -1 ) xt -1 è il tasso di crescita economica g è il tasso di crescita (medio) di lungo periodo. La (2.11.1) è nota come legge di Okun e utilizziamo quanto illustrato finora in questo capitolo per stimarla con dati dapprima relativi agli USA e poi all’Italia. Osservazione 2.10 – Si noti per inciso che l’equazione stimata dall’Okun è del tipo (2.8.8) e quindi priva dell’intercetta, implicando dunque l’ottenimento di un R 2 non molto alto. Per quanto riguarda l’economia degli USA, utilizzando la serie USAGDPV della base di dati OCSE dal 1960 al 1980 stimiamo l’equazione ln xt = a + b t del tutto analoga alla (2.2.7) determinata per il consumo. Si ottiene ln xˆt = 14.684 + 0.036t dalla quale, per mezzo della (2.2.8), si trae il saggio di crescita di lungo periodo g = exp ( 0.036 ) - 1 = 1.037 - 1 = 0.037 Si determina poi la variazione annua del tasso di disoccupazione {D ut } traendo {ut } ancora dalla base di dati OCSE (USAUNR) e si stima l’equazione (2.11.1) ottenendosi 44 D uˆt = -37.423( x&t - 0.037) (2.11.2) campione 1960–1980, R 2 = 0.758 , la quale mostra che ogni punto percentuale di crescita del PIL degli USA sopra il 3.7% corrisponde ad una diminuzione del tasso di disoccupazione pari a 0.374. Okun trovò, per il periodo da lui considerato, un valore pari a circa 0.4. Osservazione 2.11 – Nella (2.11.2) la variazione della disoccupazione D ut è misurata in punti percentuali (3, 5, …) mentre l’esplicativa è misurata in unità (0.03, 0.05), per cui il parametro b della ((2.11.2)) deve essere diviso per 100 al fine di poter essere ricondotto all’unità di misura di D ut (essendo l’esplicativa 100 volte più piccola, b è nella stima 100 volte più grande). Ripetendo le operazioni per l’economia dell’Italia per gli anni dal 1960 al 1980 otteniamo D uˆt = -7.12 ( x&t - 0.046) (2.11.3) campione 1960 – 1980, R 2 = 0.129 e per gli anni dal 1981 al 2002 D uˆt = -10.594( x&t - 0.019) (2.11.4) campione 1981 – 2002, R 2 = 0.0288 . I due coefficienti di determinazione così come le due diminuzioni del tasso di disoccupazione sono molto piccoli (per i secondi rispettivamente lo 0.071 e lo 0.106 nei due periodi campionari) per cui si può concludere che la legge di Okun nell’ultimo mezzo secolo non vale per l’Italia. E’ un’ulteriore conferma del fatto che spesso gli assunti economici valgono soltanto per specifiche economie e specifici periodi campionari. Relazione tra tasso di cambio nominale e prezzi relativi Siano wt il tasso di cambio (valuta nazionale italiana)/$USA [ITAEXCHUD ne lla base di dati OCSE in euro/$] xt il rapporto tra l’indice dei prezzi al consumo USA [USACPI] e l’indice dei prezzi al consumo per l’Italia [ITACPI] per gli anni 1970–2002. Si può stimare la relazione tra tasso di cambio nominale e prezzi relativi 45 wt = m + b xt (2.11.5) che mostra come il primo vari in funzione (lineare) dei secondi. Si ottiene wˆ t = 1.156 - 0.325 xt (2.11.6) campione 1970 – 2002, R 2 = 0.742 nella quale il coefficiente angolare -0.325 indica che ad ogni diminuzione unitaria di xt (che tende a diminuire perché i prezzi dell’Italia crescono più rapidamente di quelli USA) corrisponde un aumento (deprezzamento della valuta italiana rispetto al dollaro USA) del tasso di cambio. Su questo fatto si basa il principio della parità dei poteri d’acquisto (PPP). 46 Appendice 2.1 – Serie storiche, dati sezionali e longitudinali Fin dall’inizio è stata presa in considerazione la semplice funzione del consumo di derivazione keynesiana (2.1.1) nella quale consumo e reddito, legati da una relazione lineare, possono essere riferiti ad istanti differenti di tempo, t = 1, 2, …, n, oppure ad unità di consumo e di reddito (ad esempio famiglie), i = 1, 2, …, N, considerate allo stesso tempo t. Si possiede, allora, nel primo caso un campione di osservazioni che formano serie storiche ct = m + b yt t = 1, 2, …, n (A.2.1.1) mentre nel secondo le osservazioni compongono dati sezionali12 ci = m + b yi i = 1, 2, …, N (A.2.1.2) Un campione temporale di ampiezza n può essere costruito mediante indagini che si protraggono nel tempo, oppure tramite una disaggregazione temporale (ad esempio trimestralizzazione o mensilizzazione di dati annuali), mentre un campione sezionale di ampiezza N può essere estratto da un’inchiesta puntuale nel tempo, ad esempio da un’indagine sulla spesa di un gruppo di famiglie oppure da un censimento. I modelli (A.2.1.1) e (A.2.1.2) sono analoghi e differiscono unicamente nel modo con cui i dati sono stati reperiti. Naturalmente esistono modelli i cui dati sono contemporaneamente sezionali e temporali, come nell’esempio seguente cit = mi + b i yit t = 1, 2, …, n; i = 1, 2, …, N (A.2.1.3) rappresentativo di una funzione del consumo nella quale ciascuna famiglia i possiede una propria funzione definita dai parametri mi e b i , considerati costanti nel periodo di osservazione campionario, cioè per t = 1, 2, …, n. Se poniamo N c t = å cit , i =1 N m = å mi , i =1 N yt = å yit i =1 Le serie storiche (o temporali) vengono dette in lingua inglese time series mentre i dati sezionali sono detti cross-section data. 12 47 e nell’ipotesi che tutte le propensioni marginali al consumo siano uguali, b1 = b 2 = ... = b N = b , le equazioni (A.2.1.3) possono essere sommate membro a membro in modo da dare ct = m + b yt t = 1, 2, …, n costituendo questa l’aggregazione sezionale delle (A.2.1.3). Un altro modo di aggregare le equazioni (A.2.1.3) è quello che si basa sulla conoscenza della distribuzione del reddito. Se la quota di reddito yt posseduta dalla i esima famiglia in ogni tempo è li , con il vincolo N ål i =1 i =1 si ha che y it = l i y t .... t = 1,2,..., n ; i = 1,2,..., N (A.2.1.4) per cui, sostituendo le (A.2.1.4) nelle (A.2.1.3) e tenendo conto del vincolo, si ottiene, sommando membro a membro ct = m + b 0 yt N dove b 0 = å l i b i , di nuovo del tipo (A.2.1.1) ma con un’altra aggregazione i =1 sezionale. Dati longitudinali Se il campione di famiglie considerato nella (A.2.1.3) rimane costante negli n tempi, i dati ad esso relativi, {c it } e {y it } sono chiamati longitudinali, alludendo al fatto che un campione di più individui viene seguito lungo il tempo13. Per il trattamento dei dati longitudinali si usano procedure econometriche specifiche. In lingua inglese i dati longitudinali vengono generalmente chiamati panel data (dal termine panel, che indica un gruppo di individui). 13 48 Appendice 2.2 – Complementi analitici Differenza prima logaritmica Dimostriamo che D ln xt = ln xt - ln xt -1 » ( xt - xt -1 ) xt -1 (A.2.2.1) dove il simbolo " » " significa “approssimativamente pari a”. Sviluppando in serie di Taylor la funzione ln (1 + g ) si ha ln (1 + g ) = g - g 2 2 + g 3 3 - g 4 4 + ... (A.2.2.2) e ponendo g = xt xt -1 - 1 si ottiene ln ( xt xt -1 ) = (xt - xt -1 ) xt -1 + ... cioè la (A.2.21) L’approssimazione (A.2.2.1) è tanto migliore quanto più piccolo è il valore (compreso tra 0 e 1) di g : infatti i termini di secondo, terzo, … grado nella (A.2.2.2) sono tanto più piccoli quanto minore è g . Le condizioni sufficienti per la stima dei minimi quadrati Le stime m̂ e bˆ costituiscono effettivamente un punto di minimo per S ( m , b ) in quanto sono soddisfatte anche le condizioni sufficienti, date dalle ¶2S > 0, ¶m 2 2 ¶2 S ¶2 S æ ¶2S ö × -ç ÷ > 0; ¶m 2 ¶b 2 è ¶m 2¶b 2 ø ¶2S >0, ¶b 2 Infatti si ha ¶2S = 2n > 0 , ¶m 2 n ¶2S = 2 xt2 > 0 , å ¶b 2 t =1 n ¶2S = 2 xt å ¶m 2¶b 2 t =1 dalle quali segue che 2 n æ n ö 2 2n × 2å x - ç 2å xt ÷ = 4n 2 mxx - x 2 = 4n å ( xt - x ) > 0 t =1 t =1 è t =1 ø n 2 t ( ) 49 Nullità del termine misto nella scomposizione della devianza totale Il termine misto nella (2.8.1) è nullo perché n å(y t =1 t n n n n æ k ö - yˆ t )( yˆ t - y ) = å uˆ t yˆ t - y å uˆ t =å uˆ t ç å bˆ i xit ÷ - y å uˆ t = t =1 t =1 t =1 è i =1 ø t =1 k n n i =1 t =1 t =1 = å bˆ i å xit uˆ t - y å uˆ t =0 avendo applicato ambedue le (2.6.10). 50 CAPITOLO III L’AMBIENTE STOCASTICO 51 3.1 I residui come enti aleatori: le ipotesi deboli Finora i residui ut sono stati considerati come scarti tra i valori osservati e quelli teorici di una variabile yt per ogni tempo t. In questo approccio deterministico sono state ricavate le stime dei minimi quadrati dei parametri e quindi esso è stato sufficiente per percorrere molta strada nella costruzione dei modelli econometrici. Molto altro purtuttavia resta ancora da fare: come è possibile stabilire se le stime ottenute sono buone (rispetto ad un dato criterio) oppure cattive? E’ possibile decidere se le stime dei parametri si influenzano reciprocamente? Se i residui sono legati in qualche modo tra di loro? Se il campione è sufficientemente omogeneo? A queste domande, e ad altre ancora non meno importanti, si può dare risposta se i modelli sono considerati in un ambiente stocastico, non più deterministico. Vediamo di farlo. Si è visto che i residui variano di valore al variare di m e b ; non sono noti finché m e b non vengono fissati; quindi prima di ottenere m̂ e b̂ essi possono essere considerati variabili aleatorie u%t 14, t = 1, 2, …,n. Box 3 Le variab ili aleatorie E’ aleatoria una variabile ~ x che può assumere diversi valori e non si sa quale ha assunto o assumerà. La variabile associata al risultato del lancio di un dado è aleatoria e può assumere il valore da 1 a 6. I valori che una variabile può assumere vengono chiamati realizzazioni; così nell’esempio del dado si possono avere sei realizzazioni. In questo caso ciascuna realizzazione ha la stessa probabilità di realizzarsi; in altri casi alcune hanno maggiore probabilità di altre. Ad esempio l’altezza di un individuo è una variabile aleatoria; se la misuriamo in centimetri, i valori 150, 163, 180, …, sono sue realizzazioni. Quelle comprese tra 160 e 170 hanno, ovviamente, maggiore probabilità di verificarsi di quelle comprese tra 140 e 150. Queste variabili aleatorie sono dette discrete perché le loro realizzazioni possono essere o finite o infinite ma numerabili. Quando le realizzazioni hanno la potenza del continuo (in modo grossolano possiamo dire che appartengono ad un intervallo) le variabili aleatorie sono dette continue. La media delle realizzazioni ponderate con la probabilità che si verifichino costituisce Indichiamo con una tilde una variabile aleatoria. Tale simbolo è utilizzato soltanto quando la variabile è considerata in un contesto dichiaratamente stocastico (ad esempio sotto il simbolo di valor medio E). In contesti più generali (ad esempio in un modello) è solitamente omesso. 14 52 il valor medio della variabile aleatoria ed è indicato con il simbolo E ( x%t ) , dove E è l’iniziale della parola inglese expectation. Dunque il valor medio è un indice di localizzazione delle realizzazioni. La quantità E éë x% - E ( x% ) ùû 2 (3.1.1) che è pari alla media dei quadrati degli scarti tra le realizzazioni e il valor medio di x% , ponderati con la probabilità che esse si verifichino, ed è chiamata varianza della variabile aleatoria x% , è un indice di dispersione delle realizzazioni intorno al valor medio. Tanto più grande è la varianza e tanto più sono disperse le realizzazioni di x% rispetto al suo valor medio. La quantità E éë x% - E ( x% ) ùû éë y% - E ( y% ) ùû (3.1.2) chiamata covarianza tra le variabile aleatorie x% e y% , è un indicatore del legame lineare esistente tra le due variabili aleatorie rilevanti. La varianza di una variabile aleatoria x% è anche indicata con Var ( x% ) ; la covarianza tra x% e y% con Cov ( x% , y% ) . In appendice si dimostra l’utile risultato Var ( x% ± y% ) = Var ( x% ) + Var ( y% ) ± 2Cov ( x% , y% ) (3.1.3) Se nel modello lineare (2.6.1) i residui sono considerati aleatori il modello stesso è inserito in un ambiente stocastico e si scrive y%t = m + b xt + u%t (3.1.4) In effetti se u%t è una variabile aleatoria anche il membro a destra della (3.1.3) è aleatorio, e quindi lo è anche quello a sinistra, cioè la y% t , indicando il segno di uguaglianza l’uguaglianza delle caratteristiche (anche stocastiche) dei due membri. Queste mutano a seconda del grado di approfondimento con cui si vuole studiare il modello (3.1.4) oppure della diversa conformazione dei dati campionari. 53 Supponendo che l’equazione (3.1.4) rimanga inalterata nel periodo campionario, l’insieme più semplice di ipotesi stocastiche che possono essere formulate rispetto ad essa è dato da valori noti "t i) xt ii) E (u~t ) = 0 ì0 iii) E (u~t u~s ) = í 2 îs "t t¹s (3.1.5) t=s La prima ipotesi indica che la variabile esplicativa x è conosciuta. In particolare, quindi, essa comporta che la xt , a differenza della yt , sia misurata senza errori. La seconda ipotesi non è affatto restrittiva in quanto se fosse E (u%t ) = k ¹ 0, "t, ci si potrebbe sempre ricondurre a questo caso di valor medio nullo semplicemente aggiungendo k al termine noto dell’equazione (3.1.4). La prima delle (2.6.10) indica che l’introduzione dell’intercetta garantisce che i residui stimati abbiano media campionaria nulla, proprietà che è appunto il corrispettivo campionario della seconda delle (3.1.5). La terza ipotesi delle (3.1.5) è, viceversa, restrittiva in quanto presuppone sia che i residui in tempi diversi non siano legati linearmente tra di loro (la loro covarianza è sempre nulla) o, come si dice, siano incorrelati, sia che abbiano tutti la stessa varianza s 2 . Ambedue queste sottoipotesi sono raramente verificate nella realtà, ma sono molto utili nell’introduzione didattica della (2.6.1) in ambiente stocastico. E’ l’analogo di quanto si insegna in economia a proposito della concorrenza perfetta: questa sussiste raramente ma fornisce un buon strumento didattico preliminare all’illustrazione dei mercati con concorrenza imperfetta, più realistici ma meno semplici da definire. Le ipotesi (3.1.5) non presuppongono alcuna forma di distribuzione di probabilità (si veda il Box 4) per le u%t e sono per questo motivo dette deboli; nel caso contrario, che esamineremo nel paragrafo 3.4, di assunzione di una distribuzione di probabilità, le ipotesi che vengono assunte sono chiamate forti. Il Box 5 racchiude alcune semplici nozioni sul valor medio di una distribuzione. 54 Box 4 Distribuzioni di probabilità Ogni variabile aleatoria può assumere dei valori, che abbiamo chiamato realizzazioni, ciascuno dei quali si può verificare con una data probabilità. L’insieme di queste forma la distribuzione di probabilità della variabile aleatoria. Nel caso del lancio di un dado, nel quale la variabile aleatoria è costituita dal numero della faccia che si presenta, ognuna delle sei possibili realizzazioni ha la stessa probabilità di uscire e quindi la distribuzione è costituita da {1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6} se per convenzione assumiamo, come in generale viene fatto, che la somma delle probabilità di tutte le realizzazioni possibili sia uno. Questo caso fornisce un esempio di distribuzione discreta. Un altro tipo di distribuzione è quella continua, un esempio del quale è dato da una variabile aleatoria che assume un valore costante in un certo intervallo; se questo vale b - a tale valore è p = 1/ ( b - a ) qualora, sempre per convenzione, si assuma che ò b a b p × dx = p ò dx = p ( b - a ) = 1 a Nel caso discreto la funzione di distribuzione di probabilità indica come questa si ripartisce nelle varie realizzazioni che la variabile aleatoria discreta può assumere. Ad esempio nel caso della variabile aleatoria associata al lancio di un dado tale funzione è f ( xi ) = P ( x% = xi ) = 1 6 i = 1, 2,K , 6 dove P(~ x = xi ) indica la probabilità dell’evento ~ x = xi . Nel caso continuo, invece, alla funzione di distribuzione di probabilità corrisponde la funzione di densità di probabilità, che ha lo stesso significato ma definisce la probabilità che la variabile aleatoria continua x% assume un valore contenuto in un dato intervallo x ¢¢ P ( x¢ £ x% < x¢¢ ) = ò f ( x ) × dx x¢ Ad esempio, se consideriamo la variabile aleatoria continua costante, la probabilità che x% assume un valore contenuto nell’intervallo [ x¢, x¢¢] , con a £ x¢ < x¢¢ £ b , è P ( x¢ £ x% < x¢¢ ) = ò x ¢¢ x¢ 1 x¢¢ - x¢ dx = b-a b-a 55 Box 5 Valor medio di una distribuzione Dalle indicazioni date nelle Box 3 e Box 4 si trae che nel caso discreto il valor medio di una variabile aleatoria è dato da E ( x% ) = å xi × pi i dove la sommatoria è estesa a tutte le realizzazioni possibili xi , ciascuna moltiplicata per la probabilità pi che si verifichi. Nell’esempio del lancio di un dado E ( x% ) = 1 å xi = 7 2 6 i Nel caso continuo, d’altro canto, è x ¢¢ E ( x% ) = ò x × f ( x ) × dx x¢ dove x¢ e x¢¢ sono gli estremi dell’intervallo di variazione di x% . Nell’esempio della variabile costante in [ a , b ] E ( x% ) = ò b a 1 1 b2 - a2 x × dx = = ( a + b) 2 b-a b-a 2 56 3.2 Definizioni e risultati nell’approccio stocastico Le ipotesi ii) e iii) vengono talora sintetizzate dicendo che il residuo della (3.1.4) è un rumore bianco, dove per rumore bianco si intende appunto una successione temporale di variabili aleatorie incorrelate con valor medio nullo e varianza costante. Si è detto che l’immersione del modello (2.1.6) nell’ambiente stocastico produce come risultato che anche y%t deve essere considerata come una variabile aleatoria. L’equazione (3.1.4) indica chiaramente come l’endogena ~ y t sia rappresentata da un modello scisso in una componente sistematica data dalla combinazione lineare m + b xt ed in una componente aleatoria formata dal residuo u~t . La prima componente è detta sistematica in quanto rappresenta la struttura di yt in funzione dei parametri, considerati invariabili nel tempo in virtù dell’omogeneità (nel senso illustrato nel paragrafo 2.9) del campione, e dell’esplicativa, supposta nota per la prima delle (3.1.5) . La componente sistematica quindi non contiene alcun elemento aleatorio e denota i fatti stilizzati della relazione tra la variabile endogena e le esplicative. Questa considerazione è importante anche perché mette in luce che le ipotesi stocastiche (3.1.5), che per motivi didattici e storici vengono spesso esposte in termini dei residui non osservabili u%t , in effetti possono essere viste come ipotesi sulle variabili osservabili yt , considerate come realizzazioni di una variabile aleatoria y% t . Allora, in virtù della seconda delle (3.1.5) possiamo trovare il valor medio di y%t E ( y% t ) = E ( m + b xt + u%t ) = m + b xt (3.2.1) pari cioè alla sua componente sistematica, e dove abbiamo utilizzato il semplice risultato del calcolo delle probabilità che il valor medio di una costante è pari alla costante stessa. Dunque è u%t = y% t - E ( y%t ) (3.2.2) e la varianza Var ( y% t ) nonché la covarianza Cov ( y% t , y% s ) sono 2 Var ( y%t ) = E éê( y%t - E ( y%t ) ) ùú = E ( u%t2 ) = s 2 ë û (3.2.3) 57 Cov( ~yt , ~y s ) = E [( ~yt - E ( ~yt ))( ~y s - E ( ~ y s ))] = E (u~t u~s ) = 0 "t ¹ s (3.2.4) Queste due ultime relazioni indicano che la struttura di varianza–covarianza ipotizzata per la u%t si applica anche alla y%t , dato che le due variabili aleatorie differiscono soltanto per una costante additiva, la componente sistematica m + b xt , come dimostrato nell’appendice 3.1. L’ipotesi che alcune variabili aleatorie abbiano la stessa varianza è detta di omoschedasticità 15, mentre quella alternativa di varianze diverse è chiamata di eteroschedasticità. La (3.2.3) mostra che quando l’una o l’altra di queste ipotesi vale per i residui vale anche per la variabile endogena. Si è detto che la varianza è un indicatore di dispersione (o di variabilità). Nella figura 3.1, che riporta le retribuzioni lorde complessive trimestrali in Italia dal 1970 al 1996, è evidenziato il caso, eteroschedastico e molto frequente in economia, di una variabilità (l’ampiezza media della oscillazione) che cresce con il tempo. Si ricordi che spesso, come nella serie della figura 3.1, la crescenza della variabilità è associata alla crescenza della tendenza. Retribuzioni lorde Italia 1970-1996 250000 200000 150000 100000 50000 0 1970.1 1974.1 1978.1 1982.1 1986.1 1990.1 1994.1 Figura 3.1 – Le retribuzioni lorde complessive in Italia; dati trimestrali grezzi dal 1970 al 1996 (fonte ISTAT). Si può notare che sia la tendenza che la variabilità sono crescenti nel tempo. Dai termini greci omoios, uguale, e skedasis, dispersione. Una definizione più rigorosa di omoschedasticità richiede l’impiego delle distribuzioni di probabilità condizionate. 15 58 Osservazione 3.1 – E’ interessante notare, tuttavia, che da un punto di vista empirico crescenza della tendenza e crescenza della variabilità, pur presentandosi spesso insieme nella stessa serie storica, sono da trattarsi in modo ben diverso, prescindendo dal fatto che una indica la localizzazione e l’altra la dispersione. Infatti la (3.2.1) mostra che un’eventuale tendenza nella { yt } l’ipotesi può essere spiegata dalla componente sistematica per cui E ( u%t ) può valere; viceversa una approssimativamente costante (eteroschedasticità) nella variabilità { yt } non si riflette in una variabilità analoga nei residui. Stime e stimatori dei minimi quadrati Le stime dei parametri della (3.1.4) sono ancora quelle date dalle (2.6.7) e (2.6.8) se si utilizza il criterio dei minimi quadrati. Infatti la minimizzazione è la stessa e ciò che cambia è semplicemente la natura della serie storica dei residui {u1 u2 K un } , che ora è costituita da variabili aleatorie. Dunque m - yx bˆ = xy mxx - x 2 mˆ = y% - bˆ x (3.2.5) con le posizioni (2.6.5). Ma nell’ambito stocastico è anche possibile ritenere che y%t sia una variabile aleatoria definita dalle (3.1.1) per cui, sostituendo m + b xt + u%t al posto della yt nelle posizioni, si ottiene bˆ = b + 1 1 n å ( xt - x ) × u%t mxx - x 2 n t =1 ( ) n 1 mˆ = m + x × b - bˆ + å u%t n t =1 (3.2.6) (3.2.7) come mostrato nell’appendice 3.1. In effetti nelle (3.2.6) e (3.2.7) m̂ e bˆ sono variabili aleatorie e, seguendo la nostra convenzione, dovrebbero essere indicate con una tilde, sovrapposta al cappello. Per semplicità di notazione, però, omettiamo la tilde, per cui m̂ e bˆ possono indicare, in funzione del contesto, sia le stime (3.2.5) sia le variabili aleatorie (3.2.6) e (3.2.7). In questa veste m̂ e bˆ sono dette stimatori. Si è detto che l’immersione del criterio dei minimi quadrati nell’ambito stocastico è utile, tra l’altro, a valutare le stime ottenute: la versione stocastica (3.2.6) - (3.2.7) delle 59 stime ci permette di verificare immediatamente una prima loro buona proprietà, la non distorsione, definita nel Box 6. Infatti, prendendo i valori medi (dei membri a sinistra e a destra) nelle (3.2.6) e (3.2.7) si ottiene ( ) E ( mˆ ) = m E bˆ = b (3.2.8) per cui gli stimatori m̂ e bˆ sono non distorti. Box 6 La proprietà di non distorsione Uno stimatore J% del parametro J è detto non distorto se E (J% ) = J . La non distorsione è una buona proprietà per uno stimatore se, come spesso avviene, la sua distribuzione di probabilità è concentrata intorno al valor medio. In questo caso le stime, che possono essere considerate come realizzazioni dello stimatore, hanno alta probabilità di trovarsi vicino al valore vero q del parametro. Le (3.2.8) forniscono d’altra parte i loro valori medi; le loro varianze e la covarianza sono di calcolo leggermente più complicato per cui vengono determinate nell’appendice 3.1. Il teorema di Gauss–Markov Gli stimatori OLS per i parametri del modello lineare non soltanto sono non distorti ma godono di un’altra proprietà che spiega la loro diffusa applicazione: essi possiedono variabilità minima nel senso del teorema di Gauss–Markov che enunciamo di seguito e che dimostreremo quando tratteremo i modelli con più di due variabili esplicative. Vale dunque per essi il Teorema 3.1 (di Gauss–Markov) - Tra tutti gli stimatori lineari rispetto alle y%t e non distorti, se m̂ e bˆ sono gli stimatori dei minimi quadrati definiti dalle (3.2.6) e (3.2.7) rispettivamente e m% e b% sono qualsiasi altri stimatori, si ha ( ) ( Var c1mˆ + c2 bˆ £ Var c1m% + c2 b% ) (3.2.9) dove c1 e c2 è una qualsiasi coppia di costanti reali non ambedue nulle. 60 Si osservi che la proprietà di variabilità minima, data dalla (3.2.9), non riguarda direttamente i singoli stimatori m̂ e bˆ ma la loro generica combinazioni lineare poiché la varianza opera su di una sola variabile aleatoria e non su due (o più). Gli stimatori con variabilità minima nel senso del teorema di Gauss–Markov sono detti ottimi; sinteticamente essi sono chiamati BLU, dalle iniziali dei termini inglesi Best (ottimi), Linear (lineari), Unbiased (non distorti). Osservazione 3.2 - La linearità degli stimatori m̂ e bˆ dei minimi quadrati rispetto ad y e quindi rispetto alle yt che costituiscono y come somma ponderata è indicata dalle (2.6.7) e (2.6.8). La loro non distorsione è indicata dalla (3.2.8) e la loro ottimalità dal teorema 3.1. 61 3.3 La correlazione tra le variabili e tra gli stimatori dei parametri Si è detto nel Box 3 che la covarianza tra due variabili aleatorie y% e x% denota la relazione lineare esistente tra di loro; essa tuttavia dipende dalla dimensione delle due variabili e quindi non può essere utilizzata come un indicatore dell’intensità della loro relazione. Se, viceversa, la normalizziamo per escludere la dipendenza dalla dimensione otteniamo un indicatore adimensionale utilizzabile per misurare il loro grado di associazione lineare. La normalizzazione viene effettuata dividendo la covarianza per la radice quadrata del prodotto delle varianze delle due variabili aleatorie Cov ( y% , x% ) r= Var ( y% ) × Var ( x% ) = s yx2 s y2 × s x2 (3.3.1) ottenendosi il coefficiente di correlazione, tale che -1 £ r £ 1 (3.3.2) come dimostrato nell’appendice 3.1. Se r è vicino allo zero non vi è relazione lineare tra le due variabili; se r è vicino all’unità la relazione è molto forte e positiva; se r è vicino a -1 è ugualmente forte ma negativa: se una variabile aumenta l’altra diminuisce e viceversa. Il coefficiente di correlazione può essere stimato a partire da un campione di n osservazioni per y e di altrettante per x facendo uso delle stime campionarie, analoghe a quelle dei momenti primi e secondi presentati nella (2.6.5) · valori medi campionari x= · · 1 n å xt n t =1 y= 1 n å yt n t =1 varianze campionarie sˆ x2 = 1 n 1 n 2 2 x x = ( ) å t å xt - x 2 = mxx - x 2 n t =1 n t =1 sˆ y2 = 1 n 1 n 2 ( yt - y ) = å yt2 - y 2 = m yy - y 2 å n t =1 n t =1 covarianza campionaria sˆ xy2 = 1 n 1 n ( yt - y )( xt - x ) = å yt × xt - y × x = m yx - y × x å n t =1 n t =1 62 Esempio 3.1 – Si lascia al lettore verificare che il coefficiente di correlazione, stimato, tra il consumo e il reddito del paragrafo 2.9 vale rˆ = 0.998 e quello tra il consumo e il reddito disponibile rˆ = 0.915 . Esempio 3.2 – Si lascia al lettore verificare che il coefficiente di correlazione tra la variazione della disoccupazione e la crescita del PIL reale dell’Italia vale rˆ = -0.405 . La correlazione tra gli stimatori dei parametri E’ di fondamentale importanza che gli stimatori m̂ e bˆ non siano correlati tra di loro, altrimenti accade che la stima di un parametro sia influenzata da quella dell’altro, positivamente se rˆ > 0 , negativamente se rˆ < 0 . Nella tavola 3.1 si riportano le stime dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi considerati in precedenza e della funzione del consumo (2.9.1) con il reddito Modello Equazione r̂ ln ct = m + b t + ut (2.4.5) -0.876 ct = exp {m + b t } + ut (2.4.6) -0.522 ct = m + b t + ut (2.4.7) -0.876 zt = m + b yt + ut (2.9.1) -0.992 Tavola 3.1 – Stime dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi e di quello per la funzione del consumo. 63 3.4 Le ipotesi forti sui residui È opportuno, a questo punto, riassumere le ipotesi di vario tipo sinora fatte in relazione al modello lineare semplice: i) ii) iii) il campione è omogeneo e i parametri m e b sono invariabili nel tempo; i valori di xt sono noti, cioè non aleatori; ì0 E (u~t ) = 0 , E (u~t × u~s ) = í 2 îs t¹s "t, s t=s (3.4.1) Con la i) si suppone che la struttura dell’economia rimanga invariata nel periodo campionario e che quindi sia possibile considerare validi per tutti i tempi t = 1, 2,…, n, i modelli da stimare. La ii) è un’ipotesi semplificatrice, che in seguito elimineremo, che limita gli elementi stocastici del modello al residuo ed alla variabile endogena. Infine, le ipotesi deboli iii) sono utilizzate per determinare alcune caratteristiche degli stimatori: la non distorsione e l’efficienza, nonché le matrici di dispersione e di correlazione, di quelli dei minimi quadrati e la distorsione della varianza ŝ 2 campionaria dei residui. Se desideriamo stimare i parametri con il criterio dei minimi quadrati occorre aggiungere la quarta ipotesi (deterministica) iv) m xx - x 2 ¹ 0 (3.4.2) Le ipotesi stocastiche precedenti, tuttavia, non permettono di effettuare un’inferenza statistica completa sul modello lineare; ad esempio, non sono sufficienti per determinare intervalli di confidenza o per fare verifiche di ipotesi. Intervalli di confidenza Ambedue questi concetti sono semplici, sebbene di grande rilevanza. L’intervallo di confidenza riguarda un parametro J ma è conveniente iniziare a definirlo a partire da uno stimatore J% . In seguito mostreremo come da J% si possa passare a J . In effetti, un intervallo di confidenza per J% è un indicatore della probabilità p che una realizzazione di J% , cioè una stima Ĵ , sia vicina a J : più l’intervallo è corto, fissato p , maggiore è la nostra confidenza che esso contenga tale valore vero J . Se indichiamo con J¢ e J¢¢ gli estremi dell’intervallo e con P la probabilità che un evento si verifichi (in questo caso che J% sia compresa tra J¢ e J¢¢ ), formalmente scriviamo 64 ( ) P J ¢ < J% £ J ¢¢ = p (3.4.3) dove p è un numero compreso tra zero ed uno, essendo la probabilità di un evento assoggettata per convenzione a tali limiti. Generalmente p viene moltiplicato per 100 ed espresso in percentuali; allora si dice che l’intervallo è al 100 p % . L’intervallo di confidenza definito dalla (3.4.3) è generalmente indicato con (J ¢, J ¢¢] 16. L’importanza dell’intervallo di confidenza risiede nel fatto che, fissata la probabilità p , esso esprime il nostro grado di fiducia (confidenza) sulla bontà della stima Ĵ , cioè sul fatto che essa sia vicina al valore effettivo J . La probabilità p è generalmente presa (soggettivamente) pari a 0.95; talvolta la si prende pari a 0.90 e talaltra a 0.99; altri valori sono rari. I due estremi sono determinati in modo tale che la distanza J ¢¢ - J ¢ sia la più corta. E’ d’uso, poi, porre p = 1 - a , con a quindi che diventa 0.05, 0.01, 0.10; il valore a è detto rappresentare il livello di significatività dell’intervallo di confidenza. Stima intervallare Si è visto nel paragrafo 3.2 che una stima Jˆ (ad esempio dei minimi quadrati) di un parametro può essere considerata come una realizzazione di uno stimatore J% (ancora ad esempio dei minimi quadrati). Ma al posto della stima possiamo utilizzare un suo intervallo di confidenza (J ¢, J ¢¢] che oltre a localizzare J (all’interno dell’intervallo con probabilità 1 - a ) fornisce un’indicazione (denotata dalla lunghezza J ¢¢ - J ¢ ) della precisione di questa localizzazione. Si ottiene allora la stima intervallare (o per intervalli) (J ¢,J ¢¢] di J mentre Ĵ ne è la sua stima puntuale. Verifiche (o test) di ipotesi Le ipotesi che vengono fatte sui modelli di regressione riguardano generalmente i suoi parametri e il campione a disposizione può essere usato per verificare se esso spinge a rendere vera o falsa tale ipotesi. Ad esempio nel modello lineare semplice (3.1.3) ci può interessare verificare l’ipotesi che l’intercetta m sia uguale a zero oppure che la pendenza b sia pari a uno. Queste ipotesi sono chiamate nulle e indicate con H 0 ; così le due ipotesi sono, rispettivamente, 16 ( ) Con la parentesi tonda si indica che l’intervallo è aperto a sinistra J ¢ < J% mentre con la quadra ( ) che è chiuso a destra J% £ J¢¢ . 65 H0 : m = 0 H0 : b = 1 , e vengono sottoposte a test contro delle ipotesi alternative H1 , ad esempio H1 : m ¹ 0 H1 : b ¹ 1 , nei due casi. Queste due ipotesi alternative sono dette bilaterali in quanto equivalgono a dire m > 0 (primo lato) oppure m < 0 (secondo lato) nel primo caso, e b > 1 oppure b < 1 nel secondo. Se il lato è uno solo, come nel caso della H 0 : m < 0 , l’ipotesi è detta monolaterale. Più in generale, dunque, e prescindendo dai lati, dato un parametro J , l’ipotesi (lineare) nulla che si intende verificare è H0 : J = r (3.4.4) mentre l’ipotesi alternativa è H1 : J ¹ r Le verifiche di ipotesi sono più comunemente chiamate test di ipotesi. La standardizzazione dell’intervallo di confidenza La determinazione dell’intervallo (J ¢, J ¢¢] è resa ostica dal fatto che lo stimatore J% ( ) ( ) ha un valore medio E J% ed una varianza Var J% che variano ogni volta che si ha a che fare con un campione diverso. Per ovviare a questa situazione problematica si usa trasformare J% in modo che abbia un tipo standard di distribuzione di probabilità: si standardizza J% , cioè le si toglie il valor medio e la si divide per la radice quadrata (presa con il segno positivo) della varianza z% = ( ) Var (J% ) J% - E J% La variabile aleatoria standardizzata è chiamata trasformato nell’altro z% e l’intervallo ( z¢, z¢¢] , di immediata determinazione poiché gli (J ¢,J ¢¢] è estremi z ¢ e z ¢¢ non dipendono dal campione. Si ha allora che z ¢ < z% £ z ¢¢ per la quale è P ( z ¢ < z% £ z ¢¢ ) = p dove z¢ e z¢¢ sono presi in modo tale che la distanza z ¢¢ - z ¢ sia le più corta. Dunque è z¢ < ( ) £ z¢¢ J% - E J% s 66 dove si è posto ( ) Var J% = s . Cioè ancora ( ) J% - z ¢ × s > E (J% ) ³ J% - z¢¢ × s J% - z ¢¢ × s £ E (J% ) < J% - z ¢ × s -J% + z ¢ × s < - E J% £ -J% + z ¢¢ ×s (3.4.5) che è una doppia disuguaglianza che necessita di due notazioni. Innanzitutto essa definisce un intervallo di confidenza non più per lo stimatore J% ma per il suo valor ( ) medio E J% , che però è funzione di J ; così l’intervallo di confidenza limita J e non più J% . In secondo luogo l’intervallo è divenuto aleatorio éëJˆ - z ¢¢ × s , Jˆ - z ¢ × s ) ed è quindi difficilmente utilizzabile nella pratica. Si usa allora sfruttare il fatto che si possiede una realizzazione (la stima di Ĵ ) di J% e la si sostituisce, ottenendosi al posto della (3.4.5) la ( ) L’intervallo di confidenza per E (J% ) è allora Jˆ - z ¢¢ × s £ E J% < Jˆ - z ¢ × s ) éJˆ - z ¢¢ × s , Jˆ - z ¢ × s ë (3.4.6) (3.4.7) Nel Box 7 sono riassunti i passi che portano all’intervallo (3.4.7). Box 7 L’intervallo di confidenza Per lo stimatore generico J% di J è (J ¢, J ¢¢] tale che P ( z¢ < z% £ z ¢¢ ) = p Si standardizza J% e si ottiene ( ) æ ö J% - E J% P ç z¢ < £ z ¢¢ ÷ = p ç s ÷ è ø ( ) da cui si trae l’intervallo di confidenza per E J% , che è aleatorio ( ) J% - z ¢¢ × s £ E J% < J% - z ¢ × s 67 ( ) Interessa di più un intervallo per E J% ( ) che per J% poiché E J% contiene J . Si sostituisce, con una forzatura che è utilizzata nella pratica, lo stimatore J% con la stima Ĵ che è una sua realizzazione ( ) Jˆ - z ¢¢ × s £ E J% < Jˆ - z ¢ × s ( ) ) L’intervallo di confidenza per E J% è dunque éJˆ - z ¢¢ × s , Jˆ - z ¢ × s . ë Residui normali Al fine di effettuare inferenze statistiche sul modello lineare, dunque, non sono sufficienti le ipotesi (3.4.1) ma occorre aggiungere l’ipotesi forte che i residui siano distribuiti normalmente con media nulla e varianza costante u~t ~ N (0, s 2 ) "t (3.4.8) cioè che la loro funzione di densità di probabilità sia del tipo normale (o di Gauss o gaussiana) { f (u t ) = ( 2ps 2 ) -1 / 2 exp - u t2 / 2s 2 } (3.4.9) Questa funzione di densità di probabilità può a prima vista sembrare un po’ complicata dal punto di vista matematico, ma in realtà gode di molte proprietà che la rendono facilmente trattabile. E’ funzione di due parametri soltanto: il valor medio della variabile aleatoria u%t che abbiamo supposto pari a zero [ipotesi iii) nella (3.4.1)], e la sua varianza che abbiamo supposto uguale a s 2 [ancora ipotesi iii)]. Si noti che se il valor medio di u%t fosse diverso da zero, E ( u%t ) = k ¹ 0 , la (3.4.9) assumerebbe la forma più generale (A.3.2.1.). Se k = 0 , come nella (3.4.9), e s 2 = 1 , la variabile aleatoria che ne deriva, u%t / s = z% , è detta standardizzata e la figura 3.2 riporta il grafico della sua funzione di densità di probabilità quando questa è normale. La motivazione fondamentale per imporre l’ipotesi forte (3.4.8) è costituita dal fatto che da un lato è necessario per effettuare l’inferenza statistica sui parametri dei modelli lineari (3.1.3) e dall’altro lato non è molto restrittiva in quanto la gran parte dei loro residui si distribuisce appunto normalmente e questo è un derivato di un teorema del calcolo della probabilità che per la sua importanza è detto centrale: 68 Teorema 3.2 – Dato un numero n di variabili aleatorie indipendenti e identicamente distribuite, la distribuzione (di probabilità) della loro somma tende ad essere normale al tendere di n verso infinito. Figura 3.2 – Grafico della funzione di densità di probabilità normale standardizzata, N ( 0,1) . E allora, poiché il residuo u%t può essere assimilato ad una somma molto grande di forze della dinamica economica (variabili aleatorie che supponiamo abbiano la stessa distribuzione) che hanno effetto sull’endogena yt al di fuori dell’esplicativa xt , ecco che il teorema centrale può essere applicato17 e da questo deriva la (approssimata) normalità di u%t . Indipendenza in probabilità Nell’enunciato del teorema centrale si è fatta l’ipotesi che le n variabili aleatorie siano indipendenti (in probabilità). In maniera approssimativa ma chiarificatrice questo vuol dire che non c’è alcun tipo di relazione probabilistica tra di esse; più precisamente si dice che esse sono indipendenti (in probabilità) se la loro distribuzione di probabilità congiunta è uguale al prodotto delle loro distribuzioni semplici, e da questo deriva che la funzione di densità di probabilità congiunta f ( u1 , u2 , K , u n ) è uguale al prodotto delle funzioni di densità semplici 17 Ovviamente in modo approssimato. 69 f ( u1 , u2 ,K , un ) = f ( u1 ) × f ( u2 ) ×K × f ( un ) (3.4.10) Si dimostra in teoria delle probabilità che se due variabili aleatorie sono indipendenti esse sono anche incorrelate, ma non vale il viceversa a meno che esse abbiano distribuzione normale. Poiché le ipotesi forti (3.4.8) assumono la normalità dei residui e poiché questi sono incorrelati [ipotesi deboli iii) nella (3.4.1)], deriva dalla succitata dimostrazione che le ipotesi forti (3.4.8) assumono implicitamente che i residui siano indipendenti (in probabilità). 70 3.5 Inferenza statistica per i parametri del modello lineare semplice Applichiamo le nozioni del paragrafo precedente, da analizzare con diligenza perché sia gli intervalli di confidenza che i diversi test di ipotesi sono costruiti tutti in modo analogo, al caso del modello lineare (3.1.4) supponendo dapprima, per semplicità didattica, che s 2 sia noto. Per determinare gli estremi di un intervallo di confidenza per il parametro m oppure il b del modello (3.1.4) occorre determinare innanzitutto la distribuzione di probabilità degli stimatori m̂ e bˆ . I loro valori medi sono dati dalla (3.2.8) e le varianze dalle (A.3.1.3) e (A.3.1.4), che scriviamo per brevità ( ) Var ( mˆ ) = s 2 × am2 1 , n ( mxx - x 2 ) am2 = Var bˆ = s 2 × ab2 , (3.5.1) dove ab2 = 1 x2 + n n ( mxx - x 2 ) (3.5.2) Sostituendo questi valori nella (3.4.6) si ottiene mˆ - z ¢¢ × s × am £ m < mˆ - z ¢ × s × am (3.5.3) bˆ - z ¢¢ × s × ab £ b < bˆ - z ¢ × s × ab (3.5.4) per l’intercetta m e per il parametro b . Si noti che in virtù della non distorsione degli stimatori le (3.5.3) e (3.5.4) identificano intervalli di confidenza per m e b . Gli estremi z ¢ e z ¢¢ sono facilmente ricavabili dalla tavola statistica dei quantili della distribuzione normale standardizzata in quanto la distribuzione sia di m̂ che di bˆ è normale. Infatti questi stimatori sono combinazioni lineari di variabili aleatorie normali (distribuite normalmente), e nella teoria delle probabilità si dimostra che quando questo accade le variabili aleatorie che ne sono combinazioni lineari sono anch’esse normali. Allora mˆ : N ( m , s 2 am2 ) , bˆ : N ( b , s 2 ab2 ) (3.5.5) 71 per cui le due variabili aleatorie trasformate mˆ - m s × am bˆ - b s × ab e (3.5.6) hanno la stessa distribuzione N ( 0, 1) . I due estremi z ¢ e z ¢¢ dell’intervallo di confidenza per la variabile aleatoria standardizzata z% valgono - 0.658 e 0.658 se a = 0.05 -0.678 e 0.678 se a = 0.01 -0.632 e 0.632 se a = 0.10 Le operazioni che conducono agli intervalli di confidenza (3.5.5) e (3.5.6) sono riassunte nel Box 8. Box 8 Intervalli di confidenza per m e b 1) Si sceglie il livello di significatività a = 1 - p desiderato. 2) Si traggono dalle tavole della variabile aleatoria normale standardizzata gli estremi z ¢ e z ¢¢ . 3) Si standardizzano le variabili aleatorie m̂ e bˆ , cioè le si trasformano nella normale standardizzata mˆ - m s × am , bˆ - b s × ab dove am e a b sono definite nelle (A.3.1.3) e (A.3.1.4). 4) Si costruiscono gli intervalli di confidenza mˆ - s × am × z ¢¢ £ m < mˆ - s × am × z ¢ bˆ - s × ab × z ¢¢ £ b < bˆ - s × ab × z ¢ Esempio 3.3 – Costruiamo gli intervalli di confidenza (la stima intervallare) per i parametri m e b della funzione del consumo (2.9.1) nell’ipotesi di conoscere s 2 = 40000000 Allora tramite le (A. 3.1.4) e (A. 3.1.3) calcoliamo am = 1.639 , ab = 0.00000019 (3.5.7) 72 per cui gli intervalli (3.5.5) e (3.5.6) al 95% sono - 60505 £ m < -46863 0.649 £ b < 0.665 e quelli al 99% sono - 60712 £ m < -46656 0.649 £ b < 0.665 Verifica di ipotesi Nella figura 3.3 è riportato nuovamente il grafico della funzione di densità normale standardizzata, ma questa volta con l’indicazione dell’intervallo di confidenza preso al 95%. Si noti che la probabilità residua pari al 5% è divisa a metà nelle due code. P( z% £ -1.96 )=0.025 P( z% £ +1.96 )=0.025 Figura 3.3 – Grafico della funzione di densità di probabilità normale standardizzata , N ( 0,1) , con gli estremi dell’intervallo di confidenza al 95%. Questo intervallo di confidenza (e gli altri presi con probabilità diverse) può essere utilizzato per costruire un test di ipotesi; anzi l’uso più frequente degli intervalli di confidenza è proprio quello della verifica delle ipotesi. Riprendiamo l’esempio fatto nel paragrafo precedente per mostrare questo uso, che in parte abbiamo anticipato nel paragrafo 3.4. 73 Supponiamo dunque di voler verificare l’ipotesi nulla H 0 : m = 0 contro l’alternativa H1 : m ¹ 0 . Se è valida l’ipotesi nulla (si dice: sotto H 0 ) la prima delle (3.5.6) (che è una variabile aleatoria) diventa z% = mˆ s × am (3.5.8) che ha probabilità pari al 95% di cadere nell’intervallo [ z ¢, z ¢¢ ) ; e allora si è spinti ad accettare l’ipotesi nulla H 0 se il valore z = mˆ s × am che si determina con il campione di dati (ed è quindi una realizzazione di z% ) cade nell’intervallo, mentre si è spinti a rifiutarla (e quindi ad accettare l’alternativa H1 ) se il valore z che si ottiene cade fuori dell’intervallo, cioè nelle code. Questo è il test della z , chiamato così per via delle variabili standardizzate (3.5.6), indicate appunto con una z% . Per ovvi motivi, allora, l’intervallo di confidenza è anche detto regione di accettazione del test, mentre le due code formano la sua regione di rifiuto. I due estremi z ¢ e z ¢¢ prendono il nome di valori critici del test. Il fatto più importante da tenere presente quando si effettua un test di ipotesi è che esso opera in un ambiente stocastico e che la realizzazione z associata all’ipotesi nulla cade nell’intervallo di accettazione [ z ¢, z ¢¢ ) con una certa probabilità (ad esempio il 95%) ma non con la certezza. E’ per questo motivo che si è detto “si è spinti ad accettare H 0 ” e non “si accetta H 0 con certezza”. In effetti c’è la possibilità che z cada nella regione di rifiuto (cioè in una delle code) e quindi che si sia spinti a rifiutare H 0 nonostante che essa sia vera; in questo caso si commette un errore, che è detto di I specie, e la probabilità di commettere questo errore è evidentemente a . Ma già che ci siamo definiamo anche l’errore di II specie, che è quello di accettare H 0 nonostante che sia falsa. L’ipotesi H 0 : m = 0 è stata sottoposta a verifica inserendola nella prima delle (3.5.6) e controllando quindi che la z che così si ottiene cada nella regione di accettazione o in quella di rifiuto. Un test del tutto simile può essere fatto quando l’ipotesi H 0 riguarda l’uguaglianza di m ad una costante qualsiasi m H0 : m = m (3.5.9) 74 Di nuovo, si inserisce la (3.5.9) nella prima delle (3.5.6) e si controlla che z = ( mˆ - m ) s × am cada nell’una o nell’altra regione. Analogamente, se si vuole verificare l’ipotesi nulla H0 : b = b (3.5.10) Le operazioni che conducono a queste verifiche di ipotesi sono riassunte nel Box 9. Esempio 3.4 – Consideriamo la funzione del consumo (2.9.1) nell’ipotesi di conoscere s = 6325 e verifichiamo le due ipotesi nulle H0 : m = 0 H0 : b = 1 I valori am e ab sono dati dalle (3.5.7) per cui la standardizzazione è semplice e nei due casi conduce a ( z = ( mˆ - 0 ) s × am = 51.937 ) z = bˆ - 1 s × ab = 5.178 La regione di accettazione al 95% è [ -1.96, + 1.96 ) e sia la prima z che la seconda ne sono fuori. Si è quindi spinti a rifiutare ambedue le ipotesi nulle. Box 9 Test di ipotesi 1) Si debba verificare l’ipotesi nulla H 0 : J = r supponendo che Ĵ sia uno stimatore non distorto (di J ) con distribuzione normale di valor medio J e di varianza (nota) s J2 . 2) Si standardizza Ĵ con la trasformazione ( ) z% = Jˆ - J s J (3.5.11) 3) Si pone J = r e si sostituisce la stima Ĵ al posto del suo stimatore nella (3.5.11) ottenendosi la realizzazione ( ) z = Jˆ - r s J 4) Si sceglie il livello di significatività a (che ora è del test). 5) Si traggono dalle tavole della variabile aleatoria normale standardizzata i valori critici z¢ e z¢¢ , e si costruisce la regione di accettazione [ z ¢, z ¢¢ ) . 6) Se z Î [ z ¢, z ¢¢ ) si è spinti ad accettare H 0 , altrimenti si è indotti a rifiutarla. 75 3.6 Inferenza statistica per la varianza dei residui L’inferenza descritta nel paragrafo precedente è molto valida dal punto di vista didattico, ma non da quello empirico per il semplice motivo che la varianza s 2 dei residui non è generalmente nota. Deve essere quindi sostituita con una stima, che può essere quella campionaria sˆ 2 = 1 n 2 å uˆt n t =1 (3.6.1) che ha però il demerito di essere distorta. Dimostreremo in seguito che nel caso del modello semplice (2.9.1) con due parametri di regressione basta inserire n - 2 al posto di n nella (3.6.1) per ottenere una stima non distorta s2 = 1 n 2 å uˆt n - 2 t =1 (3.6.2) Ovviamente, meno i valori dell’endogena yt sono dispersi intorno alla retta di regressione e più piccola è s 2 (o anche sˆ 2 ) e migliore è l’adattamento della retta alle yt ; allora la sua radice quadrata s (o sˆ ) presa positivamente, chiamata errore standard (SE) (dei residui) della regressione, può essere utilizzata come un indicatore della bontà di adattamento del modello ai dati, alla stessa stregua del coefficiente di determinazione R 2 . Più piccolo è l’errore standard e meglio la regressione si adatta ai dati per cui, considerando le stime (3.6.1) oppure (3.6.2), dal punto di vista statistico è conveniente che n sia il più grande possibile. Il numero ( n - 2 ) indica i gradi di libertà (g.d.l.) con cui si stima s 2 e denota il fatto che, poiché la stima (3.6.2) dipende dai residui stimati û e questi a loro volta dipendono dalle due stime m̂ e bˆ , nel processo che dagli n dati di partenza conduce alla (3.6.2) sono imposte due restrizioni che limitano ad ( n - 2) il numero di dati osservati che possono essere utilizzati nella stima di s 2 . Stima intervallare per s 2 Dimostreremo in seguito che lo stimatore uˆt ha la stessa distribuzione di u%t , cioè che è uˆt : N ( 0, s 2 ) "t e che le uˆt sono indipendenti se lo sono u%t . Allora le variabili aleatorie uˆt s sono variabili aleatorie normali standardizzate indipendenti e per la (A.3.2.4) la somma dei 76 loro quadrati si distribuisce come un c% 2 . Dimostreremo che il numero dei g.d.l. è ( n - 2 ) 18, pertanto 1 s2 n å uˆ t =1 : c% n2- 2 2 t (3.6.3) da cui l’intervallo di confidenza al livello (di significatività) a per la varianza dei residui è dato, traendolo direttamente dalla (3.4.3), da æ 1 P ç c n2-2¢ < 2 s è n å uˆ t =1 2 t ö £ c n2- 2¢¢ ÷ = 1 - a ø (3.6.4) dove c n2- 2¢ e c n2- 2¢¢ sono i quantili di probabilità a 2 e 1 - a 2 della distribuzione del chi quadrato con n - 2 gradi di libertà. Dalla (3.6.4) si ottiene l’intervallo di confidenza 1 c å uˆ ¢¢ 2 n- 2 £s2 < 2 t 1 c ¢ 2 n-2 å uˆ 2 t (3.6.5) che costituisce anche la stima intervallare per s 2 . Nella figura 3.4 sono riportati i grafici delle funzioni di densità di probabilità del c 2 per i tre numeri di g.d.l. n - 2 = 10, 20, 30 . Per a = 0.05 e per i tre numeri di g.d.l. n - 2 = 10, 20, 30 , i quantili c n2-2¢ valgono 3.51, 9.95 e 17.21, e gli altri c n2- 2¢¢ 21.72, 35.22 e 47.96 rispettivamente, evidenziando numericamente il fatto che i quantili a sinistra e a destra nell’intervallo di confidenza differiscono in valore assoluto (perché, ovviamente, la distribuzione del c 2 è non simmetrica). Verifica di ipotesi lineari semplici per s 2 L’ipotesi nulla (3.6.6) H0 : s 2 = r con r costante positiva, può essere verificata contro l’alternativa H1 : s 2 ¹ r utilizzando l’intervallo di confidenza (3.6.5): se questo contiene r si è spinti ad accettare H 0 , altrimenti si è indotti a rifiutarla e ad accettare l’alternativa. Si osservi che lo stesso test può essere condotto inserendo s 2 = r nella (3.6.3) 18 Si dice che la distribuzione del c ha n - 2 gradi di libertà. 2 77 n c 2 = å uˆt2 r t =1 (3.6.7) e verificando che il valore ottenuto c 2 sia compreso nella regione di accettazione per H 0 ( formato dall’intervallo c n2-2¢ , c n2-2¢¢ ù oppure in quello di rifiuto composto dalle due parti û 0 < c 2 £ c n2- 2¢ e c 2 > c n2- 2¢¢ (3.6.8) dove i due quantili c n2- 2¢ e c n2- 2¢¢ sono di probabilità a 2 e 1 - a 2 , rispettivamente. Questo è il test del c 2 per la varianza dei residui. Si noti che nella (3.6.7) le uˆt sono considerate come stime mentre nella (3.6.3) come stimatori. Figura 3.4 – Funzione di densità di probabilità del c 2 per i tre n-2=10, 20, 30. numeri di g.d.l. Nelle applicazioni, in virtù del fatto che la variabile aleatoria c% 2 assume soltanto valori non negativi, generalmente si preferisce prendere c n2- 2¢ = 0 per cui la regione di ( 2 ¢¢ ù accettazione diventa 0, c ne quella di rifiuto è composta dal solo intervallo per cui 2 û 2 ¢¢ c 2 > c n2 . Il test diventa quindi monolaterale. Esempio 3.5 – Riprendiamo la funzione del consumo (2.9.1) e verifichiamo l’ipotesi nulla H 0 : s 2 = 39614436 (3.6.9) 78 I g.d.l. sono n - 2 = 21 ed il test monolaterale fornisce i seguenti intervalli di accettazione ( 0, 38.93] , ( 0, 32.67] e ( 0, 29.62 ] per a = 0.01, 0.05 e 0.10 rispettivamente. Il valore c 2 dato dalla (3.6.7) vale c 2 = 21.001 che è contenuto in tutti e tre gli intervalli di accettazione per cui si è spinti ad asserire che l’ipotesi nulla (3.6.9) è accettata a tutti e tre i livelli di significatività. 79 3.7 Inferenza statistica per i parametri del modello lineare semplice con s 2 ignoto Dunque dobbiamo costruire gli intervalli di confidenza (3.5.3) per m e (3.5.4) per b nonché i test di verifica dell’ipotesi (3.5.9) e (3.5.10) nel caso in cui s 2 non sia noto e sia sostituito da una stima che possiamo prendere non distorta, la (3.6.2). Cominciamo con gli intervalli di confidenza, che si basano sulle standardizzazioni (3.5.6) che ora possiamo scrivere nelle due forme mˆ - m = s × am mˆ - m s × am (3.7.1) n å uˆt2 s 2 × ( n - 2 ) t =1 bˆ - b = s × ab bˆ - b s × ab (3.7.2) n å uˆt2 s 2 × ( n - 2 ) t =1 dalle quali si vede che sia m che b standardizzati mediante la stima (3.6.2) corrispondono al rapporto tra una variabile aleatoria normale standardizzata e la radice quadrata di un'altra variabile aleatoria che per la (3.6.3) ha la distribuzione del c 2 , divisa per il numero dei g.d.l. Ma nel calcolo delle probabilità si dimostra che tale rapporto è una variabile aleatoria chiamata t di Student centrale19 , funzione del numero dei g.d.l., se numeratore e denominatore sono variabili aleatorie indipendenti. Ma questa indipendenza è dimostrata nell’appendice 3.1 per cui le due variabili aleatorie (3.7.1) e (3.7.2) si distribuiscono come una t%n -2 mˆ - m % ~ tn -2 s × am bˆ - b % ~ tn -2 s × ab (3.7.3) e gli intervalli di confidenza (3.5.3) e (3.5.4) diventano mˆ - s × am × tn¢¢-2 £ m < mˆ - s × am × tn¢ - 2 (3.7.4) bˆ - s × ab × tn¢¢- 2 £ b < bˆ - s × ab × tn¢- 2 (3.7.5) Stabilita nel 1908 da uno statistico della birreria Guinness di Dublino, W. S. Gosset, che pubblicò i suoi ritrovamenti sotto lo pseudonimo Student. Di qui il nome della distribuzione. 19 80 dove i due quantili tn - 2¢ e tn - 2¢¢ sono di probabilità a 2 e 1 - a 2 , rispettivamente. Errori standard delle stime I due denominatori s × am e s × ab nelle (3.7.3) sono detti errori standard20 di m̂ e bˆ , rispettivamente. Le operazioni che conducono agli intervalli di confidenza (o stime intervallari) (3.7.4) e (3.7.5) sono riassunte nel Box 10. Box 10 Intervalli di confidenza per m e b con s 2 ignoto 1) Si sceglie il livello di significatività a = 1 - p desiderato. 2) Si traggono dalle tavole della t di Student centrale con n - 2 g.d.l. i valori critici tn¢ -2 e tn¢ -2 . 3) Si stima la varianza con la s 2 = n å uˆ ( n - 2 ) t =1 2 t 4) Si calcolano gli errori standard s × am e s × ab dove am e a b sono definiti nelle (A.3.1.3) e (A.3.1.4). 5) Si trasformano le variabili aleatorie m̂ e bˆ nella t di Student mˆ - m s × am , bˆ - b s × ab 6) Si costituiscono gli intervalli di confidenza mˆ - s × am × tn¢¢-2 £ m < mˆ - s × am × tn¢ - 2 bˆ - s × ab × tn¢¢- 2 £ b < bˆ - s × ab × tn¢- 2 20 In inglese Standard Error, da cui l’acronimo SE. 81 Verifica di ipotesi Per verificare l’ipotesi nulla H 0 : m = m , oppure l’altra H 0 : b = b , basta inserire queste ipotesi nelle (3.7.3) e controllare che siano compresi nell’intervallo [tn¢ -2 , tn¢¢-2 ) , ( mˆ - m ) s × am oppure che ( bˆ - m ) s × a b dove tn¢ -2 e tn¢ -2 sono dati dalle tavole dei quantili della distribuzione della t% di Student con n - 2 g.d.l.; generalmente tali tavole sono costruite per i livelli di significatività a pari al 10%, 5% e 1%. Se sono compresi si è spinti ad accettare le ipotesi nulle; altrimenti si è indotti a rifiutarle e ad accettare le alternative H1 : m ¹ m e H1 : b ¹ b La distribuzione della t di Student è più schiacciata della normale, alla quale si avvicina progressivamente all’aumentare dei gradi di libertà. Dato allora che le “code” della distribuzione della t% sono più alte, i quantili, a parità di area, sono tanto più esterni rispetto a quelli della normale quanto minore è il numero di gradi di libertà. Ad esempio, per a = 0.05 i due quantili tn¢ -2 e tn¢¢- 2 valgono ±2.571, ±2.086 e ±1.980 per i tre numeri dei gradi di libertà n-2 = 5, 20, 120, rispettivamente, mentre i relativi quantili di una normale standardizzata valgono ±1.960 (quindi ai fini pratici una t120 è praticamente equivalente a una normale standardizzata). Questo significa che gli intervalli di confidenza e le regioni di accettazione definiti usando la distribuzione della t sono maggiori di quelli costruiti usando la normale. Questo risultato ha un fondamento intuitivo, dato che quando il parametro s2 è ignoto l’incertezza relativa al modello è maggiore, e quindi i margini di incertezza nelle stime (gli intervalli di confidenza) sono più ampi. Per ovvi motivi questa verifica di ipotesi è anche detta test della t di Student. Le operazioni che conducono alle verifiche di ipotesi appena esposte sono riassunte nel Box 11. 82 Box 11 Test di ipotesi con s 2 ignoto 1) Si debba verificare l’ipotesi nulla H 0 : J = r supponendo che Ĵ sia uno stimatore non distorto (di J ) con distribuzione normale di valore medio J e di varianza (non nota) s J2 . 2) Si calcola la varianza campionaria dei residui e l’errore standard SE della stima Ĵ . 3) Si trasforma lo stimatore Ĵ con la trasformazione ( t% = Jˆ - J ) SE (3.7.4) 4) Si pone J = r e si sostituisce la stima Ĵ al posto del suo stimatore nella (3.7.4) ottenendosi la realizzazione ( t = Jˆ - r ) SE 5) Si sceglie il livello di significatività a (che ora è del test!) 6) Si traggono dalle tavole della variabile aleatoria t di Student con n - 2 g.d.l. gli estremi tn¢ - 2 e tn¢¢-2 e si costituisce la regione di accettazione del test [ tn¢ -2 , tn¢¢- 2 ) . 7) Se t Î [tn¢ -2 , tn¢¢- 2 ) si è spinti ad accettare H 0 , altrimenti si è indotti a rifiutarla. 83 3.8 Tre esempi Ogni volta che si stima un’equazione è praticamente obbligatorio verificare l’ipotesi nulla che ciascun parametro sia uguale a zero, in quanto estremamente significativa nell’analisi economica: se si è spinti ad accettare l’ipotesi nulla si è indotti ad eliminare (l’effetto di) una variabile esplicativa! Nel caso del modello lineare semplice che H0 : m = 0 , H0 : b = 0 (3.8.1) Inserendo queste ipotesi nelle (3.7.3) si ottengono, supponendo che i dati siano n , tn -2 = mˆ SE m e tn- 2 = bˆ SE b , dove SEm e SEb sono gli errori standard delle due stime. Se tn -2 è compreso nell’intervallo t Î [tn¢ - 2 , tn¢¢- 2 ) si è spinti ad accettare l’ipotesi nulla (il parametro vale zero e quindi l’intercetta oppure la variabile esplicativa x viene eliminata), altrimenti a rifiutarla. Tutti i programmi di calcolo econometrico forniscono il valore tn -2 oltre alla stima del parametro, oppure il relativo SE; in questo secondo caso il valore tn -2 è immediatamente determinato dividendo la stima per il suo SE. Naturalmente è lasciato al ricercatore il compito di effettuare il test di nullità dei parametri, sulla base del valore tn -2 oppure dell’errore standard. Di seguito vengono esposti tre esempi illustrativi del modo di presentare i risultati delle stime di equazioni già esposte in precedenza, comprensivi dei valori tn -2 e degli SE. Retta interpolante il logaritmo dei consumi Il modello è il (2.3.5), che ora estendiamo con i risultati inferenziali esposti sinora ln cˆt = 13.248 + 0.129t ( 0.066 ) ( 0.052 ) ( 201.610 ) ( 24.741) SE: t: (3.8.2) campione 1960–1980 ; SE dei residui = 0.145 ; R 2 = 0.970 RSS = 0.401 ; TSS = 13.310 Tra parentesi tonde, nella prima riga sono riportati gli errori standard delle stime e nella seconda i valori tn -2 in modo da rendere fattibile l’inferenza sui parametri del 84 modello. In generale sono riportati soltanto i primi o i secondi, con l’avviso di cosa contengono le parentesi tonde. Dall’ampiezza del campione si trae poi il valore di n . Per la (3.8.2) n - 2 = 19 e le tavole statistiche danno le seguenti regioni di accettazione [ -2.861, 2.861) se a = 0.01 [ -2.093, 2.093) se a = 0.05 [ -1.729, 1.729 ) se a = 0.10 per la t. Così, sia quella relativa all’intercetta (t = 201.610 ) sia quella relativa a b (t = 24.741 ) cadono fuori da tutte e tre regioni e quindi si è indotti a ritenere che i due parametri siano ambedue nonnulli a tutti e tre i livelli di significatività. Funzione del consumo Per il modello (2.9.1) la stima OLS fornisce i risultati seguenti zˆt = -53684 + 0.657 yt SE : (10366) (0.012) t: (-5.179) (55.009) campione 1980–2002, SE dei residui =6294 ; (3.8.3) R 2 = 0.993 RSS =831954500 ; TSS =120710590000 Si lascia al lettore il compito di effettuare il test della t di Student sui parametri. Relazione tra tasso di cambio nominale e prezzi relativi Per il modello (2.10.6) la stima OLS fornisce i risultati wˆ t = 1.156 - 0.325 xt SE : t: (0.056) (0.034) (20.543) (-9.444) campione 1970–2002; R2 = 0.742 SE dei residui =0.128 ; RSS =0.511 ; (3.8.4) TSS =1.982 Anche in questo caso l’inferenza statistica è lasciata al lettore. 85 Appendice 3.1 Complementi analitici La varianza di una somma di variabili aleatorie Dimostriamo la (3.1.3) Var ( x% + y% ) = E éë x% + y% - E ( x% ) - E ( y% ) ùû = 2 { } = E éë x% - E ( x% ) ùû + éë y% - E ( y% ) ùû 2 = { } = E éë x% - E ( x% ) ùû + E éë y% - E ( y% ) ùû + 2 E éë x% - E ( x% ) ùû éë y% - E ( y% ) ùû = = Var ( x% ) + Var ( y% ) + 2 × Cov ( x%, y% ) 2 2 Analogamente si dimostra che Var ( x% - y% ) = Var ( x% ) + Var ( y% ) - 2 × Cov ( x% , y% ) La struttura di varianza – covarianza invariante rispetto ad una costante additiva Sia y%t = a + x%t , cioè y%t e x%t differiscano per una costante additiva a . Allora E ( y% t ) = a + E ( x%t ) e { } Cov ( y%t , y% s ) = E éë y%t - E ( y%t ) ùû éë y% s - E ( y% s ) ùû = { = E {éë x% - E ( x% ) ùû éë x% } = E éë a + x%t - a - E ( x%t ) ùû éë a + x%s - a - E ( x%s ) ùû = t t s } - E ( x%s ) ùû = Cov ( x%t , x%s ) da cui l’invarianza per la covarianza. Se t = s si ha Var ( y% t ) = Var ( x%t ) , cioè l’invarianza per la varianza. Gli stimatori dei minimi quadrati Dimostriamo le (3.2.6) e (3.2.7) bˆ = 1 1 1 n m yx = ( ) å ( xt - x )yt = xy mxx - x 2 mxx - x 2 n t =1 = 1 1 n å ( xt - x )( m + b xt + u%t ) = mxx - x 2 n t =1 = 1 1 n 1 1 n x x m + b x + ( )( ) å t å ( xt - x ) u%t = t mxx - x 2 n t =1 mxx - x 2 n t =1 =b+ (A.3.1.1) 1 1 n å ( xt - x ) u%t 2 mxx - x n t =1 86 1 n mˆ = y - bˆ x = å ( m + b xt + u%t ) - bˆ x = n t =1 ( ) 1 n 1 n = m + b x - bˆ x + å u%t = m + x b - bˆ + å u%t n t =1 n t =1 (A.3.1.2) Le varianze degli stimatori dei minimi quadrati Calcoliamo la varianza di bˆ partendo dalla (3.2.6) 2 é 1 ù 1 n Var ( bˆ ) = E[( bˆ - b )2 ] = E ê ( xt - x ) u%t ú = å 2 ë mxx - x n t =1 û (A.3.1.3) n = s 2 å ( xt - x )2 t =1 n 2 (mxx - x 2 ) 2 s2 1 = s 2 × ab2 n mxx - x 2 = avendo utilizzato la relazione n å (x t =1 t - x ) 2 = n(m xx - x 2 ) e la varianza di m̂ partendo dalla (3.2.7) 2 ìï é 1 n ù üï ˆ Var ( mˆ ) = E[( mˆ - m ) ] = E í ê x ( b - b ) + å u%t ú ý = n t =1 û þï îï ë 2 n 1 n 2 ì ü = E í x 2 (b - bˆ )2 + 2 (å u%t ) 2 + x ( b - bˆ )å u%t ý = n t =1 n t =1 î þ n n 1 2x é ù = x 2 E[( b - bˆ )2 ] + 2 E[(å u%t )2 ] + E ê (b - bˆ ) × (å u%t ) ú = n n ë t =1 t =1 û = (A.3.1.4) s2 x2 s2 s2 é x2 ù + = 1 + = s 2 × am ê 2 2 ú n mxx - x n n ë mxx - x û dove nell’ultimo passaggio si è utilizzato il fatto che n ìï é 1 ù n üï 1 n % % E[( b - bˆ ) × å u%t ] = E í ê ( x x ) u å t t ú å ut ý = 2 t =1 û t =1 þï îï ë mxx - x n t =1 = 1 1 ìï éæ n ~ ö n ~ ù æ n ~ öüï 1 1ì 2 n 2 ü í E êç å xt u t ÷ å u t ú - x E ç å u t ÷ý = ís å xt - ns x ý 2 2 m xx - x n ïî ëè t =1 ø t =1 û è t =1 øïþ m xx - x n î t =1 þ dove a sua volta nell’ultimo passaggio è stata impiegata la non correlazione delle u~t per indici diversi. La covarianza tra gli stimatori dei minimi quadrati Calcoliamo la covarianza tra m̂ e bˆ 87 ìé 1 n ü ù Cov mˆ , bˆ = E é( mˆ - m ) bˆ - b ù = E í ê å u%t - x bˆ - b ú bˆ - b ý = ë û û î ë n t =1 þ ( ) ( ) ( éæ 1 n ö ù = E êç å u%t ÷ bˆ - b ú - x E bˆ - b ëè n t =1 ø û ( ) ( ) )( ) (A.3.1.5) s2 = -x n ( mxx - x 2 ) 2 dove nel secondo passaggio è stata utilizzata la (A.3.1.2) e nel quarto la (A.3.1.3) nonché il fatto che è éæ 1 n ö ù E êç å u%t ÷ bˆ - b ú = 0 ëè n t =1 ø û ( ) Campo di variazione del coefficiente di correlazione Dimostriamo la doppia disuguaglianza nella (3.3.2). Siano m y = E ( y% ) , mt = E ( x% ) , s y2 = Var ( y% ) , s x2 = Var ( x% ) , s yx2 = Cov ( y% , x% ) Consideriamo poi la variabile aleatoria é y% - m y x% - m x ù + êt ú s x ûú ëê s y 2 con t costante reale, e prendiamone il valor medio 2 é ( y% - m )2 é y% - m y x% - m x ù y% - m y ) ( x% - m x ) ( x% - m x ) 2 ù ( y 2 ê ú= E êt + + 2t + ú =E t 2 2 ê ú s s s s s s y x y y x x ëê ûú ë û = t2 + 2t Cov ( y% , x% ) Var ( y% ) ×Var ( x% ) + 1 = t2 + 2 r t +1 che è sempre nonnegativa in virtù del quadrato. Allora deve essere sempre r 2 - 1 £ 0 , da cui la (3.3.2). Indipendenza stocastica del numeratore e del denominatore nella t di Student Utilizzando le (2.6.10) ottenute dalle equazioni normali si ha che å yˆ uˆ = å ( mˆ + bˆ x ) uˆ n t =1 n t t t =1 t t n n t =1 t =1 = mˆ å uˆt + bˆ å xt uˆt = 0 per cui le stime dei residui sono incorrelate con quelle della parte sistematica e, in particolare, con quelle di m e di b . Dato poi che gli stimatori sia dei residui che dei coefficienti sono distribuiti normalmente, la loro non correlazione implica la loro indipendenza stocastica. 88 Appendice 3.2 Distribuzioni di probabilità rilevanti Distribuzione normale La distribuzione di probabilità (di una variabile aleatoria x% ) più importante è quella detta normale (o di Gauss o gaussiana) che ha la forma della sezione di una campana con i lembi infiniti come nella figura 3.2. Essa dipende da due parametri m e s 2 che sono 2 rispettivamente il suo valor medio m = E ( x% ) e la sua varianza s 2 = E é( x% - m ) ù ; è ë û simmetrica e quindi il suo punto più alto (la sua moda) si ha in corrispondenza di m . La distribuzione di probabilità normale è immediatamente definita dalla sua funzione di densità di probabilità, che matematicamente è f ( x ) = ( 2ps ( 2 ) -1 2 ìï ( x - m ) 2 üï × exp í ý 2s 2 ï îï þ (A.3.2.1) ) ed è indicata con il simbolo N m , s 2 . La forma campanulare della distribuzione normale è data dall’esponenziale; ( 2ps ) 2 sia ò +¥ -¥ -1 2 è un fattore di normalizzazione che serve semplicemente a fare in modo che f ( x ) × dx = 1 , convenzione che si segue in tutte le distribuzioni di probabilità. Di seguito sono esposte alcune proprietà di questa distribuzione, che non dimostriamo: a) Man mano che ci si allontana dal valor medio m la probabilità che x% assuma i valori contenuti in un intervallo infinitesimale a destra o a sinistra di m diminuisce. b) Approssimativamente, la superficie che giace sotto la curva normale definita dalla (A.3.2.1) vale 68 100 nell’intervallo [ m - 2s , m + 2s ) [m -s , m + s ) ; vale 95 100 in e 99.7 100 in [ m - 3s , m + 3s ) , come indicato nella figura 3.5. c) La combinazione lineare di due o più variabili aleatorie normali è normale; in particolare, nel caso di due si ha che se x% : N ( m x , s x2 ) y% : N ( m y , s y2 ) % = a × x% + b × y% è una variabile aleatoria normale con valor medio allora w m w = E ( a × x% ) = E ( b × y% ) = a × m x + b × m y e con varianza 89 { 2 s w2 = E é( w% - mw ) ù = E éë( a × x% + b × y% ) - ( a × m x + b × m y ) ùû ë û { = éë a ( x% - m x ) + b ( y% - m y ) ùû 2 2 }= } = a ×Var ( x% ) + b ×Var ( y% ) + 2ab × Cov ( x%, y% ) = 2 2 (A.3.2.2) = a 2 × s x2 + b 2 ×s y2 + 2ab × Cov ( x%, y% ) Da questa relazione si nota che se x% e y% sono incorrelate allora s w2 = a 2 × s x2 + b 2 × s y2 m - 3s m - 2s m -s m m +s m + 2s m + 3s ≈68/100 ≈95/100 ≈99.7/100 Figura 3.5 – Funzione di densità della distribuzione normale N ( m , s 2 ) con l’indicazione del valore approssimato di tre superfici sotto di essa. d) Minore è la varianza s 2 e più concentrata è la distribuzione normale intorno al valor medio m . e) Se due o più variabili aleatorie normali x%1 , x%2 , K , x%k sono incorrelate tra di loro, allora sono indipendenti, cioè la loro funzione di densità multivariata è uguale al prodotto delle funzioni di densità singole f ( x1 , x2 ,K , xk ) = f ( x1 ) × f ( x2 ) ×K × f ( xk ) 90 f) Se m = 0 e s 2 = 1 , la variabile aleatoria normale è detta standardizzata e, ovviamente, è denotata con N ( 0,1) . Distribuzione del chi quadrato Consideriamo k variabili aleatorie normali standardizzate indipendenti z%1 , z%2 ,K , z%k , eleviamole al quadrato e sommiamole z%12 + z%22 + K + z%k2 = w% (A.3.2.3) Otteniamo una variabile aleatoria che ha una particolare distribuzione, detta del chi quadrato, che dipende da k , il suo numero dei gradi di libertà (g.d.l.) w% : c k2 I grafici delle funzioni di densità di probabilità del c (A.3.2.4) 2 per tre numeri di g.d.l. sono riportati nella figura 3.4. Alcune proprietà di questa distribuzione, che non dimostriamo, sono: a) Il valor medio della distribuzione del c 2 con k g.d.l. è k e la sua varianza è 2k . % 1 e w% 2 sono due variabili aleatorie indipendenti con distribuzione del c 2 b) Se w di k1 e k2 g.d.l. rispettivamente, la loro somma è una variabile aleatoria con distribuzione del c 2 con g.d.l. pari alla somma k1 + k2 . c) Come si vede dalla figura 3.4 la distribuzione del c 2 è asimmetrica, con il grado di asimmetria che dipende dal numero di g.d.l. Più grande è questo e meno asimmetrica è la distribuzione; al tendere di questo all’ ¥ , la distribuzione del c 2 tende alla distribuzione normale. Distribuzione della t di Student Il rapporto di una variabile aleatoria standardizzata e la radice quadrata di una variabile aleatoria distribuita come un c% 2 diviso per il suo numero k di g.d.l. possiede una distribuzione detta t di Student, se le due variabili aleatorie sono indipendenti (in probabilità). Nella figura 3.6 sono disegnate tre funzioni di densità di questo tipo per k = 10, 30, 120 g.d.l. Di seguito sono esposte alcune proprietà di questa distribuzione che non dimostriamo: a) La distribuzione della t di Student è simmetrica intorno allo zero, che è anche il suo valor medio. 91 b) La varianza della t di Student è k ( k - 2 ) dove k è il numero dei g.d.l. c) All’aumentare di k la distribuzione della t di Student si avvicina alla distribuzione normale standardizzata. Dal punto di vista delle applicazioni la t di Student con k > 60 è da considerarsi praticamente uguale alla normale standardizzata. Distribuzione della F di Fisher Il rapporto di due variabili aleatorie distribuite come un c 2 , ciascuna divisa per il proprio numero di g.d.l., possiede una distribuzione detta F di Fisher, se le due variabili aleatorie sono indipendenti. Questa distribuzione dipende dai due g.d.l. dei c 2 , k1 e k 2 , ed è quindi indicata con Fk1 ,k 2 . Nella figura 3.7 sono disegnate tre funzioni di densità di questo tipo per tre coppie di g.d.l. Alcune proprietà di questa distribuzione, che non dimostriamo, sono: a) La distribuzione della F di Fisher è asimmetrica, come quella del c 2 . b) Il suo intervallo di variazione va da zero ad infinito. c) Al tendere ad infinito dei suoi g.d.l. la distribuzione della F di Fisher tende a quella normale. d) La distribuzione della F di Fisher con 1 e k g.d.l. è uguale a quella del quadrato di una t di Student con k g.d.l. 92 CAPITOLO IV LA PROIEZIONE 93 4.1 Proiezione e proiettore nei modelli lineari Riconsideriamo il modello lineare semplice (2.6.1) yt = m + b xt + ut (4.1.1) e poniamoci il problema di proiettare yt fuori dal campione che percorre il tempo t = 1, 2,K , n ; in altre parole vogliamo determinare yn + h per h = 1, 2,K , n1 , dove l’intervallo temporale n + 1, n + 2,K , n + n1 è detto periodo di proiezione. Se utilizziamo il modello (4.1.1), stimato nel periodo campionario, per proiettare yt e se supponiamo che: - la struttura dell’economia, già ipotizzata sostanzialmente invariante nel campione, rimanga la stessa nei due periodi, rendendo così possibile l’utilizzazione delle stime anche nella proiezione; - i valori dell’esplicativa xt per i tempi t = n + 1, n + 2,K , n + n1 , siano noti; - valgano anche per il futuro le ipotesi deboli per i residui ìs 2 s = n + h E (u~n +h ) = 0 , E (u~n+ h × u~s ) = í î0 s ¹ n + h; s = 1, 2 ,..., n + n1 (4.1.2) per ogni h, per cui risulta “naturale” prendere come proiezioni dei residui il loro valor medio, che è nullo, la proiezione yˆ n + h al tempo n+h è yˆ n + h = mˆ + bˆ xn + h h = 1, 2,K , n1 (4.1.3) In effetti yˆ n + h non è tanto la proiezione di yt quanto quella della sua componente sistematica, poiché la proiezione di ut è stata posta arbitrariamente uguale a zero. Questa procedura, tuttavia, può essere giustificata in senso probabilistico se si considera, come ad esempio fatto dal de Finetti [1970] in ambito soggettivista, la proiezione di una variabile aleatoria come suo valor medio; in questo caso si ha yˆ n + h = m + b xn + h h = 1, 2,K , n1 (4.1.4) e i parametri m e b , sconosciuti, devono essere sostituiti da stime. Se nella (4.1.3) i valori m̂ e bˆ vengono considerati come stimatori e non come stime, la yˆ n + h diventa una variabile aleatoria che chiamiamo proiettore della parte sistematica di yn + h (non di tutto yn + h poiché, ripetiamo, un + h è stato posto arbitrariamente uguale a zero). 94 Nelle applicazioni occorre tener sempre presente quali sono le fonti di incertezza per la proiezione (4.1.3): - i parametri m̂ e bˆ sono stime e non i valori veri; - la variabile esplicativa xn + h non è generalmente nota e va sostituita con una sua propria proiezione; - nella proiezione yˆ n + h si annulla arbitrariamente il residuo un + h ma nella realtà non è affatto detto che valga zero. Considerando queste si valutano più correttamente le proiezioni che si ottengono. L’errore di proiezione Rimarchiamo il fatto che, a meno di non accettare l’impostazione del de Finetti, il proiettore (4.1.3) non è uno stimatore non distorto di yn + h definito dalla (4.1.1), mentre lo è della sua componente sistematica. Esso, tuttavia, può essere considerato non distorto in un altro senso, che illustriamo facendo ricorso all’errore di proiezione definito nella maniera seguente ( ) en + h = yn + h - yˆ n + h = m - mˆ + b - bˆ xn + h + un + h (4.1.5) Poiché il valor medio dell’errore (4.1.5) considerato come variabile aleatoria è nullo ( ) E (e%n + h ) = E ( m - mˆ ) + E é b - bˆ xn + h ù + E ( un + h ) = 0 ë û (4.1.6) il proiettore yˆ n + h può essere considerato come uno stimatore non distorto di yn + h nel senso che il valor medio dell’errore di proiezione è nullo. In questo caso si dice che yˆ n + h è un proiettore incondizionatamente non distorto ed in questo fatto consiste un’altra buona proprietà delle proiezioni ottenute con i minimi quadrati. Proiezioni ex post ed ex ante La relazione (4.1.5) che definisce l’errore di proiezione indica anche che questo può essere considerato come una variabile aleatoria oppure come una sua realizzazione. L’errore è aleatorio se è espresso in termini di stimatori m̂ e bˆ oltreché di residuo uˆn + h ; è un numero se al contrario yˆ n + h è la proiezione (4.1.3) e xn + h è noto. In questo secondo caso si proietta yt in tempi n + h , h = 1, 2,K , n1 , per i quali le realizzazioni yn + h sono conosciute e la proiezione viene chiamata ex post ; nel caso in cui non siano note (e quindi gli errori non possono essere numericamente calcolati) la proiezione è chiamata ex ante. 95 4.2 La proiezione con il criterio dei minimi quadrati Supponiamo d’ora in poi che il criterio di stima dei parametri sia quello dei minimi quadrati. In questo caso il proiettore (4.1.3) gode della proprietà di essere BLU, in quanto è lineare rispetto alle yt poiché lineari sono gli stimatori OLS; è non distorto rispetto alla parte sistematica di yn + h ( ) ( ) E ( yˆ n + h ) = E mˆ + bˆ xn + h = E ( mˆ ) + E bˆ xn + h = m + b xn + h h = 1, 2,K , n1 (4.2.1) dove nel secondo passaggio si è sfruttata la linearità dell’operatore E e nel terzo il fatto che se xn + h è una costante (nota) allora ( ) () E bˆ x n+ h = E bˆ × xn + h ed è ottimo in quanto ( ) ( Var ( yˆn + h ) = Var mˆ + bˆ xn + h £ Var m% + b% xn + h ) h = 1, 2,K , n1 dove m% e b% sono stimatori qualsiasi tra i lineari e non distorti, valendo la (3.2.9) se si prendono le costanti c1 e c2 pari a 1 e a xn + h , h = 1, 2,K , n1 , rispettivamente. L’errore quadratico medio di proiezione La varianza dell’errore di proiezione ci permette di stabilire un teorema di fondamentale importanza per la proiezione. Essa vale 2 ù s 2 é ( xn + h - x ) Var (e%n + h ) = ê1 + + nú 2 n ê mxx - x úû ë (4.2.2) come dimostriamo nell’Appendice 4.1. La varianza (4.2.2) è detta errore quadratico medio di proiezione21 ed è generalmente considerata come un indicatore della precisione della proiezione. Tanto più piccolo è questo errore e tanto più precisa è la proiezione, per cui quando il proiettore (4.1.3) viene ottenuto con il criterio dei minimi quadrati esso gode di un’ottima proprietà poiché vale il seguente Teorema 4.1 – Tra i proiettori lineari (rispetto alle yt ) e incondizionatamente non distorti, se m̂ e bˆ sono gli stimatori dei minimi quadrati il proiettore (4.1.3) è quello che possiede errore quadratico medio minimo. La dimostrazione sarà fatta nel caso dei modelli lineari multipli. 21 In inglese: Mean square error of prediction. 96 4.3 Intervalli di confidenza per le proiezioni Si è visto che esiste una certa simmetria tra le stime e le proiezioni: in ambito stocastico esse si trasformano in stimatori e proiettori, rispettivamente. E la simmetria continua negli intervalli di confidenza, che come sussistevano per le stime così sussistono per le proiezioni. Ma le proiezioni intervallari assumono un significato più rilevante delle stime intervallari in quanto in economia sono di utilizzazione più immediata. Si può anche asserire che se occorre effettuare una proiezione di variabili economiche è bene che sia intervallare e non puntuale. Vediamo dunque come si costruiscono intervalli di confidenza per le yˆ n + h , h = 1, 2,K , n1 . Innanzitutto supponiamo che valgono le ipotesi forti per i residui sia nel periodo campionario che in quello di proiezione, per cui è anche u% n + h : N ( 0, s 2 ) h = 1, 2,K , n1 In questo caso l’errore di proiezione (4.1.5) è una variabile aleatoria costituita da una ~ anch’essa combinazione lineare degli stimatori m̂ e bˆ distribuiti normalmente e di u n+h normale, per cui è ~ en + h ~ N (0, s 2 × a n2+ h ) h = 1, 2,K , n1 se poniamo 2 n+h a 2 ù 1 é ( xn + h - x ) = ê1 + + n ú nê mxx - x 2 úû ë (4.3.1) in virtù delle (4.1.6) e (4.2.2). Volendo trovare gli intervalli di confidenza per le yn + h , che in realtà hanno un significato leggermente diverso dal consueto in quanto la ~ y n + h è una quantità aleatoria (funzione di u~n + h ), consideriamo che e%n+ h y% - yˆ n+ h = n+ h : N ( 0,1) s × an + h s × an +h h = 1, 2,K , n1 e che 97 y% n+ h - yˆ n+ h 1/ 2 é n ù an + h êå u%t2 /(n - k ) ú ë t =1 û poiché ~ en+ h e n å u% t =1 t = y%n +h - yˆn + h : tn + h an + hs h = 1, 2,K , n1 sono variabili aleatorie stocasticamente indipendenti. Infatti per la (4.1.5) ~ en + h è formata dalle m̂ e bˆ non correlate con le u%t e dalla u~n + h non correlata con le û t per la (4.1.2); essendo tutte queste variabili distribuite normalmente, vale l’asserita indipendenza stocastica. L’intervallo di confidenza al livello a è trovato partendo dalla condizione æ ö y% - yˆ n + h P ç tn¢- 2 £ n + h £ tn¢¢- 2 ÷ = 1 - a an + hs è ø dove tn¢ -2 e tn¢¢-2 sono i quantili di probabilità a 2 e 1 - a 2 rispettivamente, forniti dalle tavole della t di Student con n - 2 gradi di libertà. L’intervallo risulta, dunque, yˆ n+ h + an + h × s × tn¢ - 2 £ y% n+ h £ yˆ n+ h + an+ h × s × tn¢¢- 2 per h = 1, 2,K , n1 , e va interpretato come l’intervallo più corto che contiene il valore aleatorio ~ y n + h con probabilità 1-a. 98 4.4 Tre esempi Riprendiamo le equazioni stimate nel paragrafo 3.8 ed effettuiamo la proiezione intervallare ex post per tre tempi al livello a = 0.05 . Retta interpolante il logaritmo dei consumi Il modello stimato è il (3.8.2), n - 2 = 19 per cui tn¢ - 2 = -2.093 e tn¢¢- 2 = 2.093. Si hanno poi i risultati errore di previsione SE di previsione 1.556 0.024 0.012 1.601 1.567 0.034 0.013 1.626 1.579 0.047 0.013 h yn+ h effettivo yˆ n+ h previsto 1 1.580 2 3 che graficamente sono esposti nella figura 4.1. Funzione del consumo Il modello stimato è il (3.8.3), n - 2 = 21 per cui tn¢ -2 = -2.08 e tn¢¢- 2 = 2.08. Si hanno poi i risultati errore di previsione SE di previsione 615667 832 7508 622931 627839 -4908 7615 625708 630388 -4680 7638 h yn + h effettivo yˆ n + h previsto 1 616498 2 3 che graficamente sono esposti nella figura 4.2. Relazione tra tasso di cambio nominale e prezzi relativi Il modello stimato è il (3.8.4), n - 2 = 31 per cui tn¢ -2 = -2.04 e tn¢¢- 2 = 2.04. Si hanno poi i risultati errore di previsione SE di previsione 0.796 0.289 0.106 1.117 0.796 0.321 0.106 1.061 0.798 0.263 0.106 h yn+ h effettivo yˆ n+ h previsto 1 1.085 2 3 che graficamente sono esposti nella figura 4.3. 99 4.5 Indicatori dell’accuratezza delle proiezioni Quando le proiezioni sono effettuate ex post è possibile valutare numericamente gli errori di proiezione (4.1.5) e misurare così l’accuratezza delle proiezioni stesse. A tal fine sono stati costituiti alcuni indici, dei quali i cinque più comuni sono l’errore medio MPE = 1 n1 å en +h n1 h =1 (4.5.1) che è nella sostanza la media aritmetica degli n1 errori di proiezione; l’errore medio assoluto MAE = 1 n1 å en+h n1 h =1 (4.5.2) che è la media aritmetica degli errori presi in valore assoluto (in modo da considerarli simmetricamente, sia i positivi che i negativi, mentre nell’MPE gli uni si elidono con gli altri); l’errore quadratico medio 1 n1 2 MSE = å en +h n1 h =1 (4.5.3) che è la stima campionaria dell’errore quadratico medio di proiezione e che spesso è considerato sotto radice quadrata aritmetica dando luogo alla radice dell ’errore quadratico medio RMSE = MSE1 2 (4.5.4) in modo da ottenere un indice della stessa dimensione dell’errore; ed infine il coefficiente di disuguaglianza di Theil22 1/ 2 æ n1 2 ö ç å en + h ÷ è h =1 ø U= 1/ 2 1/ 2 n1 æ æ n1 2 ö 2 ö ç å yn + h ÷ + ç å yˆ n + h ÷ è h =1 ø è h =1 ø (4.5.5) che vale zero quando tutti gli errori di proiezione sono nulli e tende ad uno man mano che l’accuratezza delle proiezioni peggiora. Spesso è utile valutare alcuni degli indicatori precedenti in termini percentuali rispetto ad yn + h al fine di disporre di una misura di errore indipendentemente dalla In lingua inglese gli indicatori sono: Mean prediction error (MPE), mean absolute error (MAE), mean square error (MSE), root mean square error (RMSE), Theil’s inequality coefficient (U), rispettivamente. 22 100 dimensione della variabile che si proietta: sostituendo nelle (4.5.2) e (4.5.3) al posto degli errori en + h i rapporti en + h / yn + h si ottengono l’errore medio assoluto percentuale (MAPE) e l’errore quadratico medio percentuale (MSPE). Nella tavola 4.1 sono esposti i valori di alcuni di questi indici per le proiezioni dei tre esempi mostrati nel paragrafo 4.4. Modello MAE MSE RMSE U MAPE MSPE Retta 0.352 0.133 0.364 0.011 0.022 0.0005 interpolante il log dei consumi Funzione del 3473 15561577 3945 0.003 0.006 0.00004 consumo Relazione tra tasso di cambio 0.291 0.085 0.292 0.155 0.267 0.072 nominale e prezzi relativi Tavola 4.1 – Errore medio assoluto, errore quadratico medio, radice quadrata dell’errore quadratico medio, coefficiente di Theil, errore medio assoluto percentuale ed errore quadratico medio percentuale per le proiezioni uno, due e tre tempi in avanti di tre modelli. Appendice 4.1 Complementi analitici La varianza dell’errore di proiezione Dimostriamo la (4.2.2) ( ( ) ) ( ) Var (e%n + h ) = Var é m - mˆ + b - bˆ xn + h + u%n + h ù = Var é m - mˆ + b - bˆ xn + h ù + Var ( u%n + h ) = ë û ë û 2 2 = Var ( m - mˆ ) + xn + h ×Var b - bˆ + 2 Cov é( m - mˆ ) b - bˆ xn + h ù + s = ë û 2 2 2 2 ù 2 s s é x 1 x ×s = + xn +h - 2 xn + h +s 2 = ê1 + 2 ú 2 2 n ë mxx - x û n mxx - x n ( mxx - x ) ( ) 2 ù s 2 é ( xn + h - x ) = + n ê1 + ú n ê mxx - x 2 ú ë û dove nel secondo passaggio abbiamo utilizzato la non correlazione tra u%n + h e i residui del periodo campionario e quindi m̂ e bˆ , nel terzo la (3.1.3) e nel quarto le (A.3.1.3), (A.3.1.4) e (A.3.1.5). 101 CAPITOLO V LA MALASPECIFICAZIONE 102 5.1 Aspetti variegati della malaspecificazione Riprendiamo le ipotesi stocastiche sotto le quali abbiamo effettuato le analisi precedenti. Sia dato il modello lineare semplice y = m + b xt + ut (5.1.1) per il quale abbiamo supposto cha valgano le ipotesi deboli: il campione è omogeneo e i parametri m e b sono invariabili nel i) tempo; ii) i valori xt sono noti " t ; iii) E ( u%t ) = 0 iv) és 2 0 K 0 ù ê ú 0 s 2 K 0 ú ì0 ê E ( u%t × u%s ) = = êM ú ís 2 O ê ú î 2 êë0 0 K s úû (5.1.2) t¹s t=s (5.1.3) nonché quelle forti: v) u%t : N ( 0, s 2 ) "t (5.1.4) In questo capitolo verifichiamo, tramite test, se queste ipotesi, dato un campione, possono essere considerate valide. Questi test sono chiamati di malaspecificazione, in quanto verificano che i dati campionari con cui si stimano i parametri della (5.1.1) soddisfano alle ipotesi i) … v). La prima ipotesi che sottoponiamo a verifica è quella dell’omoschedasticità dei residui, cioè del fatto che tutte le loro varianze siano uguali. La seconda ipotesi che sottoponiamo a verifica è quella della nullità della covarianza tra un qualsiasi residuo e quello seguente (o il precendente), cioè dell’autocorrelazione di ordine uno. La terza ipotesi è quella della normalità dei residui (la v) e la quarta è relativa alla omogeneità del campione: se questo è omogeneo per tutti i tempi precedenti un certo istante ed è anche omogeneo, ma diverso dal precedente, per tutti i tempi successivi, si dice che in quell’istante si è avuto un cambiamento della struttura economica, e mostreremo alcuni test che permettono di verificare l’esistenza di questo cambiamento strutturale. 103 5.2 Eteroschedasticità dei residui Nelle variabili economiche accade spesso che la variabilità non sia costante nel tempo, ma crescente o più raramente decrescente, oppure ancora crescente e poi decrescente a tratti. Se una tale situazione vale per la (5.1.1) e se il termine b xt non rappresenta sufficientemente tale variabilità non costante, questa si trasferisce sui residui ut per cui l’ipotesi iv) si trasforma nella ì0 E (u~t × u~s ) = í 2 îs t t¹s t=s (5.2.1) caratterizzandone la eteroschedasticità. In tale caso l’analisi svolta in precedenza mostra come non possano essere più utilizzati gli stimatori dei minimi quadrati ordinari, per i quali è necessario che valgano le (5.1.2). La stima dei minimi quadrati ponderati (WLS 23) Viene naturale ipotizzare che l’eteroschedasticità dei residui sia causata da alcune variabili note che indichiamo con z1t, z2t, …, zst. Sotto l’ulteriore ipotesi che s t2 sia funzione crescente (l’adattamento al caso decrescente è banale) di queste variabili, possiamo porre s 2t = exp(a 1 z1t ) × exp(a 2 z 2t ) × ... × exp(a s z st ) (5.2.2) dove la crescenza è rappresentata mediante l’esponenziale per comodità di sviluppo analitico. Sempre per comodità è conveniente specializzare ulteriormente la (5.2.2) senza che le ipotesi addizionali condizionino troppo le situazioni reali. Supponiamo, dunque, in primo luogo che siano s = 2 e z1t = 1 "t, per cui la (5.2.1) diventa s t2 = exp(a 1 ) × exp(a 2 z 2t ) = s 2 × wta 2 (5.2.3) avendo posto s 2 = exp (a1 ) z2t = ln wt In secondo luogo supponiamo che a 2 = 2 , per cui in conclusione si ha 23 Weighted Least Squares, in inglese. 104 s 2t = s 2 × wt2 (5.2.4) Se wt = 1 , "t, si ritorna all’ipotesi standard di omoschedasticità. Sotto l’ipotesi (5.2.1), per eliminare l’eteroschedasticità basta dividere il modello (5.1.1) per wt yt 1 x u = m +b t + t wt wt wt wt (5.2.5) che si può stimare con gli OLS; infatti æ u~ Eçç t è wt ö 1 ÷÷ = E (u~t ) = 0 w ø t "t 0 ì æ u~ u~ ö 1 ï Eçç t × s ÷÷ = E (u~t × u~s ) = í 1 s 2 = s 2 è wt ws ø wt × ws ïî wt2 t t¹s t=s avendo fatto uso della (5.2.1). Valgono dunque le ipotesi deboli (3.1.5). La stima effettuata in questo modo è detta dei minimi quadrati ponderati o WLS, poiché ogni elemento t-esimo del campione viene pesato con un fattore; in questo specifico caso 1 wt . Esempio 5.1 – Possiamo considerare nuovamente la (2.9.1) ma supponendo che sia il consumo che il reddito siano nominali. La figura 5.1 mostra l’andamento del consumo nominale in Italia, con una eteroschedasticità che supponiamo soltanto parzialmente spiegata dal reddito nominale. Se ipotizziamo che essa sia sostanzialmente dovuta dall’inflazione, possiamo prendere come wt la serie OCSE del deflatore dei consumi privati ITAPCP e stimare l’equazione (5.2.5), dove yt è il consumo nominale e xt è il reddito nominale (ITAGDP, prodotto interno lordo ai prezzi di mercato). La stima dei minimi quadrati fornisce i risultati yˆt x 1 = -772503 + 0.608 t wt wt wt t: campione 1980-2002, SE dei residui=6514 ; (-4.863) (203.284) R2 = 0.993 RSS=891158910 ; TSS=120710590000 abbastanza differenti da quelli nella (3.8.3). 105 ct 80 70 60 50 40 30 20 10 0 1980 1985 1990 1995 2000 t Figura 5.1 – Serie storica annuale del consumo nominale in Italia espressa in migliaia di miliardi; anni 1980-2002. 106 5.3 Test di omoschedasticità Il test di Breusch e Pagan Prima di effettuare operazioni volte a stimare la (5.1.1) in presenza di eteroschedasticità è necessario ovviamente verificare che questa sussista. Illustriamo allora, senza le dimostrazioni che possono essere trovate negli articoli originali, alcuni test comunemente usati per verificare l’eteroschedasticità dei residui. Il primo test è dovuto a Breusch e Pagan [1979] e presuppone che sotto l’alternativa H 1 : s t2 ¹ s 2 valga una relazione del tipo di (5.2.1) s t2 = h (a1 z1t + a 2 z2 t + K + a s zst ) dove h è una funzione indeterminata poiché il test ne è indipendente. Se supponiamo che z1t = 1 ed s = 2 , l’ipotesi nulla H0 : a2 = 0 (5.3.1) suggerisce omoschedasticità poiché in questo caso è s t2 = h (a1 ) = s 2 = costante I passi da percorrere in questo test sono i seguenti: 1) si stima il modello (5.1.1) con gli OLS e si calcolano i residui stimati û t ; 2) si calcolano le quantità sˆ 2 = uˆ t2 sˆ 2 1 n 2 å uˆ t n t =1 "t ˆ 2 come variabile proxy di s t2 e quindi si stimano i parametri 3) si utilizza la uˆ t2 / s della regressione24 ausiliaria uˆt2 = a1 + a 2 z2t + vt sˆ 2 4) si calcola la devianza residua (5.3.2) n å vˆ t =1 2 t 5) sotto H 0 la ESS, differenza tra devianza totale e devianza residua della (5.3.2), è tale che, approssimativamente e per un campione grande, La divisione per la costante ŝ serve unicamente a semplificare le elaborazioni metodologiche contenute nel lavoro originale di Breusch e Pagan. 24 2 107 % ESS : c12 2 (5.3.3) per cui si può effettuare un test del chi quadrato per la verifica dell’omoschedasticità. Il test del chi quadrato % 2 ha distribuzione c 2 e La (5.3.3) indica che sotto la H 0 la variabile aleatoria ESS 1 quindi nel 95% dei casi si collocherà nella regione di accettazione del test, che consideriamo monolaterale, éë0, c12 ) dove c12 è il quantile di probabilità 95%, mentre nel ) 5% dei casi si collocherà nella regione di rifiuto éë c12 , +¥ . Basta allora calcolare il valore ESS 2 e trovare il quantile c12 dalle tavole del c 2 con un g.d.l.; se ESS 2 cade nell’intervallo éë0, c12 ) si è spinti ad accettare l’ipotesi nulla di omoschedasticità (5.3.1), altrimenti a rifiutarla (ed accettare quindi l’ipotesi di eteroschedasticità). Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90%, a seconda degli obiettivi che si pone il ricercatore. Esempio 5.2 – Consideriamo l’equazione che lega i consumi privati nominali ct in Italia con il tempo, come effettuato nell’esempio 2.2 e verifichiamo che i residui siano omoschedastici, supponendo che responsabile di una eventuale eteroschedasticità potrebbe essere il deflatore dei consumi privati (ITAPCP nella base dati OCSE; z 2t nella (5.3.2)). Stimiamo il modello ct = m + b t + ut (5.3.4) { } con gli OLS e calcoliamo sˆ 2 nonché la serie uˆt2 sˆ 2 . Stimiamo quindi la regressione ausiliaria uˆt2 = a1 + a 2 z 2t + n t sˆ 2 e calcoliamo ESS 2 = 4.960 che è maggiore di 3.84 , quantile al 95% della distribuzione del c 2 con 1 g.d.l. Siamo quindi spinti a rifiutare l’ipotesi nulla di omoschedasticità. La formulazione di Koenker Il significato intuitivo del test è questo: se sussiste l’eteroschedasticità, e se questa è effettivamente spiegata dalla variabile z 2t prescelta, allora questa stessa variabile ˆ 2 nella (5.3.2), per cui la fornirà una buona spiegazione dell’andamento della uˆ t2 / s 108 devianza spiegata è abbastanza elevata e la statistica ESS 2 è maggiore del valore soglia, cadendo quindi nella regione di rifiuto del test del c 2 . Questo fondamento intuitivo è alla base di una formulazione alternativa del test, proposta da Koenker [1981], che risulta di più rapida implementazione del precedente in quanto prescinde dal calcolo di ŝ 2 . Per effettuare il test basta infatti stimare con i minimi quadrati il modello uˆt2 = a1 + a 2 z2 t +n t (5.3.5) e in tal caso si dimostra che asintoticamente e per un campione grande: (5.3.6) nRu2 : c12 dove Ru2 è il coefficiente di determinazione non centrato (2.8.6) della (5.3.5). Si è quindi spinti a rifiutare l’ipotesi di omoschedasticità se la variabile z 2t prescelta spiega bene l’andamento del quadrato dei residui. Osservazione 5.1 – La (5.3.2) e (5.3.5) sono esempi di regressione ausiliaria, intendendosi con questo termine una regressione priva di diretto significato economico, che viene stimata generalmente usando grandezze derivate dalla stima di un modello econometrico (ad esempio, i residui derivati da una stima OLS) per permettere o semplicemente per facilitare il calcolo delle statistiche di determinati test. La teoria moderna della verifica delle ipotesi utilizza largamente le regressioni ausiliarie. Esempio 5.3 – In mancanza di ipotesi a priori specifiche sulla natura dell’eventuale eteroschedasticità, come effettuato nell’esempio 5.2, è possibile prendere come z 2t il quadrato dei valori dell’endogena stimata yˆ t2 . Nel caso del modello (5.3.4) l’equazione ausiliaria (5.3.5) stimata è uˆt2 = 200000000000 + 0.102ct n = 21 Ru2 = 0.279 per cui nRu2 = 5.838. Il valore soglia della distribuzione del c12 è lo stesso dell’esercizio precedente, 3.84, per cui la statistica nRu2 cade nella regione di rifiuto del test e si è così spinti a rifiutare l’ipotesi nulla di omoschedasticià. 109 5.4 La correzione per l’eteroschedasticità di White Si è detto che la presenza di eteroschedasticità comporta che le stime ottenute con i minimi quadrati ordinari non siano buone e da questo si trae che i loro errori standard, così come le t di Student, non siano affidabili. H. White (1980) ha tuttavia sviluppato un metodo che permette di ottenere gli errori standard delle stime tenendo conto dell’eteroschedasticità: il vantaggio è quindi notevole, sebbene la procedura valga soltanto approssimativamente e per un campione numeroso. Il metodo sarà esposto più in avanti, nella trattazione del modello di regressione multipla, e per il momento ci fermiamo soltanto ad evidenziare le differenze nei valori ottenuti per gli errori standard e per le t di Student considerando e non considerando la correzione di White. La semplice stima dei minimi quadrati della (5.3.4), che abbiamo verificato contenente eteroschedasticità fornisce i risultati cˆt = -1333928 + 420437t SE: t: (673610) (53646) (-1.98) (7.837) (5.4.1) R 2 = 0.764 campione 1960–1980; SE dei residui =1488618; RSS = 42103686000000; TSS = 178214800000000 mentre quelli corretti per l’eteroschedasticità con il procedimento di White sono cˆt = -1333928 + 420437t SE: (624420) (66359) t: (-2.136) (6.336) campione 1960–1980; SE dei residui =1488618; (5.4.2) R 2 = 0.764 RSS = 42103686000000; TSS = 178214800000000 Ovviamente le stime (5.4.1) e (5.4.2) sono differenti soltanto negli errori standard e nelle t di Student ma l’affidabilità dell’inferenza statistica effettuata con i risultati (5.4.2) è maggiore, sebbene la numerosità campionaria, n=21, non sia alta come dovrebbe. 110 5.5 Fonti e conseguenze dell’autocorrelazione Anche l’ipotesi di covarianze tra i residui nulle è molto restrittiva e cercheremo di rilassarla. Vedremo come le procedure di trattamento della covarianza dei residui, cioè della loro autocorrelazione (correlazione di un residuo con se stesso ritardato di t unità temporali), condurranno a modelli di carattere dinamico. In effetti l'autocorrelazione dei residui deriva dall'esistenza di relazioni dinamiche nei valori dell'endogena yt che non vengono spiegate dalla parte sistematica dell'equazione (5.1.1). Queste relazioni non spiegate portano all'autocorrelazione dei residui ad esempio in seguito a: - presenza di tendenza nella serie { yt } , - presenza di autocorrelazione già nella { yt } , - specificazione inesatta della (5.1.1), dovuta o a omissione di variabili o alla scelta di una forma funzionale errata, - errori di misurazione nei valori della { yt } . Le conseguenze dell'autocorrelazione dei residui sugli stimatori possono essere perniciose. In effetti, se si stima la (5.1.1) con gli OLS senza rendersi conto che i residui sono correlati tra di loro, generalmente si sottostimano le varianze degli stimatori, per cui: - gli errori standard degli stimatori dei parametri sono sottostimati, - le t di Student sono sovrastimate, - gli indicatori R2 sono sopravvalutati. In conclusione sono considerati significativamente diversi da zero anche parametri di regressione non significativi e complessivamente buone equazioni (5.1.1) che non lo sono. In sovrappiù, le correlazioni tra gli stimatori dei parametri di regressione sono stimate in modo inesatto. 111 5.6 Test di autocorrelazione dei residui Dovendo stimare un’equazione è allora necessario dapprima accertarsi dell'esistenza dell’autocorrelazione dei residui e poi procedere alla stima, tenendo eventualmente in considerazione tale autocorrelazione nel caso che i test di esistenza abbiano dato responso positivo. Illustriamo in questo paragrafo il test di autocorrelazione più comunemente utilizzato. Negli anni cinquanta e sessanta i modelli econometrici avevano una struttura dinamica semplice e l'autocorrelazione che veniva ritenuta più rilevante era quella di ritardo uno, tra un residuo ed il suo precedente oppure il suo seguente. Più tardi, con il dettagliarsi della dinamica delle equazioni, è aumentato il numero delle autocorrelazioni dei residui da considerare e da rilevare come eventualmente differenti da zero mediante test. Illustriamo, allora, dapprima il test più usuale di verifica dell'esistenza di autocorrelazione di ritardo uno, detta anche del primo ordine, per poi passare, in altri capitoli, ai test per l'autocorrelazione di ritardi superiori. 5.5.1 Il test di Durbin e Watson J. Durbin e G.S. Watson (1950 e 1951) costruirono un test per verificare l'ipotesi di esistenza di autocorrelazione del primo ordine H 0 : Corr (u~t , u~t -1 ) = r(1) = 0 (5.6.1) contro l'alternativa H 1 : Corr (u~t , u~t -1 ) = r(1) ¹ 0 ma si accorsero subito di un problema comune a tutti test di autocorrelazione. L'ipotesi nulla (5.6.1) riguarda il processo { u~t } ma a disposizione dell'econometrico non c'è tale processo bensì la serie storica { û t } dei residui stimati. La relazione tra processo e serie storica è dunque funzione del campione { x1 , x2 ,K , xn } delle variabili esplicative e così occorrerebbe costruire un test di autocorrelazione specifico per ogni campione, cosa possibile ma chiaramente inaccettabile. Vediamo come Durbin e Watson abbiano sviluppato un test che è sì basato sulle û t ma che supera questo problema. Essi costruiscono la statistica 112 n d= å (uˆ t =2 t n - uˆ t -1 ) 2 = n å uˆ t =2 2 t å uˆ t =2 n 2 t n + å uˆ t2-1 - 2å uˆ t uˆ t -1 t =2 t =2 n å uˆ t =2 n » n 2å uˆ t2 - 2å uˆ t uˆ t -1 t =2 t =2 n å uˆ 2 t t =2 = 2[1 - rˆ (1)] (5.6.2) 2 t dove il simbolo » indica l'uguaglianza approssimata e 1 n uˆt uˆt -1 å n 1 t =2 rˆ = = 1 n 2 ˆ å ut n - 1 t =2 n å uˆ uˆ t =2 n t t -1 å uˆ t =2 (5.6.3) 2 t è la stima campionaria del coefficiente di autocorrelazione del primo ordine. L'approssimazione nella (5.6.2) deriva dal fatto che le due sommatorie n å uˆ t =2 n å uˆ t =2 2 t -1 2 t e non sono perfettamente uguali ma differiscono per il primo e l'ultimo termine. Se però n è sufficientemente grande e poiché E (uˆ t ) = 0 ,"t, l'approssimazione è generalmente buona. Si ha allora che se rˆ (1) = 0 d =2 se rˆ (1) < 0 +2 < d £ +4 se rˆ (1) > 0 0 £ d < +2 e l'ipotesi nulla (5.6.1) è accettata se la statistica25 d è vicina a 2. Per sviluppare il test, ~ Durbin e Watson determinarono numericamente la distribuzione di d , che non è standard, e ne tabularono i valori al variare di n e del numero delle variabili esplicative che però per ora sono soltanto una. Se non esistesse il problema della dipendenza di d dalla variabile esplicativa, esposto sopra, dalle tavole di Durbin e Watson sarebbe possibile trarre con precisione gli estremi d1 e d2 dell'intervallo che conterrebbe il valore 2 con una data probabilità. Così si accetterebbe l'ipotesi (5.6.1) se la statistica d fosse compresa tra d1 e d2; la si rifiuterebbe nel caso contrario. ~ Malauguratamente, però, la distribuzione di d dipende dal campione { x1 , x2 ,K , xn } e quindi d1 e d2 sono funzioni di esso; ma Durbin e Watson si accorsero che, al variare del campione, d1 si muoveva in un intervallo abbastanza ristretto, delimitato da due valori 25 Viene chiamato così l’elemento pivot che si costruisce nei test per la verifica delle ipotesi. 113 dL e dU26, e che similmente d2, suo simmetrico rispetto al punto d=2, si muoveva nell'intervallo delimitato da 4-dU e 4-dL. Costruirono, pertanto tavole statistiche in cui porre la coppia di valori dL e dU in funzione di n, di k e del livello 1% o 5% di probabilità del test. Questa viene eseguito facilmente sulla base del grafico seguente: d: 0 dL dU 4- d U rˆ (1) +1 4- d L 0 4 -1 Se la statistica d, indicata spesso con le iniziali DW, è compresa tra dU e 4-dU il test suggerisce di accettare l'ipotesi nulla (5.6.1) di assenza di autocorrelazione di primo ordine.Se 0£d<dL il test suggerisce di rifiutare tale nulla e di accettare l'alternativa di autocorrelazione positiva. L’autocorrelazione diventa negativa se 4-dL£d<4. Se d cade in uno dei due intervalli [dL,dU), [4-dU,4-dL), il risultato del test è indeterminato. ~ Durbin e Watson determinarono la distribuzione della d , e quindi le tavole, sotto le due condizioni: i) la (5.1.1) contiene l'intercetta, ii) la variabile esplicativa x non è stocastica. e inoltre sotto l’ipotesi che i residui ut siano generati dallo schema iii) ut = j ut -1 + e t con e t tale che -1 £ j £ +1 (5.6.4) E ( e%t ) = 0 "t ì0 E ( e%t × e%s ) = í 2 îs e t¹s t=s (5.6.5) (5.6.6) Osservazione 5.2 – La condizione ii) implica che x non può essere l’endogena ritardata (di un qualsiasi ritardo t ) poiché y% t -t è sempre stocastica (in quanto funzione di u%t -t ). 26 L=lower; U=upper; in inglese. 114 Osservazione 5.3 – L’ipotesi iii) è teoricamente limitativa in quanto non necessariamente l’autocorrelazione di ritardo 1 deriva dallo schema (5.6.4), che è detto autoregressivo del primo ordine (o di Markov) ed indicato con AR(1) 27. Nella pratica la limitazione (5.6.4) non è presa in considerazione (nel senso che non si verifica l’esistenza dello schema (5.6.4) sui residui). Durbin e Watson costruirono tavole per la statistica d con n compreso tra 15 e 100, e con numero di esplicative k inferiore o uguale a 5. N.E. Savin e K.J. White estesero le tavole in modo da far variare n tra 6 e 200, e k fino a 10 compreso. Le tavole che sono generalmente esposte nei testi di Econometria concernono il contributo di questi due autori, con livelli di significatività dell'1 e del 5%. Riassumiamo i passi per l'esecuzione del test: 1) si stima l'equazione (5.1.1) e si determina la serie { û t }; 2) si calcola il valore della statistica d mediante la (5.6.2); 3) in funzione di n, k = 1 (non considerando quindi l’intercetta) e del livello di significatività del test, ad esempio il 5%, si estraggono dalle tavole statistiche i due valori dL e dU; 4) se dÎ[dU, 4-dU) si è indotti ad accettare l'ipotesi nulla (5.6.1), se dÎ[0, dL) si è indotti ad accettare l'alternativa con r(1)>0, se dÎ[4-dL, 4) si è indotti ad accettare l'alternativa con r(1)<0, se dÎ[dL, dU) oppure dÎ[4-dU, 4-dL) il risultato del test è indeterminato. Osservazione 5.4 - R.W. Farehother (1980) ha tabulato i valori per il test di Durbin e Watson per il caso in cui l'intercetta non sia presente nella (5.1.1). Tre esempi Calcoliamo le statistiche d (DW) per tre i modelli stimati nel paragrafo 3.8; essa è riportata nella Tavola 5.1 insieme alla numerosità del campione. In tutti e tre i casi dÎ[0, dL), per cui si è spinti a ritenere che i residui siano positivamente autocorrelati di ordine uno. 27 Dall’inglese Auto Regressive. 115 Modello dL dU DW n Retta interpolante il log dei consumi 0.975 1.161 0.158 21 Funzione del consumo 1.018 1.187 0.748 23 Relazione tra tasso di cambio nominale e prezzi relativi 1.172 1.291 0.359 33 Tavola 5.1 – Statistica DW e numerosità del campione per i tre modelli stimati nel paragrafo 3.8. I valori critici d L e dU sono di Savin e White. 116 5.7 Il trattamento dell’autocorrelazione di ordine uno Supponiamo che si debba stimare il modello di regressione semplice (5.1.1) e che il test di Durbin e Watson abbia suggerito la presenza di autocorrelazione del primo ordine, di fatto indicando che i residui seguono uno schema AR(1) del tipo (5.6.4) e che la stima dei minimi quadrati della (5.1.1) verosimilmente è soggetta ai difetti elencati nel paragrafo 5.5. In primo luogo è possibile che il modello non sia specificato correttamente e che lo si debba completare con altre variabili esplicative; qualora non sia così oppure non si desideri aumentare il numero delle esplicative è utile trasformare la (5.1.1) in modo che la stima dell’equazione trasformata non abbia questi difetti. Innanzitutto se j = 0 nella (5.6.4) si ha che ut = e t e le ipotesi stocastiche deboli sui residui u%t sono quelle classiche. Se j ¹ 0 possiamo ritardare di una unità temporale la (5.1.1) ottenendosi yt -1 = m + b xt -1 + ut -1 poi la moltiplichiamo per j j yt -1 = j m + j b xt -1 + j ut -1 (5.7.1) e sottraiamo infine membro a membro la (5.7.1) alla (5.1.1) yt - j yt -1 = m (1 - j ) + b ( xt - j xt -1 ) + e t (5.7.2) avendo fatto uso della (5.6.4). Si dice che sulla (5.1.1) si è operato con una quasi differenza, come del resto avevamo fatto nel paragrafo 2.1 con lo schema a ritardi distribuiti (2.1.7). Qualora si conoscesse j la (5.7.2) potrebbe essere stimata con i minimi quadrati ordinari in quanto il residuo soddisfa alle ipotesi deboli. Sorge quindi il problema di determinare j . j determinato dalla statistica d di Durbin e Watson Un metodo molto semplice ma efficace per determinare j si basa sul fatto che nello schema AR(1) il parametro j è proprio uguale al coefficiente di autocorrelazione del primo ordine r (1) , come mostrato nell’Appendice 5.1. Allora dalla (5.6.2) troviamo la sua stima rˆ (1) = 1 - d 2 (5.7.3) 117 che non è molto precisa ma è immediatamente ottenuta dato che praticamente tutti i programmi di calcolo econometrico determinano d = DW . Da questa statistica si risale mediante la (5.7.3) a rˆ (1) = jˆ e quindi si possono calcolare le serie di quasi differenze { yt - jˆ × yt -1} e { xt - jˆ × xt -1} oltreché (1 - jˆ ) , necessarie per stimare la (5.2.2). Si noti che così facendo otteniamo stime che non soffrono dei difetti indicati nel paragrafo 5.5 ma non stimiamo più la (5.1.1) bensì la (5.7.2) che possiamo scrivere nella forma yt = j yt -1 + m (1 - j ) + b ( xt - j xt -1 ) + e t (5.7.4) Esempio 5.4 – Consideriamo la relazione (3.8.4) tra tasso di cambio nominale e prezzi relativi per la quale è stata calcolata una statistica d pari a 0.359 (tavola 5.1). Dalla (5.7.3) si trae che approssimativamente è jˆ = rˆ (1) = 0.821 per cui la (5.7.4) stimata diventa wˆ t = 0.821wˆ t -1 + 1.156 (1 - 0.821) - 0.325 ( xt - 0.821xt -1 ) (5.7.5) cioè wˆ t = 0.821wˆ t -1 + 0.207 - 0.325 ( xt - 0.821xt -1 ) campione 1970–2002 SE dei residui = 0.128; ; R2 = 0.742 RSS =0.511; TSS =1.982 Il metodo di Cochrane e Orcutt Sempre nel caso di schema autoregressivo sui residui AR(1), i due econometrici statunitensi D. Cochrane e G.H. Orcutt (1949) svilupparono, per determinare j , una procedura iterativa che utilizzava per la stima gli OLS. Tale procedura viene innescata da un valore iniziale arbitrario per j , prosegue con il calcolo delle quasi differenze, quindi con la stima OLS dell'equazione e dei residui. Tramite questi e la stima campionaria (5.6.3) si perviene ad un nuovo valore per j e la procedura viene iterata in un nuovo passo. E così via fino a che il miglioramento di j è inferiore ad una soglia prefissata (ad esempio 0.01). Il razionale di questo metodo si basa sul fatto che ad ogni iterazione il valore stimato di j è sempre più vicino al valore effettivo. Nel dettaglio, i passi della procedura sono: 118 1) si prefigura un valore ĵ 1 arbitrario (il numero in apice indica l’iterazione); ad esempio jˆ 1 = 0 oppure il valore che deriva dalla serie { û t } determinata stimando la prima delle (5.1.1) con gli OLS; 2) si calcolano le serie delle quasi differenze con jˆ = jˆ 1 e si stima con gli OLS l'equazione (5.7.2) 3) si calcola la serie {eˆt } e su di essa si stima jˆ = jˆ 2 ; 4) si iterano i passi 2) e 3) finché la differenza jˆ i - jˆ i -1 sia minore di una soglia prefissata. Questo metodo può avere due difetti. In primo luogo è possibile che la convergenza non venga raggiunta, cioè che jˆ i - jˆ i -1 non arrivi ed essere minore della soglia. Per ovviare a questo difetto è necessario cambiare il valore di ĵ 1 di innesco. In secondo luogo è possibile che la convergenza sia sì raggiunta, ma su di un minimo locale, e non globale, per la devianza dei residui. In altre parole, esiste un valore per ĵ diverso da quello di convergenza per il quale la devianza è ancora inferiore. Per ovviare a questo possibile difetto è utile ripetere la procedura più volte con valori di innesco differenti e verificare che in ciascuna la devianza finale sia sempre uguale. Se non lo è si sceglie il valore di convergenza al quale corrisponde la devianza minima. Il metodo di Cochrane-Orcutt ha il grande vantaggio computazionale di utilizzare per la stima soltanto gli OLS. Possiede, inoltre, una grande efficacia didattica poiché contiene, in nuce, gli elementi delle procedure iterative di ottimizzazione (in particolare degli OLS non lineari), con l'identificazione dei possibili difetti. In effetti l’equazione (5.7.4) che si vuole stimare è non lineare nei tre parametri j , m ¢ = m (1 - j ) e b in quanto esiste anche il prodotto b × j . Il metodo iterativo che hanno utilizzato Cochrane e Orcutt, di fissare in ogni iterazione un parametro e poi stimare gli altri due in un modello lineare fino al raggiungimento di una forma di convergenza, è un modo semplice ma efficace di trattare la non linearità, valido didatticamente sempre, e operativamente soprattutto quando non c’erano le capacità di calcolo che sono oggi disponibili. 119 5.8 Test di cambiamento strutturale per il modello semplice (Test del Chow) Affrontiamo ora il terzo tipo di malaspecificazione, quello che deriva dalla possibilità che il campione non sia tutto omogeneo ma presenti un punto in cui cambia. Supponiamo, in altre parole, che dal tempo 1 all’ n1 - esimo, il primo sottoperiodo, valga la struttura economica rappresentata dall’equazione yt = m1 + b1 xt + u1t t = 1, 2,K , n1 (5.8.1) e dal tempo ( n1 + 1) -esimo fino all’ ( n1 + n2 ) -esimo, il secondo sottoperiodo, valga un’altra struttura economica, rappresentata dall’equazione yt = m2 + b 2 xt + u2t t = n1 + 1, n1 + 2,K , n1 + n2 (5.8.2) In ciascuno dei due sottoperiodi, di lunghezza n1 ed n2 rispettivamente, supponiamo che il campione sia omogeneo, ma vogliamo verificare che i due campioni siano anche omogenei tra di loro. In questo caso valgono le ipotesi nulle H 0 : m1 = m 2 = m , b1 = b 2 = b (5.8.3) che non ci sia cambiamento strutturale e le due equazioni (5.8.1) e (5.8.2) sono identiche yt = m + b xt + ut t = 1, 2,K , n1 + n2 (5.8.4) I cambiamenti strutturali sono molto comuni nei sistemi economici: un esempio classico è dato dal cambiamento del regime di cambio, da fisso a flessibile e viceversa; un altro dal cambiamento della quota di imposizione fiscale, sulle imprese o sulle persone fisiche; un altro ancora dall’improvvisa scarsità di certe risorse in caso di guerra; ecc. Se si considera la relazione tra il tasso di cambio nominale (valuta nazionale italiana)/$USA e i prezzi relativi, stimata nella (2.11.6) e nella (3.8.4) è possibile che mostri un cambiamento di struttura nel 1979, quando l’Italia aderì ad un sistema (lo SME) di cambi fissi ma aggiustabili (in Europa). In questo caso il primo sottocampione andrebbe dal 1960 al 1979 e l’equazione stimata sarebbe wˆ t = 0.610 - 0.100 xt t: (17.349) t = 1960,1961,K ,1979 (5.8.5) (-7.647) campione 1960–1979; R 2 = 0.764 SE dei residui =0.024 ; RSS =0.011 ; TSS =0.046 120 mentre il secondo sottocampione andrebbe dal 1980 al 1992 (anno in cui l’Italia uscì dallo SME) e l’equazione stimata sarebbe t = 1980,1981,K ,1992 wˆ t = 1.006 - 0.249 xt t: (4.537) (5.8.6) (-1.392) campione 1980-1992; SE dei residui = 0.134; R 2 = 0.150 RSS =0.197 ; TSS =0.232 Ci si può domandare se le due equazioni (5.8.5) e (5.8.6) sono effettivamente differenti (cioè se nel 1979 c’è un cambiamento di struttura economica) oppure no, e si può stimare un equazione sola su tutto il periodo wˆ t = 0.953 - 0.224 xt t = 1960,1961,K ,1992 (5.8.7) campione 1960-1992; R 2 = 0.788 SE dei residui =0.094 ; RSS =0.272 ; TSS =1.282 Il caso n1 > k , n2 > k Per rispondere a questa domanda è opportuno ricorrere a dei test, che nella sostanza confrontano le variabilità della wt nei due sottocampioni: se esse sono uguali, i test ci spingono a considerare omogeneo l’intero campione; se sono significativamente diverse, i test ci spingono ad accettare il cambiamento strutturale. Illustriamo il primo di questi test, che si basa sulla devianza dei residui RSS ; questa sia RSSV nel caso del modello (5.8.4), dove il pedice “v” indica il fatto che la stima è stata effettuata sotto il “vincolo” dell’ipotesi nulla (5.8.3); il numero di g.d.l. associato a questa devianza è evidentemente uguale alla numerosità dell’intero campione, n1 + n2 , meno il numero dei parametri da stimare, che nel caso del (5.8.4) è 2 ma che nel test prendiamo genericamente pari a k per poter usare questo anche in relazione ai modelli multipli. D’altro canto la devianza RSS NV del modello in cui non vale la nulla (5.8.3), e quindi è formato dalle due equazioni (5.8.1) e (5.8.2), è data dalla somma delle devianze dei residui delle due equazioni, e il numero di g.d.l. associato è dato dalla somma dei due g.d.l., n1 - k e n2 - k , cioè n1 + n2 - 2k . Facciamo la differenza di queste due devianze e dividiamola per la differenza dei numeri di g.d.l. relativi 121 RSSV - RSS NV = ( RSSV - RSS NV ) k ( n1 + n2 - k ) - ( n1 + n2 - 2k ) (5.8.8) che dimostreremo nel caso dei modelli multipli possedere distribuzione del c 2 divisa per il proprio numero di g.d.l. che è proprio k . Ancora distribuzione del c 2 divisa per il proprio numero di g.d.l. è avuta da RSS NV ( n1 + n2 - 2k ) , come ancora dimostreremo nel caso dei modelli multipli, di modo che il rapporto ( RSSV - RSS NV ) k RSS NV ( n1 + n2 - 2k ) (5.8.9) ( n1 + n2 - 2k ) ha distribuzione della F di Fisher con k e g.d.l., come indicato nell’appendice 3.2. Anche l’indipendenza del numeratore e del denominatore della (5.8.9) sarà dimostrata in seguito. Tramite il rapporto (5.8.9) è possibile verificare l’ipotesi nulla (5.8.3) con il cosiddetto test della F di Fisher. Il test della F di Fisher Poiché sotto la H 0 il rapporto (5.8.9) ha distribuzione Fk , n1 + n2 -2 k nel 95% dei casi si colloca nella regione di accettazione del test éë0, F ) dove F è il quantile di probabilità ) 95%, mentre nel 5% dei casi si colloca nella regione di rifiuto éë F , + ¥ . Basta allora calcolare il valore (5.8.9) e trovare il quantile F dalle tavole della F di Fisher con k, ( n1 + n2 - 2k ) g.d.l.; se tale valore cade nell’intervallo éë0, F ) si è spinti ad accettare l’ipotesi (5.8.3) di omogeneità, altrimenti a rifiutarla (ed accettare quindi l’ipotesi di cambiamento strutturale). Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90%, a seconda dei desideri del ricercatore. L’effettuazione del test procede quindi per i passi seguenti: 1) Si stima l’equazione (5.8.4) e si determina RSSV (con n1 + n2 - k g.d.l.) 2) Si stima l’equazione (5.8.1) e si determina RSS1 (con n1 - k g.d.l.) 3) Si stima l’equazione (5.8.2) e si determina RSS 2 (con n2 - k g.d.l.) 4) Si determina RSSV = RSS1 + RSS 2 (con n1 + n2 - 2k g.d.l.) 5) Nel caso del modella (5.8.4) si calcola il rapporto (5.8.9) con k = 2 . 122 6) Si trova il valore soglia F nelle tavole della F2, n1 + n2 - 4 avendo scelto il livello di significatività al 90 o al 95 o al 99%. 7) Se il rapporto (5.8.9) cade nell’intervallo éë0, F ) si è spinti ad accettare l’ipotesi nulla (5.8.3) di omogeneità del campione; se cade in éë F , + ¥ ) si è spinti ad accettare l’ipotesi alternativa di cambiamento strutturale. Nel caso dell’esempio precedente si ottiene RSSV = 0.272, RSS NV = RSS1 + RSS 2 = 0.011+0.197 = 0.208, k = 2, n1 = 20, n2 = 13 ) per cui il rapporto (5.8.8) vale 4.462. Questo valore cade nell’intervallo éë F , + ¥ , dove F è il quantile al 95% della distribuzione della F2,29 , 3.33 , e quindi si è spinti ad accettare l’ipotesi di cambiamento strutturale. Il caso n1 > k , n2 £ k Spesso accade che uno dei due sottoperiodi sia molto corto, con un numero di osservazioni inferiore o uguale a k, che nel caso dei modelli semplici vale 2. Se supponiamo, come in genere accade e senza perdere in generalità, che questo sottoperiodo sia il secondo, si ha che la devianza residua relativa è nulla e quindi RSS NV si riduce alla sola devianza residua RSS1 della prima equazione, con n1 - k g.d.l. La (5.8.7) diventa allora RSSV - RSS1 = ( RSSV - RSS1 ) n2 ( n1 + n2 - k ) - ( n1 - k ) (5.8.9) ( RSSV - RSS1 ) n2 RSS1 ( n1 - k ) (5.8.10) e la (5.8.8) per cui i passi del test precedente diventano ora 1) e 2) Come sopra. 3) e 4) RSS 2 = 0 per cui RSS NV = RSS1 . 5) Si calcola il rapporto (5.8.10) con k = 2 . 6) Si trova il valore soglia F nelle tavole della Fn2 , n1 - 2 avendo scelto il livello di significatività al 90 o al 95 o al 99%. 7) Come sopra, sostituendo il valore di (5.8.10) a quello di (5.8.9). 123 Il fatto che il rapporto (5.8.10) abbia distribuzione della F di Fisher è stato dimostrato dal Chow (1960) ed è per questo che il test relativo è detto test del Chow. Per estensione si usa dare lo stesso nome anche al test che utilizza la statistica (5.8.8). 124 5.9 Il test di normalità di Jarque – Bera Ci occupiamo ora di verificare l’ipotesi v) che impone ai residui di avere distribuzione normale per potersi fare inferenza statistica sulle stime. Il test che utilizziamo, sviluppato da Jarque e Bera (1987), controlla due caratteristiche della normale, dette simmetria e curtosi, di definizione ovvia la prima e concernente la piattezza del picco la seconda. Misurando le due caratteristiche con due indici appositi, e conoscendo i valori di questi indici per la normale, il test di Jarque e Bera suggerisce di considerare non normale la distribuzione con valori degli indici lontani da quelli della normale. L’indice di asimmetria 28 è dato semplicemente da a3 = 1 3 × E é( x% - m ) ù 3 ë û s (5.9.1) con m = E ( x% ) cioè dal valor medio dello scarto x% - m al cubo, diviso per il cubo di s . Si 3 2 noti che E é( x% - m ) ù ha la stessa conformazione della varianza s 2 = E é( x% - m ) ù e che ë û ë û 1 s 3 serve soltanto per normalizzare a 3 . Ovviamente è a 3 = 0 per la normale. L’indice di curtosi 29 è definito in modo del tutto analogo a4 = 1 4 × E é( x% - m ) ù 4 ë û s sostituendo al cubo la potenza quarta. Si può dimostrare che per la normale è a 4 = 3 . Jarque e Bera hanno dimostrato che sotto l’ipotesi nulla di normalità la variabile aleatoria né 1 2ù JB% = êaˆ32 + (aˆ 4 - 3 ) ú 6ë 4 û dove â 3 ed â 4 sono gli stimatori campionari di a 3 ed a 4 , rispettivamente, approssimativamente e per n grande ha distribuzione del c 2 con 2 g.d.l., per cui una volta determinato il valore JB, questo viene utilizzato entro un semplice test del chi quadrato per verificare la normalità dei residui. Si noti che il valore JB dei residui di un’equazione è generalmente fornito nei risultati della stima della maggior parte dei programmi di calcolo econometrico. 28 Skewness coefficient, in inglese. 29 Kurtosis coefficient, in inglese. 125 Appendice 5.1 Complementi analitici Uguaglianza tra coefficiente di autocorrelazione del primo ordine e r Tale uguaglianza è facilmente mostrata con l’uso del cosiddetto operatore di ritardo Ls , tale che applicato nella generica variabile zt la ritarda di s unità temporali (A.5.1.1) Ls zt = zt - s e per il quale valgono le proprietà Ls ( a zt + b wt ) = a zt -s + b wt - s (A.5.1.2) a Ls + b Ls = ( a + b ) Ls (A.5.1.3) Ls Ln = Ls +n (A.5.1.4) con a e b costanti arbitrarie. Inoltre (A.5.1.5) Ls a = a da cui, ovviamente, Ls1 = 1 Applicando la (A.5.1.1) nella (5.6.4) si ottiene (1 - jL)u t = e t ut = (A.5.1.6) 1 e t = (1 + jL + j 2 L2 + ...) = e t 1 - jL se ½j½<1 e dove è stata utilizzata la somma infinita dei termini di una successione geometrica di ragione j2; allora E (u~t ) = (1 + jL + j 2 L2 + ...) × E ( ~et ) = 0 Cov(u~t , u~t -1 ) = E (u~t × u~t -1 ) = E[(ju~t -1 + ~et )u~t -1 ] = js u2 r(1) = js u2 / s u2 = j (A.5.1.7) "t "t (A.5.1.8) (A.5.1.9) 126 CAPITOLO VI IL MODELLO LINEARE MULTIPLO 127 6.1 I vettori e la moltiplicazione righe per colonne Le stesse argomentazioni che hanno portato a costruire il modello (2.6.1) nel quale c’è una sola variabile esplicativa x t possono essere utilizzate nel caso in cui di esplicative ce ne siano più di una. In effetti nello stesso (2.6.1) possiamo supporre che siano presenti due variabili esplicative, x1t ed x 2t , in tal guisa che esso diventi yt = m x1t + b x2t + ut (6.1.1) e che sia costantemente "t x1t = 1 (6.1.2) Il modello costituito dalle due equazioni (6.1.1) e (6.1.2) è esattamente equivalente al (2.6.1) ma ci permette di introdurre un nuovo modo di scrittura matematica che agevola notevolmente i calcoli: il modo vettoriale e matriciale, relativo cioè ai vettori e alle matrici. Nella (6.1.1) abbiamo due parametri, m e b , che possiamo mettere in fila, l’uno accanto all’altro, [m b] (6.1.3) formando quello che si chiama vettore riga (dei due parametri). Analoga operazione può essere effettuata con le due variabili x1t ed x 2t [ x1t x2 t ] (6.1.4) ottenendosi il vettore riga delle variabili. Si noti che i due vettori sono definiti tramite parentesi quadre. I due parametri nella (6.1.3) così come le due variabili nella (6.1.4) costituiscono gli elementi dei vettori riga. In ambito vettoriale (e matriciale) questi elementi (numeri o lettere) sono detti scalari. Il numero degli elementi componenti un vettore ne costituisce la dimensione. Se i due elementi sono messi uno sopra l’altro invece che accanto, si ha un nuovo tipo di vettori, quelli chiamati colonna; il vettore colonna dei parametri è allora ém ù êb ú ë û (6.1.5) e il vettore colonna delle variabili esplicative è l’altro é x1t ù êx ú ë 2t û (6.1.6) 128 che denotiamo, per essere brevi, con una sola lettera, ma in grassetto per far capire che è un vettore, β per i parametri e x per le variabili ém ù β=ê ú ëb û é x1t ù xt = ê ú ë x2 t û , (6.1.7) Chiamati in questa maniera i due vettori colonna, ci si aspetterebbero altri nomi per i due vettori riga, ma, sempre per essere sintetici, usiamo gli stessi simboli, β e x , sebbene questa volta con un apice, β¢ e x¢ , β¢ = [ m b] , x¢t = [ x1t x2 t ] (6.1.8) In effetti i vettori riga differiscono fondamentalmente da quelli colonna, come in seguito sarà meglio evidenziato, e quindi è necessario differenziarli in qualche modo, appunto con un apice. I vettori riga (6.1.8) sono detti trasposti dei vettori colonna (6.1.7) e viceversa. Il passaggio dai primi ai secondi, o da questi a quelli, forma un’operazione, che è detta di trasposizione. Tramite i vettori (6.1.7) e (6.1.8) è possibile scrivere in maniera semplificata la combinazione lineare m x1t + b x2t del modello (6.1.1): definiamo infatti una seconda operazione, la moltiplicazione righe per colonne tra un vettore riga ed un vettore colonna, che si effettua moltiplicando ciascun elemento del vettore riga per l’elemento di posto corrispondente nel vettore colonna e sommando i prodotti ottenuti [m é x1t ù b ] × ê ú = m x1t + b x2t ë x2t û (6.1.9) Il risultato della moltiplicazione è allora uno scalare che viene appunto chiamato prodotto scalare; facendo uso della prima delle (6.1.8) e della seconda della (6.1.7) possiamo scrivere questo come β¢ xt . Poiché è m x1t + b x2t = x1t m + x2 t b si ha che β¢ xt = x¢t β (6.1.10) che è un altro modo di scrivere il prodotto scalare β¢ xt . In effetti se usiamo della proprietà dell’operazione di trasposizione secondo la quale il trasposto di un prodotto 129 (scalare di due vettori) è uguale al prodotto dei trasposti dei due vettori invertiti di posto otteniamo ( β¢ xt )¢ = x¢t ( β¢ )¢ = x¢t β (6.1.11) dove nell’ultimo passaggio abbiamo utilizzato l’ovvio fatto che il trasposto di un vettore trasposto è uguale al vettore stesso. La (6.1.11) indica un altro ovvio fatto: che il trasposto di uno scalare (un numero o una lettera) è lo scalare stesso. Sfruttando la (6.1.9), allora, la (6.1.1) può essere scritta in termini vettoriali nella forma yt = β¢ xt + ut (6.1.12) yt = x¢t β + ut (6.1.13) oppure, per la (6.1.10), nell’altra 130 6.2 Il modello lineare multiplo L’utilità di scrivere la (6.1.1) nei termini vettoriali (6.1.12) non è molto evidente; ma lo diventa quando invece di avere soltanto due variabili esplicative ne abbiamo un numero maggiore, k yt = b1 x1t + b 2 x2t + K + b k xkt + ut (6.2.1) Se poniamo β¢ = [ b1 b 2 K b k ] , x¢ = [ x1t x2 t K xkt ] (6.2.2) il prodotto scalare (6.1.9) diventa ora é x1t ù êx ú β¢xt = [ b1 b 2 K b k ] ê 2t ú = b1 x1t + b 2 x2 t + K + b k xkt êM ú ê ú ë xkt û (6.2.3) e la (6.2.1) può essere scritta nella forma vettoriale (6.1.12), molto più sintetica e quindi più utile. Il modello (6.2.1) è lineare e multiplo, perché contiene un numero di variabili esplicative k superiore ad uno (più l’intercetta). In Statistica esso forma una regressione lineare multipla. Il termine additivo ut misura tutto quanto non è spiegato dalle variabili esplicative xit e per questo motivo è chiamato residuo; esso è costituito tra l’altro dalla possibile aggregazione di: - variabili che non sono state inserite tra le esplicative (omesse) e che invece spiegherebbero parte di yt , - impulsi accidentali prodotti dal sistema economico su yt , validi soltanto per alcune t e non in modo sistematico per tutto il campione, - elementi caratteristici di yt , ad esempio le stagionalità, che non si riesce a spiegare per mezzo delle xit , - errori nella misurazione della yt , - elementi di disturbo dovuti al fatto che la specificazione della (6.2.1) è lineare, mentre avrebbe dovuto essere non lineare rispetto ad alcune delle variabili esplicative. 131 Osservazione 6.1 - Da questa caratterizzazione segue che non ha senso considerare ut come un errore, anche se in tale modo sovente viene chiamato a seguito delle prime utilizzazioni del modello (6.2.1) in demografia e nelle scienze fisiche. Questa denominazione, in econometria, è chiaramente un errore. Facciamo due esempi di applicazione della (6.2.1) che contiene la (2.6.1) come caso particolare: questa è stata esposta prima ai fini esclusivamente didattici. Nel primo esempio rappresenta una funzione delle esportazioni ln yt = b1 + b 2 ln x2t + b 3 ln x3t + b 4 ln x4t + b5 ln x5t + ut (6.2.5) nella quale esiste l’intercetta b1 per cui la variabile esplicativa corrispondente è stata posta costantemente uguale ad uno, yt = importazioni di beni e servizi, x2t = consumi finali interni delle famiglie più consumi collettivi, x3t = investimenti fissi lordi più esportazioni di beni e servizi più variazione delle scorte, x4t = deflatore implicito delle importazioni, x5t = deflatore implicito del PIL, per cui b 2 > 0 , b 3 > 0 , b 4 < 0 , b 5 > 0 . La (6.2.5) è un’equazione log–lineare, cioè lineare nei logaritmi delle variabili, ed è facilmente linearizzabile sostituendo una variabile non logaritmizzata wt al posto di ogni logaritmizzata. In un secondo esempio la (6.2.1) rappresenta una funzione della domanda di moneta ln yt = b1 + b 2 ln x2 t + b 3 x3t + ut (6.2.6) dove yt = domanda di moneta in termini reali x2t = prodotto interno lordo in termini reali x3t = tasso d’interesse a breve per cui b 2 > 0 , b 3 < 0 . 132 6.3 I minimi quadrati nel modello lineare multiplo I residui presenti nella (6.2.1) hanno lo stesso significato illustrato nel paragrafo 2.6 per il modello semplice: rappresentano la distanza tra i punti yt osservati e (non più la retta funzione di una sola variabile esplicativa ma) l’iperpiano individuato dalla combinazione lineare b1 x1t + b 2 x2t + K + b k xkt . Se k =3 e x1t = 1 , "t , l’iperpiano diventa un piano classico, funzione di due variabili soltanto, la x2t e la x3t . Sorge, a questo punto, il problema di determinare le stime dei parametri bˆ1t , bˆ2 t , … , bˆkt con un particolare criterio (illustreremo in seguito quello dei minimi quadrati); trovate queste, si stimano anche i residui secondo la stessa regola del paragrafo 2.4. ( uˆt = yt - yˆt = yt - bˆ1 x1t + bˆ2 x2 t + K + bˆk xkt ) (6.3.1) Anche in questo caso di modello multiplo, che per maggiore semplicità scriviamo nella forma vettoriale (6.1.12), la combinazione lineare β¢ xt è la componente sistematica del modello mentre u%t ne rappresenta la componente aleatoria, che può essere stimata tramite la (6.3.1). Per arrivare a questo possiamo utilizzare il criterio dei minimi quadrati, che abbiamo già introdotto nel paragrafo 2.3: dobbiamo determinare i valori dei parametri contenuti nel vettore β in modo che sia minimizzata la devianza dei residui S ( β ) n n min å ut2 = min å ( yt - β¢x t ) = min S ( β ) β t =1 β 2 t =1 (6.3.2) β catena di uguaglianze che generalizza la (2.6.2). Per trovare l’espressione di S ( β ) in modo da poter effettuare la minimizzazione (6.3.2) scriviamo la (6.2.1) nella forma (6.1.13) per ogni t del campione, da 1 a n, ì y1 = [ x11 x21 K xk 1 ] β + u1 ï ï y2 = [ x12 x22 K xk 2 ] β + u2 í ïK ï y = [ x x K x ]β + u 1n 2 n kn n î n (6.3.3) sistema di equazioni che possiamo scrivere ancora nell’altra forma 133 é y1 ù é x11 ê y ú êx ê 2 ú = ê 12 êM ú êM ê ú ê ë yn û ë x1n x21 K xk1 ù éu1 ù ú êu ú x22 K xk 2 ú β+ê 2ú êM ú M M ú ú ê ú x2 n K xkn û ë un û (6.3.4) dove le yt sono state racchiuse in un vettore colonna, così come le ut , e i vettori riga [ x1t x2t K xkt ] sono stati racchiusi in un vettore colonna che ha per elementi i vettori riga di cui sopra; questo vettore di vettori è chiamato matrice, è indicato con X e vale ancora per esso la moltiplicazione righe per colonne, che avviene in ogni riga é x11 ê x Xβ = ê 12 êM ê ë x1n x21 K xk1 ù é b1 x11 b 2 x21 K b k xk 1 ù ú ê ú x22 K xk 2 ú b1 x12 b 2 x22 K b k xk 2 ú ê β= êM M ú M M ú M ú ê ú x2n K xkn û ë b1 x1n b 2 x2 n K b k xkn û (6.3.5) Se indichiamo con y il vettore delle yt e con u quello dei residui ut , la (6.3.4) può quindi essere scritta nella forma compatta y = Xβ + u (6.3.6) che chiamiamo matriciale. In questa forma abbiamo utilizzato una nuova operazione tra vettori, la terza dopo quelle di trasposizione e di moltiplicazione righe per colonne. E’ l’operazione di addizione tra vettori che hanno la stessa dimensione, quello Xβ dato dalla (6.3.5) e il vettore u : il risultato dell’addizione di due o più vettori della stessa dimensione è un vettore (somma) che ha come elementi le somme degli elementi dello stesso posto nei vettori addendi. Per trovare S ( β ) effettuiamo la moltiplicazione righe per colonne di u per se stesso éu1 ù ê ú n u u¢u = [u1 u 2 K u n ] ê 2 ú = u12 + u22 + K + un2 = å ut2 êM ú t =1 ê ú ë un û (6.3.7) dalla quale si vede che la devianza dei residui è proprio uguale al prodotto scalare u¢u , per cui il criterio dei minimi quadrati (6.3.2) impone la minimizzazione, rispetto a β , di n S ( β ) = å ut2 = u ¢u = ( y - Xβ )¢ ( y - Xβ ) (6.3.8) t =1 dove nell’ultimo passaggio si è posto 134 u = y - Xβ (6.3.9) tratta dalla (6.3.6) con lo spostamento di Xβ all’altro membro. 135 6.4 Vettori e matrici Rivediamo ora teoricamente i concetti di algebra matriciale, cioè riguardanti i vettori e le matrici, utilizzati nei tre paragrafi precedenti e che utilizzeremo nel seguente. Vettori Se mettiamo in fila gli elementi di una successione (di numeri, di lettere, …), con indice variabile da 1 a n, a1 a2 … an (6.4.1) otteniamo un vettore. Parimenti, costituiscono un vettore gli elementi di una serie storica {xt} x 1 x2 … xn che si differenziano da quelli in (6.4.1) semplicemente perché sono associati ad un indice temporale. In generale un vettore è formato da una ennupla di elementi (ad esempio numeri reali) indicata con una lettera in neretto, ad esempio a. Il numero intero n costituisce la dimensione del vettore. Un vettore reale di dimensione 1 è uno scalare, ovvero un numero reale. Per convenzione, gli elementi sono organizzati in colonna é a1 ù êa ú a = ê 2ú ê ... ú ê ú ëa n û In altri termini, in mancanza di indicazioni contrarie i vettori che considereremo saranno tutti vettori colonna. Dato un vettore a, si utilizza un apice per denotarne il trasposto, ovvero un vettore che contiene gli stessi elementi di a, ma organizzati in riga a¢=[a1 a2 … an]. Trasponendo nuovamente un vettore riga si ottiene un vettore colonna, ed è quindi possibile scrivere ad esempio a = [a 1 a2 … an]¢. Il vettore 0 è quello i cui elementi sono tutti nulli. Operazioni tra vettori Due vettori della stessa dimensione a = [a1 a 2 … a n]¢ e b = [b 1 b2 … bn]¢ sono detti uguali se ai = bi per ogni i; la loro somma è il vettore il cui elemento i-esimo è dato dalla somma degli elementi di posto i in a e in b 136 c = a + b = [a1+b1, a2+b2, …, an+b n]¢ Queste definizioni si estendono immediatamente al caso di più di due vettori (di uguale dimensione). Dati tre vettori a, b e c, si verificano facilmente le proprietà a+b = b+a , (a+b)+c = a+(b+c) = a+b+c Il prodotto d×a del vettore a per lo scalare d è il vettore il cui elemento i-esimo è dato dal prodotto di d per l'elemento di posto i in a: da = [da 1, da2, … dan]¢. Dati due vettori di uguale dimensione a e b e due scalari d ed f, si verificano immediatamente le proprietà d(a+b) = da+db , (d+f)a = da+fa d(fa) = f(da) = dfa , (da+fb)¢ = da¢+fb¢ L’operazione di moltiplicazione di un vettore per uno scalare ci permette di definire la differenza fra due vettori a e b, che si ottiene moltiplicando il secondo per lo scalare –1 e sommandolo al primo: a – b = a + (-1)´b = [ a 1 – b1, a2 – b 2, …, a n – bn ]¢. Si chiama prodotto scalare (o interno) a¢b di due vettori a e b che hanno la stessa dimensione n lo scalare uguale alla somma dei prodotti degli elementi che hanno lo stesso posto nei due vettori a¢b = a1b1 + a2b2 + K + anbn (6.4.2) Poiché a¢ è un vettore riga e b è una colonna questa operazione è detta moltiplicazione riga per colonna. Dalla (6.4.2) si trae che la somma dei quadrati degli elementi di un vettore a=[a 1 a2 … a n]¢ può essere espressa mediante il prodotto scalare n a ¢a = å ai2 (6.4.3) i =1 La devianza totale e la residuale di un modello di regressione costituiscono esempi di prodotto scalare del tipo (6.4.3). Matrici Una tavola a doppia entrata di elementi (ad esempio numeri reali) disposti su n righe ed m colonne, con n ed m interi positivi, è detta matrice ed è indicata con una lettera maiuscola in neretto 137 é a11 êa A = ê 21 ê ... ê ëa n1 a12 a 22 ... ... ... an2 ... ... a1m ù a 2m úú ... ú ú a nm û (6.4.4) Tale matrice è detta avere ordine n´m ed è composta dagli elementi aij, i = 1, 2, …, n, j = 1, 2, …, m. Se n = m, la matrice è detta quadrata, di ordine n. Un vettore riga ad n dimensioni è una particolare matrice di ordine 1´n, mentre un vettore colonna della stessa dimensione è una matrice di ordine n´1. Gli elementi aii, i = 1, 2, …, n, di una matrice quadrata appartengono alla diagonale principale e sono detti elementi diagonali; l'altra diagonale di una matrice quadrata è detta secondaria. Una matrice quadrata di ordine 1 è uno scalare. Se tutti gli elementi di una matrice sono nulli, essa è detta matrice nulla ed è indicata con 0. Se tutti gli elementi di una matrice quadrata sono nulli salvo quelli dislocati sulla diagonale principale, la matrice è detta diagonale ed è indicata con éd 1 ê0 D=ê ê ... ê ë0 0 d2 ... 0 0ù ... 0 úú ... ... ú ú ... d n û ... (6.4.5) dove le dj sono gli n elementi non nulli della matrice, detti elementi diagonali. Se gli elementi diagonali sono tutti pari ad uno, la matrice è detta unitaria o identica (o unità) ed è indicata con é1 ê0 In = ê ê... ê ë0 0 1 ... ... ... 0 ... ... 0ù 0 úú ...ú ú 1û (6.4.6) dove l'indice n, che rappresenta l'ordine della matrice quadrata, può essere omesso. 138 6.5 Operazioni tra matrici Due matrici dello stesso ordine sono uguali se gli elementi corrispondenti (dello stesso posto) sono uguali. La somma C = A+B di due matrici che hanno lo stesso ordine è una matrice ancora dello stesso ordine che ha per elemento generico cij = aij+b ij . Questa definizione è immediatamente generalizzata al caso della differenza e a quello della somma di più di due matrici. Si può facilmente verificare che valgono le proprietà A+B=B+A (A + B) + C = A + (B + C) = A + B + C Il prodotto di una matrice A per uno scalare d è la matrice che ha per elemento generico da ij. La trasposizione di una matrice A di ordine n´m e di elemento generico aij è una operazione che trasforma A nella matrice A¢ di ordine m´n e di elemento generico aji; in altre parole, nella trasposizione si scambiano le righe con le colonne, ovvero il jesimo vettore riga di A¢ è il trasposto del j-esimo vettore colonna di A. La matrice A¢ è detta trasposta di A. Esempio 6.1 - La trasposta di é2 A=ê ë3 1 0 é2 4ù ê è A¢ = 1 ú ê 1û ëê4 3ù 0úú 1ûú Esempio 6.2 - Sia A¢ la trasposta della matrice A dell'esempio precedente ed inoltre sia é1 B = êê2 êë3 1ù 2úú 0 úû (6.5.1) Allora la loro matrice somma C è data da é3 C = A ¢ + B = êê3 êë7 4ù 2úú 1 úû Se A è quadrata ed uguale alla sua trasposta, è detta simmetrica (è aij=aji). Se d ed f sono due scalari, valgono le proprietà (A¢)¢=A , (dA)¢=dA¢ , (dA+fB)¢=dA¢+fB¢ (6.5.2) 139 Si dice prodotto righe per colonne A×B della matrice A, n´m, per la B, m´k, la matrice C = A×B di ordine n´k con elemento generico c ij = m åa s =1 b . Il nome di questo prodotto is sj deriva dal fatto che ogni elemento di C è costituito dalla combinazione lineare degli elementi di una colonna di B con pesi dati dagli elementi di una riga di A. Si noti che cij è il prodotto scalare (6.4.2) dell’i-esima riga di A per la j-esima colonna di B. Esempio 6.3 - Se A e B sono le matrici degli esempi precedenti il loro prodotto righe per colonne è é2 × 1 + 1 × 2 + 4 × 3 A ×B = ê ë3 × 1 + 0 × 2 + 1 × 3 2 × 1 + 1 × 2 + 4 × 0ù é16 = 3 × 1 + 0 × 2 + 1 × 0 úû êë 6 (6.5.3) 4ù 3 úû A meno che non sia k=n il prodotto B×A non esiste; inoltre, per k=n, in generale è A×B ¹ B×A, cioè non vale per le matrici la proprietà commutativa della moltiplicazione. Esempio 6.4 - Date le matrici A e B dell'esempio precedente, si ha é 1× 2 + 1× 3 B × A = êê2 × 2 + 2 × 3 êë 3 × 2 + 0 × 3 1 ×1 + 1 × 0 2 ×1 + 2 × 0 3 ×1 + 0 × 0 1 × 4 + 1×1 ù é 5 2 × 4 + 2 × 1úú = êê10 3 × 4 + 0 × 1úû êë 6 1 2 3 5ù 10úú 12úû (6.5.4) Allora il prodotto di A, 2´3, per B, 3´2, è una matrice di ordine 2´2; il prodotto B×A è una matrice di ordine 3´3. Osservazione 6.1 - Poiché i vettori sono casi particolari di matrici, il vettore riga a¢ di n elementi può essere considerato come il trasposto del vettore colonna a. Il prodotto scalare a¢b tra due vettori che hanno la stessa dimensione n è quindi una matrice di dimensione 1´1, cioè uno scalare. Invece il prodotto ab¢ è una matrice quadrata di ordine n. Esempio 6.5 - Dato il vettore a=[0 1 -1 0 0]¢ di dimensione cinque, il prodotto aa¢ vale é 0ù ê 1ú ê ú aa ¢ = ê - 1ú[0 ê ú ê 0ú êë 0úû 1 -1 0 é0 ê0 ê 0] = ê0 ê ê0 êë0 0 1 0 -1 0 0 -1 1 0 0 0 0 0 0 0 0ù 0úú 0ú ú 0ú 0úû matrice quadrata di ordine cinque. 140 Se A è di ordine n´m, B e C sono di ordine m´k e D è di ordine k´v, valgono le seguenti proprietà, con d, f, h scalari e con le matrici 0 ed I di ordine appropriato, 0×A = A×0 = 0, I×A = A×I = A A(fB + hC) = fAB + hAC (dA)B = A(dB) = d(AB) = dAB (A×B)¢ = B¢A¢ , (AB)D = A(B×D) = A×B×D (6.5.5) come facilmente si verifica. Osservazione 6.2 - Se A è una matrice di ordine n´m, il prodotto A¢A è una matrice quadrata di ordine m simmetrica, cioè tale che aij = a ji . Infatti essa è uguale alla sua trasposta per la prima delle (6.5.5) (A¢A)¢=A¢A dove abbiamo anche sfruttato la prima delle (6.5.2). Se A è una matrice di ordine n´m e b è un vettore m´1, il prodotto Ab è un vettore colonna n´1. Esempio 6.7 - Siano la matrice A ed il vettore b definiti negli esempi precedenti; allora é2 Ab = ê ë3 1 0 é 3ù 4ù ê ú é16ù 2 = 1 úû ê ú êë11úû êë 2úû Se A è una matrice di ordine n´m e b¢ è un vettore 1´n, il prodotto b¢A è un vettore riga 1´m. Esempio 6.8 - Sia la matrice A degli esempi precedenti e b¢=[2 3]; allora é 2 1 4ù b ¢A = [2 3] ê ú = [13 2 11] ë3 0 1 û La matrice inversa Si definisce con A -1 la matrice inversa sinistra della matrice quadrata A , cioè quella per la quale A -1A = I (6.5.6) Analogamente si può definire la matrice inversa destra A -1 della matrice quadrata A in modo tale che sia AA -1 = I Poiché AA -1 = A -1 A = I , l’inversa destra e l'inversa sinistra di una matrice quadrata coincidono e sono semplicemente dette inversa. 141 Il determinante Data una matrice quadrata A di ordine n, si dimostra che la sua inversa consiste nel prodotto dell'inverso del suo determinante, che è uno scalare, per la sua matrice aggiunta, anche questa di ordine n, che definiremo nell’appendice 6.2. Segue da questo che anche la matrice inversa è di ordine n. Se indichiamo con det A il determinante e con agg A l'aggiunta, si ha, dunque, A -1 = 1 aggA detA (6.5.7) dalla quale segue che se det A ¹0 allora esiste l'inversa A -1 ; in questo caso la matrice A è detta non singolare. Se det A =0, la matrice è chiamata singolare. 142 6.6 Le stime dei minimi quadrati S’è detto nel paragrafo 6.3 che le stime del vettore di parametri β ottenute con il criterio dei minimi quadrati impongono la minimizzazione della devianza S ( β ) data dalla (6.3.8). Nell’appendice 6.1 si dimostra che questo avviene se valgono le equazioni normali ( X¢X ) βˆ = X¢y (6.6.1) dalle quali si trae il vettore delle stime dei parametri moltiplicando a sinistra per la matrice quadrata ( X¢X ) -1 se questo esiste -1 βˆ = ( X¢X ) X¢y Queste stime vengono chiamate dei minimi quadrati (6.6.2) ordinari (OLS) per differenziarle da altre, ancora ottenute con il criterio dei minimi quadrati, che esporremo in seguito. ( X¢X ) esiste se il suo determinante è nonnullo, la det ( X¢X ) ¹ 0 (6.6.3) Poiché l’inversa della matrice stima (6.6.2) esiste se vale l’ipotesi Le stime dei residui Dalla stima β̂ dei parametri definita dalla (6.6.2) si traggono immediatamente la ŷ teorica che fa da controaltare alla y osservata definita dalla (6.3.6) yˆ = X βˆ (6.6.4) generalizzante la prima delle (2.6.2), e il residuo stimato uˆ = y - yˆ = y - X βˆ (6.6.5) generalizzante la seconda delle (2.6.2). Se il modello (lineare multiplo) contiene l’intercetta, una delle colonne di X è formata da tutti uno per cui in virtù dell’ortogonalità X¢uˆ = 0 (6.6.6) dimostrata nella (A.6.1.4), una delle equazioni del sistema (6.6.6) è éuˆ1 ù êuˆ ú [1 1K1] êê M 2 úú = 0 ê ú ëuˆn û cioè 143 n å uˆ t =1 t =0 (6.6.7) proprietà fondamentale dei residui stimati che generalizza la prima delle (2.6.10). Poiché poi dalla (6.6.5) si trae che uˆt = yt - yˆ t (6.6.8) identica alla seconda delle (2.6.2) nel caso del modello semplice, addizionando per ogni t nella (6.6.8) e tenendo conto della (6.6.7) si ha n n t =1 t =1 0 = å yt - å yˆt da cui 1 n 1 n yˆt = å yt = y å n t =1 n t =1 (6.6.9) cioè la media campionaria delle yˆ t (teoriche) è uguale a quella y delle variabili osservate. 144 6.7 Il coefficiente di determinazione corretto Se nel modello con k variabili esplicative se ne aggiunge una che non spiega alcunché il modello con k+1 esplicative possiede un R2 leggermente maggiore di quello con k ma i suoi parametri vengono stimati con un numero inferiore di g.d.l. e quindi le stime sono più imprecise. E’ perciò utile disporre di un indice che valuti la bontà di adattamento di un modello ai dati come l’ R 2 ma tenga anche conto della numerosità delle variabili esplicative: diminuendo all’aumentare di queste. Un R 2 così modificato (corretto, in termini tecnici) può essere trovato nella maniera seguente. Se si dividono per n le due devianze nella (2.8.3) si ottiene 1 n 1 n 2 ( y t - yˆ t ) 2 å å uˆ t n t =1 n t =1 2 R =1=1- n 1 n 1 2 ( yt - y) å å ( yt - y ) 2 n t =1 n t =1 (6.7.1) che mostra chiaramente come l’ R 2 misuri la proporzione di varianza totale spiegata dal modello di regressione. Tuttavia nella (6.7.1) si utilizzano gli stimatori costituiti dalle varianze campionarie, che sono distorti. Se a tali stimatori distorti si sostituiscono quelli non distorti si ottiene un coefficiente di determinazione leggermente diverso dal (6.7.1), detto corretto rispetto ai gradi di libertà, Rc2 = 1 - 1 n-k n å uˆ t =1 2 t (6.7.2) n 1 ( yt - y) 2 å n - 1 t =1 Siamo così passati dal rapporto fra devianze (6.7.1) al rapporto fra varianze (campionarie) (6.7.2), nell’ultimo dei quali si tiene esplicito conto del numero di variabili esplicative k. Se, dato un modello, gli si aggiunge una variabile esplicativa qualsiasi, assolutamente non significativa, cioè non legata da alcuna effettiva relazione con la variabile dipendente, l’ R 2 comunque aumenterà. Al limite, inserendo nel modello n variabili esplicative (cioè tante quante sono le osservazioni disponibili) si otterrà un adattamento perfetto ai dati ( R 2 = 1), in conseguenza del fatto che una nuvola di n punti può essere interpolata esattamente da un iperpiano a n dimensioni. L’ Rc2 invece diminuisce, poiché a parità di devianze è Rc2 < R 2 come si può ricavare comparando la (6.7.1) con la (6.7.2). In questa maniera il confronto tra due modelli con un diverso numero di variabili esplicative, effettuato ricercando quale dei due possiede un 145 coefficiente di determinazione maggiore, diventa più significativo in quanto al modello con k più grande si attribuisce uno svantaggio, funzione appunto della sua maggiore dimensione. Talvolta Rc2 è indicato mediante una soprallineatura: R 2 . La relazione esistente tra R2 ed Rc2 è presto trovata Rc2 = 1 - n -1 1- k n -1 2 (1 - R 2 ) = + R n-k n-k n-k (6.7.3) la quale mostra, tra l’altro, che quando k si avvicina molto a n il coefficiente corretto R 2 diventa negativo tendendo a meno infinito. Si noti che nonostante questa penalizzazione possa apparire molto severa, in realtà è possibile dimostrare che anche il coefficiente Rc2 può aumentare (anche se non aumenta necessariamente) quando al modello vengono aggiunte variabili irrilevanti. Di conseguenza le misure di bontà dell’interpolazione, anche se costituiscono un utile indicatore sintetico della bontà complessiva del modello, non possono essere considerate come unica guida nella strategia di specificazione econometrica. Appendice 6.1 – Complementi analitici Le condizioni per la minimizzazione della devianza residua Determiniamo le condizioni per minimizzare la devianza residua (6.3.8) che possiamo scrivere nella forma seguente n S ( β ) = å ut2 = u¢u = ( y - Xβ )¢ ( y - Xβ ) = t =1 ( )( ) ¢ = é( y - Xβˆ ) - X ( β - βˆ ) ù é( y - Xβˆ ) - X ( β - βˆ ) ù = ë û ë û ¢ ¢ = ( y - Xβˆ ) ( y - Xβˆ ) + ( β - βˆ ) X¢X ( β - βˆ ) + ¢ ¢ + ( y - Xβˆ ) X ( βˆ - β ) + ( βˆ - β ) X¢ ( y - Xβˆ ) ¢ = y - Xβˆ + Xβˆ - Xβ y - Xβˆ + Xβˆ - Xβ = (A.6.1.1) dove nel quarto passaggio abbiamo sottratto e addizionato la stessa quantità Xβˆ . Ma questa espressione è minima perché si annullano i due ultimi termini se valgono le equazioni normali 146 ( X¢X ) βˆ = X¢y Infatti ( βˆ - β )¢ X¢ ( y - Xβˆ ) = ( βˆ - β )¢ ( X¢y - X¢Xβˆ ) = 0 (A.6.1.2) dove nell’ultimo passaggio è stata utilizzata la (A.6.1.2), e trasponendo ( y - Xβˆ )¢ X (βˆ - β ) = 0¢ (A.6.1.3) Dunque sono nulli gli ultimi termini della (A.6.1.1). Ortogonalità dei residui stimati rispetto alle variabili esplicative Tenendo presente la (6.6.5), la (A.6.1.2) può essere scritta nella forma (βˆ - β )¢ X¢uˆ = 0 che, essendo in generale βˆ ¹ β , mostra che è (A.6.1.4) X¢uˆ = 0 , proprietà di ortogonalità dei residui stimati nei confronti delle variabili esplicative, contenute in X , generalizzazione della seconda delle (2.6.10). La stessa proprietà viene ottenuta dalla (A.6.1.3) ( ) uˆ¢X βˆ - β = 0¢ conseguibile anche trasponendo la (A.6.1.4). Appendice 6.2 – L’inversa di una matrice Il determinante di una matrice quadrata Nel caso di una matrice di ordine due éa A = ê 11 ëa 21 a12 ù a 22 úû il determinante è semplicemente dato dal prodotto degli elementi della diagonale principale meno il prodotto degli elementi della secondaria detA = a11a 22 - a12a21 Esempio 6.9 - Il determinante della matrice quadrata (6.5.3) è 48-24 = 24. 147 Nel caso, invece, di una matrice quadrata A di ordine tre è conveniente scrivere di seguito alle tre colonne della matrice nuovamente le prime due30 é a11 êa ê 21 êëa 31 a12 a 22 a 32 a13 ù a11 a 23 úú a 21 a 33 úû a 31 a12 a 22 a 32 (A.6.2.1) calcolando il determinante come somma dei tre prodotti che si ottengono dalla diagonale principale di A e dalle due sue parallele nella tabella di tre righe e cinque colonne (A.6.2.1) a11a22a 33 + a12a 23a31 + a 13a21a 32 (A.6.2.2) alla quale vanno sottratti i tre prodotti che si ottengono dalla diagonale secondaria di A e dalle due sue parallele a31a22a13 + a32a 23a11 + a 33a21a 12 (A.6.2.3) Dunque, il determinante della matrice quadrata di ordine tre è dato dalla somma (A.6.2.2) meno la (A.6.2.3). Esempio 6.10 - Il determinante della matrice quadrata (6.5.4) è calcolabile mediante la tabella é5 ê10 ê êë 6 1 2 3 5ù 5 10úú 10 12úû 6 1 2 per cui vale 120+60+150-60-150-120=0 3 da cui si nota che la matrice (6.5.4) è singolare. In generale chiamiamo determinante della matrice quadrata A di ordine n data dalla (6.4.4) per m = n l'espressione detA = å (±)a 1h1 a 2h2 ...a nhn (A.6.2.4) h1 ,..., hn dove gli aij sono gli elementi di A e la sommatoria è estesa a tutte le permutazioni (h1,h2,…,hn) della ennupla (1,2,…,n). Il segno più vale se la permutazione è pari e quello meno se è dispari31. Valgono per i determinanti le seguenti proposizioni: 30 È la regola detta di Sarrus. La permutazione è pari se il numero delle inversioni del secondo indice rispetto all'ordine naturale è pari; la permutazione è dispari se tale numero è dispari. Ad esempio, nel prodotto a 12a23a31 il numero delle inversioni è due e quindi la permutazione è pari, mentre nel prodotto a 13a22a31 il numero delle inversioni è tre e la permutazione è dispari. 31 148 Teorema 6.1 - Il determinante di una matrice triangolare è uguale al prodotto degli elementi diagonali. Teorema 6.2 - Data una matrice quadrata A, si ha detA -1 = ( detA ) -1 Osservazione 6.3 - Dal teorema 6.1 segue che il determinante di una matrice diagonale (che è anche triangolare, sia inferiore che superiore) è uguale al prodotto degli elementi diagonali. L’aggiunta di una matrice quadrata L’aggiunta di una matrice quadrata A è la trasposta di un’altra matrice quadrata dello stesso ordine il cui elemento generico di posto (i,j) si calcola come determinante della sottomatrice di A ottenuta eliminando la i-esima riga e la j-esima colonna, moltiplicato per (-1)i+j. Esempio 6.11 - L’aggiunta della matrice (6.5.3) è é(-1) 2 3 ê 3 ë(-1) 4 ¢ (-1) 3 6 ù é 3 ú =ê (-1) 4 16û ë- 6 - 4ù 16úû mentre l’aggiunta della matrice (6.5.4) può essere trovata soltanto calcolando i nove determinanti é2 det ê ë3 10ù = -6 12úû é10 det ê ë6 10ù = 60 12úû é1 det ê ë3 5ù = -3 12úû é5 det ê ë6 5ù = 30 12úû é1 det ê ë2 5ù =0 10úû é5 det ê ë10 5ù =0 10úû é10 det ê ë6 é5 det ê ë6 2ù = 18 3 úû 1ù =9 3úû é 5 1ù det ê ú=0 ë10 2û per cui l’aggiunta è ¢ é(-1) 2 (-6) (-1) 3 60 (-1) 4 18ù 3 0ù é -6 ê ê ú 3 4 5 ú ê (-1) (-3) (-1) 30 (-1) 9 ú = ê- 60 30 0ú ê (-1) 4 0 êë 18 - 9 0úû (-1) 5 0 (-1) 6 0 úû ë (A.6.2.5) La matrice inversa della (6.5.3) è 149 é 1 - 4ù ê 8 =ê 16úû ê- 1 ë 4 1 é 3 24 êë- 6 1ù - ú 6 2ú ú 3û mentre l'inversa della (6.5.4) non può essere calcolata poiché il suo determinante è nullo. Osservazione 6.4 - Dalla definizione di aggiunta segue che se una matrice è simmetrica tale è anche la sua inversa. Il modello lineare semplice in termini matriciali Abbiamo ora tutti gli elementi per trattare il caso del modello lineare semplice (2.6.1) in termini matriciali. La (6.3.6) è in forma esplicita é y1 ù êy ú ê 2 ú é1 ê ... ú ê 1 ê ú=ê ê ... ú ê... ê ... ú êë 1 ê ú ëê y n ûú é u1 ù êu ú x1 ù ê 2ú ú x2 ú é b1 ù ê ... ú +ê ú ... ú êëb 2 úû ê ... ú ú ê ... ú xn û ê ú ëêu n ûú per cui la matrice X¢X è, effettuando la moltiplicazione righe per colonne, é ê n ¢ XX=ê n ê x t êëå t =1 con determinante det( X ¢X ) = n ù ú t =1 ú n 2ú x å t úû t =1 n åx t 2 æ n ö 2 x ç å x t ÷ e aggiunta å t t =1 è t =1 ø n é n 2 ê å xt agg ( X ¢X) = ê t =1n ê- x t êë å t =1 n ù - å xt ú t =1 ú n ú úû Si ha, allora, facendo uso delle posizioni (2.6.5) é mˆ ù 1 -1 ê ˆ ú = (X¢X) X¢y = mxx - x 2 ëb û é mxx ê -x ë -x ù é y ù 1 êm ú = ú 1 û ë xy û mxx - x 2 é mxx y - xmxy ù ê m - xy ú ë xy û stime uguali alle (2.6.8) e (2.6.7), rispettivamente. Si osservi che la condizione mxx ¹ x 2 sotto la quale potevano essere trovate le stime (2.6.7) e (2.6.8) corrisponde in termini matriciali alla (6.6.3), condizione di non singolarità della matrice X¢X . 150 BIBLIOGRAFIA Breusch, T.S., Pagan, A.R. [1979], “A Simple Test for Heteroskedasticity and Random Coefficient Variation”, Econometrica, 47, pp. 1287-1294. Chow, G.C. [1960], “Tests of equality between two sets of coefficients in two linear regressions”, Econometrica, 28, pp. 591-605. Cachrane, D. e G.H. Orcutt [1949], “Application of Least Squares Regressions to Relationships Containing Error Terms”, Journal of the American Statistical Association, 44, pp.32-61. de Finetti, B. [1970], Teoria della probabilità, Torino: Einaudi. Duesenberry, J.S. [1949], Income, Saving and the Theory of Consumer Behavior, Cambridge, Massachussets: Harvard University Press. Durbin, J. e G.S. Watson [1950], “Testing for Serial Correlation in Least Squares Regression”, Biometrika, 37, pp.409-428. Durbin, J. e G.S. Watson [1951], “Testing for Serial Correlation in Least Squares Regression”, Biometrika, 38, pp.159-178. Frisch, R. [1936-36], “On the notion of equilibrium and disequilibrium”, Review of Economic Studies, 3, pp. 100-106. Keynes, J.M. [1936], The General Theory of Employment, Interest, and Money, London: Macmillan. Koenker, R. [1981], “A Note on Studentizing a Test for Heteroscedasticity”, Journal of Econometrics, 17, pp. 107-112. Savin, N.E. e K.J. White (1977), “The Durbin-Watson Test for Serial Correlation with Estreme Sample Sizes or Many Regressors”, Econometrica, 45, pp.1989-1996. Spanos, A. [1986], Statistical Foundations of Econometric Modelling, Cambridge: Cambridge University Press. Tinbergen, J. [1939], Statistical Testing of Business Cycle Theories, vol. 1, Geneva: League of Nations. White H. [1980], “A Heteroscedasticity Consistent Covariance Matrix Estimator and a Direct Test of Heteroscedasticity”, Econometrica, 48, pp.817-818. 151