...

lezioni di analisi econometrica

by user

on
Category: Documents
25

views

Report

Comments

Transcript

lezioni di analisi econometrica
LEZIONI DI ANALISI ECONOMETRICA
Indice
Lista degli esempi applicativi
1
Introduzione
2
Il modello lineare
2.1
Analisi economica ed analisi econometrica
Primi obiettivi dell’Econometria
2.2
I modelli e il lungo periodo
Modelli statici e dinamici
Il sentiero di equilibrio di lungo periodo
La tendenza di lungo periodo come modello semilogaritimico
Approssimazione del saggio di crescita
Primi caratteri delle serie storiche: tendenza, stagionalità e ciclo
2.3
La stima dei minimi quadrati (OLS) della tendenza lineare
2.4
I residui
2.5
Il breve e il lungo periodo
2.6
Le stime dei minimi quadrati (OLS) nel modello lineare semplice
2.7
L’interpretazione statistica
2.8
La scomposizione della devianza e il coefficiente di determinazione
Il coefficiente di determinazione non centrato
Cautela nell’uso del coefficiente di determinazione
Eliminazione della tendenza lineare con una differenza prima
2.9
Stima di una funzione del consumo
Coefficiente di determinazione e scelta del modello
Omogeneità dei dati
Non linearità rispetto alle variabili
2.10 Propensione media ed elasticità
1
L’elasticità
2.11 Altri esempi
La legge di Okun
Relazione tra tasso di cambio nominale e prezzi relativi
Appendice 2.1 Serie storiche, dati sezionali e longitudinali
Dati longitudinali
Appendice 2.2 Complementi analitici
Differenza prima logaritmica
Le condizioni sufficienti per la stima dei minimi quadrati
Nullità del termine misto nella scomposizione della devianza totale
Appendice 2.3
Appendice 2.4
3 L’ambiente stocastico
3.1 I residui come enti aleatori: le ipotesi deboli
3.2 Definizioni e risultati nell’approccio stocastico
Stime e stimatori dei minimi quadrati
Il teorema di Gauss-Markov
3.3 La correlazione tra le variabili e tra gli stimatori dei parametri
La correlazione tra gli stimatori dei parametri
3.4 Le ipotesi forti sui residui
Intervalli di confidenza
Stima intervallare
Verifiche (o test) di ipotesi
Residui normali
Indipendenza in probabilità
3.5 Inferenza statistica per i parametri del modello lineare semplice
Verifica di ipotesi
3.6 Inferenza statistica per la varianza dei residui
Stima intervallare per s 2
Verifica di ipotesi lineari semplici per s 2
3.7 Inferenza statistica per i parametri del modello lineare semplice con s 2 ignoto
Errori standard delle stime
Verifica di ipotesi
3.8 Tre esempi
Retta interpolante il logaritmo dei consumi
2
Funzione del consumo
Relazione tra tasso di cambio nominale e prezzi relativi
Appendice 3.1 Complementi analitici
La varianza di una somma di variabili aleatorie
La struttura di varianza – covarianza invariante rispetto ad una costante
additiva
Gli stimatori dei minimi quadrati
Le varianze degli stimatori dei minimi quadrati
La covarianza tra gli stimatori dei minimi quadrati
Campo di variazione del coefficiente di correlazione
Indipendenza stocastica del numeratore e del denominatore nelle t di Student
Appendice 3.2 Distribuzioni di probabilità rilevanti
Distribuzione normale
Distribuzione del chi quadrato
Distribuzione della t di Student
Distribuzione della F di Fisher
4
La proiezione
4.1 Proiezione e proiettore nei modelli lineari
4.2 La proiezione con il criterio dei minimi quadrati
L’errore di proiezione
Proiezioni ex post ed ex ante
L’errore quadratico medio di proiezione
4.3 Intervalli di confidenza per le proiezioni
4.4 Tre esempi
Retta interpolante il logaritmo dei consumi
Funzione del consumo
Relazione tra tasso di cambio nominale e prezzi relativi
4.5 Indicatori dell’accuratezza delle proiezioni
Appendice 4.1 Complementi analitici
La varianza dell’errore di proiezione
5
La malaspecificazione
5.1 Aspetti variegati della malaspecificazione
5.2 Eteroschedasticità dei residui
La stima dei minimi quadrati ponderati (WLS)
5.3 Test di omoschedasticità
3
Il test di Breusch e Pagan
Il test del chi quadrato
La formulazione di Koenker
5.4 La correzione per l’eteroschedasticità di White
5.5 Fonti e conseguenze dell’autocorrelazione
5.6 Test di autocorrelazione dei residui
Il test di Durbin e Watson
Tre esempi
5.7 Il trattamento dell’autocorrelazione di ordine uno
j determinato dalla statistica di Durbin e Watson
Il metodo di Cochrane e Orcutt
5.8 Test di cambiamento strutturale per il modello semplice (Test del Chow)
Il caso n1 > k , n2 > k
Il test della F di Fisher
Il caso n1 > k , n2 £ k
5.9 Il test di normalità di Jarque–Bera
Appendice 5.1 Complementi analitici
Uguaglianza tra coefficiente di autoregressione del primo ordine e r
6
Il modello lineare multiplo
6.1 I vettori e la moltiplicazione righe per colonne
6.2 Il modello lineare multiplo
6.3 I minimi quadrati nel modello lineare multiplo
6.4 Vettori e matrici
Vettori
Operazioni tra vettori
Matrici
6.5 Operazioni tra matrici
La matrice inversa
Il determinante
6.6 Le stime dei minimi quadrati
Le stime dei residui
6.7 Il coefficiente di determinazione corretto
4
Appendice 6.1 Complementi analitici
Condizioni per la minimizzazione della devianza residuale
Ortogonalità dei residui stimati rispetto alle variabili esplicative
Appendice 6.2 L’inversa di una matrice
Il determinante di una matrice quadrata
L’aggiunta di una matrice quadrata
Il modello lineare semplice in termini matriciali
Lista degli esempi applicativi
1. (Esempio 2.1) Tendenza lineare del logaritmo dei consumi privati nominali in
Italia
2. (Esempio 2.1) Tendenza esponenziale dei consumi privati nominali in Italia
3. (Esempio 2.2) Tendenza lineare dei consumi privati nominali in Italia
4. (Esempio 2.3) PIL e propensione media al consumo (ipotesi del Duesenberry)
5. Funzione del consumo (rispetto al reddito corrente) in Italia
6. (Esempio 2.1) Elasticità del consumo privato rispetto al reddito e al reddito
disponibile in Italia
7. Legge di Okun per gli USA e per l’Italia
8. Relazione tra tasso di cambio nominale (valuta italiana/$) e prezzi relativi
5
CAPITOLO I
INTRODUZIONE
Per oltre cinque lustri i miei studenti del corso quadriennale di Econometria nella
Facoltà di Economia de “La Sapienza” si sono preparati essenzialmente sulla “Traccia”,
dispense disponibili sia sulla rete che in forma cartacea, fotocopiabile. Anno dopo anno
questo testo si è ingrandito, fino a raggiungere un migliaio di pagine, comprendendo
anche temi non trattati nel corso ma dichiaratamente utili agli studenti più avanzati,
come i modelli di serie storiche, lineari e non, quelli autoregressivi vettoriali, o l’analisi
spettrale.
Passando dal vecchio al nuovo ordinamento, la didattica ha dovuto essere
cambiata, nel senso di dover essere basata su temi più circoscritti, direttamente
operativi, fruibili da studenti interessati a settori variegati dell’Economia, da
quella macro all’aziendale, dalle ricerche di mercato alla finanza. Così è nata
l’esigenza di fornire agli studenti del corso semestrale di base di Econometria un
testo che assemblasse gli elementi introduttivi della “Traccia”, curandone in
particolare gli aspetti interpretativi e quelli empirici, e relegando in appendice la
materia analiticamente più avanzata. Queste “Lezioni” costituiscono tale testo.
La “Traccia”, tuttora disponibile in rete, raccoglie temi di Econometria
esposti in forma a volte tendenzialmente metodologica e altre volte più orientata
alle applicazioni; queste Lezioni sono viceversa più omogenee e finalizzate a
rendere semplice e appetibile l’apprendimento di una materia che di per sé è
complessa.
La didattica, dunque, ne costituisce uno degli aspetti dominanti; con tre
caratteristiche che mi preme rimarcare. Prima: le nozioni che vengono esposte
inizialmente lo sono in termini più elementari e distesi; man mano che il testo
procede, l’esposizione è fatta in forma più compatta e immediata. Questo affinché
lo studente sia facilitato nell’impatto iniziale dello studio di una materia non
semplice; assuefatto al metodo e agli strumenti, può apprendere ulteriori nozioni
in modo più diretto.
Seconda: generalmente, nei libri di testo di carattere analitico l’esposizione
di un argomento è accompagnata da un’ampia e il più possibile esaustiva sequela
6
di specificazioni, complementi, corollari; in queste Lezioni si segue, viceversa, il
criterio di esporre i concetti accompagnati soltanto dalle caratterizzazioni che
servono al momento. Si rinunzia alla completezza scientifica a favore
dell’efficacia didattica: prima di imparare le specificazioni, i complementi, i
corollari di un argomento, sia esso un concetto o un criterio o un teorema, lo
studente deve averne ben chiari la motivazione, l’interpretazione, il dominio di
applicabilità.
Terza:
l’Econometria
è
una
branca
dell’Economia
spiccatamente
interdisciplinare; comprende parti rilevanti anche della Teoria delle probabilità,
dell’Inferenza statistica, dell’Analisi matematica (ottimizzazione e algebra
matriciale) e della Statistica economica, che spesso sono sintetizzate in capitoli o
in appendici specifici. In queste Lezioni, al contrario, le nozioni (quelle
strettamente necessarie) di queste branche sono disseminate nel testo là dove
servono, con l’idea di non considerare l’Econometria come somma di pezzi di
discipline distinte, ma come integrazione naturale di concetti che soltanto per
convenzione o convenienza sono attribuiti a settori disciplinari diversi.
E così, e questa potrebbe essere considerata come una quarta caratteristica
didattica, sono anche aggiunte, spesso in specifici Box, nozioni probabilistiche, di
Inferenza statistica, di Algebra delle matrici, in forma non sempre completa ma
immediatamente comprensibile, inadatta forse a probabilisti, statistici e
matematici ma appositamente elaborata per chi deve occuparsi di Scienze
umane.
Curiosamente, oggi l’Econometria è ritenuta una raccolta di metodi;
operativamente poi, diventa un’altra cosa, l’Econometria applicata. Esistono
molti buoni testi, in inglese e anche in italiano, scritti da italiani, di Econometria
metodologica; alcuni sono di tipo enciclopedico, altri monografici, altri ancora
privilegianti l’aspetto probabilistico o il rigore matematico. Esistono altri ottimi
testi, generalmente in inglese, di applicazioni. Queste Lezioni, al contrario, si
pongono un obiettivo molto più limitato: insegnare l’Econometria. Non i suoi
metodi, ma come l’intese il suo fondatore, Ragnar Frisch, una settantina d’anni
fa.
7
Nello scrivere queste Lezioni sono stato estesamente aiutato dalla dott.ssa
Agnieszka Niewinska. A lei va il mio più cordiale ringraziamento.
8
CAPITOLO II
IL MODELLO LINEARE
9
2.1
Analisi economica e analisi econometrica
Per illustrare con chiarezza il significato e gli obiettivi dell’Econometria è opportuno
partire da alcuni contenuti dell’analisi economica ed effettuarne poi un’estensione in
termini di elaborazione econometrica; si riesce così più facilmente a metterne in risalto le
caratteristiche specifiche e ad evidenziarne le potenzialità.
Un’analisi economica di grande rilevanza fu fatta da J.M. Keynes (1936) quando
formulò la relazione tra il consumo c e il reddito y rappresentabile nella forma
c =m+b y
(2.1.1)
dove c ed y sono variabili mentre m e b sono parametri, e la caratterizzò mediante le
proposizioni seguenti:
-
la funzione (2.1.1), che possiamo scrivere nella forma generale c = f ( y ) , la funzione
del consumo, è stabile nel tempo;
-
l’intercetta m è positiva e la propensione marginale al consumo b è positiva e
inferiore all’unità
m >0 ,
-
0 < b <1
(2.1.2)
la propensione b è inferiore alla propensione media c y .
Osservazione 2.1 – La stabilità della (2.1.1) indica che la funzione può essere
considerata valida per periodi di tempo relativamente lunghi, ad esempio per
alcuni decenni. Questo, ovviamente, in media, perché da un tempo all’altro, ad
esempio da un anno all’altro, ci possono essere leggere discrepanze tra il
membro a sinistra e quello a destra.
Osservazione 2.2 – Matematicamente parlando, m è il termine noto e b è il
coefficiente angolare della retta (2.1.1). In altre parole, m rappresenta
l’intercetta di c con l’asse y = 0 , e b la pendenza della retta, che cresce se
b > 0 e decresce se b < 0 .
Osservazione 2.3 – Sempre matematicamente, la propensione marginale al
consumo è
b=
d f (y)
dy
10
mentre la propensione media è data dal rapporto c y .
Osservazione 2.4 – La forma (2.1.1) è lineare rispetto sia ai parametri che alle
variabili.
Per ipotizzare le relazioni (2.1.1)-(2.1.2) il Keynes si basò essenzialmente su
considerazioni teoriche ed il funzionamento reale del sistema economico fu da lui
esaminato, a questo proposito, soltanto in maniera descrittiva.
Sempre nell’ambito dell’analisi economica è possibile supporre che la funzione del
consumo offra una descrizione migliore della realtà economica se y viene sostituito dal
reddito disponibile che definiamo nella semplice forma
(2.1.3)
yd = y - v
dove v è l’imposta complessiva sul reddito
c = m + b ( y - v)
(2.1.4)
in quanto un esame anche semplificato del comportamento dei consumatori può condurre
a ritenere che essi basino le decisioni di spesa sulla quantità di reddito che hanno
effettivamente a disposizione una volta che siano detratte le imposte.
Le
relazioni
matematiche
(2.1.1)
e
(2.1.4)
sono
modelli,
molto
semplici,
rappresentativi del modo di consumare di una famiglia, o di un gruppo di persone o di
una popolazione. Sono statiche, in quanto legano le variabili c, y e v allo stesso tempo;
ma si può presumere, sempre congetturando in termini di teoria economica, che il
consumo c al tempo t sia piuttosto funzione del reddito goduto nei periodi precedenti
come nella relazione seguente
ct = m + b yt -1
m > 0 , 0 < b <1
(2.1.5)
dove le variabili sono associate ad un indice (o pedice) temporale e ct è funzione lineare
del reddito ritardato di un’unità temporale, oppure nell’altra
ct = m + b 0 yt + b1 yt -1 + b 2 yt - 2
(2.1.6)
dove la variabile y sussiste sia al tempo corrente che a quello ritardato di una e due
unità.
La relazione (2.1.6) può essere ulteriormente generalizzata fino a considerare infiniti
ritardi del reddito
ct = m + b 0 yt + b1 yt -1 + K + b k yt - k
11
ma sorge in tal caso un dissidio fra gli aspetti teorici e quelli empirici dell’analisi, dovuto
al fatto che il numero di ritardi k, pur essendo relativamente semplice da determinare in
termini empirici, è difficile da giustificare in termini teorici (perché k e non k +1 o k -1?).
Questa ulteriore estensione ha quindi un aspetto di arbitrarietà (il numero di ritardi k)
che risulta difficilmente conciliabile con le esigenze di generalità dell’analisi teorica.
Questo dissidio può essere in parte ricomposto se si generalizza la (2.1.6) fino a
considerare infiniti ritardi temporali, ottenendosi lo schema a ritardi distribuiti infiniti
¥
ct = m + b0 yt + b1 yt -1 + b 2 yt - 2 + ... = m + å b j yt - j
(2.1.7)
j=0
nel quale la motivazione economica consiste nel ritenere che il consumo sia funzione di
tutta la storia passata inerente il reddito, con fattori di proporzionalità b j decrescenti
all’aumentare della lontananza del tempo.
In realtà la giustificazione della (2.1.7) non è unicamente economica, in quanto è
difficile poter supporre che esistano influenze significative dalle yt - j sulla ct per ritardi
j molto grandi; una parte rilevante di tale motivazione consiste, in effetti, nella facilità
con cui lo schema a ritardi distribuiti può essere trasformato, matematicamente, in modo
da ridurre il numero, infinito, di parametri b j presenti ed ottenere una relazione molto
parsimoniosa. Infatti, se si fanno le ipotesi
b j = b ×r j ,
0 < r <1
(2.1.8)
che sono fortemente vincolanti dal punto di vista economico, sostituendo nella (2.1.7) si
ottiene
ct = m + b yt + br yt -1 + br 2 yt -2 + ...
(2.1.9)
che, ritardata di un’unità temporale, diventa
ct -1 = m + b yt -1 + br yt -2 + br 2 yt -3 + ...
(2.1.10)
Sottraendo, infine, dalla (2.1.9) la (2.1.10) moltiplicata per r si ottiene
ct - r ct -1 = (1 - r ) m + b yt
(2.1.11)
cioè, ponendo (1 - r ) m = m ¢ ,
ct = m '+ r ct -1 + b yt
(2.1.12)
che mostra come lo schema (2.1.7) con infiniti parametri b j possa essere trasformato in
un altro contenente soltanto m , b e r .
12
Dunque, sotto le ipotesi (2.1.8) i due modelli (2.1.7) e (2.1.12) sono equivalenti,
sebbene il secondo sia ben più parsimonioso del primo. Dal punto di vista economico,
tuttavia, ribadiamo che non è affatto detto che le (2.1.8) siano aderenti alla realtà.
Primi obiettivi dell’Econometria
All’interno della teoria, a questo punto, è difficile, per non dire impossibile,
determinare quale sia la relazione migliore, tra quelle esposte, in termini di adeguatezza
alla rappresentazione del funzionamento reale del sistema economico; in particolare, la
speculazione teorica non è idonea a definire compiutamente la dinamica economica e
quindi a discriminare tra le funzioni (2.1.5), (2.1.6) e (2.1.12), che presentano il reddito
ed il consumo associati ad indici temporali diversi. Per effettuare una scelta razionale,
allora, è necessario esaminare la realtà empirica non più soltanto in forma meramente
descrittiva, ma con un’indagine più avanzata, che utilizzi convenientemente i metodi
della Statistica1. Questi sono adoperati per stimare (determinare i valori sfruttando dei
dati campionari) i parametri m , b , m¢ , r dei tre modelli e per valutarli secondo un
criterio di ottimo prestabilito. Dall’analisi economica si passa, in tal guisa, all’analisi
econometrica.
Durante le indagini empiriche accade sovente che si abbiano dei suggerimenti o delle
indicazioni sul come modificare le ipotesi economiche di partenza, che quindi sono
soggette ad essere nuovamente dettagliate ed analizzate con la metodologia statistica,
oppure, ancora, data una formulazione teorica di partenza, avviene frequentemente che
l’uso del procedimento econometrico per convalidarla o per confrontarla con altre ipotesi
non tanto conduca ad una sua conferma o negazione ma piuttosto possa suggerire, in
virtù dei ritrovati empirici, modificazioni o ampliamenti di carattere teorico che
naturalmente soltanto il ricercatore con adeguata preparazione economica può sfruttare
integralmente. La conseguenza di queste argomentazioni è che si sviluppa un’analisi
econometrica composta da fasi di speculazione economica teorica e da fasi di indagine
empirica non separabili bensì fortemente integrate tra di loro.2
Dunque non è sufficiente l’uso dei dati osservati, come ad esempio l’asserito da Spanos (1986,
p.3), a distinguere l’econometria dalle altre forme di studio dei fenomeni economici. L’analisi
descrittiva di questi può esser effettuata all’interno di una speculazione economica ma non è
condizione sufficiente a farla denominare econometrica.
1
Non ha ragion d’essere, quindi, idea, purtroppo molto diffusa, secondo la quale la disamina
econometrica è soltanto strumentale rispetto a quella economica.
2
13
2.2
I modelli e il lungo periodo
Modelli statici e dinamici
Le relazioni (2.1.1) e (2.1.4) tra le variabili c ed y costituiscono, come si è detto, dei
modelli rappresentativi3 di ipotesi economiche, e le disuguaglianze (2.1.2) cui sono
soggetti loro parametri m e b ne costituiscono parte integrante. Questi modelli sono
rappresentazioni formali ed idealizzate delle caratteristiche osservate di regolarità e di
stabilità dei fenomeni economici sotto studio e vengono specificati in base al processo
interattivo di speculazione teorica ed indagine empirica descritto nel paragrafo
precedente. Tali caratteristiche sono anche chiamate fatti stilizzati (si veda più avanti la
figura 2.1).
I modelli (2.1.1) ed (2.1.4) sono detti statici poiché vi intervengono solo variabili
correnti, cioè associate allo stesso tempo t ; i modelli (2.1.5) (2.1.6) (2.1.7) e (2.1.12) sono
detti dinamici in quanto contengono variabili sia correnti che ritardate di una o più
unità temporali.
Il sentiero di equilibrio di lungo periodo
Poiché i fenomeni economici evolvono nel tempo, i modelli dinamici hanno una
rilevanza ben più grande degli statici, ma occorre tener presente che questi ultimi
possono sovente essere considerati come rappresentativi dei sentieri di equilibrio di
lungo periodo dei modelli dinamici. Se, ad esempio, si considera la relazione dinamica
(2.1.12) e si suppone che il consumo cresca al saggio costante di g per unità di tempo,
cosicché sia
ct = (1 + g ) ct -1
(2.2.1)
sostituendo, la (2.1.12) diventa
ct = m ¢
(1 + g )
(1 + g )
+b
yt
1+ g - r
1+ g - r
(2.2.2)
che è analoga al modello statico (2.1.1); quest’ultimo, dunque, può essere visto come la
relazione di equilibrio di lungo periodo tra il consumo ed il reddito nel caso in cui il
modello di breve periodo sia quello dinamico (2.1.12) e il comportamento di lungo periodo
del consumo sia definito dalla (2.2.1).
Il concetto moderno di modello può essere fatto risalire i lavori di R. Frisch [1935-36] e J.
Tinbergen [1939].
3
14
La (2.2.1) può essere scritta nella forma
ct - ct -1 = g × ct -1
(2.2.3)
o ancora, più concisamente, nell’altra
Dct = g × ct -1
(2.2.4)
dove l’operatore Δ opera su ct trasformandola nella differenza ct - ct -1 . Dunque, se vale la
(2.2.1) in un certo intervallo di tempo, il consumo aumenta (se g > 0 ) o diminuisce (se
g < 0 ) di una porzione di ct -1 in ogni unità temporale, ad esempio in ogni anno se
misuriamo il tempo in anni. La porzione di ct -1 è data appunto dal saggio g .
La tendenza di lungo periodo come modello semilogaritmico
Soffermiamoci nuovamente sulla (2.2.1) che rappresenta un modo molto frequente di
evolvere nel tempo del consumo ct . Se g > 0 ( g < 0 ), il sentiero di evoluzione di lungo
periodo per il reddito è di crescita (di decrescita), come spesso si ha in economia.
Inserendo nella (2.2.1) t = 1, poi t = 2, t = 3, ... , si ottiene
c1 = (1 + g )c0
c2 = (1 + g )c1 = (1 + g )2 c0
...
e quindi, sostituendo iterativamente,
ct = (1 + g )t c0
(2.2.5)
dove c0 è una costante, corrispondente al valore che ct assume all’origine dei tempi (t =
0). La c0 è detta rappresentare una condizione iniziale, al di fuori della serie storica
{ct } = {c1 , c2 ,..., cn }
(2.2.6)
costituita dalle osservazioni disponibili.
La funzione (2.2.5) può essere convenientemente scritta in un altro modo. Se
prendiamo il logaritmo4 dei due membri otteniamo
ln ct = ln c0 + t × ln(1 + g )
cioè
ln ct = m + b × t
(2.2.7)
In econometria si usano soltanto i logaritmi (naturali) in base e, indicati con “ln” ; “log” indica il
logaritmo in base 10.
4
15
se
chiamiamo
le
costanti
ln c0 = m
e
ln(1 + g ) = b . Il modello (2.2.7), detto
semilogaritmico perché esprime una variabile logaritmizzata (la ct ) in funzione di una
non trasformata (il tempo t ), corrisponde esattamente al (2.2.5) e costituisce un esempio
di forma non lineare nelle variabili. Il saggio di crescita g tra il tempo t–1 e il t è
facilmente ottenuto: infatti, se ln(1 + g ) = b , segue che
g = exp( b ) - 1
(2.2.8)
La forma (2.2.7) esprime dunque come ln ct evolve in funzione del tempo; ne denota, cioè,
la sua tendenza di lungo periodo.
Approssimazione del saggio di crescita
Il saggio di crescita γ nell’unità di tempo di una variabile x t .
g = (xt - xt -1 ) xt -1
(2.2.9)
può essere convenientemente approssimato da una differenza prima logaritmica
D ln xt = ln xt - ln xt -1
(2.2.10)
dove il simbolo “Δ” denota appunto una differenza prima. La differenza prima
logaritmica di xt è talvolta indicata con la xt sormontata da un punto: x& t .
L’approssimazione di γ con la (2.2.10) è dimostrata analiticamente nell’appendice 2.1.
Questa è molto buona per valori piccoli di γ, diciamo tra 0 e 0.06; per valori superiori a
0.06 lo è meno, come si può vedere dalla tavola 2.1: 7% è approssimato con 6.77%, 8% con
7.69% e così via.
γ
0.000 0.01000 0.0200 0.0300 0.0400 0.0500 0.0600 0.0700 0.0800 0.0900 0.1000
D ln xt 0.000
0.00995 0.0198 0.0296 0.0392 0.0487 0.0583 0.0677 0.0769 0.0862 0.0953
Tavola 2.1 – Approssimazione del saggio di crescita γ con la differenza prima logaritmica.
Primi cara tteri delle serie storiche: tendenza, stagionalità e ciclo
La (2.2.7) rappresenta il modo di evolvere lineare della serie storica
{ln ct } ;
ne
costituisce, cioè, la tendenza lineare. La tendenza, che può essere anche esponenziale,
quadratica, cubica, …, a seconda del tipo di funzione che la rappresenta, forma una
prima conformazione stilizzata delle serie storiche economiche, ed è ad esempio visibile
nelle figure 2.2 (lineare) e 2.3 (esponenziale).
16
Una seconda conformazione stilizzata molto importante è costituita, nelle serie
storiche economiche determinate con una cadenza infraannuale, ad esempio mensile o
trimestrale, dal fatto che esistono andamenti infraannuali che si ripetono similmente,
nei tempi così come nelle dimensioni, anno dopo anno: le cosiddette stagionalità. Nella
figura 3.1 si nota chiaramente il profilo stagionale che si ripete ogni anno (prescindendo
dalle ampiezze delle oscillazioni che aumentano costantemente all’aumentare del tempo)
nella serie trimestrale.
La terza conformazione stilizzata che per il momento viene considerata nelle serie
storiche economiche è costituita dall’alternarsi di fasi di espansione dell’attività con fasi
di recessione, fenomeno che viene indicato con il nome di ciclo economico. La serie storica
del PIL italiano depurata della tendenza lineare nella figura 2.8 mette ben in rilievo il
ciclo nel periodo 1970 – 2002, con le recessioni (aree in grigio) negli anni 1975 e 1981–
1983 (dovute alle crisi petrolifere), e degli altri 1991–1993 (dovuta alla politica
monetaria della Germania a seguito della riunificazione). Si può notare che in tutti e tre
i casi la recessione sia avvenuta repentinamente (1–3 anni), mentre le fasi di ripresa 5
più espansione si siano svolte molto più lentamente (in 5–7 anni). Quest’altro fatto
stilizzato costituisce l’asimmetria del ciclo economico.
5
In inglese: recovery.
17
2.3
La stima dei minimi quadrati (OLS) della tendenza lineare
Affrontiamo ora il problema di stimare (determinare i valori de) i parametri m e b
della (2.2.7) a partire da un campione di dati costituita dalla serie storica (2.2.6) e
utilizzando il criterio di stima dei minimi quadrati. Questo è facilmente illustrabile se i
parametri da stimare appartengono ad un’equazione lineare non solo nei parametri ma
anche nelle variabili.
Linearizziamo pertanto la (2.2.7) ponendo ln ct = zt , t = 1, 2, 3, ... , n; si ottiene il
modello lineare semplice
zt = m + b t
t = 1, 2,..., n
(2.3.1)
valido nei tempi da 1 fino al generico n.
I dati zt possono essere disegnati in un diagramma cartesiano che ha i tempi sull’asse
delle ascisse, come nella figura 2.1; essi costituiscono una nuvola di punti attraverso la
quale passa la retta (2.3.1). Questa, naturalmente, non può toccare tutti i punti (che
nella figura 2.1 sono, a titolo di esempio, quattro), che quindi rimangono ad una distanza
(misurata lungo l’asse delle ordinate) generalmente nonnulla ut dalla retta stessa. A
seconda del criterio che vincola queste distanze ut si ottiene una retta (2.3.1) diversa,
contenente cioè valori differenti per i parametri m e b .
Ovviamente, si tenta di determinare quella retta per la quale le distanze ut siano
“globalmente le più piccole” secondo un dato criterio. Ad esempio, si può pensare di usare
il criterio di minimizzare la somma delle ut
4
min å ut
(2.3.2)
t =1
ma questo non è buono perché le ut sotto la retta (negative) si possono compensare con le
ut sopra la retta (positive), e la somma (2.3.2) può essere molto piccola pur in presenza di
distanze ut molto grandi in valore assoluto. La minimizzazione della (2.3.2) costituisce
quindi un criterio che ha poco senso. Si potrebbe pensare al criterio di minimizzare la
somma delle ut prese in valore assoluto
4
m in å u t
t =1
(2.3.3)
18
evitando quindi il difetto di cui sopra. Questo criterio potrebbe essere valido se non
accadesse che la minimizzazione (2.3.3) non è facilmente eseguibile in matematica.
Allora si usa il criterio di minimizzare i quadrati delle ut
4
min å u t2
(2.3.4)
t =1
che è matematicamente trattabile in forma semplice e non presenta il difetto della
compensazione descritto sopra. È il criterio dei minimi quadrati e determina una retta i
cui parametri sono detti stime dei minimi quadrati (OLS) 6.
zt
z4
u4
zt = m + b t
z2
u2
u3
z3
z1
u1
1
2
3
4
t
Figura 2.1 – Nuvola di punti zt distanti (lungo l’asse delle ordinate) ut da una generica
retta
zt = m + b t .
Esempio 2.1 – Estraiamo dal CD dell’OECD (Statistical Compendium, Versione 2004 -1)7
la serie storica { ct } dei consumi privati reali totali8 dell’Italia ITACPV, espressi in
milioni di euro. Moltiplicando la serie per il deflatore dei consumi privati ITAPCP
otteniamo la serie dei consumi privati in termini nominali, ne prendiamo il logaritmo e
Questi minimi quadrati sono detti ordinari (in inglese Ordinary Least Squares; OLS) per
distinguerli da altri meno semplici, ad esempio i non lineari (in inglese Non Linear Least Squares;
NLLS) oppure i generalizzati, (in inglese Generalized Least Squares; GLS) che vedremo in
seguito.
7 Alcuni cenni sull’uso di questa base di dati sono esposti nell’Appendice 2.3 di questo capitolo
8 In base 1995, quindi reali.
6
19
ne costruiamo il modello (2.2.7); se stimiamo9 i parametri del modello (più
semplicemente si dice: stimiamo il modello) con gli OLS otteniamo
ln ct = 13.248 + 0.129 t
(2.3.5)
curva disegnata nella figura 2.2 insieme ai punti che definiscono la serie storica {ln ct } .
ln(c t )
ln(consumi)
Lineare (ln(consumi))
17
16
15
14
t
13
1960
1965
1970
1975
1980
Figura 2.2 – Serie storica dei logaritmi dei consumi privati totali nominali in Italia
interpolati con la retta (2.3.5); anni 1960-1980.
Poiché la stima bˆ = 0.129 , il suo antilogaritmo (cioè il valore della funzione inversa
del logaritmo, che è l’esponenziale) è 1.138 e quindi il saggio di crescita annuale è, per la
(2.2.8),
gˆ = 1.138 - 1 = 0.138
cioè il 13.8% (il saggio sembra alto, ma si ricordi che i consumi sono nominali).
Nella figura 2.3 sono esposti i punti ct (quindi gli antilogaritmi dei punti della figura
2.2) e la curva interpolante, che ora non è più una retta ma l’esponenziale che deriva
dalla (2.3.5)
ct = exp {13.248 + 0.129 t}
(2.3.6)
La stima è calcolata con il software EasyReg versione 1.23, scritta da H.J.Bierens, che
utilizzeremo in tutto il testo. Esistono molti ottimi programmi di econometria nel mercato ma si è
scelto EasyReg perché è gratuito e facilmente scaricabile da Internet. Cenni sul suo uso sono
esposti nell’Appendice 2.4.
9
20
cons nom
Espo. (cons nom)
ct
10500
5500
500
1960
t
1965
1970
1975
1980
Figura 2.3 – Serie storica dei consumi privati totali nominali in Italia interpolati con
l’esponenziale (2.3.6); anni 1960-1980; dati in miliardi di euro.
Osservazione 2.5 – Poiché la variabile consumo nominale ct è pari al prodotto
del consumo reale c t
per il prezzo
pt il suo saggio di crescita è
approssimativamente uguale alla somma dei saggi di crescita di c t e pt .
Infatti
c t = c t × pt
da cui logaritmizzando
ln ct = ln ct + ln pt
(2.3.7)
ed ancora, ritardando di un’unità temporale
ln ct -1 = ln ct -1 + ln pt -1
(2.3.8)
per cui, facendo la differenza tra la (2.3.7) e la (2.3.8), si ottiene
D ln ct = D ln ct + D ln pt
che dimostra, considerando la (2.2.10), l’affermazione precedente. Si lascia al
lettore trovare che il saggio di crescita dei consumi privati totali reali in Italia
nel periodo 1960 – 1980 è pari a 0.049 e quello del deflatore relativo è pari a
0.085, per cui la loro somma è uguale a 0.134 approssimativamente pari
proprio a 0.138 (il saggio di crescita dei consumi privati totali nominali).
21
L’approssimazione (e la non perfetta uguaglianza) deriva dal fatto che le
tre quantità, consumo nominale, consumo reale e deflatore, sono ciascuna una
media (calcolata separatamente dalle altre) nel periodo campionario.
Ovviamente questo risultato è del tutto generale: il saggio di crescita del
prodotto di più fattori è approssimativamente pari alla somma dei loro saggi
di crescita.
Esempio
2.2
E’
istruttivo
costruire
il
modello
(2.3.1)
senza
logaritmizzare
preventivamente i consumi ct , e ponendo quindi direttamente zt = ct nella (2.3.1). Nella
figura 2.4 sono esposti i risultati: i dati sono gli stessi della figura 2.3 ma la curva
interpolante è una retta e non più un’esponenziale. Il modello è stato stimato con i
minimi quadrati ma la somma dei quadrati delle distanze ut , che è
21
åu
t =1
2
t
essendo n = 21, il numero delle osservazioni disponibili, è molto maggiore: 42103686,
invece che 11671187 (caso dell’interpolante (2.3.6)).
cons nom
ct
Lineare (cons nom)
10000
6000
2000
t
1960
-2000
1965
1970
1975
1980
Figura 2.4 – Serie storica dei consumi privati totali nominali in Italia interpolati con la
funzione lineare; anni 1960-1980, dati in miliardi di euro.
Osservazione 2.6 – Conviene sempre prestare attenzione al numero di cifre
significative (diverse dallo zero) che manteniamo nei calcoli. Un numero
troppo grande rende farraginosa la scrittura ed è foriero di errori di
22
imputazione dei dati (ad esempio nei computer); un numero troppo piccolo può
condurre ad approssimazioni imprecise. Dal punto di vista statistico della
significatività dei dati è difficile che possano servire più di quattro cifre
significative (ad esempio 5013 oppure 5.013 o anche 0.5013) perché già con
esse si ottiene un’approssimazione inferiore al millesimo. Da quello economico,
poi, già tre cifre significative danno un’approssimazione inferiore al centesimo,
più che sufficiente per ogni tipo di analisi.
I logaritmi, tuttavia, sono molto sensibili ai decimali ed è quindi
consigliabile calcolarli con almeno cinque cifre decimali. Una stima precisa
della (2.3.5) fornisce, ad esempio
ln ct = 13.248342 + 0.129479 t
che può essere convenientemente considerata migliore.
Si ricordi, ad ogni modo, di approssimare alla cifra superiore o inferiore a
seconda dei casi (nel caso della (2.3.5) 13.248342 è approssimato a 13.24834 e
0.129479 a 0.12948).
23
2.4
I residui
Le distanze ut tra i dati osservati zt e quelli con la stessa ascissa sulla retta nella
figura 2.1, detti teorici, sono chiamate in vario modo, il più frequente dei quali è errori,
intendendosi per errore il fatto di aver sostituito ai dati osservati altri valori da essi
generalmente (ed erroneamente, secondo questa impostazione) diversi. In realtà di
sbaglio non si tratta, ma della nostra volontà (perché ciò ci fa comodo) di ridurre la
nuvola dei punti ad una retta; chiamiamo allora meglio le distanze ut residui, derivanti
dall’aver voluto approssimare i punti della nuvola con quelli della retta.
Se la realtà è definita, ad esempio minimizzando la somma dei quadrati dei residui
(2.3.4) (cioè con il criterio dei minimi quadrati), sono anche individuate le stime m̂ e bˆ
dei parametri della retta (2.3.1), che scriviamo nella forma
zˆt = mˆ + bˆ t
t = 1, 2,..., n
(2.4.1)
Anche i residui sono allora determinati e li indichiamo con uˆt per cui diventano
uˆt = zt - zˆt = zt - mˆ - bˆ t
t = 1, 2,..., n
(2.4.2)
distanze tra i valori osservati e quelli teorici dati dalla retta (2.4.1). Dalla (2.4.2) si trae
che uˆt è determinato una volta che siano determinate m̂ e bˆ . Se queste ancora non lo
sono, anche uˆt non lo è, per cui possiamo scrivere
ut = zt - m - b t
t = 1, 2,..., n
(2.4.3)
zt = m + b t + ut
t = 1, 2,..., n
(2.4.4)
oppure
volendosi intendere il residuo ut come quel termine da aggiungere (o sottrarre, se
negativo) al valore teorico ( m + b t ) per aversi il dato osservato zt .
Le uˆt , determinate numericamente come differenze tra i valori osservati zt e quelli
teorici zˆt , possono essere considerate come stime delle ut e quindi residui stimati.
E’ in genere molto utile rappresentare graficamente i residui, al fine di verificare più
in dettaglio, sia pure visivo, l’adeguatezza dell’interpolazione. Nelle figure 2.5, 2.6 e 2.7
sono esposti i residui (stimati) delle tre interpolazioni
ln ct = m + b t + ut
(2.4.5)
24
ct = exp {m + b t } + ut
(2.4.6)
ct = m + b t + ut
(2.4.7)
che ora scriviamo con i residui esplicitati, rappresentate nelle figure 2.2, 2.3 e 2.4,
rispettivamente.
residui
ut
0.6
0.3
0
t
1960
-0.3
1965
1970
1975
1980
-0.6
Figura 2.5 – Serie storica dei residui stimati {uˆt } relativi al modello (2.4.5) dei consumi
privati totali nominali in Italia; anni 1960 – 1980.
ut
5000
2500
0
1960
-2500
1965
1970
1975
t
1980
-5000
Figura 2.6 – Serie storica dei residui stimati {uˆt } relativi al modello (2.4.6) dei consumi
privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro.
25
ut
residui
4000
2000
0
1960
-2000
t
1965
1970
1975
1980
-4000
Figura 2.7 – Serie storica dei residui stimati {uˆt } relativi al modello (2.4.7) dei consumi
privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro.
Box 1
I residui
Dati osservati { z1 z2 ... zn }
Retta generica interpolante (tendenza lineare) i dati osservati
zt = m + b t
Retta interpolante stimata (con un certo criterio)
zˆt = mˆ + bˆ t
{
da cui i dati teorici zˆ1 zˆ2 ... zˆn
Residui stimati
}
uˆt = zt - zˆt = zt - mˆ - bˆ t
26
2.5
Il breve e il lungo periodo
La differenziazione tra il breve e il lungo periodo assume importanza basilare non
soltanto quando si tratta la teoria economica ma anche quando si costruisce un modello
econometrico. Si ebbe un esempio di questo concetto quando fu osservato che negli anni
compresi tra le due guerre mondiali negli USA la relazione tra il consumo e il reddito,
piuttosto che essere del tipo (2.1.1), risultava tale che:
-
nel lungo periodo la propensione media al consumo c y era costante;
-
nel breve periodo tale rapporto oscillava, aumentando nelle fasi di recessione e
diminuendo in quelle di espansione.
Inoltre fu notato che per ogni dato individuo tale rapporto diminuiva all’aumentare
del reddito, fatto questo che J.S. Duesenberry [1949] spiegò con la ipotesi del reddito
relativo, secondo la quale la percentuale di reddito consumato da ogni individuo non
dipendeva direttamente dal suo reddito assoluto, ma dalla sua posizione, in termini di
percentili (si veda il Box 2), nella sua distribuzione; in altre parole, dal suo reddito
relativo. Analiticamente questa ipotesi può essere scritta, prescindendo da una eventuale
tendenza, nella forma
ct
y
= m + b 0t ,
yt
y
m > 0 , b < 0 ; y 0 = max ( y s ; s < t )
(2.5.1)
dove y 0 è il reddito massimo goduto dall’individuo nel passato; nel lungo periodo si può
ritenere che il reddito cresca ad u n saggio costante g > 0 per unità di tempo
yt = (1 + g ) yt -1
(2.5.2)
analogamente a quanto ipotizzato nella (2.2.1) per il consumo, per cui è y 0 = y t -1 , e la
(2.5.1) diviene
ct
= m + b (1 + g )
yt
(2.5.3)
con rapporto ct / y t costante. Nel breve periodo, d’altro canto, si ha che durante le fasi di
recessione è yt < y 0 e quindi ct / y t aumenta, mentre in quelle di espansione è yt > y 0
ed il rapporto consumo su reddito diminuisce.
.
27
Box 2
I quantili
Per chiarire il significato di percentile (di una distribuzione, che nel caso specifico
riguarda i redditi) si pensi di ordinare in senso crescente i redditi, suddivisi in classi, e
di associare a ciascuna classe il numero degli individui che lo ottengono. Il dispiegarsi di
questo numero in funzione delle classi costituisce la distribuzione dei redditi di questi
individui. Il percentile n-esimo di questa distribuzione indica il reddito ottenuto da
quell’individuo al di sotto del quale si situa l’n per cento degli individui. Ovviamente n
può variare da 1 a 99.
Il concetto di percentile può essere esteso a quello di quartile, in cui il reddito è diviso in
quattro parti, e in quello di decile, in cui la divisione è in dieci. I quartili sono tre e i
decili nove.
Il 50° percentile, uguale al 2° quartile e al 5° decile, corrisponde alla mediana della
distribuzione.
I percentili, i quartili, i decili, e gli altri valori ottenuti dividendo in classi uguali i dati
di una distribuzione (qualsiasi, che non necessariamente riguarda i redditi) sono
genericamente chiamati quantili.
Il secondo decile (corrispondente al 20° percentile) della distribuzione dei redditi può
essere preso come indicatore della povertà (o della ricchezza) economica in una
popolazione: più è basso (alto) più poveri (ricchi) vi sono.
Esempio 2.3 – Verifichiamo l’ipotesi del Duesenberry per l’Italia negli anni 1970 – 2002
con l’aiuto della figura 2.8. In questa sono raffigurate la serie
{ yt }
del reddito totale
italiano (scala a sinistra) che permette di individuare gli anni di recessione (aree in
grigio) e la serie {ct yt } della propensione media al consumo (scala a destra). Alla serie
del reddito è stata sottratta una tendenza esponenziale, determinata come nell’esempio
2.1, mentre al rapporto ct yt è stata sottratta una tendenza lineare. I periodi di
recessione segnati in grigio sono conseguenze dei due shock petroliferi degli anni
settanta (1974 e 1979) e mostrano una chiara tendenza al rialzo della propensione media
al consumo, come previsto dall’ipotesi del Duesenberry.
Negli anni di recessione 1991 – 1993 l’ipotesi è ancora convalidata per il 1991 e il
1992; non lo è per il 1993.
28
Figura 2.8 – Andamento del PIL (scala a sinistra) e della propensione media al consumo
(scala a destra) in Italia negli anni 1970 – 2002; ambedue le serie sono state depurate
della tendenza con funzioni lineari. Le aree tratteggiate indicano i periodi di recessione
degli anni settanta innescati dalle crisi petrolifere; in questi periodi la propensione media
aumenta, come previsto dall’ipotesi del Duesenberry.
29
2.6
Le stime dei minimi quadrati (OLS) nel modello lineare semplice
Vediamo ora come si ottengono le stime dei minimi quadrati nel modello lineare
(2.4.4) che scriviamo in una forma più generale
t = 1, 2,..., n
yt = m + b xt + ut
(2.6.1)
ponendo al posto di z t una generica variabile endogena yt e al posto di t una generica
esplicativa xt . Questi due aggettivi derivano dal fatto che nel modello (2.6.1) la xt
spiega la y t , che è determinata endogenamente (all’interno) al modello. Talvolta la x t è
anche detta variabile esogena, in quanto determinata esogenamente (all’esterno) al
modello. Il modello lineare (2.6.1) è detto semplice perché contiene una sola variabile
esplicativa oltre l’intercetta. Se ne contenesse di più sarebbe multiplo, caso che
esamineremo in seguito.
Ovviamente è anche
yˆ = mˆ + bˆ xt
uˆ t = yt - yˆ t
e
(2.6.2)
Il criterio di stima dei minimi quadrati consiste nel trovare i valori di m e di b che
rendono minima la somma dei quadrati dei residui (2.3.4), cosa che nel caso di n dati si
scrive
n
n
min å ut2 = min å ( yt - m - b xt )
m ,b
t =1
m ,b
2
t =1
(2.6.3)
intendendosi con questa scrittura che la minimizzazione avviene al variare di a e di b .
La somma dei quadrati nella (2.6.3) è una funzione di m e b che indichiamo con S( m , b )
e la matematica ci fornisce le condizioni necessarie (ma non sufficienti) per ottenere il
minimo (2.6.3): occorre che siano uguali a zero le derivate parziali prime di S rispetto sia
ad m che a b
n
ì ¶S
=
2
( yt - m - b xt )( -1) = 0
å
ï ¶m
ï
t =1
í
n
ï ¶S = 2 ( y - m - b x )( - x ) = 0
å
t
t
t
ïî ¶b
t =1
cioè che sia
30
n
ì n
y
=
n
×
m
+
b
xt
å
ïå t
ï t =1
t =1
í n
n
n
ï x y = m x + b x2
å
å
t t
t
t
ïîå
t =1
t =1
t =1
(2.6.4)
che vengono chiamate equazioni normali.
Se si pone
x=
1 n
å xt ,
n t =1
y=
1 n
1 n
yt , m xx = å xt2 ,
å
n t =1
n t =1
m xy =
1 n
å xt yt
n t =1
(2.6.5)
dalla prima delle (2.6.4) si ricava, dividendo per n,
y = m+b x
(2.6.6)
e dalla seconda, sostituendo il valore di m dato dalla (2.6.6),
å xt yt = (y - b x )å xt + b å xt2
n
n
n
t =1
t =1
t =1
cioè
(
m xy = yx + b m xx - x 2
)
dalle quali si ottiene la stima dei minimi quadrati (ordinari) di b
m - yx
bˆ = xy
mxx - x 2
m xx ¹ x 2
(2.6.7)
e, sostituendo nella (2.6.6), quella di m
mˆ = y - bˆ x
(2.6.8)
Le condizioni sufficienti affinché m̂ e b̂ costituiscano il minimo (2.6.3) sono esposte
nell’Appendice 2.2.
I due valori m̂ e b̂ costituiscono il punto di ottimo ( m̂ b̂ ) nella minimizzazione (2.6.3)
e ad essi, tramite la (2.6.1), corrispondono i valori
uˆt = yt - yˆt = yt - mˆ - bˆ xt
t = 1, 2,..., n
(2.6.9)
dei residui stimati.
31
Si tenga ben in mente che m̂ e b̂ possono essere determinate soltanto se m xx ¹ x 2
come risulta dalla (2.6.7).
Osservazione 2.7 – Dalla (2.6.6) segue che la retta
yt = m + b xt
passa sempre nel punto ( y, x ) quali che siano i valori di m e b che
soddisfano alle equazioni normali (2.6.4).
Osservazione 2.8 – Si noti che in corrispondenza del punto di ottimo le
equazioni normali possono essere scritte come segue
(
)
(
)
n
ì n
ˆ x = uˆ = 0
ˆ
y
m
b
å
t
t
ïå t
ï t =1
t =1
í n
n
ï
yt - mˆ - bˆ xt xt =å uˆt xt = 0
å
ïî t =1
t =1
(2.6.10)
La prima di queste mostra che la somma dei residui stimati è nulla; la
seconda denota una proprietà dei residui stimati: la loro ortogonalità nei
confronti della variabile esplicativa.
Osservazione 2.9 – Utilizzeremo nel seguito il risultato che consegue dalla
catena di uguaglianze
(
)
n
1 n
1 n
1æ
ö
yˆ t = å mˆ + bˆ xt = ç n mˆ + bˆ å xt ÷ = mˆ + bˆ x
å
n t =1
n t =1
nè
t =1
ø
che per l’osservazione 2.7 è pari a y . Quindi si ha
1 n
1 n
ˆ
y
=
y
=
å t
å yt
n t =1
n t =1
(2.6.11)
32
2.7
L’interpretazione statistica
Il criterio dei minimi quadrati illustrato nei paragrafi precedenti, che fu sviluppato
indipendentemente da K. F. Gauss e A. M. Legen dre tra la fine del diciottesimo e gli inizi
del diciannovesimo secolo, utilizza concetti puramente matematici (deterministici e non
probabilistici). Ad esso, tuttavia, possiamo dare anche un’interpretazione statistica, che
riguarda, quindi, solamente i nomi. Il modello (2.6.1) viene detto di regressione, la
somma dei quadrati
n
åu
t =1
storiche
{ xt } e { yt }
2
t
= S ( m, b )
è la devianza (dei residui o residuale), le serie
costituiscono il campione di dati, i valori x e y sono le medie
aritmetiche delle due variabili xt
ed yt , mxx è il momento secondo di xt ed mxy il
momento secondo misto. I valori m̂ e b̂ sono ancora delle stime, ma in senso statistico.
Volendo utilizzare questa interpretazione, allora, la (2.6.7) indica che la stima b̂ è
data dal rapporto (covarianza tra x e y ) / (varianza di x ).
In questo modo la (2.6.11) dell’osservazione precedente può essere letta nel senso: la
media aritmetica della variabile osservata yt è uguale a quella della variabile teorica yˆt .
D’ora in poi utilizzeremo normalmente questa nomenclatura.
33
2.8
La scomposizione della devianza e il coefficiente di
determinazione
Si è visto nel paragrafo 2.3 che la serie del consumo {ct } può essere interpolata sia con
un’esponenziale (figura 2.3) sia con una retta (figura 2.4), dando luogo a stime delle
devianze dei residui fortemente diverse, 11671187 nel primo caso e 42103686 nel
secondo. Ci domandiamo allora se sia possibile costruire un indicatore basato sulle
devianze che permetta di “misurare” il grado di adattamento (o di accostamento) di un
modello al campione di dati. La risposta è positiva e passiamo alla determinazione di uno
di tali indicatori, il più importante, chiamato coefficiente di determinazione. Per definirlo
supponiamo, ovviamente senza perdere in generalità, che il modello contenga l’intercetta
(che, stimata, può anche valere zero) e scomponiamo la devianza (la somma dei quadrati
degli scarti dalla media) delle yt nel seguente modo
n
n
å ( y t - y ) 2 = å ( yt - yˆ t + yˆ t - y ) 2 =
t =1
(2.8.1)
t =1
n
n
n
t =1
t =1
t =1
= å ( y t - yˆ t ) 2 + å ( yˆ t - y ) 2 + 2å ( y t - yˆ t )( yˆ t - y )
dove y =
1 n
å yt come nelle (2.6.5) e si è tolta e aggiunta la stessa quantità ŷt . Il termine
n t =1
misto è nullo, come dimostrato nell’appendice 2.2 per cui vale la scomposizione della
devianza (totale) TSS di yt nella devianza di regressione ESS ed in quella residuale 10
RSS, essendo y per la (2.6.11) la media sia delle yt che delle ŷ t ,
å(y
t
- y )2
t
=
å ( yˆ
t
- y )2
t
Dev. totale
Dev. di regress.
+
å(y
t
- yˆ t ) 2
(2.8.2)
t
Dev. residuale
Se dividiamo i due membri della (2.8.2) per la devianza totale otteniamo
1 = (Dev. di regressione)/(Dev. totale) + (Dev. residuale)/(Dev. totale)
per mezzo della quale definiamo il coefficiente di determinazione
R2 =
Dev. di regressione
Dev. residuale
= 1Dev. totale
Dev. totale
(2.8.3)
In lingua inglese: Dev. totale = Total Sum of Squares (TSS); Dev. di regressione = Explained
Sum of Squares (ESS); Dev. residuale = Residual Sum of Squares (RSS).
10
34
pari al quadrato del coefficiente di correlazione multipla tra yt e l’insieme delle variabili
esplicative.
Quando tutta la variabilità della yt (cioè l’insieme di tutte le sue deviazioni dalla
media) è spiegata da quella di regressione (cioè dall’insieme di tutte le deviazioni della
variabile teorica yˆt dalla media) si ha che l’andamento del modello è perfetto, la
devianza residua è nulla ed R2 = 1; nel caso opposto la parte sistematica del modello non
spiega niente e la variabilità totale coincide con quella residua, per cui R2 = 0. In
generale dunque, si ha
0 £ R2 £ 1
(2.8.4)
Il coefficiente di determinazione non centrato
La devianza totale (2.8.1) può essere scritta nella forma
n
n
n
n
n
t =1
t =1
t =1
t =1
t =1
å ( yt - y )2 = å yt2 + å y - 2 y å yt = å yt2 - ny 2
per cui il coefficiente di determinazione (2.8.3) diviene
n
R2 = 1 -
å uˆ
t =1
åy
2
t
2
t
(2.8.5)
- ny 2
ed è detto centrato. Se si elimina ny 2 si ottiene il coefficiente di determinazione non
centrato
n
Ru 2 = 1 -
å uˆ
t =1
2
t
åy
(2.8.6)
2
t
dove il pedice u indica l’aggettivo inglese uncentered, che significa, appunto, non
centrato.
Generalmente i programmi di calcolo econometrico forniscono ambedue i coefficienti
(2.8.5) e (2.8.6) ma mentre il secondo è utile nell’effettuare particolari diagnosi sul
modello, come vedremo in seguito, il primo è direttamente utilizzabile per valutare la
bontà di adattamento11 del modello ai dati, cioè per scegliere le variabili da tenere in
considerazione.
11
In inglese: goodness of fit.
35
Esempio 2.4 – I coefficienti di determinazione non centrati per i tre modelli della
tendenza nella serie storica dei consumi privati totali nominali in Italia sono esposti
nella tavola 2.2.
Tra di essi il più grande è il primo e quindi si può asserire che il modello con migliore
bontà di adattamento sia il (2.4.5).
Modello
Equazione
R2
ln ct = a + b t + ut
(2.4.5)
0.968
ct = exp {a + b t } + ut
(2.4.6)
0.931
ct = a + b t + ut
(2.4.7)
0.751
Tavola 2.2 – Coefficiente di determinazione non centrato per i tre modelli della tendenza
nella serie dei consumi privati totali nominali in Italia.
Cautela nell’uso del coefficiente di determinazione
L’interpretazione
dell’ R 2
(o
dell’ Ru2 )
richiede
una
particolare
attenzione,
specialmente se il modello contiene più di due variabili esplicative. Ma anche nel caso del
modello semplice (2.6.1) può accadere che un valore molto alto (prossimo ad 1) di R 2 sia
dovuto ad m e che invece β sia poco significativo, di fatto che sia
yt = m + ut
che sta ad indicare come yt sia sostanzialmente pari ad una costante e che la variabile
xt (il tempo o una qualsiasi altra variabile esplicativa) sia del tutto ininfluente. In
questo modo il modello lineare semplice (2.6.1) non fornisce alcuna informazione utile
all’analisi economica pur essendo R 2 alto.
Questo problema assume una particolare rilevanza anche quando ln yt e l’esplicativa
xt contengono ambedue una tendenza: può accadere che un eventuale R 2 alto sia la
conseguenza di questa e non di una effettiva relazione economica tra le due variabili.
Una semplice verifica di questo fatto può essere realizzata stimando la (2.6.1) nelle
differenze ed eliminando quindi, come mostreremo tra poco, un’eventuale tendenza
lineare. Ritardando, infatti, la (2.6.1) di una unità temporale si ottiene
36
yt -1 = m + b xt -1 + ut -1
(2.8.7)
e facendo la differenza tra la (2.6.1) e la (2.8.7) si ha
Dyt = b Dxt + e t
(2.8.8)
con il residuo rappresentato ora da e t = ut - ut -1 . Stimando la (2.8.8) si ottiene un R 2 non
influenzato dalla tendenza; se è alto si può dire che sussiste effettivamente una relazione
tra xt e yt .
Eliminazione della tendenza lineare con una differenza prima
E’ semplice verificare che una differenza prima elimina un’eventuale tendenza
lineare. Infatti questa eventualità è rappresentabile nella forma
yt = m + b t + ut
e prendendo la differenza prima si ha
Dyt = yt - yt -1 = ( m + b t + ut ) - éë m + b ( t - 1) + ut -1 ùû = b + e t
(2.8.9)
con e t = ut - ut -1 . La (2.8.9) non contiene più la tendenza lineare ma include il coefficiente
angolare b che ora è diventato il termine noto. Qualora la yt non contenesse una
tendenza lineare, il parametro
b
sarebbe nullo e nella (2.8.9) semplicemente
mancherebbe. Si lascia al lettore mostrare che una differenza seconda D × D = D 2 elimina
un’eventuale tendenza parabolica (un polinomio di secondo grado in t ) e che in generale
una differenza d–esima elimina un’eventuale tendenza rappresentabile mediante un
polinomio di grado d nel tempo.
37
2.9
Stima di una funzione del consumo
E’ utile applicare i concetti esposti in precedenza in relazione non più ad
un’equazione del tipo (2.4.4) che esprime il consumo in funzione del tempo (e rappresenta
la tendenza interpolante lineare), bensì alla seguente
(2.9.1)
zt = m + b yt + ut
che esprime il consumo reale zt in funzione del reddito reale (come nella (2.1.1)). Al
posto della figura 2.1 si ha la 2.6 che riporta il grafico, detto diagramma di dispersione,
delle coppie di valori ( zt , yt ) tratti da un campione di osservazioni formato dalle due
serie storiche dei consumi
{ z1 z2 ... z n } e dei corrispondenti redditi { y1
y 2 ... y n } , i quali
ultimi prendono il posto dei tempi contenuti nella serie storica {1 2 ... n} . I consumi
{ zt }
sono costituiti dalla serie ITACPV e il reddito { yt } dall’altra ITAGDPV della base di dati
OCSE, presi per gli anni 1980–2002. Le stime dei due parametri nella (2.9.1)
determinano la corrispondente della (2.4.1)
zˆt = -53684 + 0.657 yt
t = 1,2,..., n
(2.9.2)
che è costituita da una retta che attraversa la nuvola di punti della figura 2.6 e per
mezzo della quale si stimano i residui (2.4.2), rappresentati graficamente nella figura
2.7. Si noti che l’intercetta è negativa, contrariamente a quanto ipotizzato dal Keynes; è
questo uno dei tanti casi in cui le ipotesi teoriche non trovano conferma nell’analisi
empirica. La devianza residuale (espressa in miliardi di euro) vale
23
å ( zt - zˆt )
t =1
2
23
= å uˆt2 = 831954
t =1
e il coefficiente di determinazione centrato è
R 2 = 0.993
(2.9.3)
Questo coefficiente è molto alto e può venire il dubbio che, come esposto nel paragrafo
precedente, sia derivato essenzialmente dalla presenza della tendenza, ben chiara per i
consumi nella figura 2.3, nelle serie delle due variabili. Allora calcoliamo le due serie
delle differenze e stimiamo l’equazione (2.8.8); otteniamo
38
(2.9.4)
Dzˆt = 0.674 Dyt
con R 2 = 0.609 , ma anche questo coefficiente di determinazione è relativamente alto e si
può concludere che effettivamente sussiste una relazione economica tra il reddito e
consumi nell’Italia degli anni ’80 e ’90.
funzione del consumo
zt
680
630
580
530
480
430
380
680
yt
730
780
830
880
930
980
1030
1080
Fonte: OECD (2004)
Figura 2.6 – Diagramma di dispersione che rappresenta il consumo zt in funzione del
reddito yt ; dati annuali reali per l’Italia 1980 – 2002 espressi in miliardi di euro.
ut
600
400
200
0
t
-200
-400
-600
Figura 2.7 – Serie storica dei residui uˆ t = z t - zˆt della relazione lineare tra il consumo e il
reddito reali (annuali) in Italia, anni 1980 – 2002.
39
Si osservi che l’ R 2 è più basso quando si usano le differenze delle variabili al posto
dei loro livelli. Questo fatto è abbastanza generale e quando ad un R 2 per un’equazione
dei livelli superiore all’80% corrisponde un R 2 nelle differenze superiore al 60% ci si può
ritenere soddisfatti.
Coefficiente di determinazione e scelta del modello
Si è detto nel paragrafo 2.1 che una funzione del consumo diversa dalla (2.9.2)
potrebbe essere ottenuta sostituendo ad yt il reddito disponibile ytd . Facciamolo, con
l’aiuto della serie ITAYDRH tratta anche questa dalla base di dati dell’OCSE. Stimiamo
dunque la (2.9.1) con i nuovi dati e otteniamo
zˆt = -292775 + 1.198 y d t
t = 1,2,..., n
(2.9.5)
con un coefficiente di determinazione centrato pari a
R 2 = 0.837
(2.9.6)
più basso del (2.9.3) per cui è statisticamente preferibile scegliere il (2.9.2) come modello
rappresentativo della funzione del consumo. E’ questo un semplice esempio di uso del
coefficiente di determinazione per la scelta del modello.
Omogeneità dei dati
La stima della funzione del consumo ci permette di fare una considerazione rilevante
nell’analisi economica. Abbiamo stimato la (2.9.1) supponendo che essa sia valida, come
forma, nell’intero orizzonte campionario 1980–2002 e che i parametri m e b non varino
troppo in tale periodo; in particolare che la propensione marginale al consumo sia
approssimativamente costante. Abbiamo, in ultima analisi, congetturato che il campione
sia omogeneo in tale periodo: è un’ipotesi che può valere ma che anche può non valere.
Infatti proviamo a dividere il campione in due parti, dal 1980 al 1994, e dal 1990 al 2002
e stimiamo la (2.9.1) con questi due sottocampioni (che in parte si sovrappongono).
Otteniamo
zˆt = -86408 + 0.701 yt
(2.9.7)
zˆt = -15545 + 0.617 yt
(2.9.8)
per gli anni 1980 – 1994, e
per gli anni 1990 – 2002. Queste equazioni sono ben diverse dalla (2.9.2) e allora si deve
dire che il modello (2.9.2) è sbagliato e deve essere sostituito dalla coppia (2.9.7), (2.9.8)?
Non necessariamente.
40
La scelta dipende infatti dagli obiettivi che l’analista si pone. Se ha la necessità di
considerare il periodo 1980–2002 come un tutt’uno e di ottenere un dato medio (ad
esempio la propensione marginale media nel periodo), deve preferire la (2.9.2) alla coppia
(2.9.7), (2.9.8). Ma la scelta può anche dipendere dalla numerosità del campione:
vedremo in seguito che più il campione è numeroso e più precise sono le stime e potrebbe
accadere che la suddivisione del campione produca stime diverse sì, ma non affidabili.
Anche la specificazione dell’equazione da stimare dipende dagli obiettivi che ci si
propone di conseguire, dal grado di approssimazione che si vuole ottenere, e dal
campione di dati disponibili.
Non linearità rispetto alle variabili
Un’altra osservazione è pertinente. Si è visto che la propensione marginale al
consumo sembra in Italia essere decrescente; allora, volendo essere molto precisi,
potremo interpolarla con una retta
b = g +d t
(2.9.9)
per cui la funzione del consumo (2.9.1) verrebbe ad essere scritta nella forma
zt = m + ( g + d t ) yt = m + g yt + d t × yt
non lineare rispetto alle variabili (a causa del prodotto t × yt ). Ma potremo porre wt = t × yt
ottenendosi la forma
zt = m + g yt + d wt
che è lineare anche rispetto alle variabili (e quindi facilmente stimabile) ma contenente
tre parametri.
2.10 Propensione media ed elasticità
Stimiamo ora l’equazione
zt = b yt + ut
(2.10.1)
dove b rappresenta una sorta di propensione media al consumo e ci proponiamo di
determinare come questa sia variata in Italia negli ultimi quaranta anni. Prendiamo
dalla base di dati dell’OCSE ancora i consumi ITACPV e il reddito GDPV, ma questa
volta trimestrali, nel 2° e nel 4° trimestre di ogni anno dal 1965 al 2002, e dividiamo il
campione in cinque sottocampioni formati da 16 elementi ciascuno. Stimiamo ed
otteniamo
41
Sottocampione
N° osservazioni
b
R2
1965/1-1972/2
16
0.557
0.986
1973/1-1980/2
16
0.560
0.966
1981/1-1988/2
16
0.585
0.976
1989/1-1996/2
16
0.599
0.603
1995/1-2002/2
16
0.600
0.943
da cui si osserva che la propensione media al consumo è andata sempre aumentando
dalla metà degli anni sessanta fino alla fine degli ottanta, dopodiché sembra essersi
arrestata.
L’elasticità
E’ di grande interesse, nello studio delle relazioni economiche, la determinazione di
quanto una variabile possa cambiare in funzione di una variazione dell’esplicativa yt ; se
i due cambiamenti sono valutati in termini di variazioni percentuali questo equivale a
calcolare l’incremento percentuale di ct indotto dall’incremento percentuale unitario
della variabile esplicativa
yt , cioè l’elasticità della prima rispetto alla seconda.
Ricordando che la variazione percentuale è rappresentata dalla differenza logaritmica
(2.2.10) si ha che l’elasticità è
h»
D ln ct
D ln yt
(2.10.2)
Passando dal discreto al continuo si è più precisi sostituendo al rapporto tra due
incrementi finiti la derivata logaritmica
h=
d ( ln ct ) d ct / ct
y d ct
=
= t
d ( ln yt ) d yt / yt ct d yt
(2.10.3)
corrispondente al parametro β dell’equazione
ln ct = b ln yt
42
che in termini stocastici scriviamo nella forma
ln ct = b ln yt + ut
(2.10.4)
Esempio 2.5 – La stima dell’equazione (2.10.1) per l’Italia fornisce
ln cˆt = 0.962 ln yt
(2.10.5)
campione 1980-2002, R 2 = 0.975
se si utilizza il reddito.
L’elasticità del consumo privato totale rispetto al reddito reale è pertanto h = 0.962.
Ad un incremento dell’1% del reddito corrisponde un incremento dello 0.962% del
consumo privato. Se si utilizzasse il reddito disponibile reale l’elasticità varrebbe
h = 0.979.
43
2.11 Altri esempi
La legge di Okun
L’economista statunitense Arthur Okun, basandosi su dati USA relativi al periodo
1947–1960 determinò una relazione tra il tasso di disoccupazione e la crescita economica
del tipo
Dut = b ( x&t - g )
(2.11.1)
dove
Dut = ut - ut -1
è la variazione del tasso di disoccupazione
x&t = ( xt - xt -1 ) xt -1
è il tasso di crescita economica
g
è il tasso di crescita (medio) di lungo periodo.
La (2.11.1) è nota come legge di Okun e utilizziamo quanto illustrato finora in questo
capitolo per stimarla con dati dapprima relativi agli USA e poi all’Italia.
Osservazione 2.10 – Si noti per inciso che l’equazione stimata dall’Okun è del
tipo (2.8.8) e quindi priva dell’intercetta, implicando dunque l’ottenimento di
un R 2 non molto alto.
Per quanto riguarda l’economia degli USA, utilizzando la serie USAGDPV della base
di dati OCSE dal 1960 al 1980 stimiamo l’equazione
ln xt = a + b t
del tutto analoga alla (2.2.7) determinata per il consumo. Si ottiene
ln xˆt = 14.684 + 0.036t
dalla quale, per mezzo della (2.2.8), si trae il saggio di crescita di lungo periodo
g = exp ( 0.036 ) - 1 = 1.037 - 1 = 0.037
Si determina poi la variazione annua del tasso di disoccupazione {D ut } traendo {ut }
ancora dalla base di dati OCSE (USAUNR) e si stima l’equazione (2.11.1) ottenendosi
44
D uˆt = -37.423( x&t - 0.037)
(2.11.2)
campione 1960–1980, R 2 = 0.758 ,
la quale mostra che ogni punto percentuale di crescita del PIL degli USA sopra il 3.7%
corrisponde ad una diminuzione del tasso di disoccupazione pari a 0.374. Okun trovò, per
il periodo da lui considerato, un valore pari a circa 0.4.
Osservazione 2.11 – Nella (2.11.2) la variazione della disoccupazione D ut è
misurata in punti percentuali (3, 5, …) mentre l’esplicativa è misurata in
unità (0.03, 0.05), per cui il parametro b della ((2.11.2)) deve essere diviso per
100 al fine di poter essere ricondotto all’unità di misura di D ut (essendo
l’esplicativa 100 volte più piccola, b è nella stima 100 volte più grande).
Ripetendo le operazioni per l’economia dell’Italia per gli anni dal 1960 al 1980
otteniamo
D uˆt = -7.12 ( x&t - 0.046)
(2.11.3)
campione 1960 – 1980, R 2 = 0.129
e per gli anni dal 1981 al 2002
D uˆt = -10.594( x&t - 0.019)
(2.11.4)
campione 1981 – 2002, R 2 = 0.0288 .
I due coefficienti di determinazione così come le due diminuzioni del tasso di
disoccupazione sono molto piccoli (per i secondi rispettivamente lo 0.071 e lo 0.106 nei
due periodi campionari) per cui si può concludere che la legge di Okun nell’ultimo mezzo
secolo non vale per l’Italia. E’ un’ulteriore conferma del fatto che spesso gli assunti
economici valgono soltanto per specifiche economie e specifici periodi campionari.
Relazione tra tasso di cambio nominale e prezzi relativi
Siano
wt
il tasso di cambio (valuta nazionale italiana)/$USA [ITAEXCHUD ne lla
base di dati OCSE in euro/$]
xt
il rapporto tra l’indice dei prezzi al consumo USA [USACPI] e l’indice
dei prezzi al consumo per l’Italia [ITACPI]
per gli anni 1970–2002. Si può stimare la relazione tra tasso di cambio nominale e prezzi
relativi
45
wt = m + b xt
(2.11.5)
che mostra come il primo vari in funzione (lineare) dei secondi. Si ottiene
wˆ t = 1.156 - 0.325 xt
(2.11.6)
campione 1970 – 2002, R 2 = 0.742
nella quale il coefficiente angolare -0.325 indica che ad ogni diminuzione unitaria di xt
(che tende a diminuire perché i prezzi dell’Italia crescono più rapidamente di quelli USA)
corrisponde un aumento (deprezzamento della valuta italiana rispetto al dollaro USA)
del tasso di cambio. Su questo fatto si basa il principio della parità dei poteri d’acquisto
(PPP).
46
Appendice 2.1 – Serie storiche, dati sezionali e longitudinali
Fin dall’inizio è stata presa in considerazione la semplice funzione del consumo di
derivazione keynesiana (2.1.1) nella quale consumo e reddito, legati da una relazione
lineare, possono essere riferiti ad istanti differenti di tempo, t = 1, 2, …, n, oppure ad
unità di consumo e di reddito (ad esempio famiglie), i = 1, 2, …, N, considerate allo stesso
tempo t. Si possiede, allora, nel primo caso un campione di osservazioni che formano serie
storiche
ct = m + b yt
t = 1, 2, …, n
(A.2.1.1)
mentre nel secondo le osservazioni compongono dati sezionali12
ci = m + b yi
i = 1, 2, …, N
(A.2.1.2)
Un campione temporale di ampiezza n può essere costruito mediante indagini che si
protraggono nel tempo, oppure tramite una disaggregazione temporale (ad esempio
trimestralizzazione o mensilizzazione di dati annuali), mentre un campione sezionale di
ampiezza N può essere estratto da un’inchiesta puntuale nel tempo, ad esempio da
un’indagine sulla spesa di un gruppo di famiglie oppure da un censimento.
I modelli (A.2.1.1) e (A.2.1.2) sono analoghi e differiscono unicamente nel modo con
cui i dati sono stati reperiti. Naturalmente esistono modelli i cui dati sono
contemporaneamente sezionali e temporali, come nell’esempio seguente
cit = mi + b i yit
t = 1, 2, …, n; i = 1, 2, …, N
(A.2.1.3)
rappresentativo di una funzione del consumo nella quale ciascuna famiglia i possiede
una propria funzione definita dai parametri mi e b i , considerati costanti nel periodo di
osservazione campionario, cioè per t = 1, 2, …, n.
Se poniamo
N
c t = å cit ,
i =1
N
m = å mi ,
i =1
N
yt = å yit
i =1
Le serie storiche (o temporali) vengono dette in lingua inglese time series mentre i dati sezionali
sono detti cross-section data.
12
47
e
nell’ipotesi
che
tutte
le
propensioni
marginali
al
consumo
siano
uguali,
b1 = b 2 = ... = b N = b , le equazioni (A.2.1.3) possono essere sommate membro a membro in
modo da dare
ct = m + b yt
t = 1, 2, …, n
costituendo questa l’aggregazione sezionale delle (A.2.1.3).
Un altro modo di aggregare le equazioni (A.2.1.3) è quello che si basa sulla
conoscenza della distribuzione del reddito. Se la quota di reddito yt posseduta dalla i esima famiglia in ogni tempo è li , con il vincolo
N
ål
i =1
i
=1
si ha che
y it = l i y t ....
t = 1,2,..., n ; i = 1,2,..., N
(A.2.1.4)
per cui, sostituendo le (A.2.1.4) nelle (A.2.1.3) e tenendo conto del vincolo, si ottiene,
sommando membro a membro
ct = m + b 0 yt
N
dove b 0 = å l i b i , di nuovo del tipo (A.2.1.1) ma con un’altra aggregazione
i =1
sezionale.
Dati longitudinali
Se il campione di famiglie considerato nella (A.2.1.3) rimane costante negli n tempi, i
dati ad esso relativi, {c it } e {y it } sono chiamati longitudinali, alludendo al fatto che un
campione di più individui viene seguito lungo il tempo13. Per il trattamento dei dati
longitudinali si usano procedure econometriche specifiche.
In lingua inglese i dati longitudinali vengono generalmente chiamati panel data (dal termine
panel, che indica un gruppo di individui).
13
48
Appendice 2.2 – Complementi analitici
Differenza prima logaritmica
Dimostriamo che
D ln xt = ln xt - ln xt -1 » ( xt - xt -1 ) xt -1
(A.2.2.1)
dove il simbolo " » " significa “approssimativamente pari a”.
Sviluppando in serie di Taylor la funzione ln (1 + g ) si ha
ln (1 + g ) = g - g 2 2 + g 3 3 - g 4 4 + ...
(A.2.2.2)
e ponendo
g = xt xt -1 - 1
si ottiene
ln ( xt xt -1 ) = (xt - xt -1 ) xt -1 + ...
cioè la (A.2.21)
L’approssimazione (A.2.2.1) è tanto migliore quanto più piccolo è il valore (compreso
tra 0 e 1) di g : infatti i termini di secondo, terzo, … grado nella (A.2.2.2) sono tanto più
piccoli quanto minore è g .
Le condizioni sufficienti per la stima dei minimi quadrati
Le stime m̂ e bˆ costituiscono effettivamente un punto di minimo per S ( m , b ) in quanto
sono soddisfatte anche le condizioni sufficienti, date dalle
¶2S
> 0,
¶m 2
2
¶2 S ¶2 S æ ¶2S ö
×
-ç
÷ > 0;
¶m 2 ¶b 2 è ¶m 2¶b 2 ø
¶2S
>0,
¶b 2
Infatti si ha
¶2S
= 2n > 0 ,
¶m 2
n
¶2S
=
2
xt2 > 0 ,
å
¶b 2
t =1
n
¶2S
=
2
xt
å
¶m 2¶b 2
t =1
dalle quali segue che
2
n
æ n ö
2
2n × 2å x - ç 2å xt ÷ = 4n 2 mxx - x 2 = 4n å ( xt - x ) > 0
t =1
t =1
è t =1 ø
n
2
t
(
)
49
Nullità del termine misto nella scomposizione della devianza totale
Il termine misto nella (2.8.1) è nullo perché
n
å(y
t =1
t
n
n
n
n
æ k
ö
- yˆ t )( yˆ t - y ) = å uˆ t yˆ t - y å uˆ t =å uˆ t ç å bˆ i xit ÷ - y å uˆ t =
t =1
t =1
t =1
è i =1
ø
t =1
k
n
n
i =1
t =1
t =1
= å bˆ i å xit uˆ t - y å uˆ t =0
avendo applicato ambedue le (2.6.10).
50
CAPITOLO III
L’AMBIENTE STOCASTICO
51
3.1
I residui come enti aleatori: le ipotesi deboli
Finora i residui ut sono stati considerati come scarti tra i valori osservati e quelli
teorici di una variabile yt per ogni tempo t. In questo approccio deterministico sono state
ricavate le stime dei minimi quadrati dei parametri e quindi esso è stato sufficiente per
percorrere molta strada nella costruzione dei modelli econometrici. Molto altro
purtuttavia resta ancora da fare: come è possibile stabilire se le stime ottenute sono
buone (rispetto ad un dato criterio) oppure cattive? E’ possibile decidere se le stime dei
parametri si influenzano reciprocamente? Se i residui sono legati in qualche modo tra di
loro? Se il campione è sufficientemente omogeneo?
A queste domande, e ad altre ancora non meno importanti, si può dare risposta se i
modelli sono considerati in un ambiente stocastico, non più deterministico. Vediamo di
farlo. Si è visto che i residui variano di valore al variare di m e b ; non sono noti finché
m e b non vengono fissati; quindi prima di ottenere m̂ e b̂ essi possono essere
considerati variabili aleatorie u%t 14, t = 1, 2, …,n.
Box 3
Le variab ili aleatorie
E’ aleatoria una variabile ~
x che può assumere diversi valori e non si sa quale ha
assunto o assumerà. La variabile associata al risultato del lancio di un dado è aleatoria e
può assumere il valore da 1 a 6. I valori che una variabile può assumere vengono
chiamati realizzazioni; così nell’esempio del dado si possono avere sei realizzazioni. In
questo caso ciascuna realizzazione ha la stessa probabilità di realizzarsi; in altri casi
alcune hanno maggiore probabilità di altre. Ad esempio l’altezza di un individuo è una
variabile aleatoria; se la misuriamo in centimetri, i valori 150, 163, 180, …, sono sue
realizzazioni. Quelle comprese tra 160 e 170 hanno, ovviamente, maggiore probabilità di
verificarsi di quelle comprese tra 140 e 150. Queste variabili aleatorie sono dette discrete
perché le loro realizzazioni possono essere o finite o infinite ma numerabili. Quando le
realizzazioni hanno la potenza del continuo (in modo grossolano possiamo dire che
appartengono ad un intervallo) le variabili aleatorie sono dette continue.
La media delle realizzazioni ponderate con la probabilità che si verifichino costituisce
Indichiamo con una tilde una variabile aleatoria. Tale simbolo è utilizzato soltanto quando la
variabile è considerata in un contesto dichiaratamente stocastico (ad esempio sotto il simbolo di
valor medio E). In contesti più generali (ad esempio in un modello) è solitamente omesso.
14
52
il valor medio della variabile aleatoria ed è indicato con il simbolo E ( x%t ) , dove E è
l’iniziale della parola inglese expectation. Dunque il valor medio è un indice di
localizzazione delle realizzazioni.
La quantità
E éë x% - E ( x% ) ùû 2
(3.1.1)
che è pari alla media dei quadrati degli scarti tra le realizzazioni e il valor medio di x% ,
ponderati con la probabilità che esse si verifichino, ed è chiamata varianza della
variabile aleatoria x% , è un indice di dispersione delle realizzazioni intorno al valor
medio. Tanto più grande è la varianza e tanto più sono disperse le realizzazioni di x%
rispetto al suo valor medio.
La quantità
E éë x% - E ( x% ) ùû éë y% - E ( y% ) ùû
(3.1.2)
chiamata covarianza tra le variabile aleatorie x% e y% , è un indicatore del legame lineare
esistente tra le due variabili aleatorie rilevanti.
La varianza di una variabile aleatoria x% è anche indicata con Var ( x% ) ; la covarianza
tra x% e y% con Cov ( x% , y% ) .
In appendice si dimostra l’utile risultato
Var ( x% ± y% ) = Var ( x% ) + Var ( y% ) ± 2Cov ( x% , y% )
(3.1.3)
Se nel modello lineare (2.6.1) i residui sono considerati aleatori il modello stesso è
inserito in un ambiente stocastico e si scrive
y%t = m + b xt + u%t
(3.1.4)
In effetti se u%t è una variabile aleatoria anche il membro a destra della (3.1.3) è
aleatorio, e quindi lo è anche quello a sinistra, cioè la y% t , indicando il segno di
uguaglianza l’uguaglianza delle caratteristiche (anche stocastiche) dei due membri.
Queste mutano a seconda del grado di approfondimento con cui si vuole studiare il
modello (3.1.4) oppure della diversa conformazione dei dati campionari.
53
Supponendo che l’equazione (3.1.4) rimanga inalterata nel periodo campionario,
l’insieme più semplice di ipotesi stocastiche che possono essere formulate rispetto ad essa
è dato da
valori noti "t
i)
xt
ii)
E (u~t ) = 0
ì0
iii) E (u~t u~s ) = í 2
îs
"t
t¹s
(3.1.5)
t=s
La prima ipotesi indica che la variabile esplicativa x è conosciuta. In particolare,
quindi, essa comporta che la xt , a differenza della yt , sia misurata senza errori.
La seconda ipotesi non è affatto restrittiva in quanto se fosse E (u%t ) = k ¹ 0, "t, ci si
potrebbe sempre ricondurre a questo caso di valor medio nullo semplicemente
aggiungendo k al termine noto dell’equazione (3.1.4). La prima delle (2.6.10) indica che
l’introduzione dell’intercetta garantisce che i residui stimati abbiano media campionaria
nulla, proprietà che è appunto il corrispettivo campionario della seconda delle (3.1.5).
La terza ipotesi delle (3.1.5) è, viceversa, restrittiva in quanto presuppone sia che i
residui in tempi diversi non siano legati linearmente tra di loro (la loro covarianza è
sempre nulla) o, come si dice, siano incorrelati, sia che abbiano tutti la stessa varianza
s 2 . Ambedue queste sottoipotesi sono raramente verificate nella realtà, ma sono molto
utili nell’introduzione didattica della (2.6.1) in ambiente stocastico. E’ l’analogo di quanto
si insegna in economia a proposito della concorrenza perfetta: questa sussiste raramente
ma fornisce un buon strumento didattico preliminare all’illustrazione dei mercati con
concorrenza imperfetta, più realistici ma meno semplici da definire.
Le ipotesi (3.1.5) non presuppongono alcuna forma di distribuzione di probabilità (si
veda il Box 4) per le u%t e sono per questo motivo dette deboli; nel caso contrario, che
esamineremo nel paragrafo 3.4, di assunzione di una distribuzione di probabilità, le
ipotesi che vengono assunte sono chiamate forti.
Il Box 5 racchiude alcune semplici nozioni sul valor medio di una distribuzione.
54
Box 4
Distribuzioni di probabilità
Ogni variabile aleatoria può assumere dei valori, che abbiamo chiamato realizzazioni,
ciascuno dei quali si può verificare con una data probabilità. L’insieme di queste forma
la distribuzione di probabilità della variabile aleatoria. Nel caso del lancio di un dado,
nel quale la variabile aleatoria è costituita dal numero della faccia che si presenta,
ognuna delle sei possibili realizzazioni ha la stessa probabilità di uscire e quindi la
distribuzione è costituita da
{1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6}
se per convenzione assumiamo, come in generale viene fatto, che la somma delle
probabilità di tutte le realizzazioni possibili sia uno. Questo caso fornisce un esempio di
distribuzione discreta. Un altro tipo di distribuzione è quella continua, un esempio del
quale è dato da una variabile aleatoria che assume un valore costante in un certo
intervallo; se questo vale b - a tale valore è
p = 1/ ( b - a ) qualora, sempre per
convenzione, si assuma che
ò
b
a
b
p × dx = p ò dx = p ( b - a ) = 1
a
Nel caso discreto la funzione di distribuzione di probabilità indica come questa si
ripartisce nelle varie realizzazioni che la variabile aleatoria discreta può assumere. Ad
esempio nel caso della variabile aleatoria associata al lancio di un dado tale funzione è
f ( xi ) = P ( x% = xi ) = 1 6
i = 1, 2,K , 6
dove P(~
x = xi ) indica la probabilità dell’evento ~
x = xi .
Nel caso continuo, invece, alla funzione di distribuzione di probabilità corrisponde la
funzione di densità di probabilità, che ha lo stesso significato ma definisce la probabilità
che la variabile aleatoria continua x% assume un valore contenuto in un dato intervallo
x ¢¢
P ( x¢ £ x% < x¢¢ ) = ò f ( x ) × dx
x¢
Ad esempio, se consideriamo la variabile aleatoria continua costante, la probabilità
che x% assume un valore contenuto nell’intervallo [ x¢, x¢¢] , con a £ x¢ < x¢¢ £ b , è
P ( x¢ £ x% < x¢¢ ) = ò
x ¢¢
x¢
1
x¢¢ - x¢
dx =
b-a
b-a
55
Box 5
Valor medio di una distribuzione
Dalle indicazioni date nelle Box 3 e Box 4 si trae che nel caso discreto il valor medio
di una variabile aleatoria è dato da
E ( x% ) = å xi × pi
i
dove la sommatoria è estesa a tutte le realizzazioni possibili xi , ciascuna moltiplicata
per la probabilità pi che si verifichi. Nell’esempio del lancio di un dado
E ( x% ) =
1
å xi = 7 2
6 i
Nel caso continuo, d’altro canto, è
x ¢¢
E ( x% ) = ò x × f ( x ) × dx
x¢
dove x¢ e x¢¢ sono gli estremi dell’intervallo di variazione di x% . Nell’esempio della
variabile costante in [ a , b ]
E ( x% ) = ò
b
a
1
1 b2 - a2
x × dx =
= ( a + b) 2
b-a
b-a 2
56
3.2
Definizioni e risultati nell’approccio stocastico
Le ipotesi ii) e iii) vengono talora sintetizzate dicendo che il residuo della (3.1.4) è un
rumore bianco, dove per rumore bianco si intende appunto una successione temporale di
variabili aleatorie incorrelate con valor medio nullo e varianza costante.
Si è detto che l’immersione del modello (2.1.6) nell’ambiente stocastico produce come
risultato che anche y%t deve essere considerata come una variabile aleatoria. L’equazione
(3.1.4) indica chiaramente come l’endogena ~
y t sia rappresentata da un modello scisso in
una componente sistematica data dalla combinazione lineare
m + b xt ed in una
componente aleatoria formata dal residuo u~t . La prima componente è detta sistematica
in quanto rappresenta la struttura di
yt in funzione dei parametri, considerati
invariabili nel tempo in virtù dell’omogeneità (nel senso illustrato nel paragrafo 2.9) del
campione, e dell’esplicativa, supposta nota per la prima delle (3.1.5) . La componente
sistematica quindi non contiene alcun elemento aleatorio e denota i fatti stilizzati della
relazione tra la variabile endogena e le esplicative.
Questa considerazione è importante anche perché mette in luce che le ipotesi
stocastiche (3.1.5), che per motivi didattici e storici vengono spesso esposte in termini dei
residui non osservabili u%t , in effetti possono essere viste come ipotesi sulle variabili
osservabili yt , considerate come realizzazioni di una variabile aleatoria y% t .
Allora, in virtù della seconda delle (3.1.5) possiamo trovare il valor medio di y%t
E ( y% t ) = E ( m + b xt + u%t ) = m + b xt
(3.2.1)
pari cioè alla sua componente sistematica, e dove abbiamo utilizzato il semplice risultato
del calcolo delle probabilità che il valor medio di una costante è pari alla costante stessa.
Dunque è
u%t = y% t - E ( y%t )
(3.2.2)
e la varianza Var ( y% t ) nonché la covarianza Cov ( y% t , y% s ) sono
2
Var ( y%t ) = E éê( y%t - E ( y%t ) ) ùú = E ( u%t2 ) = s 2
ë
û
(3.2.3)
57
Cov( ~yt , ~y s ) = E [( ~yt - E ( ~yt ))( ~y s - E ( ~
y s ))] = E (u~t u~s ) = 0
"t ¹ s
(3.2.4)
Queste due ultime relazioni indicano che la struttura di varianza–covarianza
ipotizzata per la u%t si applica anche alla y%t , dato che le due variabili aleatorie
differiscono soltanto per una costante additiva, la componente sistematica m + b xt , come
dimostrato nell’appendice 3.1.
L’ipotesi che alcune variabili aleatorie abbiano la stessa varianza è detta di
omoschedasticità 15, mentre quella alternativa di varianze diverse è chiamata di
eteroschedasticità. La (3.2.3) mostra che quando l’una o l’altra di queste ipotesi vale per i
residui vale anche per la variabile endogena.
Si è detto che la varianza è un indicatore di dispersione (o di variabilità). Nella figura
3.1, che riporta le retribuzioni lorde complessive trimestrali in Italia dal 1970 al 1996, è
evidenziato il caso, eteroschedastico e molto frequente in economia, di una variabilità
(l’ampiezza media della oscillazione) che cresce con il tempo. Si ricordi che spesso, come
nella serie della figura 3.1, la crescenza della variabilità è associata alla crescenza della
tendenza.
Retribuzioni lorde
Italia 1970-1996
250000
200000
150000
100000
50000
0
1970.1
1974.1
1978.1
1982.1
1986.1
1990.1
1994.1
Figura 3.1 – Le retribuzioni lorde complessive in Italia; dati trimestrali grezzi dal 1970 al
1996 (fonte ISTAT). Si può notare che sia la tendenza che la variabilità sono crescenti nel
tempo.
Dai termini greci omoios, uguale, e skedasis, dispersione. Una definizione più rigorosa di
omoschedasticità richiede l’impiego delle distribuzioni di probabilità condizionate.
15
58
Osservazione 3.1 – E’ interessante notare, tuttavia, che da un punto di
vista empirico crescenza della tendenza e crescenza della variabilità, pur
presentandosi spesso insieme nella stessa serie storica, sono da trattarsi in
modo ben diverso, prescindendo dal fatto che una indica la localizzazione e
l’altra la dispersione. Infatti la (3.2.1) mostra che un’eventuale tendenza
nella
{ yt }
l’ipotesi
può essere spiegata dalla componente sistematica per cui
E ( u%t )
può
valere;
viceversa
una
approssimativamente costante (eteroschedasticità) nella
variabilità
{ yt }
non
si riflette in
una variabilità analoga nei residui.
Stime e stimatori dei minimi quadrati
Le stime dei parametri della (3.1.4) sono ancora quelle date dalle (2.6.7) e (2.6.8) se si
utilizza il criterio dei minimi quadrati. Infatti la minimizzazione è la stessa e ciò che
cambia è semplicemente la natura della serie storica dei residui {u1 u2 K un } , che ora è
costituita da variabili aleatorie. Dunque
m - yx
bˆ = xy
mxx - x 2
mˆ = y% - bˆ x
(3.2.5)
con le posizioni (2.6.5). Ma nell’ambito stocastico è anche possibile ritenere che y%t sia
una variabile aleatoria definita dalle (3.1.1) per cui, sostituendo m + b xt + u%t al posto
della yt nelle posizioni, si ottiene
bˆ = b +
1
1 n
å ( xt - x ) × u%t
mxx - x 2 n t =1
(
)
n
1
mˆ = m + x × b - bˆ + å u%t
n t =1
(3.2.6)
(3.2.7)
come mostrato nell’appendice 3.1.
In effetti nelle (3.2.6) e (3.2.7) m̂ e bˆ sono variabili aleatorie e, seguendo la nostra
convenzione, dovrebbero essere indicate con una tilde, sovrapposta al cappello. Per
semplicità di notazione, però, omettiamo la tilde, per cui m̂ e bˆ possono indicare, in
funzione del contesto, sia le stime (3.2.5) sia le variabili aleatorie (3.2.6) e (3.2.7). In
questa veste m̂ e bˆ sono dette stimatori.
Si è detto che l’immersione del criterio dei minimi quadrati nell’ambito stocastico è
utile, tra l’altro, a valutare le stime ottenute: la versione stocastica (3.2.6) - (3.2.7) delle
59
stime ci permette di verificare immediatamente una prima loro buona proprietà, la non
distorsione, definita nel Box 6. Infatti, prendendo i valori medi (dei membri a sinistra e a
destra) nelle (3.2.6) e (3.2.7) si ottiene
( )
E ( mˆ ) = m
E bˆ = b
(3.2.8)
per cui gli stimatori m̂ e bˆ sono non distorti.
Box 6
La proprietà di non distorsione
Uno stimatore J% del parametro J è detto non distorto se E (J% ) = J . La non distorsione
è una buona proprietà per uno stimatore se, come spesso avviene, la sua distribuzione di
probabilità è concentrata intorno al valor medio. In questo caso le stime, che possono
essere considerate come realizzazioni dello stimatore, hanno alta probabilità di trovarsi
vicino al valore vero q del parametro.
Le (3.2.8) forniscono d’altra parte i loro valori medi; le loro varianze e la covarianza
sono di calcolo leggermente più complicato per cui vengono determinate nell’appendice
3.1.
Il teorema di Gauss–Markov
Gli stimatori OLS per i parametri del modello lineare non soltanto sono non distorti
ma godono di un’altra proprietà che spiega la loro diffusa applicazione: essi possiedono
variabilità minima nel senso del teorema di Gauss–Markov che enunciamo di seguito e
che dimostreremo quando tratteremo i modelli con più di due variabili esplicative. Vale
dunque per essi il
Teorema 3.1 (di Gauss–Markov) - Tra tutti gli stimatori lineari rispetto alle y%t e non
distorti, se m̂ e bˆ sono gli stimatori dei minimi quadrati definiti dalle (3.2.6) e (3.2.7)
rispettivamente e m% e b% sono qualsiasi altri stimatori, si ha
(
)
(
Var c1mˆ + c2 bˆ £ Var c1m% + c2 b%
)
(3.2.9)
dove c1 e c2 è una qualsiasi coppia di costanti reali non ambedue nulle.
60
Si osservi che la proprietà di variabilità minima, data dalla (3.2.9), non riguarda
direttamente i singoli stimatori m̂ e bˆ ma la loro generica combinazioni lineare poiché
la varianza opera su di una sola variabile aleatoria e non su due (o più).
Gli stimatori con variabilità minima nel senso del teorema di Gauss–Markov sono
detti ottimi; sinteticamente essi sono chiamati BLU, dalle iniziali dei termini inglesi Best
(ottimi), Linear (lineari), Unbiased (non distorti).
Osservazione 3.2 - La linearità degli stimatori m̂ e bˆ dei minimi quadrati
rispetto ad y e quindi rispetto alle yt che costituiscono y come somma
ponderata è indicata dalle (2.6.7) e (2.6.8). La loro non distorsione è indicata
dalla (3.2.8) e la loro ottimalità dal teorema 3.1.
61
3.3
La correlazione tra le variabili e tra gli stimatori dei parametri
Si è detto nel Box 3 che la covarianza tra due variabili aleatorie y% e x% denota la
relazione lineare esistente tra di loro; essa tuttavia dipende dalla dimensione delle due
variabili e quindi non può essere utilizzata come un indicatore dell’intensità della loro
relazione. Se, viceversa, la normalizziamo per escludere la dipendenza dalla dimensione
otteniamo un indicatore adimensionale utilizzabile per misurare il loro grado di
associazione lineare. La normalizzazione viene effettuata dividendo la covarianza per la
radice quadrata del prodotto delle varianze delle due variabili aleatorie
Cov ( y% , x% )
r=
Var ( y% ) × Var ( x% )
=
s yx2
s y2 × s x2
(3.3.1)
ottenendosi il coefficiente di correlazione, tale che
-1 £ r £ 1
(3.3.2)
come dimostrato nell’appendice 3.1. Se r è vicino allo zero non vi è relazione lineare tra
le due variabili; se r è vicino all’unità la relazione è molto forte e positiva; se r è vicino
a -1 è ugualmente forte ma negativa: se una variabile aumenta l’altra diminuisce e
viceversa.
Il coefficiente di correlazione può essere stimato a partire da un campione di n
osservazioni per y e di altrettante per x facendo uso delle stime campionarie, analoghe
a quelle dei momenti primi e secondi presentati nella (2.6.5)
·
valori medi campionari
x=
·
·
1 n
å xt
n t =1
y=
1 n
å yt
n t =1
varianze campionarie
sˆ x2 =
1 n
1 n 2
2
x
x
=
(
)
å t
å xt - x 2 = mxx - x 2
n t =1
n t =1
sˆ y2 =
1 n
1 n
2
( yt - y ) = å yt2 - y 2 = m yy - y 2
å
n t =1
n t =1
covarianza campionaria
sˆ xy2 =
1 n
1 n
( yt - y )( xt - x ) = å yt × xt - y × x = m yx - y × x
å
n t =1
n t =1
62
Esempio 3.1 – Si lascia al lettore verificare che il coefficiente di correlazione, stimato, tra
il consumo e il reddito del paragrafo 2.9 vale rˆ = 0.998 e quello tra il consumo e il
reddito disponibile rˆ = 0.915 .
Esempio 3.2 – Si lascia al lettore verificare che il coefficiente di correlazione tra la
variazione della disoccupazione e la crescita del PIL reale dell’Italia vale
rˆ = -0.405 .
La correlazione tra gli stimatori dei parametri
E’ di fondamentale importanza che gli stimatori m̂ e bˆ non siano correlati tra di
loro, altrimenti accade che la stima di un parametro sia influenzata da quella dell’altro,
positivamente se rˆ > 0 , negativamente se rˆ < 0 . Nella tavola 3.1 si riportano le stime
dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi
considerati in precedenza e della funzione del consumo (2.9.1) con il reddito
Modello
Equazione
r̂
ln ct = m + b t + ut
(2.4.5)
-0.876
ct = exp {m + b t } + ut
(2.4.6)
-0.522
ct = m + b t + ut
(2.4.7)
-0.876
zt = m + b yt + ut
(2.9.1)
-0.992
Tavola 3.1 – Stime dei coefficienti di correlazione dei parametri dei tre modelli di
tendenza per i consumi e di quello per la funzione del consumo.
63
3.4
Le ipotesi forti sui residui
È opportuno, a questo punto, riassumere le ipotesi di vario tipo sinora fatte in
relazione al modello lineare semplice:
i)
ii)
iii)
il campione è omogeneo e i parametri m e b sono invariabili nel
tempo;
i valori di xt sono noti, cioè non aleatori;
ì0
E (u~t ) = 0 , E (u~t × u~s ) = í 2
îs
t¹s
"t, s
t=s
(3.4.1)
Con la i) si suppone che la struttura dell’economia rimanga invariata nel periodo
campionario e che quindi sia possibile considerare validi per tutti i tempi t = 1, 2,…, n, i
modelli da stimare. La ii) è un’ipotesi semplificatrice, che in seguito elimineremo, che
limita gli elementi stocastici del modello al residuo ed alla variabile endogena. Infine, le
ipotesi deboli iii) sono utilizzate per determinare alcune caratteristiche degli stimatori:
la non distorsione e l’efficienza, nonché le matrici di dispersione e di correlazione, di
quelli dei minimi quadrati e la distorsione della varianza ŝ 2 campionaria dei residui.
Se desideriamo stimare i parametri con il criterio dei minimi quadrati occorre
aggiungere la quarta ipotesi (deterministica)
iv)
m xx - x 2 ¹ 0
(3.4.2)
Le ipotesi stocastiche precedenti, tuttavia, non permettono di effettuare un’inferenza
statistica completa sul modello lineare; ad esempio, non sono sufficienti per determinare
intervalli di confidenza o per fare verifiche di ipotesi.
Intervalli di confidenza
Ambedue questi concetti sono semplici, sebbene di grande rilevanza. L’intervallo di
confidenza riguarda un parametro J ma è conveniente iniziare a definirlo a partire da
uno stimatore J% . In seguito mostreremo come da J% si possa passare a J . In effetti, un
intervallo di confidenza per J% è un indicatore della probabilità p che una realizzazione
di J% , cioè una stima Ĵ , sia vicina a J : più l’intervallo è corto, fissato p , maggiore è la
nostra confidenza che esso contenga tale valore vero J . Se indichiamo con J¢ e J¢¢ gli
estremi dell’intervallo e con P la probabilità che un evento si verifichi (in questo caso
che J% sia compresa tra J¢ e J¢¢ ), formalmente scriviamo
64
(
)
P J ¢ < J% £ J ¢¢ = p
(3.4.3)
dove p è un numero compreso tra zero ed uno, essendo la probabilità di un evento
assoggettata per convenzione a tali limiti. Generalmente p viene moltiplicato per 100 ed
espresso in percentuali; allora si dice che l’intervallo è al 100 p % . L’intervallo di
confidenza definito dalla (3.4.3) è generalmente indicato con (J ¢, J ¢¢] 16.
L’importanza dell’intervallo di confidenza risiede nel fatto che, fissata la probabilità
p , esso esprime il nostro grado di fiducia (confidenza) sulla bontà della stima Ĵ , cioè
sul fatto che essa sia vicina al valore effettivo J .
La probabilità p è generalmente presa (soggettivamente) pari a 0.95; talvolta la si
prende pari a 0.90 e talaltra a 0.99; altri valori sono rari. I due estremi sono determinati
in modo tale che la distanza J ¢¢ - J ¢ sia la più corta.
E’ d’uso, poi, porre p = 1 - a , con a quindi che diventa 0.05, 0.01, 0.10; il valore a è
detto rappresentare il livello di significatività dell’intervallo di confidenza.
Stima intervallare
Si è visto nel paragrafo 3.2 che una stima Jˆ (ad esempio dei minimi quadrati) di un
parametro può essere considerata come una realizzazione di uno stimatore J% (ancora ad
esempio dei minimi quadrati). Ma al posto della stima possiamo utilizzare un suo
intervallo di confidenza (J ¢, J ¢¢] che oltre a localizzare J (all’interno dell’intervallo con
probabilità 1 - a ) fornisce un’indicazione (denotata dalla lunghezza J ¢¢ - J ¢ ) della
precisione di questa localizzazione. Si ottiene allora la stima intervallare (o per intervalli)
(J ¢,J ¢¢]
di J mentre Ĵ ne è la sua stima puntuale.
Verifiche (o test) di ipotesi
Le ipotesi che vengono fatte sui modelli di regressione riguardano generalmente i
suoi parametri e il campione a disposizione può essere usato per verificare se esso spinge
a rendere vera o falsa tale ipotesi. Ad esempio nel modello lineare semplice (3.1.3) ci può
interessare verificare l’ipotesi che l’intercetta m sia uguale a zero oppure che la
pendenza b sia pari a uno. Queste ipotesi sono chiamate nulle e indicate con H 0 ; così le
due ipotesi sono, rispettivamente,
16
(
)
Con la parentesi tonda si indica che l’intervallo è aperto a sinistra J ¢ < J% mentre con la quadra
(
)
che è chiuso a destra J% £ J¢¢ .
65
H0 : m = 0
H0 : b = 1
,
e vengono sottoposte a test contro delle ipotesi alternative H1 , ad esempio
H1 : m ¹ 0
H1 : b ¹ 1
,
nei due casi. Queste due ipotesi alternative sono dette bilaterali in quanto equivalgono a
dire m > 0 (primo lato) oppure m < 0 (secondo lato) nel primo caso, e b > 1 oppure b < 1
nel secondo. Se il lato è uno solo, come nel caso della H 0 : m < 0 , l’ipotesi è detta
monolaterale.
Più in generale, dunque, e prescindendo dai lati, dato un parametro J , l’ipotesi
(lineare) nulla che si intende verificare è
H0 : J = r
(3.4.4)
mentre l’ipotesi alternativa è
H1 : J ¹ r
Le verifiche di ipotesi sono più comunemente chiamate test di ipotesi.
La standardizzazione dell’intervallo di confidenza
La determinazione dell’intervallo (J ¢, J ¢¢] è resa ostica dal fatto che lo stimatore J%
( )
( )
ha un valore medio E J% ed una varianza Var J% che variano ogni volta che si ha a che
fare con un campione diverso. Per ovviare a questa situazione problematica si usa
trasformare J% in modo che abbia un tipo standard di distribuzione di probabilità: si
standardizza J% , cioè le si toglie il valor medio e la si divide per la radice quadrata (presa
con il segno positivo) della varianza
z% =
( )
Var (J% )
J% - E J%
La variabile aleatoria standardizzata è chiamata
trasformato nell’altro
z% e l’intervallo
( z¢, z¢¢] , di immediata determinazione poiché gli
(J ¢,J ¢¢]
è
estremi z ¢ e z ¢¢
non dipendono dal campione. Si ha allora che
z ¢ < z% £ z ¢¢
per la quale è P ( z ¢ < z% £ z ¢¢ ) = p dove z¢ e z¢¢ sono presi in modo tale che la distanza
z ¢¢ - z ¢ sia le più corta. Dunque è
z¢ <
( ) £ z¢¢
J% - E J%
s
66
dove si è posto
( )
Var J% = s . Cioè ancora
( )
J% - z ¢ × s > E (J% ) ³ J% - z¢¢ × s
J% - z ¢¢ × s £ E (J% ) < J% - z ¢ × s
-J% + z ¢ × s < - E J% £ -J% + z ¢¢ ×s
(3.4.5)
che è una doppia disuguaglianza che necessita di due notazioni. Innanzitutto essa
definisce un intervallo di confidenza non più per lo stimatore J% ma per il suo valor
( )
medio E J% , che però è funzione di J ; così l’intervallo di confidenza limita J e non più
J% . In secondo luogo l’intervallo è divenuto aleatorio éëJˆ - z ¢¢ × s , Jˆ - z ¢ × s
)
ed è quindi
difficilmente utilizzabile nella pratica. Si usa allora sfruttare il fatto che si possiede una
realizzazione (la stima di Ĵ ) di J% e la si sostituisce, ottenendosi al posto della (3.4.5) la
( )
L’intervallo di confidenza per E (J% ) è allora
Jˆ - z ¢¢ × s £ E J% < Jˆ - z ¢ × s
)
éJˆ - z ¢¢ × s , Jˆ - z ¢ × s
ë
(3.4.6)
(3.4.7)
Nel Box 7 sono riassunti i passi che portano all’intervallo (3.4.7).
Box 7
L’intervallo di confidenza
Per lo stimatore generico J% di J è (J ¢, J ¢¢] tale che
P ( z¢ < z% £ z ¢¢ ) = p
Si standardizza J% e si ottiene
( )
æ
ö
J% - E J%
P ç z¢ <
£ z ¢¢ ÷ = p
ç
s
÷
è
ø
( )
da cui si trae l’intervallo di confidenza per E J% , che è aleatorio
( )
J% - z ¢¢ × s £ E J% < J% - z ¢ × s
67
( )
Interessa di più un intervallo per E J%
( )
che per J% poiché E J%
contiene J . Si
sostituisce, con una forzatura che è utilizzata nella pratica, lo stimatore J% con la stima
Ĵ che è una sua realizzazione
( )
Jˆ - z ¢¢ × s £ E J% < Jˆ - z ¢ × s
( )
)
L’intervallo di confidenza per E J% è dunque éJˆ - z ¢¢ × s , Jˆ - z ¢ × s .
ë
Residui normali
Al fine di effettuare inferenze statistiche sul modello lineare, dunque, non sono
sufficienti le ipotesi (3.4.1) ma occorre aggiungere l’ipotesi forte che i residui siano
distribuiti normalmente con media nulla e varianza costante
u~t ~ N (0, s 2 )
"t
(3.4.8)
cioè che la loro funzione di densità di probabilità sia del tipo normale (o di Gauss o
gaussiana)
{
f (u t ) = ( 2ps 2 ) -1 / 2 exp - u t2 / 2s 2
}
(3.4.9)
Questa funzione di densità di probabilità può a prima vista sembrare un po’
complicata dal punto di vista matematico, ma in realtà gode di molte proprietà che la
rendono facilmente trattabile. E’ funzione di due parametri soltanto: il valor medio della
variabile aleatoria u%t che abbiamo supposto pari a zero [ipotesi iii) nella (3.4.1)], e la sua
varianza che abbiamo supposto uguale a s 2 [ancora ipotesi iii)].
Si noti che se il valor medio di u%t fosse diverso da zero, E ( u%t ) = k ¹ 0 , la (3.4.9)
assumerebbe la forma più generale (A.3.2.1.). Se k = 0 , come nella (3.4.9), e s 2 = 1 , la
variabile aleatoria che ne deriva, u%t / s = z% , è detta standardizzata e la figura 3.2 riporta
il grafico della sua funzione di densità di probabilità quando questa è normale.
La motivazione fondamentale per imporre l’ipotesi forte (3.4.8) è costituita dal fatto
che da un lato è necessario per effettuare l’inferenza statistica sui parametri dei modelli
lineari (3.1.3) e dall’altro lato non è molto restrittiva in quanto la gran parte dei loro
residui si distribuisce appunto normalmente e questo è un derivato di un teorema del
calcolo della probabilità che per la sua importanza è detto centrale:
68
Teorema 3.2 – Dato un numero n di variabili aleatorie indipendenti e identicamente
distribuite, la distribuzione (di probabilità) della loro somma tende ad essere normale al
tendere di n verso infinito.
Figura 3.2 – Grafico della funzione di densità di probabilità normale standardizzata,
N ( 0,1) .
E allora, poiché il residuo u%t può essere assimilato ad una somma molto grande di
forze della dinamica economica (variabili aleatorie che supponiamo abbiano la stessa
distribuzione) che hanno effetto sull’endogena yt al di fuori dell’esplicativa xt , ecco che il
teorema centrale può essere applicato17 e da questo deriva la (approssimata) normalità di
u%t .
Indipendenza in probabilità
Nell’enunciato del teorema centrale si è fatta l’ipotesi che le n variabili aleatorie siano
indipendenti (in probabilità). In maniera approssimativa ma chiarificatrice questo vuol
dire che non c’è alcun tipo di relazione probabilistica tra di esse; più precisamente si dice
che esse sono indipendenti (in probabilità) se la loro distribuzione di probabilità
congiunta è uguale al prodotto delle loro distribuzioni semplici, e da questo deriva che la
funzione di densità di probabilità congiunta f ( u1 , u2 , K , u n ) è uguale al prodotto delle
funzioni di densità semplici
17
Ovviamente in modo approssimato.
69
f ( u1 , u2 ,K , un ) = f ( u1 ) × f ( u2 ) ×K × f ( un )
(3.4.10)
Si dimostra in teoria delle probabilità che se due variabili aleatorie sono indipendenti
esse sono anche incorrelate, ma non vale il viceversa a meno che esse abbiano
distribuzione normale.
Poiché le ipotesi forti (3.4.8) assumono la normalità dei residui e poiché questi sono
incorrelati [ipotesi deboli iii) nella (3.4.1)], deriva dalla succitata dimostrazione che le
ipotesi forti (3.4.8) assumono implicitamente che i residui siano indipendenti (in
probabilità).
70
3.5
Inferenza statistica per i parametri del modello lineare semplice
Applichiamo le nozioni del paragrafo precedente, da analizzare con diligenza perché
sia gli intervalli di confidenza che i diversi test di ipotesi sono costruiti tutti in modo
analogo, al caso del modello lineare (3.1.4) supponendo dapprima, per semplicità
didattica, che s 2 sia noto.
Per determinare gli estremi di un intervallo di confidenza per il parametro m oppure
il b del modello (3.1.4) occorre determinare innanzitutto la distribuzione di probabilità
degli stimatori m̂ e bˆ . I loro valori medi sono dati dalla (3.2.8) e le varianze dalle
(A.3.1.3) e (A.3.1.4), che scriviamo per brevità
( )
Var ( mˆ ) = s 2 × am2
1
,
n ( mxx - x 2 )
am2 =
Var bˆ = s 2 × ab2 ,
(3.5.1)
dove
ab2 =
1
x2
+
n n ( mxx - x 2 )
(3.5.2)
Sostituendo questi valori nella (3.4.6) si ottiene
mˆ - z ¢¢ × s × am £ m < mˆ - z ¢ × s × am
(3.5.3)
bˆ - z ¢¢ × s × ab £ b < bˆ - z ¢ × s × ab
(3.5.4)
per l’intercetta m e
per il parametro b . Si noti che in virtù della non distorsione degli stimatori le (3.5.3) e
(3.5.4) identificano intervalli di confidenza per m e b .
Gli estremi z ¢ e z ¢¢ sono facilmente ricavabili dalla tavola statistica dei quantili della
distribuzione normale standardizzata in quanto la distribuzione sia di m̂ che di bˆ è
normale. Infatti questi stimatori sono combinazioni lineari di variabili aleatorie normali
(distribuite normalmente), e nella teoria delle probabilità si dimostra che quando questo
accade le variabili aleatorie che ne sono combinazioni lineari sono anch’esse normali.
Allora
mˆ : N ( m , s 2 am2 ) ,
bˆ : N ( b , s 2 ab2 )
(3.5.5)
71
per cui le due variabili aleatorie trasformate
mˆ - m
s × am
bˆ - b
s × ab
e
(3.5.6)
hanno la stessa distribuzione N ( 0, 1) .
I due estremi z ¢ e z ¢¢ dell’intervallo di confidenza per la variabile aleatoria
standardizzata z% valgono
- 0.658
e
0.658
se a = 0.05
-0.678
e
0.678
se a = 0.01
-0.632
e
0.632
se a = 0.10
Le operazioni che conducono agli intervalli di confidenza (3.5.5) e (3.5.6) sono
riassunte nel Box 8.
Box 8
Intervalli di confidenza per m e b
1) Si sceglie il livello di significatività a = 1 - p desiderato.
2) Si traggono dalle tavole della variabile aleatoria normale standardizzata gli
estremi z ¢ e z ¢¢ .
3) Si standardizzano le variabili aleatorie m̂ e bˆ , cioè le si trasformano nella
normale standardizzata
mˆ - m
s × am
,
bˆ - b
s × ab
dove am e a b sono definite nelle (A.3.1.3) e (A.3.1.4).
4) Si costruiscono gli intervalli di confidenza
mˆ - s × am × z ¢¢ £ m < mˆ - s × am × z ¢
bˆ - s × ab × z ¢¢ £ b < bˆ - s × ab × z ¢
Esempio 3.3 – Costruiamo gli intervalli di confidenza (la stima intervallare) per i
parametri
m e b
della funzione del consumo (2.9.1) nell’ipotesi di conoscere
s 2 = 40000000 Allora tramite le (A. 3.1.4) e (A. 3.1.3) calcoliamo
am = 1.639 , ab = 0.00000019
(3.5.7)
72
per cui gli intervalli (3.5.5) e (3.5.6) al 95% sono
- 60505 £ m < -46863
0.649 £ b < 0.665
e quelli al 99% sono
- 60712 £ m < -46656
0.649 £ b < 0.665
Verifica di ipotesi
Nella figura 3.3 è riportato nuovamente il grafico della funzione di densità normale
standardizzata, ma questa volta con l’indicazione dell’intervallo di confidenza preso al
95%. Si noti che la probabilità residua pari al 5% è divisa a metà nelle due code.
P( z% £ -1.96 )=0.025
P( z% £ +1.96 )=0.025
Figura 3.3 – Grafico della funzione di densità di probabilità normale standardizzata ,
N ( 0,1) , con gli estremi dell’intervallo di confidenza al 95%.
Questo intervallo di confidenza (e gli altri presi con probabilità diverse) può essere
utilizzato per costruire un test di ipotesi; anzi l’uso più frequente degli intervalli di
confidenza è proprio quello della verifica delle ipotesi. Riprendiamo l’esempio fatto nel
paragrafo precedente per mostrare questo uso, che in parte abbiamo anticipato nel
paragrafo 3.4.
73
Supponiamo dunque di voler verificare l’ipotesi nulla H 0 : m = 0 contro l’alternativa
H1 : m ¹ 0 . Se è valida l’ipotesi nulla (si dice: sotto H 0 ) la prima delle (3.5.6) (che è una
variabile aleatoria) diventa
z% =
mˆ
s × am
(3.5.8)
che ha probabilità pari al 95% di cadere nell’intervallo [ z ¢, z ¢¢ ) ; e allora si è spinti ad
accettare l’ipotesi nulla H 0 se il valore z = mˆ s × am che si determina con il campione di
dati (ed è quindi una realizzazione di z% ) cade nell’intervallo, mentre si è spinti a
rifiutarla (e quindi ad accettare l’alternativa H1 ) se il valore z che si ottiene cade fuori
dell’intervallo, cioè nelle code. Questo è il test della z , chiamato così per via delle
variabili standardizzate (3.5.6), indicate appunto con una z% .
Per ovvi motivi, allora, l’intervallo di confidenza è anche detto regione di accettazione
del test, mentre le due code formano la sua regione di rifiuto. I due estremi z ¢ e z ¢¢
prendono il nome di valori critici del test.
Il fatto più importante da tenere presente quando si effettua un test di ipotesi è che
esso opera in un ambiente stocastico e che la realizzazione z associata all’ipotesi nulla
cade nell’intervallo di accettazione [ z ¢, z ¢¢ ) con una certa probabilità (ad esempio il 95%)
ma non con la certezza. E’ per questo motivo che si è detto “si è spinti ad accettare H 0 ” e
non “si accetta H 0 con certezza”.
In effetti c’è la possibilità che z cada nella regione di rifiuto (cioè in una delle code) e
quindi che si sia spinti a rifiutare H 0 nonostante che essa sia vera; in questo caso si
commette un errore, che è detto di I specie, e la probabilità di commettere questo errore è
evidentemente a . Ma già che ci siamo definiamo anche l’errore di II specie, che è quello
di accettare H 0 nonostante che sia falsa.
L’ipotesi H 0 : m = 0 è stata sottoposta a verifica inserendola nella prima delle (3.5.6)
e controllando quindi che la z che così si ottiene cada nella regione di accettazione o in
quella di rifiuto. Un test del tutto simile può essere fatto quando l’ipotesi H 0 riguarda
l’uguaglianza di m ad una costante qualsiasi m
H0 : m = m
(3.5.9)
74
Di nuovo, si inserisce la (3.5.9) nella prima delle (3.5.6) e si controlla che
z = ( mˆ - m ) s × am cada nell’una o nell’altra regione.
Analogamente, se si vuole verificare l’ipotesi nulla
H0 : b = b
(3.5.10)
Le operazioni che conducono a queste verifiche di ipotesi sono riassunte nel Box 9.
Esempio 3.4 – Consideriamo la funzione del consumo (2.9.1) nell’ipotesi di conoscere
s = 6325 e verifichiamo le due ipotesi nulle
H0 : m = 0
H0 : b = 1
I valori am e ab sono dati dalle (3.5.7) per cui la standardizzazione è semplice e nei
due casi conduce a
(
z = ( mˆ - 0 ) s × am = 51.937
)
z = bˆ - 1 s × ab = 5.178
La regione di accettazione al 95% è [ -1.96, + 1.96 ) e sia la prima z che la seconda ne
sono fuori. Si è quindi spinti a rifiutare ambedue le ipotesi nulle.
Box 9
Test di ipotesi
1) Si debba verificare l’ipotesi nulla H 0 : J = r supponendo che Ĵ sia uno stimatore
non distorto (di J ) con distribuzione normale di valor medio J e di varianza
(nota) s J2 .
2) Si standardizza Ĵ con la trasformazione
(
)
z% = Jˆ - J s J
(3.5.11)
3) Si pone J = r e si sostituisce la stima Ĵ al posto del suo stimatore nella (3.5.11)
ottenendosi la realizzazione
(
)
z = Jˆ - r s J
4) Si sceglie il livello di significatività a (che ora è del test).
5) Si traggono dalle tavole della variabile aleatoria normale standardizzata i valori
critici z¢ e z¢¢ , e si costruisce la regione di accettazione [ z ¢, z ¢¢ ) .
6) Se z Î [ z ¢, z ¢¢ ) si è spinti ad accettare H 0 , altrimenti si è indotti a rifiutarla.
75
3.6
Inferenza statistica per la varianza dei residui
L’inferenza descritta nel paragrafo precedente è molto valida dal punto di vista
didattico, ma non da quello empirico per il semplice motivo che la varianza s 2 dei
residui non è generalmente nota. Deve essere quindi sostituita con una stima, che può
essere quella campionaria
sˆ 2 =
1 n 2
å uˆt
n t =1
(3.6.1)
che ha però il demerito di essere distorta. Dimostreremo in seguito che nel caso del
modello semplice (2.9.1) con due parametri di regressione basta inserire n - 2 al posto di
n nella (3.6.1) per ottenere una stima non distorta
s2 =
1 n 2
å uˆt
n - 2 t =1
(3.6.2)
Ovviamente, meno i valori dell’endogena yt sono dispersi intorno alla retta di
regressione e più piccola è s 2 (o anche sˆ 2 ) e migliore è l’adattamento della retta alle yt ;
allora la sua radice quadrata s (o sˆ ) presa positivamente, chiamata errore standard
(SE) (dei residui) della regressione, può essere utilizzata come un indicatore della bontà
di adattamento del modello ai dati, alla stessa stregua del coefficiente di determinazione
R 2 . Più piccolo è l’errore standard e meglio la regressione si adatta ai dati per cui,
considerando le stime (3.6.1) oppure (3.6.2), dal punto di vista statistico è conveniente
che n sia il più grande possibile.
Il numero ( n - 2 ) indica i gradi di libertà (g.d.l.) con cui si stima s 2 e denota il fatto
che, poiché la stima (3.6.2) dipende dai residui stimati û e questi a loro volta dipendono
dalle due stime m̂ e bˆ , nel processo che dagli n dati di partenza conduce alla (3.6.2)
sono imposte due restrizioni che limitano ad
( n - 2)
il numero di dati osservati che
possono essere utilizzati nella stima di s 2 .
Stima intervallare per s 2
Dimostreremo in seguito che lo stimatore uˆt ha la stessa distribuzione di u%t , cioè che
è
uˆt : N ( 0, s 2 )
"t
e che le uˆt sono indipendenti se lo sono u%t . Allora le variabili aleatorie uˆt s sono
variabili aleatorie normali standardizzate indipendenti e per la (A.3.2.4) la somma dei
76
loro quadrati si distribuisce come un c% 2 . Dimostreremo che il numero dei g.d.l. è
( n - 2 ) 18, pertanto
1
s2
n
å uˆ
t =1
: c% n2- 2
2
t
(3.6.3)
da cui l’intervallo di confidenza al livello (di significatività) a per la varianza dei residui
è dato, traendolo direttamente dalla (3.4.3), da
æ
1
P ç c n2-2¢ < 2
s
è
n
å uˆ
t =1
2
t
ö
£ c n2- 2¢¢ ÷ = 1 - a
ø
(3.6.4)
dove c n2- 2¢ e c n2- 2¢¢ sono i quantili di probabilità a 2 e 1 - a 2 della distribuzione del chi
quadrato con n - 2 gradi di libertà. Dalla (3.6.4) si ottiene l’intervallo di confidenza
1
c
å uˆ
¢¢
2
n- 2
£s2 <
2
t
1
c
¢
2
n-2
å uˆ
2
t
(3.6.5)
che costituisce anche la stima intervallare per s 2 .
Nella figura 3.4 sono riportati i grafici delle funzioni di densità di probabilità del c 2
per i tre numeri di g.d.l. n - 2 = 10, 20, 30 .
Per a = 0.05 e per i tre numeri di g.d.l. n - 2 = 10, 20, 30 , i quantili c n2-2¢ valgono
3.51, 9.95 e 17.21, e gli altri c n2- 2¢¢ 21.72, 35.22 e 47.96 rispettivamente, evidenziando
numericamente il fatto che i quantili a sinistra e a destra nell’intervallo di confidenza
differiscono in valore assoluto (perché, ovviamente, la distribuzione del c 2 è non
simmetrica).
Verifica di ipotesi lineari semplici per s 2
L’ipotesi nulla
(3.6.6)
H0 : s 2 = r
con
r
costante positiva, può essere verificata contro l’alternativa
H1 : s 2 ¹ r
utilizzando l’intervallo di confidenza (3.6.5): se questo contiene r si è spinti ad accettare
H 0 , altrimenti si è indotti a rifiutarla e ad accettare l’alternativa.
Si osservi che lo stesso test può essere condotto inserendo s 2 = r nella (3.6.3)
18
Si dice che la distribuzione del c ha n - 2 gradi di libertà.
2
77
n
c 2 = å uˆt2 r
t =1
(3.6.7)
e verificando che il valore ottenuto c 2 sia compreso nella regione di accettazione per H 0
(
formato dall’intervallo c n2-2¢ , c n2-2¢¢ ù oppure in quello di rifiuto composto dalle due parti
û
0 < c 2 £ c n2- 2¢
e
c 2 > c n2- 2¢¢
(3.6.8)
dove i due quantili c n2- 2¢ e c n2- 2¢¢ sono di probabilità a 2 e 1 - a 2 , rispettivamente.
Questo è il test del c 2 per la varianza dei residui. Si noti che nella (3.6.7) le uˆt sono
considerate come stime mentre nella (3.6.3) come stimatori.
Figura 3.4 – Funzione di densità di probabilità del c 2 per i tre
n-2=10, 20, 30.
numeri di g.d.l.
Nelle applicazioni, in virtù del fatto che la variabile aleatoria c% 2 assume soltanto
valori non negativi, generalmente si preferisce prendere c n2- 2¢ = 0 per cui la regione di
(
2 ¢¢ ù
accettazione diventa 0, c ne quella di rifiuto è composta dal solo intervallo per cui
2
û
2 ¢¢
c 2 > c n2 . Il test diventa quindi monolaterale.
Esempio 3.5 – Riprendiamo la funzione del consumo (2.9.1) e verifichiamo l’ipotesi nulla
H 0 : s 2 = 39614436
(3.6.9)
78
I g.d.l. sono n - 2 = 21 ed il test monolaterale fornisce i seguenti intervalli di
accettazione
( 0, 38.93] , ( 0, 32.67]
e
( 0,
29.62 ]
per
a = 0.01, 0.05
e
0.10
rispettivamente.
Il valore c 2 dato dalla (3.6.7) vale
c 2 = 21.001
che è contenuto in tutti e tre gli intervalli di accettazione per cui si è spinti ad asserire
che l’ipotesi nulla (3.6.9) è accettata a tutti e tre i livelli di significatività.
79
3.7
Inferenza statistica per i parametri del modello lineare semplice
con s 2 ignoto
Dunque dobbiamo costruire gli intervalli di confidenza (3.5.3) per m e (3.5.4) per b
nonché i test di verifica dell’ipotesi (3.5.9) e (3.5.10) nel caso in cui s 2 non sia noto e sia
sostituito da una stima che possiamo prendere non distorta, la (3.6.2). Cominciamo con
gli intervalli di confidenza, che si basano sulle standardizzazioni (3.5.6) che ora possiamo
scrivere nelle due forme
mˆ - m
=
s × am
mˆ - m
s × am
(3.7.1)
n
å uˆt2 s 2 × ( n - 2 )
t =1
bˆ - b
=
s × ab
bˆ - b
s × ab
(3.7.2)
n
å uˆt2 s 2 × ( n - 2 )
t =1
dalle quali si vede che sia m che b
standardizzati mediante la stima (3.6.2)
corrispondono al rapporto tra una variabile aleatoria normale standardizzata e la radice
quadrata di un'altra variabile aleatoria che per la (3.6.3) ha la distribuzione del c 2 ,
divisa per il numero dei g.d.l. Ma nel calcolo delle probabilità si dimostra che tale
rapporto è una variabile aleatoria chiamata t di Student centrale19 , funzione del numero
dei g.d.l., se numeratore e denominatore sono variabili aleatorie indipendenti. Ma questa
indipendenza è dimostrata nell’appendice 3.1 per cui le due variabili aleatorie (3.7.1) e
(3.7.2) si distribuiscono come una t%n -2
mˆ - m %
~ tn -2
s × am
bˆ - b %
~ tn -2
s × ab
(3.7.3)
e gli intervalli di confidenza (3.5.3) e (3.5.4) diventano
mˆ - s × am × tn¢¢-2 £ m < mˆ - s × am × tn¢ - 2
(3.7.4)
bˆ - s × ab × tn¢¢- 2 £ b < bˆ - s × ab × tn¢- 2
(3.7.5)
Stabilita nel 1908 da uno statistico della birreria Guinness di Dublino, W. S. Gosset, che
pubblicò i suoi ritrovamenti sotto lo pseudonimo Student. Di qui il nome della distribuzione.
19
80
dove i due quantili tn - 2¢ e tn - 2¢¢ sono di probabilità a 2 e 1 - a 2 , rispettivamente.
Errori standard delle stime
I due denominatori s × am e s × ab nelle (3.7.3) sono detti errori standard20 di m̂ e bˆ ,
rispettivamente.
Le operazioni che conducono agli intervalli di confidenza (o stime intervallari) (3.7.4)
e (3.7.5) sono riassunte nel Box 10.
Box 10
Intervalli di confidenza per m e b con s 2 ignoto
1) Si sceglie il livello di significatività a = 1 - p desiderato.
2) Si traggono dalle tavole della t di Student centrale con n - 2 g.d.l. i valori critici tn¢ -2
e tn¢ -2 .
3) Si stima la varianza con la s 2 =
n
å uˆ ( n - 2 )
t =1
2
t
4) Si calcolano gli errori standard s × am e s × ab dove am e a b sono definiti nelle
(A.3.1.3) e (A.3.1.4).
5) Si trasformano le variabili aleatorie m̂ e bˆ nella t di Student
mˆ - m
s × am
,
bˆ - b
s × ab
6) Si costituiscono gli intervalli di confidenza
mˆ - s × am × tn¢¢-2 £ m < mˆ - s × am × tn¢ - 2
bˆ - s × ab × tn¢¢- 2 £ b < bˆ - s × ab × tn¢- 2
20
In inglese Standard Error, da cui l’acronimo SE.
81
Verifica di ipotesi
Per verificare l’ipotesi nulla H 0 : m = m , oppure l’altra H 0 : b = b , basta inserire
queste ipotesi nelle (3.7.3) e controllare che
siano compresi nell’intervallo
[tn¢ -2 , tn¢¢-2 ) ,
( mˆ - m )
s × am oppure che
( bˆ - m ) s × a
b
dove tn¢ -2 e tn¢ -2 sono dati dalle tavole dei
quantili della distribuzione della t% di Student con n - 2 g.d.l.; generalmente tali tavole
sono costruite per i livelli di significatività a pari al 10%, 5% e 1%. Se sono compresi si è
spinti ad accettare le ipotesi nulle; altrimenti si è indotti a rifiutarle e ad accettare le
alternative
H1 : m ¹ m
e
H1 : b ¹ b
La distribuzione della t di Student è più schiacciata della normale, alla quale si
avvicina progressivamente all’aumentare dei gradi di libertà.
Dato allora che le “code” della distribuzione della t% sono più alte, i quantili, a parità
di area, sono tanto più esterni rispetto a quelli della normale quanto minore è il numero
di gradi di libertà. Ad esempio, per a = 0.05 i due quantili tn¢ -2 e tn¢¢- 2 valgono ±2.571,
±2.086 e ±1.980 per i tre numeri dei gradi di libertà n-2 = 5, 20, 120, rispettivamente,
mentre i relativi quantili di una normale standardizzata valgono ±1.960 (quindi ai fini
pratici una t120 è praticamente equivalente a una normale standardizzata). Questo
significa che gli intervalli di confidenza e le regioni di accettazione definiti usando la
distribuzione della t sono maggiori di quelli costruiti usando la normale. Questo risultato
ha un fondamento intuitivo, dato che quando il parametro s2 è ignoto l’incertezza
relativa al modello è maggiore, e quindi i margini di incertezza nelle stime (gli intervalli
di confidenza) sono più ampi.
Per ovvi motivi questa verifica di ipotesi è anche detta test della t di Student. Le
operazioni che conducono alle verifiche di ipotesi appena esposte sono riassunte nel Box
11.
82
Box 11
Test di ipotesi con s 2 ignoto
1) Si debba verificare l’ipotesi nulla
H 0 : J = r supponendo che Ĵ sia uno
stimatore non distorto (di J ) con distribuzione normale di valore medio J e di
varianza (non nota) s J2 .
2) Si calcola la varianza campionaria dei residui e l’errore standard SE della stima
Ĵ .
3) Si trasforma lo stimatore Ĵ con la trasformazione
(
t% = Jˆ - J
)
SE
(3.7.4)
4) Si pone J = r e si sostituisce la stima Ĵ al posto del suo stimatore nella (3.7.4)
ottenendosi la realizzazione
(
t = Jˆ - r
)
SE
5) Si sceglie il livello di significatività a (che ora è del test!)
6) Si traggono dalle tavole della variabile aleatoria t di Student con n - 2 g.d.l. gli
estremi tn¢ - 2 e tn¢¢-2 e si costituisce la regione di accettazione del test [ tn¢ -2 , tn¢¢- 2 ) .
7) Se t Î [tn¢ -2 , tn¢¢- 2 ) si è spinti ad accettare H 0 , altrimenti si è indotti a rifiutarla.
83
3.8
Tre esempi
Ogni volta che si stima un’equazione è praticamente obbligatorio verificare l’ipotesi
nulla che ciascun parametro sia uguale a zero, in quanto estremamente significativa
nell’analisi economica: se si è spinti ad accettare l’ipotesi nulla si è indotti ad eliminare
(l’effetto di) una variabile esplicativa! Nel caso del modello lineare semplice che
H0 : m = 0 , H0 : b = 0
(3.8.1)
Inserendo queste ipotesi nelle (3.7.3) si ottengono, supponendo che i dati siano n ,
tn -2 = mˆ SE m e tn- 2 = bˆ SE b , dove SEm e SEb sono gli errori standard delle due stime.
Se tn -2 è compreso nell’intervallo t Î [tn¢ - 2 , tn¢¢- 2 ) si è spinti ad accettare l’ipotesi nulla (il
parametro vale zero e quindi l’intercetta oppure la variabile esplicativa x viene
eliminata), altrimenti a rifiutarla.
Tutti i programmi di calcolo econometrico forniscono il valore tn -2 oltre alla stima del
parametro, oppure il relativo SE; in questo secondo caso il valore tn -2 è immediatamente
determinato dividendo la stima per il suo SE. Naturalmente è lasciato al ricercatore il
compito di effettuare il test di nullità dei parametri, sulla base del valore tn -2 oppure
dell’errore standard.
Di seguito vengono esposti tre esempi illustrativi del modo di presentare i risultati
delle stime di equazioni già esposte in precedenza, comprensivi dei valori tn -2 e degli SE.
Retta interpolante il logaritmo dei consumi
Il modello è il (2.3.5), che ora estendiamo con i risultati inferenziali esposti sinora
ln cˆt = 13.248 + 0.129t
( 0.066 )
( 0.052 )
( 201.610 )
( 24.741)
SE:
t:
(3.8.2)
campione 1960–1980 ;
SE dei residui = 0.145 ;
R 2 = 0.970
RSS = 0.401 ;
TSS = 13.310
Tra parentesi tonde, nella prima riga sono riportati gli errori standard delle stime e
nella seconda i valori tn -2 in modo da rendere fattibile l’inferenza sui parametri del
84
modello. In generale sono riportati soltanto i primi o i secondi, con l’avviso di cosa
contengono le parentesi tonde. Dall’ampiezza del campione si trae poi il valore di n .
Per la (3.8.2) n - 2 = 19 e le tavole statistiche danno le seguenti regioni di
accettazione
[ -2.861, 2.861)
se a = 0.01
[ -2.093, 2.093)
se a = 0.05
[ -1.729, 1.729 )
se a = 0.10
per la t. Così, sia quella relativa all’intercetta (t = 201.610 ) sia quella relativa a b (t =
24.741 ) cadono fuori da tutte e tre regioni e quindi si è indotti a ritenere che i due
parametri siano ambedue nonnulli a tutti e tre i livelli di significatività.
Funzione del consumo
Per il modello (2.9.1) la stima OLS fornisce i risultati seguenti
zˆt = -53684 + 0.657 yt
SE :
(10366)
(0.012)
t:
(-5.179)
(55.009)
campione 1980–2002,
SE dei residui =6294 ;
(3.8.3)
R 2 = 0.993
RSS =831954500 ;
TSS =120710590000
Si lascia al lettore il compito di effettuare il test della t di Student sui parametri.
Relazione tra tasso di cambio nominale e prezzi relativi
Per il modello (2.10.6) la stima OLS fornisce i risultati
wˆ t = 1.156 - 0.325 xt
SE :
t:
(0.056)
(0.034)
(20.543)
(-9.444)
campione 1970–2002;
R2 = 0.742
SE dei residui =0.128 ;
RSS =0.511 ;
(3.8.4)
TSS =1.982
Anche in questo caso l’inferenza statistica è lasciata al lettore.
85
Appendice 3.1 Complementi analitici
La varianza di una somma di variabili aleatorie
Dimostriamo la (3.1.3)
Var ( x% + y% ) = E éë x% + y% - E ( x% ) - E ( y% ) ùû =
2
{
}
= E éë x% - E ( x% ) ùû + éë y% - E ( y% ) ùû
2
=
{
}
= E éë x% - E ( x% ) ùû + E éë y% - E ( y% ) ùû + 2 E éë x% - E ( x% ) ùû éë y% - E ( y% ) ùû =
= Var ( x% ) + Var ( y% ) + 2 × Cov ( x%, y% )
2
2
Analogamente si dimostra che
Var ( x% - y% ) = Var ( x% ) + Var ( y% ) - 2 × Cov ( x% , y% )
La struttura di varianza – covarianza invariante rispetto ad una costante additiva
Sia y%t = a + x%t , cioè y%t e x%t differiscano per una costante additiva a . Allora
E ( y% t ) = a + E ( x%t )
e
{
}
Cov ( y%t , y% s ) = E éë y%t - E ( y%t ) ùû éë y% s - E ( y% s ) ùû =
{
= E {éë x% - E ( x% ) ùû éë x%
}
= E éë a + x%t - a - E ( x%t ) ùû éë a + x%s - a - E ( x%s ) ùû =
t
t
s
}
- E ( x%s ) ùû = Cov ( x%t , x%s )
da cui l’invarianza per la covarianza. Se t = s si ha Var ( y% t ) = Var ( x%t ) , cioè l’invarianza
per la varianza.
Gli stimatori dei minimi quadrati
Dimostriamo le (3.2.6) e (3.2.7)
bˆ =
1
1
1 n
m
yx
=
(
)
å ( xt - x )yt =
xy
mxx - x 2
mxx - x 2 n t =1
=
1
1 n
å ( xt - x )( m + b xt + u%t ) =
mxx - x 2 n t =1
=
1
1 n
1
1 n
x
x
m
+
b
x
+
(
)(
)
å t
å ( xt - x ) u%t =
t
mxx - x 2 n t =1
mxx - x 2 n t =1
=b+
(A.3.1.1)
1
1 n
å ( xt - x ) u%t
2
mxx - x n t =1
86
1 n
mˆ = y - bˆ x = å ( m + b xt + u%t ) - bˆ x =
n t =1
(
)
1 n
1 n
= m + b x - bˆ x + å u%t = m + x b - bˆ + å u%t
n t =1
n t =1
(A.3.1.2)
Le varianze degli stimatori dei minimi quadrati
Calcoliamo la varianza di bˆ partendo dalla (3.2.6)
2
é 1
ù
1 n
Var ( bˆ ) = E[( bˆ - b )2 ] = E ê
( xt - x ) u%t ú =
å
2
ë mxx - x n t =1
û
(A.3.1.3)
n
=
s 2 å ( xt - x )2
t =1
n 2 (mxx - x 2 ) 2
s2
1
= s 2 × ab2
n mxx - x 2
=
avendo utilizzato la relazione
n
å (x
t =1
t
- x ) 2 = n(m xx - x 2 )
e la varianza di m̂ partendo dalla (3.2.7)
2
ìï é
1 n ù üï
ˆ
Var ( mˆ ) = E[( mˆ - m ) ] = E í ê x ( b - b ) + å u%t ú ý =
n t =1 û þï
îï ë
2
n
1 n
2
ì
ü
= E í x 2 (b - bˆ )2 + 2 (å u%t ) 2 + x ( b - bˆ )å u%t ý =
n t =1
n
t =1
î
þ
n
n
1
2x é
ù
= x 2 E[( b - bˆ )2 ] + 2 E[(å u%t )2 ] +
E ê (b - bˆ ) × (å u%t ) ú =
n
n ë
t =1
t =1
û
=
(A.3.1.4)
s2
x2
s2 s2 é
x2 ù
+
=
1
+
= s 2 × am
ê
2
2 ú
n mxx - x
n
n ë mxx - x û
dove nell’ultimo passaggio si è utilizzato il fatto che
n
ìï é 1
ù n üï
1 n
%
%
E[( b - bˆ ) × å u%t ] = E í ê
(
x
x
)
u
å t
t ú å ut ý =
2
t =1
û t =1 þï
îï ë mxx - x n t =1
=
1
1 ìï éæ n ~ ö n ~ ù
æ n ~ öüï
1
1ì 2 n
2 ü
í E êç å xt u t ÷ å u t ú - x E ç å u t ÷ý =
ís å xt - ns x ý
2
2
m xx - x n ïî ëè t =1
ø t =1 û
è t =1 øïþ m xx - x n î t =1
þ
dove a sua volta nell’ultimo passaggio è stata impiegata la non correlazione delle u~t per
indici diversi.
La covarianza tra gli stimatori dei minimi quadrati
Calcoliamo la covarianza tra m̂ e bˆ
87
ìé 1 n
ü
ù
Cov mˆ , bˆ = E é( mˆ - m ) bˆ - b ù = E í ê å u%t - x bˆ - b ú bˆ - b ý =
ë
û
û
î ë n t =1
þ
(
)
(
)
(
éæ 1 n ö
ù
= E êç å u%t ÷ bˆ - b ú - x E bˆ - b
ëè n t =1 ø
û
(
)
(
)
)(
)
(A.3.1.5)
s2
= -x
n ( mxx - x 2 )
2
dove nel secondo passaggio è stata utilizzata la (A.3.1.2) e nel quarto la (A.3.1.3) nonché
il fatto che è
éæ 1 n ö
ù
E êç å u%t ÷ bˆ - b ú = 0
ëè n t =1 ø
û
(
)
Campo di variazione del coefficiente di correlazione
Dimostriamo la doppia disuguaglianza nella (3.3.2). Siano
m y = E ( y% ) ,
mt = E ( x% ) ,
s y2 = Var ( y% ) ,
s x2 = Var ( x% ) ,
s yx2 = Cov ( y% , x% )
Consideriamo poi la variabile aleatoria
é y% - m y x% - m x ù
+
êt
ú
s x ûú
ëê s y
2
con t costante reale, e prendiamone il valor medio
2
é ( y% - m )2
é y% - m y x% - m x ù
y% - m y ) ( x% - m x ) ( x% - m x ) 2 ù
(
y
2
ê
ú=
E êt
+
+ 2t
+
ú =E t
2
2
ê
ú
s
s
s
s
s
s
y
x
y
y x
x
ëê
ûú
ë
û
= t2 + 2t
Cov ( y% , x% )
Var ( y% ) ×Var ( x% )
+ 1 = t2 + 2 r t +1
che è sempre nonnegativa in virtù del quadrato. Allora deve essere sempre r 2 - 1 £ 0 , da
cui la (3.3.2).
Indipendenza stocastica del numeratore e del denominatore nella t di Student
Utilizzando le (2.6.10) ottenute dalle equazioni normali si ha che
å yˆ uˆ = å ( mˆ + bˆ x ) uˆ
n
t =1
n
t
t
t =1
t
t
n
n
t =1
t =1
= mˆ å uˆt + bˆ å xt uˆt = 0
per cui le stime dei residui sono incorrelate con quelle della parte sistematica e, in
particolare, con quelle di m e di b . Dato poi che gli stimatori sia dei residui che dei
coefficienti sono distribuiti normalmente, la loro non correlazione implica la loro
indipendenza stocastica.
88
Appendice 3.2 Distribuzioni di probabilità rilevanti
Distribuzione normale
La distribuzione di probabilità (di una variabile aleatoria x% ) più importante è quella
detta normale (o di Gauss o gaussiana) che ha la forma della sezione di una campana con
i lembi infiniti come nella figura 3.2. Essa dipende da due parametri m e s 2 che sono
2
rispettivamente il suo valor medio m = E ( x% ) e la sua varianza s 2 = E é( x% - m ) ù ; è
ë
û
simmetrica e quindi il suo punto più alto (la sua moda) si ha in corrispondenza di m . La
distribuzione di probabilità normale è immediatamente definita dalla sua funzione di
densità di probabilità, che matematicamente è
f ( x ) = ( 2ps
(
2
)
-1 2
ìï ( x - m ) 2 üï
× exp í ý
2s 2 ï
îï
þ
(A.3.2.1)
)
ed è indicata con il simbolo N m , s 2 .
La forma campanulare della distribuzione normale è data dall’esponenziale;
( 2ps )
2
sia
ò
+¥
-¥
-1 2
è un fattore di normalizzazione che serve semplicemente a fare in modo che
f ( x ) × dx = 1 , convenzione che si segue in tutte le distribuzioni di probabilità.
Di seguito sono esposte alcune proprietà di questa distribuzione, che non
dimostriamo:
a) Man mano che ci si allontana dal valor medio m la probabilità che x% assuma i
valori contenuti in un intervallo infinitesimale a destra o a sinistra di m
diminuisce.
b) Approssimativamente, la superficie che giace sotto la curva normale definita
dalla (A.3.2.1) vale 68 100 nell’intervallo
[ m - 2s , m + 2s )
[m -s , m + s ) ;
vale 95 100 in
e 99.7 100 in [ m - 3s , m + 3s ) , come indicato nella figura 3.5.
c) La combinazione lineare di due o più variabili aleatorie normali è normale; in
particolare, nel caso di due si ha che se
x% : N ( m x , s x2 )
y% : N ( m y , s y2 )
% = a × x% + b × y% è una variabile aleatoria normale con valor medio
allora w
m w = E ( a × x% ) = E ( b × y% ) = a × m x + b × m y
e con varianza
89
{
2
s w2 = E é( w% - mw ) ù = E éë( a × x% + b × y% ) - ( a × m x + b × m y ) ùû
ë
û
{
= éë a ( x% - m x ) + b ( y% - m y ) ùû
2
2
}=
} = a ×Var ( x% ) + b ×Var ( y% ) + 2ab × Cov ( x%, y% ) =
2
2
(A.3.2.2)
= a 2 × s x2 + b 2 ×s y2 + 2ab × Cov ( x%, y% )
Da questa relazione si nota che se x% e y% sono incorrelate allora
s w2 = a 2 × s x2 + b 2 × s y2
m - 3s
m - 2s
m -s
m
m +s
m + 2s
m + 3s
≈68/100
≈95/100
≈99.7/100
Figura 3.5 – Funzione di densità della distribuzione normale N ( m , s 2 ) con l’indicazione
del valore approssimato di tre superfici sotto di essa.
d) Minore è la varianza s 2 e più concentrata è la distribuzione normale intorno
al valor medio m .
e) Se due o più variabili aleatorie normali x%1 , x%2 , K , x%k sono incorrelate tra di
loro, allora sono indipendenti, cioè la loro funzione di densità multivariata è
uguale al prodotto delle funzioni di densità singole
f ( x1 , x2 ,K , xk ) = f ( x1 ) × f ( x2 ) ×K × f ( xk )
90
f) Se m = 0 e s 2 = 1 , la variabile aleatoria normale è detta standardizzata e,
ovviamente, è denotata con N ( 0,1) .
Distribuzione del chi quadrato
Consideriamo k variabili aleatorie normali standardizzate indipendenti z%1 , z%2 ,K , z%k ,
eleviamole al quadrato e sommiamole
z%12 + z%22 + K + z%k2 = w%
(A.3.2.3)
Otteniamo una variabile aleatoria che ha una particolare distribuzione, detta del chi
quadrato, che dipende da k , il suo numero dei gradi di libertà (g.d.l.)
w% : c k2
I grafici delle funzioni di densità di probabilità del c
(A.3.2.4)
2
per tre numeri di g.d.l. sono
riportati nella figura 3.4.
Alcune proprietà di questa distribuzione, che non dimostriamo, sono:
a) Il valor medio della distribuzione del c 2 con k g.d.l. è k e la sua varianza è
2k .
% 1 e w% 2 sono due variabili aleatorie indipendenti con distribuzione del c 2
b) Se w
di k1 e k2 g.d.l. rispettivamente, la loro somma è una variabile aleatoria con
distribuzione del c 2 con g.d.l. pari alla somma k1 + k2 .
c) Come si vede dalla figura 3.4 la distribuzione del c 2 è asimmetrica, con il
grado di asimmetria che dipende dal numero di g.d.l. Più grande è questo e
meno asimmetrica è la distribuzione; al tendere di questo all’ ¥ , la
distribuzione del c 2 tende alla distribuzione normale.
Distribuzione della t di Student
Il rapporto di una variabile aleatoria standardizzata e la radice quadrata di una
variabile aleatoria distribuita come un c% 2 diviso per il suo numero k di g.d.l. possiede
una distribuzione detta t di Student, se le due variabili aleatorie sono indipendenti (in
probabilità). Nella figura 3.6 sono disegnate tre funzioni di densità di questo tipo per
k = 10, 30, 120 g.d.l.
Di seguito sono esposte alcune proprietà di questa distribuzione che non
dimostriamo:
a) La distribuzione della t di Student è simmetrica intorno allo zero, che è anche
il suo valor medio.
91
b) La varianza della t di Student è k ( k - 2 ) dove k è il numero dei g.d.l.
c) All’aumentare di k la distribuzione della t di Student si avvicina alla
distribuzione normale standardizzata. Dal punto di vista delle applicazioni la
t di Student con k > 60 è da considerarsi praticamente uguale alla normale
standardizzata.
Distribuzione della F di Fisher
Il rapporto di due variabili aleatorie distribuite come un c 2 , ciascuna divisa per il
proprio numero di g.d.l., possiede una distribuzione detta F di Fisher, se le due variabili
aleatorie sono indipendenti. Questa distribuzione dipende dai due g.d.l. dei c 2 , k1 e k 2 ,
ed è quindi indicata con Fk1 ,k 2 . Nella figura 3.7 sono disegnate tre funzioni di densità di
questo tipo per tre coppie di g.d.l.
Alcune proprietà di questa distribuzione, che non dimostriamo, sono:
a) La distribuzione della F di Fisher è asimmetrica, come quella del c 2 .
b) Il suo intervallo di variazione va da zero ad infinito.
c) Al tendere ad infinito dei suoi g.d.l. la distribuzione della F di Fisher tende a
quella normale.
d) La distribuzione della F di Fisher con 1 e k g.d.l. è uguale a quella del
quadrato di una t di Student con k g.d.l.
92
CAPITOLO IV
LA PROIEZIONE
93
4.1
Proiezione e proiettore nei modelli lineari
Riconsideriamo il modello lineare semplice (2.6.1)
yt = m + b xt + ut
(4.1.1)
e poniamoci il problema di proiettare yt fuori dal campione che percorre il tempo
t = 1, 2,K , n ; in altre parole vogliamo determinare yn + h per h = 1, 2,K , n1 , dove l’intervallo
temporale n + 1, n + 2,K , n + n1 è detto periodo di proiezione. Se utilizziamo il modello
(4.1.1), stimato nel periodo campionario, per proiettare yt e se supponiamo che:
- la struttura dell’economia, già ipotizzata sostanzialmente invariante nel
campione, rimanga la stessa nei due periodi, rendendo così possibile
l’utilizzazione delle stime anche nella proiezione;
- i valori dell’esplicativa xt per i tempi t = n + 1, n + 2,K , n + n1 , siano noti;
- valgano anche per il futuro le ipotesi deboli per i residui
ìs 2 s = n + h
E (u~n +h ) = 0 , E (u~n+ h × u~s ) = í
î0 s ¹ n + h; s = 1, 2 ,..., n + n1
(4.1.2)
per ogni h,
per cui risulta “naturale” prendere come proiezioni dei residui il loro valor medio, che è
nullo, la proiezione yˆ n + h al tempo n+h è
yˆ n + h = mˆ + bˆ xn + h
h = 1, 2,K , n1
(4.1.3)
In effetti yˆ n + h non è tanto la proiezione di yt quanto quella della sua componente
sistematica, poiché la proiezione di ut è stata posta arbitrariamente uguale a zero.
Questa procedura, tuttavia, può essere giustificata in senso probabilistico se si considera,
come ad esempio fatto dal de Finetti [1970] in ambito soggettivista, la proiezione di una
variabile aleatoria come suo valor medio; in questo caso si ha
yˆ n + h = m + b xn + h
h = 1, 2,K , n1
(4.1.4)
e i parametri m e b , sconosciuti, devono essere sostituiti da stime.
Se nella (4.1.3) i valori m̂ e bˆ vengono considerati come stimatori e non come stime,
la yˆ n + h diventa una variabile aleatoria che chiamiamo proiettore della parte sistematica
di yn + h (non di tutto yn + h poiché, ripetiamo, un + h è stato posto arbitrariamente uguale a
zero).
94
Nelle applicazioni occorre tener sempre presente quali sono le fonti di incertezza per
la proiezione (4.1.3):
- i parametri m̂ e bˆ sono stime e non i valori veri;
- la variabile esplicativa xn + h non è generalmente nota e va sostituita con una sua
propria proiezione;
- nella proiezione yˆ n + h si annulla arbitrariamente il residuo un + h ma nella realtà
non è affatto detto che valga zero.
Considerando queste si valutano più correttamente le proiezioni che si
ottengono.
L’errore di proiezione
Rimarchiamo il fatto che, a meno di non accettare l’impostazione del de Finetti, il
proiettore (4.1.3) non è uno stimatore non distorto di yn + h definito dalla (4.1.1), mentre lo
è della sua componente sistematica. Esso, tuttavia, può essere considerato non distorto
in un altro senso, che illustriamo facendo ricorso all’errore di proiezione definito nella
maniera seguente
(
)
en + h = yn + h - yˆ n + h = m - mˆ + b - bˆ xn + h + un + h
(4.1.5)
Poiché il valor medio dell’errore (4.1.5) considerato come variabile aleatoria è nullo
(
)
E (e%n + h ) = E ( m - mˆ ) + E é b - bˆ xn + h ù + E ( un + h ) = 0
ë
û
(4.1.6)
il proiettore yˆ n + h può essere considerato come uno stimatore non distorto di yn + h nel
senso che il valor medio dell’errore di proiezione è nullo. In questo caso si dice che yˆ n + h è
un proiettore incondizionatamente non distorto
ed in questo fatto consiste un’altra
buona proprietà delle proiezioni ottenute con i minimi quadrati.
Proiezioni ex post ed ex ante
La relazione (4.1.5) che definisce l’errore di proiezione indica anche che questo può
essere considerato come una variabile aleatoria oppure come una sua realizzazione.
L’errore è aleatorio se è espresso in termini di stimatori m̂ e bˆ oltreché di residuo uˆn + h ;
è un numero se al contrario yˆ n + h è la proiezione (4.1.3) e xn + h è noto. In questo secondo
caso si proietta yt in tempi n + h , h = 1, 2,K , n1 , per i quali le realizzazioni yn + h sono
conosciute e la proiezione viene chiamata ex post ; nel caso in cui non siano note (e quindi
gli errori non possono essere numericamente calcolati) la proiezione è chiamata ex ante.
95
4.2
La proiezione con il criterio dei minimi quadrati
Supponiamo d’ora in poi che il criterio di stima dei parametri sia quello dei minimi
quadrati. In questo caso il proiettore (4.1.3) gode della proprietà di essere BLU, in
quanto è lineare rispetto alle yt poiché lineari sono gli stimatori OLS; è non distorto
rispetto alla parte sistematica di yn + h
(
)
(
)
E ( yˆ n + h ) = E mˆ + bˆ xn + h = E ( mˆ ) + E bˆ xn + h = m + b xn + h
h = 1, 2,K , n1
(4.2.1)
dove nel secondo passaggio si è sfruttata la linearità dell’operatore E e nel terzo il fatto
che se xn + h è una costante (nota) allora
(
) ()
E bˆ x n+ h = E bˆ × xn + h
ed è ottimo in quanto
(
)
(
Var ( yˆn + h ) = Var mˆ + bˆ xn + h £ Var m% + b% xn + h
)
h = 1, 2,K , n1
dove m% e b% sono stimatori qualsiasi tra i lineari e non distorti, valendo la (3.2.9) se si
prendono le costanti c1 e c2 pari a 1 e a xn + h , h = 1, 2,K , n1 , rispettivamente.
L’errore quadratico medio di proiezione
La varianza dell’errore di proiezione ci permette di stabilire un teorema di
fondamentale importanza per la proiezione. Essa vale
2
ù
s 2 é ( xn + h - x )
Var (e%n + h ) =
ê1 +
+ nú
2
n ê
mxx - x
úû
ë
(4.2.2)
come dimostriamo nell’Appendice 4.1.
La varianza (4.2.2) è detta errore quadratico medio di proiezione21 ed è generalmente
considerata come un indicatore della precisione della proiezione. Tanto più piccolo è
questo errore e tanto più precisa è la proiezione, per cui quando il proiettore (4.1.3) viene
ottenuto con il criterio dei minimi quadrati esso gode di un’ottima proprietà poiché vale il
seguente
Teorema 4.1 – Tra i proiettori lineari (rispetto alle yt ) e incondizionatamente non
distorti, se m̂ e bˆ sono gli stimatori dei minimi quadrati il proiettore (4.1.3) è quello che
possiede errore quadratico medio minimo.
La dimostrazione sarà fatta nel caso dei modelli lineari multipli.
21
In inglese: Mean square error of prediction.
96
4.3
Intervalli di confidenza per le proiezioni
Si è visto che esiste una certa simmetria tra le stime e le proiezioni: in ambito
stocastico esse si trasformano in stimatori e proiettori, rispettivamente. E la simmetria
continua negli intervalli di confidenza, che come sussistevano per le stime così sussistono
per le proiezioni. Ma le proiezioni intervallari assumono un significato più rilevante delle
stime intervallari in quanto in economia sono di utilizzazione più immediata. Si può
anche asserire che se occorre effettuare una proiezione di variabili economiche è bene che
sia intervallare e non puntuale.
Vediamo dunque come si costruiscono intervalli di confidenza per le
yˆ n + h ,
h = 1, 2,K , n1 .
Innanzitutto supponiamo che valgono le ipotesi forti per i residui sia nel periodo
campionario che in quello di proiezione, per cui è anche
u% n + h : N ( 0, s 2 )
h = 1, 2,K , n1
In questo caso l’errore di proiezione (4.1.5) è una variabile aleatoria costituita da una
~ anch’essa
combinazione lineare degli stimatori m̂ e bˆ distribuiti normalmente e di u
n+h
normale, per cui è
~
en + h ~ N (0, s 2 × a n2+ h )
h = 1, 2,K , n1
se poniamo
2
n+h
a
2
ù
1 é ( xn + h - x )
= ê1 +
+
n
ú
nê
mxx - x 2
úû
ë
(4.3.1)
in virtù delle (4.1.6) e (4.2.2).
Volendo trovare gli intervalli di confidenza per le yn + h , che in realtà hanno un
significato leggermente diverso dal consueto in quanto la ~
y n + h è una quantità aleatoria
(funzione di u~n + h ), consideriamo che
e%n+ h
y% - yˆ n+ h
= n+ h
: N ( 0,1)
s × an + h
s × an +h
h = 1, 2,K , n1
e che
97
y% n+ h - yˆ n+ h
1/ 2
é n
ù
an + h êå u%t2 /(n - k ) ú
ë t =1
û
poiché ~
en+ h e
n
å u%
t =1
t
=
y%n +h - yˆn + h
: tn + h
an + hs
h = 1, 2,K , n1
sono variabili aleatorie stocasticamente indipendenti. Infatti per la
(4.1.5) ~
en + h è formata dalle m̂ e bˆ non correlate con le u%t e dalla u~n + h non correlata con
le û t per la (4.1.2); essendo tutte queste variabili distribuite normalmente, vale l’asserita
indipendenza stocastica.
L’intervallo di confidenza al livello a è trovato partendo dalla condizione
æ
ö
y% - yˆ n + h
P ç tn¢- 2 £ n + h
£ tn¢¢- 2 ÷ = 1 - a
an + hs
è
ø
dove tn¢ -2 e tn¢¢-2 sono i quantili di probabilità a 2 e 1 - a 2 rispettivamente, forniti dalle
tavole della t di Student con n - 2 gradi di libertà. L’intervallo risulta, dunque,
yˆ n+ h + an + h × s × tn¢ - 2 £ y% n+ h £ yˆ n+ h + an+ h × s × tn¢¢- 2
per h = 1, 2,K , n1 , e va interpretato come l’intervallo più corto che contiene il valore
aleatorio ~
y n + h con probabilità 1-a.
98
4.4
Tre esempi
Riprendiamo le equazioni stimate nel paragrafo 3.8 ed effettuiamo la proiezione
intervallare ex post per tre tempi al livello a = 0.05 .
Retta interpolante il logaritmo dei consumi
Il modello stimato è il (3.8.2), n - 2 = 19 per cui tn¢ - 2 = -2.093 e tn¢¢- 2 = 2.093. Si hanno
poi i risultati
errore di
previsione
SE di previsione
1.556
0.024
0.012
1.601
1.567
0.034
0.013
1.626
1.579
0.047
0.013
h
yn+ h effettivo
yˆ n+ h previsto
1
1.580
2
3
che graficamente sono esposti nella figura 4.1.
Funzione del consumo
Il modello stimato è il (3.8.3), n - 2 = 21 per cui tn¢ -2 = -2.08 e tn¢¢- 2 = 2.08. Si hanno poi i
risultati
errore di
previsione
SE di previsione
615667
832
7508
622931
627839
-4908
7615
625708
630388
-4680
7638
h
yn + h effettivo
yˆ n + h previsto
1
616498
2
3
che graficamente sono esposti nella figura 4.2.
Relazione tra tasso di cambio nominale e prezzi relativi
Il modello stimato è il (3.8.4), n - 2 = 31 per cui tn¢ -2 = -2.04 e tn¢¢- 2 = 2.04. Si hanno poi i
risultati
errore di
previsione
SE di previsione
0.796
0.289
0.106
1.117
0.796
0.321
0.106
1.061
0.798
0.263
0.106
h
yn+ h effettivo
yˆ n+ h previsto
1
1.085
2
3
che graficamente sono esposti nella figura 4.3.
99
4.5
Indicatori dell’accuratezza delle proiezioni
Quando le proiezioni sono effettuate ex post è possibile valutare numericamente gli
errori di proiezione (4.1.5) e misurare così l’accuratezza delle proiezioni stesse. A tal fine
sono stati costituiti alcuni indici, dei quali i cinque più comuni sono l’errore medio
MPE =
1 n1
å en +h
n1 h =1
(4.5.1)
che è nella sostanza la media aritmetica degli n1 errori di proiezione; l’errore medio
assoluto
MAE =
1 n1
å en+h
n1 h =1
(4.5.2)
che è la media aritmetica degli errori presi in valore assoluto (in modo da considerarli
simmetricamente, sia i positivi che i negativi, mentre nell’MPE gli uni si elidono con gli
altri); l’errore quadratico medio
1 n1 2
MSE = å en +h
n1 h =1
(4.5.3)
che è la stima campionaria dell’errore quadratico medio di proiezione e che spesso è
considerato sotto radice quadrata aritmetica dando luogo alla radice dell ’errore
quadratico medio
RMSE = MSE1 2
(4.5.4)
in modo da ottenere un indice della stessa dimensione dell’errore; ed infine il coefficiente
di disuguaglianza di Theil22
1/ 2
æ n1 2 ö
ç å en + h ÷
è h =1
ø
U=
1/ 2
1/ 2
n1
æ
æ n1 2 ö
2 ö
ç å yn + h ÷ + ç å yˆ n + h ÷
è h =1
ø
è h =1
ø
(4.5.5)
che vale zero quando tutti gli errori di proiezione sono nulli e tende ad uno man mano
che l’accuratezza delle proiezioni peggiora.
Spesso è utile valutare alcuni degli indicatori precedenti in termini percentuali
rispetto ad yn + h al fine di disporre di una misura di errore indipendentemente dalla
In lingua inglese gli indicatori sono: Mean prediction error (MPE), mean absolute error (MAE),
mean square error (MSE), root mean square error (RMSE), Theil’s inequality coefficient (U),
rispettivamente.
22
100
dimensione della variabile che si proietta: sostituendo nelle (4.5.2) e (4.5.3) al posto degli
errori en + h i rapporti en + h / yn + h si ottengono l’errore medio assoluto percentuale (MAPE) e
l’errore quadratico medio percentuale (MSPE).
Nella tavola 4.1 sono esposti i valori di alcuni di questi indici per le proiezioni dei tre
esempi mostrati nel paragrafo 4.4.
Modello
MAE
MSE
RMSE
U
MAPE
MSPE
Retta
0.352
0.133
0.364
0.011
0.022
0.0005
interpolante il
log dei consumi
Funzione del
3473
15561577
3945
0.003
0.006
0.00004
consumo
Relazione tra
tasso di cambio
0.291
0.085
0.292
0.155
0.267
0.072
nominale e
prezzi relativi
Tavola 4.1 – Errore medio assoluto, errore quadratico medio, radice quadrata dell’errore
quadratico medio, coefficiente di Theil, errore medio assoluto percentuale ed errore
quadratico medio percentuale per le proiezioni uno, due e tre tempi in avanti di tre
modelli.
Appendice 4.1 Complementi analitici
La varianza dell’errore di proiezione
Dimostriamo la (4.2.2)
(
(
)
)
(
)
Var (e%n + h ) = Var é m - mˆ + b - bˆ xn + h + u%n + h ù = Var é m - mˆ + b - bˆ xn + h ù + Var ( u%n + h ) =
ë
û
ë
û
2
2
= Var ( m - mˆ ) + xn + h ×Var b - bˆ + 2 Cov é( m - mˆ ) b - bˆ xn + h ù + s =
ë
û
2
2
2
2
ù 2 s
s é
x
1
x ×s
=
+ xn +h
- 2 xn + h
+s 2 =
ê1 +
2 ú
2
2
n ë mxx - x û
n mxx - x
n ( mxx - x )
(
)
2
ù
s 2 é ( xn + h - x )
=
+
n
ê1 +
ú
n ê
mxx - x 2
ú
ë
û
dove nel secondo passaggio abbiamo utilizzato la non correlazione tra u%n + h e i residui del
periodo campionario e quindi m̂ e bˆ , nel terzo la (3.1.3) e nel quarto le (A.3.1.3),
(A.3.1.4) e (A.3.1.5).
101
CAPITOLO V
LA MALASPECIFICAZIONE
102
5.1
Aspetti variegati della malaspecificazione
Riprendiamo le ipotesi stocastiche sotto le quali abbiamo effettuato le analisi
precedenti. Sia dato il modello lineare semplice
y = m + b xt + ut
(5.1.1)
per il quale abbiamo supposto cha valgano le ipotesi deboli:
il campione è omogeneo e i parametri m e b sono invariabili nel
i)
tempo;
ii)
i valori xt sono noti " t ;
iii)
E ( u%t ) = 0
iv)
és 2 0 K 0 ù
ê
ú
0 s 2 K 0 ú ì0
ê
E ( u%t × u%s ) =
=
êM
ú ís 2
O
ê
ú î
2
êë0 0 K s úû
(5.1.2)
t¹s
t=s
(5.1.3)
nonché quelle forti:
v)
u%t : N ( 0, s 2 )
"t
(5.1.4)
In questo capitolo verifichiamo, tramite test, se queste ipotesi, dato un campione,
possono essere considerate valide. Questi test sono chiamati di malaspecificazione, in
quanto verificano che i dati campionari con cui si stimano i parametri della (5.1.1)
soddisfano alle ipotesi i) … v).
La prima ipotesi che sottoponiamo a verifica è quella dell’omoschedasticità dei
residui, cioè del fatto che tutte le loro varianze siano uguali.
La seconda ipotesi che sottoponiamo a verifica è quella della nullità della covarianza
tra un qualsiasi residuo e quello seguente (o il precendente), cioè dell’autocorrelazione di
ordine uno.
La terza ipotesi è quella della normalità dei residui (la v) e la quarta è relativa alla
omogeneità del campione: se questo è omogeneo per tutti i tempi precedenti un certo
istante ed è anche omogeneo, ma diverso dal precedente, per tutti i tempi successivi, si
dice che in quell’istante si è avuto un cambiamento della struttura economica, e
mostreremo alcuni test che permettono di verificare l’esistenza di questo cambiamento
strutturale.
103
5.2
Eteroschedasticità dei residui
Nelle variabili economiche accade spesso che la variabilità non sia costante nel
tempo, ma crescente o più raramente decrescente, oppure ancora crescente e poi
decrescente a tratti. Se una tale situazione vale per la (5.1.1) e se il termine b xt non
rappresenta sufficientemente tale variabilità non costante, questa si trasferisce sui
residui ut per cui l’ipotesi iv) si trasforma nella
ì0
E (u~t × u~s ) = í 2
îs t
t¹s
t=s
(5.2.1)
caratterizzandone la eteroschedasticità.
In tale caso l’analisi svolta in precedenza mostra come non possano essere più
utilizzati gli stimatori dei minimi quadrati ordinari, per i quali è necessario che valgano
le (5.1.2).
La stima dei minimi quadrati ponderati (WLS
23)
Viene naturale ipotizzare che l’eteroschedasticità dei residui sia causata da alcune
variabili note che indichiamo con z1t, z2t, …, zst. Sotto l’ulteriore ipotesi che s t2 sia
funzione crescente (l’adattamento al caso decrescente è banale) di queste variabili,
possiamo porre
s 2t = exp(a 1 z1t ) × exp(a 2 z 2t ) × ... × exp(a s z st )
(5.2.2)
dove la crescenza è rappresentata mediante l’esponenziale per comodità di sviluppo
analitico. Sempre per comodità è conveniente specializzare ulteriormente la (5.2.2) senza
che le ipotesi addizionali condizionino troppo le situazioni reali.
Supponiamo, dunque, in primo luogo che siano s = 2 e z1t = 1 "t, per cui la (5.2.1)
diventa
s t2 = exp(a 1 ) × exp(a 2 z 2t ) = s 2 × wta 2
(5.2.3)
avendo posto
s 2 = exp (a1 )
z2t = ln wt
In secondo luogo supponiamo che a 2 = 2 , per cui in conclusione si ha
23
Weighted Least Squares, in inglese.
104
s 2t = s 2 × wt2
(5.2.4)
Se wt = 1 , "t, si ritorna all’ipotesi standard di omoschedasticità.
Sotto l’ipotesi (5.2.1), per eliminare l’eteroschedasticità basta dividere il modello
(5.1.1) per wt
yt
1
x u
= m +b t + t
wt
wt
wt wt
(5.2.5)
che si può stimare con gli OLS; infatti
æ u~
Eçç t
è wt
ö 1
÷÷ =
E (u~t ) = 0
w
ø
t
"t
0
ì
æ u~ u~ ö
1
ï
Eçç t × s ÷÷ =
E (u~t × u~s ) = í 1 s 2 = s 2
è wt ws ø wt × ws
ïî wt2 t
t¹s
t=s
avendo fatto uso della (5.2.1). Valgono dunque le ipotesi deboli (3.1.5).
La stima effettuata in questo modo è detta dei minimi quadrati ponderati o WLS,
poiché ogni elemento t-esimo del campione viene pesato con un fattore; in questo
specifico caso 1 wt .
Esempio 5.1 – Possiamo considerare nuovamente la (2.9.1) ma supponendo che sia il
consumo che il reddito siano nominali. La figura 5.1 mostra l’andamento del consumo
nominale in Italia, con una eteroschedasticità che supponiamo soltanto parzialmente
spiegata dal reddito nominale. Se ipotizziamo che essa sia sostanzialmente dovuta
dall’inflazione, possiamo prendere come wt la serie OCSE del deflatore dei consumi
privati ITAPCP e stimare l’equazione (5.2.5), dove yt è il consumo nominale e xt è il
reddito nominale (ITAGDP, prodotto interno lordo ai prezzi di mercato). La stima dei
minimi quadrati fornisce i risultati
yˆt
x
1
= -772503 + 0.608 t
wt
wt
wt
t:
campione 1980-2002,
SE dei residui=6514 ;
(-4.863)
(203.284)
R2 = 0.993
RSS=891158910 ;
TSS=120710590000
abbastanza differenti da quelli nella (3.8.3).
105
ct
80
70
60
50
40
30
20
10
0
1980
1985
1990
1995
2000
t
Figura 5.1 – Serie storica annuale del consumo nominale in Italia espressa in
migliaia di miliardi; anni 1980-2002.
106
5.3
Test di omoschedasticità
Il test di Breusch e Pagan
Prima di effettuare operazioni volte a stimare la (5.1.1) in presenza di
eteroschedasticità è necessario ovviamente verificare che questa sussista. Illustriamo
allora, senza le dimostrazioni che possono essere trovate negli articoli originali, alcuni
test comunemente usati per verificare l’eteroschedasticità dei residui.
Il primo test è dovuto a Breusch e Pagan [1979] e presuppone che sotto l’alternativa
H 1 : s t2 ¹ s 2 valga una relazione del tipo di (5.2.1)
s t2 = h (a1 z1t + a 2 z2 t + K + a s zst )
dove h è una funzione indeterminata poiché il test ne è indipendente. Se supponiamo che
z1t = 1 ed s = 2 , l’ipotesi nulla
H0 : a2 = 0
(5.3.1)
suggerisce omoschedasticità poiché in questo caso è
s t2 = h (a1 ) = s 2 = costante
I passi da percorrere in questo test sono i seguenti:
1) si stima il modello (5.1.1) con gli OLS e si calcolano i residui stimati û t ;
2) si calcolano le quantità
sˆ 2 =
uˆ t2
sˆ 2
1 n 2
å uˆ t
n t =1
"t
ˆ 2 come variabile proxy di s t2 e quindi si stimano i parametri
3) si utilizza la uˆ t2 / s
della regressione24 ausiliaria
uˆt2
= a1 + a 2 z2t + vt
sˆ 2
4) si calcola la devianza residua
(5.3.2)
n
å vˆ
t =1
2
t
5) sotto H 0 la ESS, differenza tra devianza totale e devianza residua della (5.3.2), è
tale che, approssimativamente e per un campione grande,
La divisione per la costante ŝ serve unicamente a semplificare le elaborazioni metodologiche
contenute nel lavoro originale di Breusch e Pagan.
24
2
107
%
ESS
: c12
2
(5.3.3)
per cui si può effettuare un test del chi quadrato per la verifica dell’omoschedasticità.
Il test del chi quadrato
% 2 ha distribuzione c 2 e
La (5.3.3) indica che sotto la H 0 la variabile aleatoria ESS
1
quindi nel 95% dei casi si collocherà nella regione di accettazione del test, che
consideriamo monolaterale, éë0, c12
) dove
c12 è il quantile di probabilità 95%, mentre nel
)
5% dei casi si collocherà nella regione di rifiuto éë c12 , +¥ . Basta allora calcolare il valore
ESS 2 e trovare il quantile c12 dalle tavole del c 2 con un g.d.l.; se ESS 2 cade
nell’intervallo éë0, c12
) si è spinti ad accettare l’ipotesi nulla di omoschedasticità (5.3.1),
altrimenti a rifiutarla (ed accettare quindi l’ipotesi di eteroschedasticità). Ovviamente il
95% di probabilità può essere sostituito con il 99% o il 90%, a seconda degli obiettivi che
si pone il ricercatore.
Esempio 5.2 – Consideriamo l’equazione che lega i consumi privati nominali ct in Italia
con il tempo, come effettuato nell’esempio 2.2 e verifichiamo che i residui siano
omoschedastici, supponendo che responsabile di una eventuale eteroschedasticità
potrebbe essere il deflatore dei consumi privati (ITAPCP nella base dati OCSE; z 2t nella
(5.3.2)). Stimiamo il modello
ct = m + b t + ut
(5.3.4)
{
}
con gli OLS e calcoliamo sˆ 2 nonché la serie uˆt2 sˆ 2 . Stimiamo quindi la regressione
ausiliaria
uˆt2
= a1 + a 2 z 2t + n t
sˆ 2
e calcoliamo ESS 2 = 4.960 che è maggiore di 3.84 , quantile al 95% della distribuzione
del c 2 con 1 g.d.l. Siamo quindi spinti a rifiutare l’ipotesi nulla di omoschedasticità.
La formulazione di Koenker
Il significato intuitivo del test è questo: se sussiste l’eteroschedasticità, e se questa è
effettivamente spiegata dalla variabile z 2t prescelta, allora questa stessa variabile
ˆ 2 nella (5.3.2), per cui la
fornirà una buona spiegazione dell’andamento della uˆ t2 / s
108
devianza spiegata è abbastanza elevata e la statistica ESS 2 è maggiore del valore
soglia, cadendo quindi nella regione di rifiuto del test del c 2 .
Questo fondamento intuitivo è alla base di una formulazione alternativa del test,
proposta da Koenker [1981], che risulta di più rapida implementazione del precedente in
quanto prescinde dal calcolo di ŝ 2 . Per effettuare il test basta infatti stimare con i
minimi quadrati il modello
uˆt2 = a1 + a 2 z2 t +n t
(5.3.5)
e in tal caso si dimostra che asintoticamente e per un campione grande:
(5.3.6)
nRu2 : c12
dove Ru2 è il coefficiente di determinazione non centrato (2.8.6) della (5.3.5). Si è quindi
spinti a rifiutare l’ipotesi di omoschedasticità se la variabile z 2t prescelta spiega bene
l’andamento del quadrato dei residui.
Osservazione 5.1 – La (5.3.2) e (5.3.5) sono esempi di regressione ausiliaria,
intendendosi con questo termine una regressione priva di diretto significato
economico, che viene stimata generalmente usando grandezze derivate dalla
stima di un modello econometrico (ad esempio, i residui derivati da una stima
OLS) per permettere o semplicemente per facilitare il calcolo delle statistiche
di determinati test. La teoria moderna della verifica delle ipotesi utilizza
largamente le regressioni ausiliarie.
Esempio 5.3 – In mancanza di ipotesi a priori specifiche sulla natura dell’eventuale
eteroschedasticità, come effettuato nell’esempio 5.2, è possibile prendere come z 2t il
quadrato dei valori dell’endogena stimata yˆ t2 . Nel caso del modello (5.3.4) l’equazione
ausiliaria (5.3.5) stimata è
uˆt2 = 200000000000 + 0.102ct
n = 21
Ru2 = 0.279
per cui nRu2 = 5.838. Il valore soglia della distribuzione del c12 è lo stesso dell’esercizio
precedente, 3.84, per cui la statistica nRu2 cade nella regione di rifiuto del test e si è così
spinti a rifiutare l’ipotesi nulla di omoschedasticià.
109
5.4
La correzione per l’eteroschedasticità di White
Si è detto che la presenza di eteroschedasticità comporta che le stime ottenute con i
minimi quadrati ordinari non siano buone e da questo si trae che i loro errori standard,
così come le t di Student, non siano affidabili. H. White (1980) ha tuttavia sviluppato un
metodo che permette di ottenere gli errori standard delle stime tenendo conto
dell’eteroschedasticità: il vantaggio è quindi notevole, sebbene la procedura valga
soltanto approssimativamente e per un campione numeroso. Il metodo sarà esposto più
in avanti, nella trattazione del modello di regressione multipla, e per il momento ci
fermiamo soltanto ad evidenziare le differenze nei valori ottenuti per gli errori standard
e per le t di Student considerando e non considerando la correzione di White.
La semplice stima dei minimi quadrati della (5.3.4), che abbiamo verificato
contenente eteroschedasticità fornisce i risultati
cˆt = -1333928 + 420437t
SE:
t:
(673610)
(53646)
(-1.98)
(7.837)
(5.4.1)
R 2 = 0.764
campione 1960–1980;
SE dei residui =1488618;
RSS = 42103686000000;
TSS = 178214800000000
mentre quelli corretti per l’eteroschedasticità con il procedimento di White sono
cˆt = -1333928 + 420437t
SE:
(624420)
(66359)
t:
(-2.136)
(6.336)
campione 1960–1980;
SE dei residui =1488618;
(5.4.2)
R 2 = 0.764
RSS = 42103686000000;
TSS = 178214800000000
Ovviamente le stime (5.4.1) e (5.4.2) sono differenti soltanto negli errori standard e
nelle t di Student ma l’affidabilità dell’inferenza statistica effettuata con i risultati
(5.4.2) è maggiore, sebbene la numerosità campionaria, n=21, non sia alta come
dovrebbe.
110
5.5
Fonti e conseguenze dell’autocorrelazione
Anche l’ipotesi di covarianze tra i residui nulle è molto restrittiva e cercheremo di
rilassarla. Vedremo come le procedure di trattamento della covarianza dei residui, cioè
della loro autocorrelazione (correlazione di un residuo con se stesso ritardato di t unità
temporali), condurranno a modelli di carattere dinamico.
In effetti l'autocorrelazione dei residui deriva dall'esistenza di relazioni dinamiche
nei valori dell'endogena
yt
che non vengono spiegate dalla parte sistematica
dell'equazione (5.1.1).
Queste relazioni non spiegate portano all'autocorrelazione dei residui ad esempio in
seguito a:
- presenza di tendenza nella serie { yt } ,
- presenza di autocorrelazione già nella { yt } ,
- specificazione inesatta della (5.1.1), dovuta o a omissione di variabili o alla scelta di
una forma funzionale errata,
- errori di misurazione nei valori della { yt } .
Le conseguenze dell'autocorrelazione dei residui sugli stimatori possono essere
perniciose. In effetti, se si stima la (5.1.1) con gli OLS senza rendersi conto che i residui
sono correlati tra di loro, generalmente si sottostimano le varianze degli stimatori, per
cui:
- gli errori standard degli stimatori dei parametri sono sottostimati,
- le t di Student sono sovrastimate,
- gli indicatori R2 sono sopravvalutati.
In conclusione sono considerati significativamente diversi da zero anche parametri di
regressione non significativi e complessivamente buone equazioni (5.1.1) che non lo sono.
In sovrappiù, le correlazioni tra gli stimatori dei parametri di regressione sono
stimate in modo inesatto.
111
5.6
Test di autocorrelazione dei residui
Dovendo stimare un’equazione è allora necessario dapprima accertarsi dell'esistenza
dell’autocorrelazione dei residui e poi procedere alla stima, tenendo eventualmente in
considerazione tale autocorrelazione nel caso che i test di esistenza abbiano dato
responso positivo. Illustriamo in questo paragrafo il test di autocorrelazione più
comunemente utilizzato.
Negli anni cinquanta e sessanta i modelli econometrici avevano una struttura
dinamica semplice e l'autocorrelazione che veniva ritenuta più rilevante era quella di
ritardo uno, tra un residuo ed il suo precedente oppure il suo seguente. Più tardi, con il
dettagliarsi della dinamica delle equazioni, è aumentato il numero delle autocorrelazioni
dei residui da considerare e da rilevare come eventualmente differenti da zero mediante
test.
Illustriamo, allora, dapprima il test più usuale di verifica dell'esistenza di
autocorrelazione di ritardo uno, detta anche del primo ordine, per poi passare, in altri
capitoli, ai test per l'autocorrelazione di ritardi superiori.
5.5.1
Il test di Durbin e Watson
J. Durbin e G.S. Watson (1950 e 1951) costruirono un test per verificare l'ipotesi di
esistenza di autocorrelazione del primo ordine
H 0 : Corr (u~t , u~t -1 ) = r(1) = 0
(5.6.1)
contro l'alternativa
H 1 : Corr (u~t , u~t -1 ) = r(1) ¹ 0
ma si accorsero subito di un problema comune a tutti test di autocorrelazione. L'ipotesi
nulla (5.6.1) riguarda il processo { u~t } ma a disposizione dell'econometrico non c'è tale
processo bensì la serie storica { û t } dei residui stimati. La relazione tra processo e serie
storica è dunque funzione del campione
{ x1 , x2 ,K , xn }
delle variabili esplicative e così
occorrerebbe costruire un test di autocorrelazione specifico per ogni campione, cosa
possibile ma chiaramente inaccettabile. Vediamo come Durbin e Watson abbiano
sviluppato un test che è sì basato sulle û t ma che supera questo problema. Essi
costruiscono la statistica
112
n
d=
å (uˆ
t =2
t
n
- uˆ t -1 ) 2
=
n
å uˆ
t =2
2
t
å uˆ
t =2
n
2
t
n
+ å uˆ t2-1 - 2å uˆ t uˆ t -1
t =2
t =2
n
å uˆ
t =2
n
»
n
2å uˆ t2 - 2å uˆ t uˆ t -1
t =2
t =2
n
å uˆ
2
t
t =2
= 2[1 - rˆ (1)]
(5.6.2)
2
t
dove il simbolo » indica l'uguaglianza approssimata e
1 n
uˆt uˆt -1
å
n
1
t =2
rˆ =
=
1 n 2
ˆ
å ut
n - 1 t =2
n
å uˆ uˆ
t =2
n
t t -1
å uˆ
t =2
(5.6.3)
2
t
è la stima campionaria del coefficiente di autocorrelazione del primo ordine.
L'approssimazione nella (5.6.2) deriva dal fatto che le due sommatorie
n
å uˆ
t =2
n
å uˆ
t =2
2
t -1
2
t
e
non sono perfettamente uguali ma differiscono per il primo e l'ultimo termine. Se
però n è sufficientemente grande
e poiché
E (uˆ t ) = 0 ,"t, l'approssimazione è
generalmente buona. Si ha allora che
se
rˆ (1) = 0
d =2
se
rˆ (1) < 0
+2 < d £ +4
se
rˆ (1) > 0
0 £ d < +2
e l'ipotesi nulla (5.6.1) è accettata se la statistica25 d è vicina a 2. Per sviluppare il test,
~
Durbin e Watson determinarono numericamente la distribuzione di d , che non è
standard, e ne tabularono i valori al variare di n e del numero delle variabili esplicative
che però per ora sono soltanto una. Se non esistesse il problema della dipendenza di d
dalla variabile esplicativa, esposto sopra, dalle tavole di Durbin e Watson sarebbe
possibile trarre con precisione gli estremi d1 e d2 dell'intervallo che conterrebbe il valore
2 con una data probabilità. Così si accetterebbe l'ipotesi (5.6.1) se la statistica d fosse
compresa tra d1 e d2; la si rifiuterebbe nel caso contrario.
~
Malauguratamente, però, la distribuzione di d dipende dal campione { x1 , x2 ,K , xn } e
quindi d1 e d2 sono funzioni di esso; ma Durbin e Watson si accorsero che, al variare del
campione, d1 si muoveva in un intervallo abbastanza ristretto, delimitato da due valori
25
Viene chiamato così l’elemento pivot che si costruisce nei test per la verifica delle ipotesi.
113
dL e dU26, e che similmente d2, suo simmetrico rispetto al punto d=2, si muoveva
nell'intervallo delimitato da 4-dU e 4-dL. Costruirono, pertanto tavole statistiche in cui
porre la coppia di valori dL e dU in funzione di n, di k e del livello 1% o 5% di probabilità
del test. Questa viene eseguito facilmente sulla base del grafico seguente:
d:
0
dL
dU
4- d U
rˆ (1) +1
4- d L
0
4
-1
Se la statistica d, indicata spesso con le iniziali DW, è compresa tra dU e 4-dU il test
suggerisce di accettare l'ipotesi nulla (5.6.1) di assenza di autocorrelazione di primo
ordine.Se 0£d<dL il test suggerisce di rifiutare tale nulla e di accettare l'alternativa di
autocorrelazione positiva. L’autocorrelazione diventa negativa se 4-dL£d<4. Se d cade in
uno dei due intervalli [dL,dU), [4-dU,4-dL), il risultato del test è indeterminato.
~
Durbin e Watson determinarono la distribuzione della d , e quindi le tavole, sotto le
due condizioni:
i)
la (5.1.1) contiene l'intercetta,
ii) la variabile esplicativa x non è stocastica.
e inoltre sotto l’ipotesi che i residui ut siano generati dallo schema
iii)
ut = j ut -1 + e t
con e t tale che
-1 £ j £ +1
(5.6.4)
E ( e%t ) = 0
"t
ì0
E ( e%t × e%s ) = í 2
îs e
t¹s
t=s
(5.6.5)
(5.6.6)
Osservazione 5.2 – La condizione ii) implica che x non può essere l’endogena
ritardata (di un qualsiasi ritardo t ) poiché y% t -t è sempre stocastica (in
quanto funzione di u%t -t ).
26
L=lower; U=upper; in inglese.
114
Osservazione 5.3 – L’ipotesi iii) è teoricamente limitativa in quanto non
necessariamente l’autocorrelazione di ritardo 1 deriva dallo schema (5.6.4),
che è detto autoregressivo del primo ordine (o di Markov) ed indicato con
AR(1) 27. Nella pratica la limitazione (5.6.4) non è presa in considerazione (nel
senso che non si verifica l’esistenza dello schema (5.6.4) sui residui).
Durbin e Watson costruirono tavole per la statistica d con n compreso tra 15 e 100, e
con numero di esplicative k inferiore o uguale a 5. N.E. Savin e K.J. White estesero le
tavole in modo da far variare n tra 6 e 200, e k fino a 10 compreso. Le tavole che sono
generalmente esposte nei testi di Econometria concernono il contributo di questi due
autori, con livelli di significatività dell'1 e del 5%.
Riassumiamo i passi per l'esecuzione del test:
1) si stima l'equazione (5.1.1) e si determina la serie { û t };
2) si calcola il valore della statistica d mediante la (5.6.2);
3) in funzione di n, k = 1 (non considerando quindi l’intercetta) e del livello di
significatività del test, ad esempio il 5%, si estraggono dalle tavole statistiche i
due valori dL e dU;
4) se dÎ[dU, 4-dU) si è indotti ad accettare l'ipotesi nulla (5.6.1),
se dÎ[0, dL) si è indotti ad accettare l'alternativa con r(1)>0,
se dÎ[4-dL, 4) si è indotti ad accettare l'alternativa con r(1)<0,
se dÎ[dL, dU) oppure dÎ[4-dU, 4-dL) il risultato del test è indeterminato.
Osservazione 5.4 - R.W. Farehother (1980) ha tabulato i valori per il test di
Durbin e Watson per il caso in cui l'intercetta non sia presente nella (5.1.1).
Tre esempi
Calcoliamo le statistiche d (DW) per tre i modelli stimati nel paragrafo 3.8; essa è
riportata nella Tavola 5.1 insieme alla numerosità del campione. In tutti e tre i casi
dÎ[0, dL), per cui si è spinti a ritenere che i residui siano positivamente autocorrelati di
ordine uno.
27
Dall’inglese Auto Regressive.
115
Modello
dL
dU
DW
n
Retta interpolante il log dei
consumi
0.975
1.161
0.158
21
Funzione del consumo
1.018
1.187
0.748
23
Relazione tra tasso di cambio
nominale e prezzi relativi
1.172
1.291
0.359
33
Tavola 5.1 – Statistica DW e numerosità del campione per i tre modelli stimati nel
paragrafo 3.8. I valori critici d L e dU sono di Savin e White.
116
5.7
Il trattamento dell’autocorrelazione di ordine uno
Supponiamo che si debba stimare il modello di regressione semplice (5.1.1) e che il
test di Durbin e Watson abbia suggerito la presenza di autocorrelazione del primo
ordine, di fatto indicando che i residui seguono uno schema AR(1) del tipo (5.6.4) e che la
stima dei minimi quadrati della (5.1.1) verosimilmente è soggetta ai difetti elencati nel
paragrafo 5.5. In primo luogo è possibile che il modello non sia specificato correttamente
e che lo si debba completare con altre variabili esplicative; qualora non sia così oppure
non si desideri aumentare il numero delle esplicative è utile trasformare la (5.1.1) in
modo che la stima dell’equazione trasformata non abbia questi difetti.
Innanzitutto se j = 0 nella (5.6.4) si ha che ut = e t e le ipotesi stocastiche deboli sui
residui u%t sono quelle classiche. Se j ¹ 0 possiamo ritardare di una unità temporale la
(5.1.1) ottenendosi
yt -1 = m + b xt -1 + ut -1
poi la moltiplichiamo per j
j yt -1 = j m + j b xt -1 + j ut -1
(5.7.1)
e sottraiamo infine membro a membro la (5.7.1) alla (5.1.1)
yt - j yt -1 = m (1 - j ) + b ( xt - j xt -1 ) + e t
(5.7.2)
avendo fatto uso della (5.6.4). Si dice che sulla (5.1.1) si è operato con una quasi
differenza, come del resto avevamo fatto nel paragrafo 2.1 con lo schema a ritardi
distribuiti (2.1.7).
Qualora si conoscesse j la (5.7.2) potrebbe essere stimata con i minimi quadrati
ordinari in quanto il residuo soddisfa alle ipotesi deboli. Sorge quindi il problema di
determinare j .
j determinato dalla statistica d di Durbin e Watson
Un metodo molto semplice ma efficace per determinare j si basa sul fatto che nello
schema AR(1) il parametro j è proprio uguale al coefficiente di autocorrelazione del
primo ordine r (1) , come mostrato nell’Appendice 5.1. Allora dalla (5.6.2) troviamo la
sua stima
rˆ (1) = 1 - d 2
(5.7.3)
117
che non è molto precisa ma è immediatamente ottenuta dato che praticamente tutti i
programmi di calcolo econometrico determinano d = DW . Da questa statistica si risale
mediante la (5.7.3) a rˆ (1) = jˆ e quindi si possono calcolare le serie di quasi differenze
{ yt - jˆ × yt -1} e { xt - jˆ × xt -1} oltreché (1 - jˆ ) , necessarie per stimare la (5.2.2).
Si noti che così facendo otteniamo stime che non soffrono dei difetti indicati nel
paragrafo 5.5 ma non stimiamo più la (5.1.1) bensì la (5.7.2) che possiamo scrivere nella
forma
yt = j yt -1 + m (1 - j ) + b ( xt - j xt -1 ) + e t
(5.7.4)
Esempio 5.4 – Consideriamo la relazione (3.8.4) tra tasso di cambio nominale e prezzi
relativi per la quale è stata calcolata una statistica d pari a 0.359 (tavola 5.1). Dalla
(5.7.3) si trae che approssimativamente è jˆ = rˆ (1) = 0.821 per cui la (5.7.4) stimata
diventa
wˆ t = 0.821wˆ t -1 + 1.156 (1 - 0.821) - 0.325 ( xt - 0.821xt -1 )
(5.7.5)
cioè
wˆ t = 0.821wˆ t -1 + 0.207 - 0.325 ( xt - 0.821xt -1 )
campione 1970–2002
SE dei residui = 0.128;
; R2 = 0.742
RSS =0.511;
TSS =1.982
Il metodo di Cochrane e Orcutt
Sempre nel caso di schema autoregressivo sui residui AR(1), i due econometrici
statunitensi D. Cochrane e G.H. Orcutt (1949) svilupparono, per determinare j , una
procedura iterativa che utilizzava per la stima gli OLS. Tale procedura viene innescata
da un valore iniziale arbitrario per j , prosegue con il calcolo delle quasi differenze,
quindi con la stima OLS dell'equazione e dei residui. Tramite questi e la stima
campionaria (5.6.3) si perviene ad un nuovo valore per j e la procedura viene iterata in
un nuovo passo. E così via fino a che il miglioramento di j è inferiore ad una soglia
prefissata (ad esempio 0.01). Il razionale di questo metodo si basa sul fatto che ad ogni
iterazione il valore stimato di j è sempre più vicino al valore effettivo.
Nel dettaglio, i passi della procedura sono:
118
1) si prefigura un valore ĵ 1 arbitrario (il numero in apice indica l’iterazione); ad
esempio jˆ 1 = 0 oppure il valore che deriva dalla serie { û t } determinata stimando
la prima delle (5.1.1) con gli OLS;
2) si calcolano le serie delle quasi differenze con jˆ = jˆ 1 e si stima con gli OLS
l'equazione (5.7.2)
3) si calcola la serie {eˆt } e su di essa si stima jˆ = jˆ 2 ;
4) si iterano i passi 2) e 3) finché la differenza jˆ i - jˆ i -1 sia minore di una soglia
prefissata.
Questo metodo può avere due difetti. In primo luogo è possibile che la convergenza
non venga raggiunta, cioè che jˆ i - jˆ i -1 non arrivi ed essere minore della soglia. Per
ovviare a questo difetto è necessario cambiare il valore di ĵ 1 di innesco. In secondo luogo
è possibile che la convergenza sia sì raggiunta, ma su di un minimo locale, e non globale,
per la devianza dei residui. In altre parole, esiste un valore per ĵ diverso da quello di
convergenza per il quale la devianza è ancora inferiore. Per ovviare a questo possibile
difetto è utile ripetere la procedura più volte con valori di innesco differenti e verificare
che in ciascuna la devianza finale sia sempre uguale. Se non lo è si sceglie il valore di
convergenza al quale corrisponde la devianza minima.
Il metodo di Cochrane-Orcutt ha il grande vantaggio computazionale di utilizzare per
la stima soltanto gli OLS. Possiede, inoltre, una grande efficacia didattica poiché
contiene, in nuce, gli elementi delle procedure iterative di ottimizzazione (in particolare
degli OLS non lineari), con l'identificazione dei possibili difetti. In effetti l’equazione
(5.7.4) che si vuole stimare è non lineare nei tre parametri j , m ¢ = m (1 - j ) e b in
quanto esiste anche il prodotto b × j . Il metodo iterativo che hanno utilizzato Cochrane e
Orcutt, di fissare in ogni iterazione un parametro e poi stimare gli altri due in un
modello lineare fino al raggiungimento di una forma di convergenza, è un modo semplice
ma efficace di trattare la non linearità, valido didatticamente sempre, e operativamente
soprattutto quando non c’erano le capacità di calcolo che sono oggi disponibili.
119
5.8
Test di cambiamento strutturale per il modello semplice (Test del
Chow)
Affrontiamo ora il terzo tipo di malaspecificazione, quello che deriva dalla possibilità
che il campione non sia tutto omogeneo ma presenti un punto in cui cambia.
Supponiamo, in altre parole, che dal tempo 1 all’ n1 - esimo, il primo sottoperiodo, valga
la struttura economica rappresentata dall’equazione
yt = m1 + b1 xt + u1t
t = 1, 2,K , n1
(5.8.1)
e dal tempo ( n1 + 1) -esimo fino all’ ( n1 + n2 ) -esimo, il secondo sottoperiodo, valga un’altra
struttura economica, rappresentata dall’equazione
yt = m2 + b 2 xt + u2t
t = n1 + 1, n1 + 2,K , n1 + n2
(5.8.2)
In ciascuno dei due sottoperiodi, di lunghezza n1 ed n2 rispettivamente, supponiamo
che il campione sia omogeneo, ma vogliamo verificare che i due campioni siano anche
omogenei tra di loro. In questo caso valgono le ipotesi nulle
H 0 : m1 = m 2 = m ,
b1 = b 2 = b
(5.8.3)
che non ci sia cambiamento strutturale e le due equazioni (5.8.1) e (5.8.2) sono identiche
yt = m + b xt + ut
t = 1, 2,K , n1 + n2
(5.8.4)
I cambiamenti strutturali sono molto comuni nei sistemi economici: un esempio
classico è dato dal cambiamento del regime di cambio, da fisso a flessibile e viceversa; un
altro dal cambiamento della quota di imposizione fiscale, sulle imprese o sulle persone
fisiche; un altro ancora dall’improvvisa scarsità di certe risorse in caso di guerra; ecc.
Se si considera la relazione tra il tasso di cambio nominale (valuta nazionale
italiana)/$USA e i prezzi relativi, stimata nella (2.11.6) e nella (3.8.4) è possibile che
mostri un cambiamento di struttura nel 1979, quando l’Italia aderì ad un sistema (lo
SME) di cambi fissi ma aggiustabili (in Europa). In questo caso il primo sottocampione
andrebbe dal 1960 al 1979 e l’equazione stimata sarebbe
wˆ t = 0.610 - 0.100 xt
t:
(17.349)
t = 1960,1961,K ,1979
(5.8.5)
(-7.647)
campione 1960–1979;
R 2 = 0.764
SE dei residui =0.024 ;
RSS =0.011
; TSS =0.046
120
mentre il secondo sottocampione andrebbe dal 1980 al 1992 (anno in cui l’Italia uscì dallo
SME) e l’equazione stimata sarebbe
t = 1980,1981,K ,1992
wˆ t = 1.006 - 0.249 xt
t:
(4.537)
(5.8.6)
(-1.392)
campione 1980-1992;
SE dei residui = 0.134;
R 2 = 0.150
RSS =0.197
; TSS =0.232
Ci si può domandare se le due equazioni (5.8.5) e (5.8.6) sono effettivamente
differenti (cioè se nel 1979 c’è un cambiamento di struttura economica) oppure no, e si
può stimare un equazione sola su tutto il periodo
wˆ t = 0.953 - 0.224 xt
t = 1960,1961,K ,1992
(5.8.7)
campione 1960-1992; R 2 = 0.788
SE dei residui =0.094 ;
RSS =0.272
; TSS =1.282
Il caso n1 > k , n2 > k
Per rispondere a questa domanda è opportuno ricorrere a dei test, che nella sostanza
confrontano le variabilità della wt nei due sottocampioni: se esse sono uguali, i test ci
spingono a considerare omogeneo l’intero campione; se sono significativamente diverse, i
test ci spingono ad accettare il cambiamento strutturale.
Illustriamo il primo di questi test, che si basa sulla devianza dei residui RSS ; questa
sia RSSV nel caso del modello (5.8.4), dove il pedice “v” indica il fatto che la stima è stata
effettuata sotto il “vincolo” dell’ipotesi nulla (5.8.3); il numero di g.d.l. associato a questa
devianza è evidentemente uguale alla numerosità dell’intero campione, n1 + n2 , meno il
numero dei parametri da stimare, che nel caso del (5.8.4) è 2 ma che nel test prendiamo
genericamente pari a k per poter usare questo anche in relazione ai modelli multipli.
D’altro canto la devianza RSS NV del modello in cui non vale la nulla (5.8.3), e quindi è
formato dalle due equazioni (5.8.1) e (5.8.2), è data dalla somma delle devianze dei
residui delle due equazioni, e il numero di g.d.l. associato è dato dalla somma dei due
g.d.l., n1 - k e n2 - k , cioè n1 + n2 - 2k . Facciamo la differenza di queste due devianze e
dividiamola per la differenza dei numeri di g.d.l. relativi
121
RSSV - RSS NV
= ( RSSV - RSS NV ) k
( n1 + n2 - k ) - ( n1 + n2 - 2k )
(5.8.8)
che dimostreremo nel caso dei modelli multipli possedere distribuzione del c 2 divisa per
il proprio numero di g.d.l. che è proprio k . Ancora distribuzione del c 2 divisa per il
proprio numero di g.d.l. è avuta da RSS NV
( n1 + n2 - 2k ) , come ancora dimostreremo nel
caso dei modelli multipli, di modo che il rapporto
( RSSV - RSS NV ) k
RSS NV ( n1 + n2 - 2k )
(5.8.9)
( n1 + n2 - 2k )
ha distribuzione della F di Fisher con k e
g.d.l., come indicato
nell’appendice 3.2. Anche l’indipendenza del numeratore e del denominatore della (5.8.9)
sarà dimostrata in seguito.
Tramite il rapporto (5.8.9) è possibile verificare l’ipotesi nulla (5.8.3) con il cosiddetto
test della F di Fisher.
Il test della F di Fisher
Poiché sotto la H 0 il rapporto (5.8.9) ha distribuzione Fk , n1 + n2 -2 k nel 95% dei casi si
colloca nella regione di accettazione del test éë0, F
)
dove F è il quantile di probabilità
)
95%, mentre nel 5% dei casi si colloca nella regione di rifiuto éë F , + ¥ . Basta allora
calcolare il valore (5.8.9) e trovare il quantile F dalle tavole della F di Fisher con k,
( n1 + n2 - 2k )
g.d.l.; se tale valore cade nell’intervallo éë0, F
)
si è spinti ad accettare
l’ipotesi (5.8.3) di omogeneità, altrimenti a rifiutarla (ed accettare quindi l’ipotesi di
cambiamento strutturale). Ovviamente il 95% di probabilità può essere sostituito con il
99% o il 90%, a seconda dei desideri del ricercatore.
L’effettuazione del test procede quindi per i passi seguenti:
1) Si stima l’equazione (5.8.4) e si determina RSSV (con n1 + n2 - k g.d.l.)
2) Si stima l’equazione (5.8.1) e si determina RSS1 (con n1 - k g.d.l.)
3) Si stima l’equazione (5.8.2) e si determina RSS 2 (con n2 - k g.d.l.)
4) Si determina RSSV = RSS1 + RSS 2 (con n1 + n2 - 2k g.d.l.)
5) Nel caso del modella (5.8.4) si calcola il rapporto (5.8.9) con k = 2 .
122
6) Si trova il valore soglia F nelle tavole della F2, n1 + n2 - 4 avendo scelto il livello di
significatività al 90 o al 95 o al 99%.
7) Se il rapporto (5.8.9) cade nell’intervallo éë0, F
)
si è spinti ad accettare
l’ipotesi nulla (5.8.3) di omogeneità del campione; se cade in éë F , + ¥
)
si è
spinti ad accettare l’ipotesi alternativa di cambiamento strutturale.
Nel caso dell’esempio precedente si ottiene
RSSV = 0.272,
RSS NV = RSS1 + RSS 2 = 0.011+0.197 = 0.208,
k = 2, n1 = 20, n2 = 13
)
per cui il rapporto (5.8.8) vale 4.462. Questo valore cade nell’intervallo éë F , + ¥ , dove F
è il quantile al 95% della distribuzione della F2,29 , 3.33 , e quindi si è spinti ad accettare
l’ipotesi di cambiamento strutturale.
Il caso n1 > k , n2 £ k
Spesso accade che uno dei due sottoperiodi sia molto corto, con un numero di
osservazioni inferiore o uguale a k, che nel caso dei modelli semplici vale 2. Se
supponiamo, come in genere accade e senza perdere in generalità, che questo
sottoperiodo sia il secondo, si ha che la devianza residua relativa è nulla e quindi RSS NV
si riduce alla sola devianza residua RSS1 della prima equazione, con n1 - k g.d.l. La
(5.8.7) diventa allora
RSSV - RSS1
= ( RSSV - RSS1 ) n2
( n1 + n2 - k ) - ( n1 - k )
(5.8.9)
( RSSV - RSS1 ) n2
RSS1 ( n1 - k )
(5.8.10)
e la (5.8.8)
per cui i passi del test precedente diventano ora
1) e 2) Come sopra.
3) e 4) RSS 2 = 0 per cui RSS NV = RSS1 .
5) Si calcola il rapporto (5.8.10) con k = 2 .
6) Si trova il valore soglia F nelle tavole della Fn2 , n1 - 2 avendo scelto il livello di
significatività al 90 o al 95 o al 99%.
7) Come sopra, sostituendo il valore di (5.8.10) a quello di (5.8.9).
123
Il fatto che il rapporto (5.8.10) abbia distribuzione della F di Fisher è stato
dimostrato dal Chow (1960) ed è per questo che il test relativo è detto test del Chow. Per
estensione si usa dare lo stesso nome anche al test che utilizza la statistica (5.8.8).
124
5.9
Il test di normalità di Jarque – Bera
Ci occupiamo ora di verificare l’ipotesi v) che impone ai residui di avere distribuzione
normale per potersi fare inferenza statistica sulle stime. Il test che utilizziamo,
sviluppato da Jarque e Bera (1987), controlla due caratteristiche della normale, dette
simmetria e curtosi, di definizione ovvia la prima e concernente la piattezza del picco la
seconda. Misurando le due caratteristiche con due indici appositi, e conoscendo i valori di
questi indici per la normale, il test di Jarque e Bera suggerisce di considerare non
normale la distribuzione con valori degli indici lontani da quelli della normale.
L’indice di asimmetria 28 è dato semplicemente da
a3 =
1
3
× E é( x% - m ) ù
3
ë
û
s
(5.9.1)
con m = E ( x% ) cioè dal valor medio dello scarto x% - m al cubo, diviso per il cubo di s . Si
3
2
noti che E é( x% - m ) ù ha la stessa conformazione della varianza s 2 = E é( x% - m ) ù e che
ë
û
ë
û
1 s 3 serve soltanto per normalizzare a 3 . Ovviamente è a 3 = 0 per la normale.
L’indice di curtosi 29 è definito in modo del tutto analogo
a4 =
1
4
× E é( x% - m ) ù
4
ë
û
s
sostituendo al cubo la potenza quarta. Si può dimostrare che per la normale è a 4 = 3 .
Jarque e Bera hanno dimostrato che sotto l’ipotesi nulla di normalità la variabile
aleatoria
né
1
2ù
JB% = êaˆ32 + (aˆ 4 - 3 ) ú
6ë
4
û
dove â 3 ed
â 4 sono gli stimatori campionari di a 3 ed a 4 , rispettivamente,
approssimativamente e per n grande ha distribuzione del c 2 con 2 g.d.l., per cui una
volta determinato il valore JB, questo viene utilizzato entro un semplice test del chi
quadrato per verificare la normalità dei residui. Si noti che il valore JB dei residui di
un’equazione è generalmente fornito nei risultati della stima della maggior parte dei
programmi di calcolo econometrico.
28
Skewness coefficient, in inglese.
29
Kurtosis coefficient, in inglese.
125
Appendice 5.1 Complementi analitici
Uguaglianza tra coefficiente di autocorrelazione del primo ordine e r
Tale uguaglianza è facilmente mostrata con l’uso del cosiddetto operatore di ritardo
Ls , tale che applicato nella generica variabile zt la ritarda di s unità temporali
(A.5.1.1)
Ls zt = zt - s
e per il quale valgono le proprietà
Ls ( a zt + b wt ) = a zt -s + b wt - s
(A.5.1.2)
a Ls + b Ls = ( a + b ) Ls
(A.5.1.3)
Ls Ln = Ls +n
(A.5.1.4)
con a e b costanti arbitrarie. Inoltre
(A.5.1.5)
Ls a = a
da cui, ovviamente,
Ls1 = 1
Applicando la (A.5.1.1) nella (5.6.4) si ottiene
(1 - jL)u t = e t
ut =
(A.5.1.6)
1
e t = (1 + jL + j 2 L2 + ...) = e t
1 - jL
se ½j½<1 e dove è stata utilizzata la somma infinita dei termini di una successione
geometrica di ragione j2; allora
E (u~t ) = (1 + jL + j 2 L2 + ...) × E ( ~et ) = 0
Cov(u~t , u~t -1 ) = E (u~t × u~t -1 ) = E[(ju~t -1 + ~et )u~t -1 ] = js u2
r(1) = js u2 / s u2 = j
(A.5.1.7)
"t
"t
(A.5.1.8)
(A.5.1.9)
126
CAPITOLO VI
IL MODELLO LINEARE MULTIPLO
127
6.1
I vettori e la moltiplicazione righe per colonne
Le stesse argomentazioni che hanno portato a costruire il modello (2.6.1) nel quale c’è
una sola variabile esplicativa x t possono essere utilizzate nel caso in cui di esplicative ce
ne siano più di una. In effetti nello stesso (2.6.1) possiamo supporre che siano presenti
due variabili esplicative, x1t ed x 2t , in tal guisa che esso diventi
yt = m x1t + b x2t + ut
(6.1.1)
e che sia costantemente
"t
x1t = 1
(6.1.2)
Il modello costituito dalle due equazioni (6.1.1) e (6.1.2) è esattamente equivalente al
(2.6.1) ma ci permette di introdurre un nuovo modo di scrittura matematica che agevola
notevolmente i calcoli: il modo vettoriale e matriciale, relativo cioè ai vettori e alle
matrici.
Nella (6.1.1) abbiamo due parametri, m e b , che possiamo mettere in fila, l’uno
accanto all’altro,
[m
b]
(6.1.3)
formando quello che si chiama vettore riga (dei due parametri). Analoga operazione può
essere effettuata con le due variabili x1t ed x 2t
[ x1t
x2 t ]
(6.1.4)
ottenendosi il vettore riga delle variabili. Si noti che i due vettori sono definiti tramite
parentesi quadre. I due parametri nella (6.1.3) così come le due variabili nella (6.1.4)
costituiscono gli elementi dei vettori riga. In ambito vettoriale (e matriciale) questi
elementi (numeri o lettere) sono detti scalari. Il numero degli elementi componenti un
vettore ne costituisce la dimensione.
Se i due elementi sono messi uno sopra l’altro invece che accanto, si ha un nuovo tipo
di vettori, quelli chiamati colonna; il vettore colonna dei parametri è allora
ém ù
êb ú
ë û
(6.1.5)
e il vettore colonna delle variabili esplicative è l’altro
é x1t ù
êx ú
ë 2t û
(6.1.6)
128
che denotiamo, per essere brevi, con una sola lettera, ma in grassetto per far capire che è
un vettore, β per i parametri e x per le variabili
ém ù
β=ê ú
ëb û
é x1t ù
xt = ê ú
ë x2 t û
,
(6.1.7)
Chiamati in questa maniera i due vettori colonna, ci si aspetterebbero altri nomi per i
due vettori riga, ma, sempre per essere sintetici, usiamo gli stessi simboli, β e x ,
sebbene questa volta con un apice, β¢ e x¢ ,
β¢ = [ m
b]
,
x¢t = [ x1t
x2 t ]
(6.1.8)
In effetti i vettori riga differiscono fondamentalmente da quelli colonna, come in
seguito sarà meglio evidenziato, e quindi è necessario differenziarli in qualche modo,
appunto con un apice. I vettori riga (6.1.8) sono detti trasposti dei vettori colonna (6.1.7)
e viceversa. Il passaggio dai primi ai secondi, o da questi a quelli, forma un’operazione,
che è detta di trasposizione.
Tramite i vettori (6.1.7) e (6.1.8) è possibile scrivere in maniera semplificata la
combinazione lineare m x1t + b x2t del modello (6.1.1): definiamo infatti una seconda
operazione, la moltiplicazione righe per colonne tra un vettore riga ed un vettore colonna,
che si effettua moltiplicando ciascun elemento del vettore riga per l’elemento di posto
corrispondente nel vettore colonna e sommando i prodotti ottenuti
[m
é x1t ù
b ] × ê ú = m x1t + b x2t
ë x2t û
(6.1.9)
Il risultato della moltiplicazione è allora uno scalare che viene appunto chiamato
prodotto scalare; facendo uso della prima delle (6.1.8) e della seconda della (6.1.7)
possiamo scrivere questo come β¢ xt .
Poiché è
m x1t + b x2t = x1t m + x2 t b
si ha che
β¢ xt = x¢t β
(6.1.10)
che è un altro modo di scrivere il prodotto scalare β¢ xt . In effetti se usiamo della
proprietà dell’operazione di trasposizione secondo la quale il trasposto di un prodotto
129
(scalare di due vettori) è uguale al prodotto dei trasposti dei due vettori invertiti di posto
otteniamo
( β¢ xt )¢ = x¢t ( β¢ )¢ = x¢t β
(6.1.11)
dove nell’ultimo passaggio abbiamo utilizzato l’ovvio fatto che il trasposto di un vettore
trasposto è uguale al vettore stesso.
La (6.1.11) indica un altro ovvio fatto: che il trasposto di uno scalare (un numero o
una lettera) è lo scalare stesso.
Sfruttando la (6.1.9), allora, la (6.1.1) può essere scritta in termini vettoriali nella
forma
yt = β¢ xt + ut
(6.1.12)
yt = x¢t β + ut
(6.1.13)
oppure, per la (6.1.10), nell’altra
130
6.2
Il modello lineare multiplo
L’utilità di scrivere la (6.1.1) nei termini vettoriali (6.1.12) non è molto evidente; ma
lo diventa quando invece di avere soltanto due variabili esplicative ne abbiamo un
numero maggiore, k
yt = b1 x1t + b 2 x2t + K + b k xkt + ut
(6.2.1)
Se poniamo
β¢ = [ b1 b 2 K b k ]
,
x¢ = [ x1t x2 t K xkt ]
(6.2.2)
il prodotto scalare (6.1.9) diventa ora
é x1t ù
êx ú
β¢xt = [ b1 b 2 K b k ] ê 2t ú = b1 x1t + b 2 x2 t + K + b k xkt
êM ú
ê ú
ë xkt û
(6.2.3)
e la (6.2.1) può essere scritta nella forma vettoriale (6.1.12), molto più sintetica e quindi
più utile.
Il modello (6.2.1) è lineare e multiplo, perché contiene un numero di variabili
esplicative k superiore ad uno (più l’intercetta). In Statistica esso forma una regressione
lineare multipla.
Il termine additivo ut misura tutto quanto non è spiegato dalle variabili esplicative
xit e per questo motivo è chiamato residuo; esso è costituito tra l’altro dalla possibile
aggregazione di:
-
variabili che non sono state inserite tra le esplicative (omesse) e che invece
spiegherebbero parte di yt ,
-
impulsi accidentali prodotti dal sistema economico su yt , validi soltanto per alcune t
e non in modo sistematico per tutto il campione,
-
elementi caratteristici di yt , ad esempio le stagionalità, che non si riesce a spiegare
per mezzo delle xit ,
-
errori nella misurazione della yt ,
-
elementi di disturbo dovuti al fatto che la specificazione della (6.2.1) è lineare,
mentre avrebbe dovuto essere non lineare rispetto ad alcune delle variabili
esplicative.
131
Osservazione 6.1 - Da questa caratterizzazione segue che non ha senso
considerare ut come un errore, anche se in tale modo sovente viene chiamato
a seguito delle prime utilizzazioni del modello (6.2.1) in demografia e nelle
scienze fisiche. Questa denominazione, in econometria, è chiaramente un
errore.
Facciamo due esempi di applicazione della (6.2.1) che contiene la (2.6.1) come caso
particolare: questa è stata esposta prima ai fini esclusivamente didattici. Nel primo
esempio rappresenta una funzione delle esportazioni
ln yt = b1 + b 2 ln x2t + b 3 ln x3t + b 4 ln x4t + b5 ln x5t + ut
(6.2.5)
nella quale
esiste l’intercetta b1 per cui la variabile esplicativa corrispondente è stata
posta costantemente uguale ad uno,
yt = importazioni di beni e servizi,
x2t = consumi finali interni delle famiglie più consumi collettivi,
x3t = investimenti fissi lordi più esportazioni di beni e servizi più variazione
delle scorte,
x4t = deflatore implicito delle importazioni,
x5t = deflatore implicito del PIL,
per cui b 2 > 0 , b 3 > 0 , b 4 < 0 , b 5 > 0 . La (6.2.5) è un’equazione log–lineare, cioè lineare
nei logaritmi delle variabili, ed è facilmente linearizzabile sostituendo una variabile non
logaritmizzata wt al posto di ogni logaritmizzata.
In un secondo esempio la (6.2.1) rappresenta una funzione della domanda di moneta
ln yt = b1 + b 2 ln x2 t + b 3 x3t + ut
(6.2.6)
dove
yt = domanda di moneta in termini reali
x2t = prodotto interno lordo in termini reali
x3t = tasso d’interesse a breve
per cui b 2 > 0 , b 3 < 0 .
132
6.3
I minimi quadrati nel modello lineare multiplo
I residui presenti nella (6.2.1) hanno lo stesso significato illustrato nel paragrafo 2.6
per il modello semplice: rappresentano la distanza tra i punti yt osservati e (non più la
retta funzione di una sola variabile esplicativa ma) l’iperpiano individuato dalla
combinazione lineare b1 x1t + b 2 x2t + K + b k xkt . Se k =3 e x1t = 1 , "t , l’iperpiano diventa
un piano classico, funzione di due variabili soltanto, la x2t e la x3t .
Sorge, a questo punto, il problema di determinare le stime dei parametri bˆ1t , bˆ2 t , … ,
bˆkt con un particolare criterio (illustreremo in seguito quello dei minimi quadrati);
trovate queste, si stimano anche i residui secondo la stessa regola del paragrafo 2.4.
(
uˆt = yt - yˆt = yt - bˆ1 x1t + bˆ2 x2 t + K + bˆk xkt
)
(6.3.1)
Anche in questo caso di modello multiplo, che per maggiore semplicità scriviamo
nella forma vettoriale (6.1.12), la combinazione lineare β¢ xt è la componente sistematica
del modello mentre u%t ne rappresenta la componente aleatoria, che può essere stimata
tramite la (6.3.1).
Per arrivare a questo possiamo utilizzare il criterio dei minimi quadrati, che abbiamo
già introdotto nel paragrafo 2.3: dobbiamo determinare i valori dei parametri contenuti
nel vettore β in modo che sia minimizzata la devianza dei residui S ( β )
n
n
min å ut2 = min å ( yt - β¢x t ) = min S ( β )
β
t =1
β
2
t =1
(6.3.2)
β
catena di uguaglianze che generalizza la (2.6.2).
Per trovare l’espressione di S ( β ) in modo da poter effettuare la minimizzazione
(6.3.2) scriviamo la (6.2.1) nella forma (6.1.13) per ogni t del campione, da 1 a n,
ì y1 = [ x11 x21 K xk 1 ] β + u1
ï
ï y2 = [ x12 x22 K xk 2 ] β + u2
í
ïK
ï y = [ x x K x ]β + u
1n 2 n
kn
n
î n
(6.3.3)
sistema di equazioni che possiamo scrivere ancora nell’altra forma
133
é y1 ù é x11
ê y ú êx
ê 2 ú = ê 12
êM ú êM
ê ú ê
ë yn û ë x1n
x21 K xk1 ù
éu1 ù
ú
êu ú
x22 K xk 2 ú
β+ê 2ú
êM ú
M
M ú
ú
ê ú
x2 n K xkn û
ë un û
(6.3.4)
dove le yt sono state racchiuse in un vettore colonna, così come le ut , e i vettori riga
[ x1t
x2t K xkt ] sono stati racchiusi in un vettore colonna che ha per elementi i vettori riga
di cui sopra; questo vettore di vettori è chiamato matrice, è indicato con X e vale ancora
per esso la moltiplicazione righe per colonne, che avviene in ogni riga
é x11
ê
x
Xβ = ê 12
êM
ê
ë x1n
x21 K xk1 ù
é b1 x11 b 2 x21 K b k xk 1 ù
ú
ê
ú
x22 K xk 2 ú
b1 x12 b 2 x22 K b k xk 2 ú
ê
β=
êM M
ú
M
M ú
M
ú
ê
ú
x2n K xkn û
ë b1 x1n b 2 x2 n K b k xkn û
(6.3.5)
Se indichiamo con y il vettore delle yt e con u quello dei residui ut , la (6.3.4) può
quindi essere scritta nella forma compatta
y = Xβ + u
(6.3.6)
che chiamiamo matriciale. In questa forma abbiamo utilizzato una nuova operazione tra
vettori, la terza dopo quelle di trasposizione e di moltiplicazione righe per colonne. E’
l’operazione di addizione tra vettori che hanno la stessa dimensione, quello Xβ dato dalla
(6.3.5) e il vettore u : il risultato dell’addizione di due o più vettori della stessa
dimensione è un vettore (somma) che ha come elementi le somme degli elementi dello
stesso posto nei vettori addendi.
Per trovare S ( β ) effettuiamo la moltiplicazione righe per colonne di u per se stesso
éu1 ù
ê ú
n
u
u¢u = [u1 u 2 K u n ] ê 2 ú = u12 + u22 + K + un2 = å ut2
êM ú
t =1
ê ú
ë un û
(6.3.7)
dalla quale si vede che la devianza dei residui è proprio uguale al prodotto scalare u¢u ,
per cui il criterio dei minimi quadrati (6.3.2) impone la minimizzazione, rispetto a β , di
n
S ( β ) = å ut2 = u ¢u = ( y - Xβ )¢ ( y - Xβ )
(6.3.8)
t =1
dove nell’ultimo passaggio si è posto
134
u = y - Xβ
(6.3.9)
tratta dalla (6.3.6) con lo spostamento di Xβ all’altro membro.
135
6.4
Vettori e matrici
Rivediamo ora teoricamente i concetti di algebra matriciale, cioè riguardanti i vettori
e le matrici, utilizzati nei tre paragrafi precedenti e che utilizzeremo nel seguente.
Vettori
Se mettiamo in fila gli elementi di una successione (di numeri, di lettere, …), con
indice variabile da 1 a n,
a1 a2 … an
(6.4.1)
otteniamo un vettore. Parimenti, costituiscono un vettore gli elementi di una serie storica
{xt}
x 1 x2 … xn
che si differenziano da quelli in (6.4.1) semplicemente perché sono associati ad un indice
temporale. In generale un vettore è formato da una ennupla di elementi (ad esempio
numeri reali) indicata con una lettera in neretto, ad esempio a. Il numero intero n
costituisce la dimensione del vettore. Un vettore reale di dimensione 1 è uno scalare,
ovvero un numero reale.
Per convenzione, gli elementi sono organizzati in colonna
é a1 ù
êa ú
a = ê 2ú
ê ... ú
ê ú
ëa n û
In altri termini, in mancanza di indicazioni contrarie i vettori che considereremo
saranno tutti vettori colonna.
Dato un vettore a, si utilizza un apice per denotarne il trasposto, ovvero un vettore
che contiene gli stessi elementi di a, ma organizzati in riga
a¢=[a1 a2 … an].
Trasponendo nuovamente un vettore riga si ottiene un vettore colonna, ed è quindi
possibile scrivere ad esempio a = [a 1 a2 … an]¢.
Il vettore 0 è quello i cui elementi sono tutti nulli.
Operazioni tra vettori
Due vettori della stessa dimensione a = [a1 a 2 … a n]¢ e b = [b 1 b2 … bn]¢ sono detti uguali
se ai = bi per ogni i; la loro somma è il vettore il cui elemento i-esimo è dato dalla somma
degli elementi di posto i in a e in b
136
c = a + b = [a1+b1, a2+b2, …, an+b n]¢
Queste definizioni si estendono immediatamente al caso di più di due vettori (di uguale
dimensione).
Dati tre vettori a, b e c, si verificano facilmente le proprietà
a+b = b+a , (a+b)+c = a+(b+c) = a+b+c
Il prodotto d×a del vettore a per lo scalare d è il vettore il cui elemento i-esimo è dato
dal prodotto di d per l'elemento di posto i in a: da = [da 1, da2, … dan]¢. Dati due vettori di
uguale dimensione a e b e due scalari d ed f, si verificano immediatamente le proprietà
d(a+b) = da+db ,
(d+f)a = da+fa
d(fa) = f(da) = dfa ,
(da+fb)¢ = da¢+fb¢
L’operazione di moltiplicazione di un vettore per uno scalare ci permette di definire la
differenza fra due vettori a e b, che si ottiene moltiplicando il secondo per lo scalare –1 e
sommandolo al primo: a – b = a + (-1)´b = [ a 1 – b1, a2 – b 2, …, a n – bn ]¢.
Si chiama prodotto scalare (o interno) a¢b di due vettori a e b che hanno la stessa
dimensione n lo scalare uguale alla somma dei prodotti degli elementi che hanno lo
stesso posto nei due vettori
a¢b = a1b1 + a2b2 + K + anbn
(6.4.2)
Poiché a¢ è un vettore riga e b è una colonna questa operazione è detta
moltiplicazione riga per colonna. Dalla (6.4.2) si trae che la somma dei quadrati degli
elementi di un vettore a=[a 1 a2 … a n]¢ può essere espressa mediante il prodotto scalare
n
a ¢a = å ai2
(6.4.3)
i =1
La devianza totale e la residuale di un modello di regressione costituiscono esempi di
prodotto scalare del tipo (6.4.3).
Matrici
Una tavola a doppia entrata di elementi (ad esempio numeri reali) disposti su n righe
ed m colonne, con n ed m interi positivi, è detta matrice ed è indicata con una lettera
maiuscola in neretto
137
é a11
êa
A = ê 21
ê ...
ê
ëa n1
a12
a 22
...
...
...
an2
...
...
a1m ù
a 2m úú
... ú
ú
a nm û
(6.4.4)
Tale matrice è detta avere ordine n´m ed è composta dagli elementi aij, i = 1, 2, …, n,
j = 1, 2, …, m. Se n = m, la matrice è detta quadrata, di ordine n. Un vettore riga ad n
dimensioni è una particolare matrice di ordine 1´n, mentre un vettore colonna della
stessa dimensione è una matrice di ordine n´1. Gli elementi aii, i = 1, 2, …, n, di una
matrice quadrata appartengono alla diagonale principale e sono detti elementi diagonali;
l'altra diagonale di una matrice quadrata è detta secondaria. Una matrice quadrata di
ordine 1 è uno scalare.
Se tutti gli elementi di una matrice sono nulli, essa è detta matrice nulla ed è
indicata con 0. Se tutti gli elementi di una matrice quadrata sono nulli salvo quelli
dislocati sulla diagonale principale, la matrice è detta diagonale ed è indicata con
éd 1
ê0
D=ê
ê ...
ê
ë0
0
d2
...
0
0ù
... 0 úú
... ... ú
ú
... d n û
...
(6.4.5)
dove le dj sono gli n elementi non nulli della matrice, detti elementi diagonali.
Se gli elementi diagonali sono tutti pari ad uno, la matrice è detta unitaria o identica
(o unità) ed è indicata con
é1
ê0
In = ê
ê...
ê
ë0
0
1
...
...
...
0
...
...
0ù
0 úú
...ú
ú
1û
(6.4.6)
dove l'indice n, che rappresenta l'ordine della matrice quadrata, può essere omesso.
138
6.5
Operazioni tra matrici
Due matrici dello stesso ordine sono uguali se gli elementi corrispondenti (dello
stesso posto) sono uguali. La somma C = A+B di due matrici che hanno lo stesso ordine è
una matrice ancora dello stesso ordine che ha per elemento generico cij = aij+b ij . Questa
definizione è immediatamente generalizzata al caso della differenza e a quello della
somma di più di due matrici. Si può facilmente verificare che valgono le proprietà
A+B=B+A
(A + B) + C = A + (B + C) = A + B + C
Il prodotto di una matrice A per uno scalare d è la matrice che ha per elemento
generico da ij. La trasposizione di una matrice A di ordine n´m e di elemento generico aij è
una operazione che trasforma A nella matrice A¢ di ordine m´n e di elemento generico
aji; in altre parole, nella trasposizione si scambiano le righe con le colonne, ovvero il jesimo vettore riga di A¢ è il trasposto del j-esimo vettore colonna di A. La matrice A¢ è
detta trasposta di A.
Esempio 6.1 - La trasposta di
é2
A=ê
ë3
1
0
é2
4ù
ê
è A¢ = 1
ú
ê
1û
ëê4
3ù
0úú
1ûú
Esempio 6.2 - Sia A¢ la trasposta della matrice A dell'esempio precedente ed inoltre sia
é1
B = êê2
êë3
1ù
2úú
0 úû
(6.5.1)
Allora la loro matrice somma C è data da
é3
C = A ¢ + B = êê3
êë7
4ù
2úú
1 úû
Se A è quadrata ed uguale alla sua trasposta, è detta simmetrica (è aij=aji).
Se d ed f sono due scalari, valgono le proprietà
(A¢)¢=A , (dA)¢=dA¢ , (dA+fB)¢=dA¢+fB¢
(6.5.2)
139
Si dice prodotto righe per colonne A×B della matrice A, n´m, per la B, m´k, la matrice
C = A×B di ordine n´k con elemento generico c ij =
m
åa
s =1
b . Il nome di questo prodotto
is sj
deriva dal fatto che ogni elemento di C è costituito dalla combinazione lineare degli
elementi di una colonna di B con pesi dati dagli elementi di una riga di A. Si noti che cij è
il prodotto scalare (6.4.2) dell’i-esima riga di A per la j-esima colonna di B.
Esempio 6.3 - Se A e B sono le matrici degli esempi precedenti il loro prodotto righe per
colonne è
é2 × 1 + 1 × 2 + 4 × 3
A ×B = ê
ë3 × 1 + 0 × 2 + 1 × 3
2 × 1 + 1 × 2 + 4 × 0ù é16
=
3 × 1 + 0 × 2 + 1 × 0 úû êë 6
(6.5.3)
4ù
3 úû
A meno che non sia k=n il prodotto B×A non esiste; inoltre, per k=n, in generale è
A×B ¹ B×A, cioè non vale per le matrici la proprietà commutativa della moltiplicazione.
Esempio 6.4 - Date le matrici A e B dell'esempio precedente, si ha
é 1× 2 + 1× 3
B × A = êê2 × 2 + 2 × 3
êë 3 × 2 + 0 × 3
1 ×1 + 1 × 0
2 ×1 + 2 × 0
3 ×1 + 0 × 0
1 × 4 + 1×1 ù é 5
2 × 4 + 2 × 1úú = êê10
3 × 4 + 0 × 1úû êë 6
1
2
3
5ù
10úú
12úû
(6.5.4)
Allora il prodotto di A, 2´3, per B, 3´2, è una matrice di ordine 2´2; il prodotto B×A è
una matrice di ordine 3´3.
Osservazione 6.1 - Poiché i vettori sono casi particolari di matrici, il vettore
riga a¢ di n elementi può essere considerato come il trasposto del vettore
colonna a. Il prodotto scalare a¢b tra due vettori che hanno la stessa
dimensione n è quindi una matrice di dimensione 1´1, cioè uno scalare.
Invece il prodotto ab¢ è una matrice quadrata di ordine n.
Esempio 6.5 - Dato il vettore a=[0 1 -1 0 0]¢ di dimensione cinque, il prodotto aa¢ vale
é 0ù
ê 1ú
ê ú
aa ¢ = ê - 1ú[0
ê ú
ê 0ú
êë 0úû
1
-1
0
é0
ê0
ê
0] = ê0
ê
ê0
êë0
0
1
0
-1
0
0
-1
1
0
0
0
0
0
0
0
0ù
0úú
0ú
ú
0ú
0úû
matrice quadrata di ordine cinque.
140
Se A è di ordine n´m, B e C sono di ordine m´k e D è di ordine k´v, valgono le
seguenti proprietà, con d, f, h scalari e con le matrici 0 ed I di ordine appropriato,
0×A = A×0 = 0,
I×A = A×I = A
A(fB + hC) = fAB + hAC
(dA)B = A(dB) = d(AB) = dAB
(A×B)¢ = B¢A¢ ,
(AB)D = A(B×D) = A×B×D
(6.5.5)
come facilmente si verifica.
Osservazione 6.2 - Se A è una matrice di ordine n´m, il prodotto A¢A è una
matrice quadrata di ordine m simmetrica, cioè tale che aij = a ji . Infatti essa è
uguale alla sua trasposta per la prima delle (6.5.5)
(A¢A)¢=A¢A
dove abbiamo anche sfruttato la prima delle (6.5.2).
Se A è una matrice di ordine n´m e b è un vettore m´1, il prodotto Ab è un vettore
colonna n´1.
Esempio 6.7 - Siano la matrice A ed il vettore b definiti negli esempi precedenti; allora
é2
Ab = ê
ë3
1
0
é 3ù
4ù ê ú é16ù
2 =
1 úû ê ú êë11úû
êë 2úû
Se A è una matrice di ordine n´m e b¢ è un vettore 1´n, il prodotto b¢A è un vettore
riga 1´m.
Esempio 6.8 - Sia la matrice A degli esempi precedenti e b¢=[2 3]; allora
é 2 1 4ù
b ¢A = [2 3] ê
ú = [13 2 11]
ë3 0 1 û
La matrice inversa
Si definisce con A -1 la matrice inversa sinistra della matrice quadrata A , cioè quella
per la quale
A -1A = I
(6.5.6)
Analogamente si può definire la matrice inversa destra A -1 della matrice quadrata A
in modo tale che sia
AA -1 = I
Poiché AA -1 = A -1 A = I , l’inversa destra e l'inversa sinistra di una matrice quadrata
coincidono e sono semplicemente dette inversa.
141
Il determinante
Data una matrice quadrata A di ordine n, si dimostra che la sua inversa consiste nel
prodotto dell'inverso del suo determinante, che è uno scalare, per la sua matrice
aggiunta, anche questa di ordine n, che definiremo nell’appendice 6.2. Segue da questo
che anche la matrice inversa è di ordine n.
Se indichiamo con det A il determinante e con agg A l'aggiunta, si ha, dunque,
A -1 =
1
aggA
detA
(6.5.7)
dalla quale segue che se det A ¹0 allora esiste l'inversa A -1 ; in questo caso la matrice A
è detta non singolare. Se det A =0, la matrice è chiamata singolare.
142
6.6
Le stime dei minimi quadrati
S’è detto nel paragrafo 6.3 che le stime del vettore di parametri β ottenute con il
criterio dei minimi quadrati impongono la minimizzazione della devianza S ( β ) data
dalla (6.3.8). Nell’appendice 6.1 si dimostra che questo avviene se valgono le equazioni
normali
( X¢X ) βˆ = X¢y
(6.6.1)
dalle quali si trae il vettore delle stime dei parametri moltiplicando a sinistra per la
matrice quadrata
( X¢X )
-1
se questo esiste
-1
βˆ = ( X¢X ) X¢y
Queste stime vengono chiamate dei minimi quadrati
(6.6.2)
ordinari (OLS) per
differenziarle da altre, ancora ottenute con il criterio dei minimi quadrati, che esporremo
in seguito.
( X¢X )
esiste se il suo determinante è nonnullo, la
det ( X¢X ) ¹ 0
(6.6.3)
Poiché l’inversa della matrice
stima (6.6.2) esiste se vale l’ipotesi
Le stime dei residui
Dalla stima β̂ dei parametri definita dalla (6.6.2) si traggono immediatamente la ŷ
teorica che fa da controaltare alla y osservata definita dalla (6.3.6)
yˆ = X βˆ
(6.6.4)
generalizzante la prima delle (2.6.2), e il residuo stimato
uˆ = y - yˆ = y - X βˆ
(6.6.5)
generalizzante la seconda delle (2.6.2).
Se il modello (lineare multiplo) contiene l’intercetta, una delle colonne di X è
formata da tutti uno per cui in virtù dell’ortogonalità
X¢uˆ = 0
(6.6.6)
dimostrata nella (A.6.1.4), una delle equazioni del sistema (6.6.6) è
éuˆ1 ù
êuˆ ú
[1 1K1] êê M 2 úú = 0
ê ú
ëuˆn û
cioè
143
n
å uˆ
t =1
t
=0
(6.6.7)
proprietà fondamentale dei residui stimati che generalizza la prima delle (2.6.10).
Poiché poi dalla (6.6.5) si trae che
uˆt = yt - yˆ t
(6.6.8)
identica alla seconda delle (2.6.2) nel caso del modello semplice, addizionando per ogni t
nella (6.6.8) e tenendo conto della (6.6.7) si ha
n
n
t =1
t =1
0 = å yt - å yˆt
da cui
1 n
1 n
yˆt = å yt = y
å
n t =1
n t =1
(6.6.9)
cioè la media campionaria delle yˆ t (teoriche) è uguale a quella y delle variabili
osservate.
144
6.7
Il coefficiente di determinazione corretto
Se nel modello con k variabili esplicative se ne aggiunge una che non spiega alcunché
il modello con k+1 esplicative possiede un R2 leggermente maggiore di quello con k ma i
suoi parametri vengono stimati con un numero inferiore di g.d.l. e quindi le stime sono
più imprecise. E’ perciò utile disporre di un indice che valuti la bontà di adattamento di
un modello ai dati come l’ R
2
ma tenga anche conto della numerosità delle variabili
esplicative: diminuendo all’aumentare di queste. Un R 2 così modificato (corretto, in
termini tecnici) può essere trovato nella maniera seguente.
Se si dividono per n le due devianze nella (2.8.3) si ottiene
1 n
1 n 2
( y t - yˆ t ) 2
å
å uˆ t
n t =1
n t =1
2
R =1=1- n
1 n
1
2
( yt - y)
å
å ( yt - y ) 2
n t =1
n t =1
(6.7.1)
che mostra chiaramente come l’ R 2 misuri la proporzione di varianza totale spiegata dal
modello di regressione. Tuttavia nella (6.7.1) si utilizzano gli stimatori costituiti dalle
varianze campionarie, che sono distorti. Se a tali stimatori distorti si sostituiscono quelli
non distorti si ottiene un coefficiente di determinazione leggermente diverso dal (6.7.1),
detto corretto rispetto ai gradi di libertà,
Rc2 = 1 -
1
n-k
n
å uˆ
t =1
2
t
(6.7.2)
n
1
( yt - y) 2
å
n - 1 t =1
Siamo così passati dal rapporto fra devianze (6.7.1) al rapporto fra varianze
(campionarie) (6.7.2), nell’ultimo dei quali si tiene esplicito conto del numero di variabili
esplicative k.
Se, dato un modello, gli si aggiunge una variabile esplicativa qualsiasi,
assolutamente non significativa, cioè non legata da alcuna effettiva relazione con la
variabile dipendente, l’ R
2
comunque aumenterà. Al limite, inserendo nel modello n
variabili esplicative (cioè tante quante sono le osservazioni disponibili) si otterrà un
adattamento perfetto ai dati ( R 2 = 1), in conseguenza del fatto che una nuvola di n punti
può essere interpolata esattamente da un iperpiano a n dimensioni. L’ Rc2 invece
diminuisce, poiché a parità di devianze è Rc2 < R 2 come si può ricavare comparando la
(6.7.1) con la (6.7.2). In questa maniera il confronto tra due modelli con un diverso
numero di variabili esplicative, effettuato ricercando quale dei due possiede un
145
coefficiente di determinazione maggiore, diventa più significativo in quanto al modello
con k più grande si attribuisce uno svantaggio, funzione appunto della sua maggiore
dimensione. Talvolta Rc2 è indicato mediante una soprallineatura: R 2 .
La relazione esistente tra R2 ed Rc2 è presto trovata
Rc2 = 1 -
n -1
1- k n -1 2
(1 - R 2 ) =
+
R
n-k
n-k n-k
(6.7.3)
la quale mostra, tra l’altro, che quando k si avvicina molto a n il coefficiente corretto R 2
diventa negativo tendendo a meno infinito.
Si noti che nonostante questa penalizzazione possa apparire molto severa, in realtà è
possibile dimostrare che anche il coefficiente Rc2 può aumentare (anche se non aumenta
necessariamente) quando al modello vengono aggiunte variabili irrilevanti. Di
conseguenza le misure di bontà dell’interpolazione, anche se costituiscono un utile
indicatore sintetico della bontà complessiva del modello, non possono essere considerate
come unica guida nella strategia di specificazione econometrica.
Appendice 6.1 – Complementi analitici
Le condizioni per la minimizzazione della devianza residua
Determiniamo le condizioni per minimizzare la devianza residua (6.3.8) che possiamo
scrivere nella forma seguente
n
S ( β ) = å ut2 = u¢u = ( y - Xβ )¢ ( y - Xβ ) =
t =1
(
)(
)
¢
= é( y - Xβˆ ) - X ( β - βˆ ) ù é( y - Xβˆ ) - X ( β - βˆ ) ù =
ë
û ë
û
¢
¢
= ( y - Xβˆ ) ( y - Xβˆ ) + ( β - βˆ ) X¢X ( β - βˆ ) +
¢
¢
+ ( y - Xβˆ ) X ( βˆ - β ) + ( βˆ - β ) X¢ ( y - Xβˆ )
¢
= y - Xβˆ + Xβˆ - Xβ y - Xβˆ + Xβˆ - Xβ =
(A.6.1.1)
dove nel quarto passaggio abbiamo sottratto e addizionato la stessa quantità Xβˆ .
Ma questa espressione è minima perché si annullano i due ultimi termini se valgono
le equazioni normali
146
( X¢X ) βˆ = X¢y
Infatti
( βˆ - β )¢ X¢ ( y - Xβˆ ) = ( βˆ - β )¢ ( X¢y - X¢Xβˆ ) = 0
(A.6.1.2)
dove nell’ultimo passaggio è stata utilizzata la (A.6.1.2), e trasponendo
( y - Xβˆ )¢ X (βˆ - β ) = 0¢
(A.6.1.3)
Dunque sono nulli gli ultimi termini della (A.6.1.1).
Ortogonalità dei residui stimati rispetto alle variabili esplicative
Tenendo presente la (6.6.5), la (A.6.1.2) può essere scritta nella forma
(βˆ - β )¢ X¢uˆ = 0
che, essendo in generale βˆ ¹ β , mostra che è
(A.6.1.4)
X¢uˆ = 0 , proprietà di ortogonalità dei
residui stimati nei confronti delle variabili esplicative, contenute in X , generalizzazione
della seconda delle (2.6.10). La stessa proprietà viene ottenuta dalla (A.6.1.3)
(
)
uˆ¢X βˆ - β = 0¢
conseguibile anche trasponendo la (A.6.1.4).
Appendice 6.2 – L’inversa di una matrice
Il determinante di una matrice quadrata
Nel caso di una matrice di ordine due
éa
A = ê 11
ëa 21
a12 ù
a 22 úû
il determinante è semplicemente dato dal prodotto degli elementi della diagonale
principale meno il prodotto degli elementi della secondaria
detA = a11a 22 - a12a21
Esempio 6.9 - Il determinante della matrice quadrata (6.5.3) è 48-24 = 24.
147
Nel caso, invece, di una matrice quadrata A di ordine tre è conveniente scrivere di
seguito alle tre colonne della matrice nuovamente le prime due30
é a11
êa
ê 21
êëa 31
a12
a 22
a 32
a13 ù a11
a 23 úú a 21
a 33 úû a 31
a12
a 22
a 32
(A.6.2.1)
calcolando il determinante come somma dei tre prodotti che si ottengono dalla diagonale
principale di A e dalle due sue parallele nella tabella di tre righe e cinque colonne
(A.6.2.1)
a11a22a 33 + a12a 23a31 + a 13a21a 32
(A.6.2.2)
alla quale vanno sottratti i tre prodotti che si ottengono dalla diagonale secondaria di A e
dalle due sue parallele
a31a22a13 + a32a 23a11 + a 33a21a 12
(A.6.2.3)
Dunque, il determinante della matrice quadrata di ordine tre è dato dalla somma
(A.6.2.2) meno la (A.6.2.3).
Esempio 6.10 - Il determinante della matrice quadrata (6.5.4) è calcolabile mediante la
tabella
é5
ê10
ê
êë 6
1
2
3
5ù 5
10úú 10
12úû 6
1
2 per cui vale 120+60+150-60-150-120=0
3
da cui si nota che la matrice (6.5.4) è singolare.
In generale chiamiamo determinante della matrice quadrata A di ordine n data dalla
(6.4.4) per m = n l'espressione
detA =
å (±)a
1h1
a 2h2 ...a nhn
(A.6.2.4)
h1 ,..., hn
dove gli aij sono gli elementi di A e la sommatoria è estesa a tutte le permutazioni
(h1,h2,…,hn) della ennupla (1,2,…,n). Il segno più vale se la permutazione è pari e quello
meno se è dispari31.
Valgono per i determinanti le seguenti proposizioni:
30
È la regola detta di Sarrus.
La permutazione è pari se il numero delle inversioni del secondo indice rispetto all'ordine
naturale è pari; la permutazione è dispari se tale numero è dispari. Ad esempio, nel prodotto
a 12a23a31 il numero delle inversioni è due e quindi la permutazione è pari, mentre nel prodotto
a 13a22a31 il numero delle inversioni è tre e la permutazione è dispari.
31
148
Teorema 6.1 - Il determinante di una matrice triangolare è uguale al prodotto degli
elementi diagonali.
Teorema 6.2 - Data una matrice quadrata A, si ha
detA -1 = ( detA )
-1
Osservazione 6.3 - Dal teorema 6.1 segue che il determinante di una matrice
diagonale (che è anche triangolare, sia inferiore che superiore) è uguale al
prodotto degli elementi diagonali.
L’aggiunta di una matrice quadrata
L’aggiunta di una matrice quadrata A è la trasposta di un’altra matrice quadrata dello
stesso ordine il cui elemento generico di posto (i,j) si calcola come determinante della
sottomatrice di A ottenuta eliminando la i-esima riga e la j-esima colonna, moltiplicato
per (-1)i+j.
Esempio 6.11 - L’aggiunta della matrice (6.5.3) è
é(-1) 2 3
ê
3
ë(-1) 4
¢
(-1) 3 6 ù é 3
ú =ê
(-1) 4 16û ë- 6
- 4ù
16úû
mentre l’aggiunta della matrice (6.5.4) può essere trovata soltanto calcolando i nove
determinanti
é2
det ê
ë3
10ù
= -6
12úû
é10
det ê
ë6
10ù
= 60
12úû
é1
det ê
ë3
5ù
= -3
12úû
é5
det ê
ë6
5ù
= 30
12úû
é1
det ê
ë2
5ù
=0
10úû
é5
det ê
ë10
5ù
=0
10úû
é10
det ê
ë6
é5
det ê
ë6
2ù
= 18
3 úû
1ù
=9
3úû
é 5 1ù
det ê
ú=0
ë10 2û
per cui l’aggiunta è
¢
é(-1) 2 (-6) (-1) 3 60 (-1) 4 18ù
3 0ù
é -6
ê
ê
ú
3
4
5 ú
ê (-1) (-3) (-1) 30 (-1) 9 ú = ê- 60 30 0ú
ê (-1) 4 0
êë 18 - 9 0úû
(-1) 5 0 (-1) 6 0 úû
ë
(A.6.2.5)
La matrice inversa della (6.5.3) è
149
é 1
- 4ù ê 8
=ê
16úû ê- 1
ë 4
1 é 3
24 êë- 6
1ù
- ú
6
2ú
ú
3û
mentre l'inversa della (6.5.4) non può essere calcolata poiché il suo determinante è nullo.
Osservazione 6.4 - Dalla definizione di aggiunta segue che se una matrice è
simmetrica tale è anche la sua inversa.
Il modello lineare semplice in termini matriciali
Abbiamo ora tutti gli elementi per trattare il caso del modello lineare semplice (2.6.1)
in termini matriciali. La (6.3.6) è in forma esplicita
é y1 ù
êy ú
ê 2 ú é1
ê ... ú ê 1
ê ú=ê
ê ... ú ê...
ê ... ú êë 1
ê ú
ëê y n ûú
é u1 ù
êu ú
x1 ù
ê 2ú
ú
x2 ú é b1 ù ê ... ú
+ê ú
... ú êëb 2 úû ê ... ú
ú
ê ... ú
xn û
ê ú
ëêu n ûú
per cui la matrice X¢X è, effettuando la moltiplicazione righe per colonne,
é
ê n
¢
XX=ê n
ê x
t
êëå
t =1
con determinante det( X ¢X ) = n
ù
ú
t =1
ú
n
2ú
x
å
t
úû
t =1
n
åx
t
2
æ n
ö
2
x
ç å x t ÷ e aggiunta
å
t
t =1
è t =1 ø
n
é n 2
ê å xt
agg ( X ¢X) = ê t =1n
ê- x
t
êë å
t =1
n
ù
- å xt ú
t =1
ú
n ú
úû
Si ha, allora, facendo uso delle posizioni (2.6.5)
é mˆ ù
1
-1
ê ˆ ú = (X¢X) X¢y =
mxx - x 2
ëb û
é mxx
ê -x
ë
-x ù é y ù
1
êm ú =
ú
1 û ë xy û mxx - x 2
é mxx y - xmxy ù
ê m - xy ú
ë xy
û
stime uguali alle (2.6.8) e (2.6.7), rispettivamente. Si osservi che la condizione mxx ¹ x 2
sotto la quale potevano essere trovate le stime (2.6.7) e (2.6.8) corrisponde in termini
matriciali alla (6.6.3), condizione di non singolarità della matrice X¢X .
150
BIBLIOGRAFIA
Breusch, T.S., Pagan, A.R. [1979], “A Simple Test for Heteroskedasticity and Random
Coefficient Variation”, Econometrica, 47, pp. 1287-1294.
Chow, G.C. [1960], “Tests of equality between two sets of coefficients in two linear
regressions”, Econometrica, 28, pp. 591-605.
Cachrane, D. e G.H. Orcutt [1949], “Application of Least Squares Regressions to
Relationships Containing Error Terms”, Journal of the American Statistical
Association, 44, pp.32-61.
de Finetti, B. [1970], Teoria della probabilità, Torino: Einaudi.
Duesenberry, J.S. [1949], Income, Saving and the Theory of Consumer Behavior,
Cambridge, Massachussets: Harvard University Press.
Durbin, J. e G.S. Watson [1950], “Testing for Serial Correlation in Least Squares
Regression”, Biometrika, 37, pp.409-428.
Durbin, J. e G.S. Watson [1951], “Testing for Serial Correlation in Least Squares
Regression”, Biometrika, 38, pp.159-178.
Frisch, R. [1936-36], “On the notion of equilibrium and disequilibrium”, Review of
Economic Studies, 3, pp. 100-106.
Keynes, J.M. [1936], The General Theory of Employment, Interest, and Money, London:
Macmillan.
Koenker, R. [1981], “A Note on Studentizing a Test for Heteroscedasticity”, Journal of
Econometrics, 17, pp. 107-112.
Savin, N.E. e K.J. White (1977), “The Durbin-Watson Test for Serial Correlation with
Estreme Sample Sizes or Many Regressors”, Econometrica, 45, pp.1989-1996.
Spanos, A. [1986], Statistical Foundations of Econometric Modelling, Cambridge:
Cambridge University Press.
Tinbergen, J. [1939], Statistical Testing of Business Cycle Theories, vol. 1, Geneva:
League of Nations.
White H. [1980], “A Heteroscedasticity Consistent Covariance Matrix Estimator and a
Direct Test of Heteroscedasticity”, Econometrica, 48, pp.817-818.
151
Fly UP