...

Lez_Cap4 – I parte

by user

on
Category: Documents
16

views

Report

Comments

Transcript

Lez_Cap4 – I parte
Statistica per l’economia e
l’impresa
Capitolo 4
MODELLO DI
REGRESSIONE LINEARE
SEMPLICE
MODELLO DI
REGRESSIONE
LINEARE SEMPLICE
 Introduzione al modello di
regressione lineare (da
deterministico a stocastico)
 Modello di regressione lineare
semplice (ipotesi di base, stima OLS
dei parametri, stimatori BLUE, test,
intervalli di confidenza, previsione,
scomposizione devianza,
coefficiente di determinazione
2
RELAZIONI DI TIPO DETERMINISTICO
TRA VARIABILI
Y  f ( X 1 ,..., X K )
X1,..., X K 
VARIABILI ESPLICATIVE O
INDIPENDENTI

VARIABILE DIPENDENTE
Y
SE IL LEGAME È DI TIPO LINEARE ED IL NUMERO DELLE
ESPLICATIVE È PARI AD UNO, IL MODELLO DIVIENE:
Y    X
CHE IN UN SISTEMA DI ASSI CARTESIANI RAPPRESENTA
UNA RETTA CON COEFFICIENTE ANGOLARE 
ED
INTERCETTA (ORDINATA ALL’ORIGINE) 
3
BISETTRICE 1° e 3°
QUADRANTE
 0
 1
Y1
Y2
X1
X2
y  X
Y
y  X
Y5
Y4
Y3
Y2
Y1
y  X
}

} } 
X1
X2
X3
X4
X
4
La vera relazione tra Y e l’insieme di covariate X può essere
approssimata tramite il modello di regressione
Y  f ( X1 ,..., X K )  u
Dove  si ipotizza come l’errore casuale che rappresenta la
discrepanza dell’approssimazione. Avendo introdotto il
termine di errore il suddetto modello esprime una relazione
STOCASTICA.
Se f(.) esprime una funzione lineare, il modello di
regressione è di tipo lineare e si presenta nella forma
Y    1 X1  2 X 2  ...   K X K  u
( , 1 , 2 ... K ) coefficienti di regressione o
parametri di regressione
5
ANALISI DI REGRESSIONE
La regressione è sostanzialmente un metodo per
investigare relazioni funzionali tra variabili. La relazione
viene espressa sotto forma di equazione o modello che
lega la variabile dipendente ad una o più variabili
indipendenti.
ESEMPIO: se vogliamo verificare se il consumo di
sigarette è legato a variabili demografiche individuali ed a
variabili socioeconomiche, possiamo specificare come Y
il numero di sigarette fumate al giorno e come insieme di
variabili X, l’età dell’individuo, il genere, il reddito, il
titolo di studio, ecc.
Se osserviamo tali variabili su un campione di n unità
statistiche, avremo n osservazioni per ognuna delle
variabili osservate.
6
IL MODELLO DI REGRESSIONE
LINEARE SEMPLICE
La relazione tra la variabile dipendente (o di risposta)
e la variabile indipendente è espressa da un modello
lineare
Y   X u
Dove ( a ,  ) rappresentano i coefficienti di
regressione o parametri e  rappresenta la
componente casuale del modello. Si assume che
relativamente alle osservazioni campionarie tra Y e X
vi sia approssimativamente un legame lineare.
Y
X
Y1
X1
…
…
Yn
Xn
Per ogni singola
osservazione i il modello
può essere scritto così
Yi     X i  ui , i  1,..., n
7
Scatter plot
Y
 x3 , y3   x , y 
 x1, y1 
5
y
x
2,
5
 x6 , y6 
y2 
 x4 , y4 
x
X
A questo punto l’obiettivo è determinare l’equazione della retta che
meglio approssima i punti di coordinate (X, Y). Per determinare
l’equazione della retta
Yˆi  ˆ  ˆX i
è sufficiente stimare i parametri intercetta coefficiente angolare.
Per questo si adotta il METODO DEI
MINIMI QUADRATI ORDINARI (Ordinary Least
Square-OLS) BASATO SULLA
MINIMIZZAZIONE DELLA FUNZIONE
AUSILIARIA:
n
n
i 1
i 1

 (Yi  Yˆi ) 2   Yi  (ˆ  ˆX i )

2
Il minimo della funzione ausiliaria si ottiene
derivando rispetto ai parametri incogniti ̂ , ˆ
ponendo pari a zero le due equazioni e risolvendo il
sistema. Le soluzioni che si ottengono sono:
X  X Y  Y   x y


ˆ 

x
 X  X 
i
i
i
i
2
i
2
i
ˆ  Y  ˆ X
9
CON


 Y  Y 
xi  X i  X
yi
i
1
X   Xi
n
1
Y   Yi
n
Tornando alla natura probabilistica del modello ed
all’esempio del consumo individuale di sigarette. Se ad
esempio fosse Y il numero di sigarette fumate al giorno e X
l’età dell’individuo, è plausibile che, nel campione osservato,
per ogni valore di X (per ogni età) vi siano molti valori di Y
(numero di sigarette fumate al giorno). Quando, per questo
esempio, si specifica un modello probabilistico è come se si
assumesse che ogni età, il consumo di sigarette varia in
‘modo casuale’. Cerchiamo di approfondire questa idea.
10
UN MODELLO DI TIPO STOCASTICO SI ADEGUA
MOLTO MEGLIO DI UN MODELLO
DETERMINISTICO AL TIPO DI REALTÀ
RAPPRESENTATA DA n COPPIE DI OSSERVAZIONI Xi
E Yi NON ESATTAMENTE ALLINEATE SU DI UNA
RETTA. OVVIAMENTE L’INTRODUZIONE DI ui
PROVOCA NOTEVOLI COMPLICAZIONI, MA ANCHE
RISULTATI FORTEMENTE PIÙ UTILI E DENSI DI
SIGNIFICATO.
PRIMA CONSIDERAZIONE:
COME SI GIUSTIFICA L’INTRODUZIONE DELLA
COMPONENTE STOCASTICA?
1.1
1.2
1.3
1.4
PRESENZA DI ERRORI NEL MODELLO;
LIMITATEZZA NEL NUMERO DELLE VARIABILI
ESPLICATIVE (REGRESSORI);
CASUALITÀ DERIVANTE PREVALENTEMENTE
DALLA RILEVAZIONE CAMPIONARIA DELLE
OSSERVAZIONI EMPIRICHE;
PRESENZA DI ERRORI DI MISURA.
11
SECONDA CONSIDERAZIONE:
L’INTRODUZIONE DI ui PROVOCA LA RIDEFINIZIONE
DI Y IN TERMINI DI VARIABILE CASUALE (V.C.)
NON SOLO, MA OGNI VALORE ESPRESSO IN FUNZIONE
DI Y, DIVIENA ANCH’ESSO V.C.
TERZA CONSIDERAZIONE:
PER POTER UTILIZZARE AL MASSIMO LA PORTATA
INTERPRETATIVA ED ESPLICATIVA DI UN MODELLO
LINEARE STOCASTICO, DEVONO ESSERE INTRODOTTE
ALCUNE ASSUNZIONI:
1. LINEARITÀ DELLA RELAZIONE FUNZIONALE
2. NATURA DETERMINISTICA DEI REGRESSORI
3. NORMALITÀ DELLA DISTRIBUZIONE DEI
TERMINI DI ERRORE ui per ogni i=1….n
4. VALORE ATTESO NULLO DI TALI ERRORI:
E ui   0
5. OMOSCHEDASTICITÀ DEI MEDESIMI: VARui    2
6.
COV ui u j   0
Per ogni i
diverso da j
DATA LA NATURA
NORMALE DEGLI ui
ASSICURA ANCHE
L’INDIPENDENZA
12
ANCORA SULLE ASSUNZIONI
• LA 1. È ABBASTANZA BANALE
ANCHE SE SOLO
PARZIALMENTE REALISTICA. VEDREMO CHE MOLTE
RELAZIONI NON LINEARI POSSONO RIDURSI, CON
OPPORTUNE TRASFORMAZIONI, A RELAZIONI LINEARI (ex.
Cobb-Douglas!!).
• LA 2. È FORSE LA PIÙ IRREALISTICA IN AMBITO SOCIOECONOMICO MA MOLTO UTILE A FINI COMPUTAZIONALI
infatti comporta:
E ( X i ui )  X i E (ui )  0
• LA 3. DERIVA DALLA TEORIA DELLA PROBABILITÀ SULLA
DISTRIBUZIONE DEGLI ERRORI. DATE LE CARATTERISTICHE
DALLA V.C. NORMALE (CONTINUITÀ, DEFINIZIONE NEL
DOMINIO INFINITO, SIMMETRIA, FORMA CAMPANULARE)
RISULTA PLAUSIILE.
• LA 4. CI ASSICURA CHE L’ERRORE MASSIMAMENTE
PROBABILE (DAL MOMENTO CHE IN UNA V.C. NORMALE IL
VALOR MEDIO COINCIDE CON IL VALORE MODALE) È
QUELLO DI ENTITÀ ZERO.
• LA 5. - POCO REALISTICA IN CASO DI OSSERVAZIONI “CROSS
SECTION” - COMPORTA PROBLEMI DI ENTITÀ RILEVANTE, SE
TRALASCIATA. ANALIZZEREMO COMUNQUE A FONDO TALE
CIRCOSTANZA.
• LA 6. - POCO REALISTICA IN CASO DI OSSERVAZIONI
DIPENDENTI DAL TEMPO (SERIE STORICHE) - COMPORTA
PROBLEMI RILEVANTI SE TRALASCIATA.
13
Y
Y
X
ETEROSCHEDASTICITÀ
VARIANZA FUNZIONE
DECRESCENTE DI X
X
VARIANZA FUNZIONE
CRESCENTE DI X
Yt
Yt
Xt
AUTOCORRELAZIONE
NEGATIVA
Xt
POSITIVA
14
Esaminiamo le caratteristiche degli stimatori dei
parametri incogniti della retta di regressione
ottenuti con OLS.
Per questo ricordiamo che le stime ottenute
derivano da un’ennupla di osservazioni
campionarie (estratte con campionamento
probabilistico da una popolazione target)
osservate sulle variabili (X, Y).
Se estraessimo un altro campione dalla stessa
popolazione di riferimento, il campione sarebbe
diverso dal precedente e le stime dei parametri
sarebbero diverse, quindi si può dire che quelle
stime sono associate ad una variabile casuale.
Concludendo quando si scrive ˆ si intende: i) il
coefficiente angolare della retta di regressione,
stimato a partire da una determinata un’ennupla
di osservazioni campionarie, ii) lo stimatore che
segue una certa distribuzione di probabilità.
15
SI CONSIDERINO GLI STIMATORI OLS
ˆ 
ˆ  Y  ˆ X
x y
x
i
i
2
i
TEOREMA DI GAUSS-MARKOV :
Date le assunzioni 1., 2., 4., 5., 6. gli stimatori
OLS ̂
ˆ
sono i MIGLIORI (più efficienti) STIMATORI
LINEARI e CORRETTI (BLUE – BEST
LINEAR UNBIASED ESTIMATOR) dei
parametri


Il senso del teorema è che tali stimatori sono
quelli a varianza minima nella classe degli
stimatori lineari e corretti.
16
Dimostrazione del TEOREMA DI GAUSS-MARKOV:
SI CONSIDERI LO STIMATORE OLS DI β E LO SI RISCRIVA
COME:
x y
x
ˆ 
i
  wi yi
i
2
i
LINEARITA’
DELLO
STIMATORE
OSSERVAZIONI
xi
wi 
2
x
i
SISTEMA DI PESI
CON PROPRIETÀ:
w  0
w x  w  X
i
i i

i
x X
x
i
2
i
i

i

 X   wi X i  X  wi
 X  X  X
 X  X 
i
i
2
i
17


1
n
1

n
X i2 
X i2


Xi
Xi


2
2
 1
SI DIMOSTRA ANALOGAMENTE CHE:
1


ˆ
     X wi  yi
n

PESI
OSSERVAZIONI
COSTANTI
MEDIA STIMATORI
̂   wi yi   wi (Yi  Y )   wiYi  Y  wi
  wi    wi X i   wiui    wiui

E ̂  E    wi ui      wi E ui 
 
E ˆ  
CORRETTEZZA
DELLO
STIMATORE
18
̂
ANALOGAMENTE SI OTTIENE PER
CHE
E ˆ   
QUINDI
̂
E ˆ SONO ENTRAMBI STIMATORI CORRETTI
VARIANZA STIMATORI
 
VAR ˆ  E ˆ  
  E w u  
2
2
i i
E w12u12  w22u22  ...  wn2un2  2 w1w2u1u2  ...  2 wn 1wn un 1un 
E wi2ui2  2 wi w juiu j   u2  wi2  2 wi w j E uiu j 
  u2  wi2   u2
1
2
x
i
E ui ui   VARui    u2
E ui u j   COV ui u j   0
19
DISTRIBUZIONE DEGLI STIMATORI OLS
̂
e
ˆ
Poiché ˆ è una media pesata di y e le y sono
normalmente distribuite, ˆ ha una
distribuzione normale
ˆ :


N ,
2

x
 i

2
OLS = ML




analogamente
2

X
i
2 
ˆ
 : N   , 
2
N
x
 i




OLS SONO
MIGLIORI, LINEARI,
CORRETTI E
ASINTOTICAMENTE
CONSISTENTI
In virtù del Teorema del Limite Centrale,
anche se le y non fossero distribuite
normalmente (sotto condizioni abbastanza
generali) si avrebbe comunque una
distribuzione asintoticamente normale per i
suddetti parametri
20
STIMA DELLA VARIANZA DELL’ERRORE
L’analisi non è ancora completa, resta da stimare la
2
varianza  del termine stocastico del modello.
Il computo di questo stimatore coinvolge
l’applicazione del Metodo della Massima
Verosimiglianza (che omettiamo). Riportiamo
direttamente lo stimatore varianza residua
s 2  ˆ 2 
uˆ i  Yi  Yˆi
2
ˆ
u
 i
n2

ˆX )2
ˆ
(
Y




 i
i
n2
rappresenta il residuo
La varianza residua è uno stimatore corretto e
consistente della varianza del termine di errore.
21
OSSERVAZIONE
Perché il denominatore della varianza residua
deve essere pari a (n-2) per ottenere uno
stimatore corretto?
Perché le osservazioni campionarie sulle quali
si basa la stima sono n, ma la stima
dell’intercetta e del coefficiente angolare
impongono 2 vincoli, quindi restano (n-2) gradi
di libertà.
22
 
Osservazione sulla VAR ˆ
• FUNZIONE DIRETTA DELLA
VARui ;
ERRORI MOLTO VARIABILI PROVOCANO
DIMINUZIONE DI PRECISIONE E DI AFFIDABILITÀ
PER ˆ .
• FUNZIONE INVERSA DELLA
VAR  X i  ;
SE LE Xi SONO CONCENTRATE IN UN PICCOLO
INTERVALLO, PEGGIORA LA QUALITÀ DI ˆ.
X
Xi
23
STANDARD ERROR DEGLI STIMATORI
OLS
Avendo ottenuto una stima della varianza del
termine stocastico del modello di regressione si
sostituisce nell’espressione della varianza degli
stimatori OLS per ottenere gli errori standard
(standard error)
sˆ
2

s
2
x
2
sˆ
i

2
2

X
 i
 s2 
 n x 2
i






2
X
s
COV ˆ , ˆ  
2
x
 i
Gli errori standard FORNISCONO UNA MISURA DELLA
DISPERSIONE DELLE STIME INTORNO ALLE
RISPETTIVE MEDIE.
24
Fly UP