...

Lez_Cap4 – II parte

by user

on
Category: Documents
14

views

Report

Comments

Transcript

Lez_Cap4 – II parte
INFERENZA NEL MODELLO
DI REGRESSIONE LINEARE
SEMPLICE
• E’ necessaria l’ipotesi di normalità dei
termini stocastici
• Interpretazione dell’intervallo di
confidenza, fissato il livello di
significatività  (ad esempio per
).
Se estraessi più campioni; ognuno
fornirebbe valori diversi della stima
OLS di  e quindi diversi intervalli di
confidenza; l’(1-)% di questi
intervalli includerebbe , mentre solo
nell’ % dei casi devierebbe da  per
più di un certo .
1
• Verifica d’ipotesi, fissato il livello di
significatività  (ad esempio per ).
Sia data una congettura (ipotesi nulla),
che si assume vera, attraverso la verifica
d’ipotesi si valuta l’entità della discrepanza
tra quanto osservato nei dati campionari e
quanto previsto sotto ipotesi nulla. Se,
fissato il livello di significatività , la
“discrepanza” è significativa l’ipotesi nulla
viene rifiutata, altrimenti l’ipotesi nulla non può
essere rifiutata.
2
INTERVALLI DI CONFIDENZA
SICCOME
2


u
ˆ : N 

,

 xi2





ˆ  
standardizzando
u
: N 0,1
2
x
 i
ˆ     x
: N  0,1
2
i
u
n  2s 2
 u2
OVVERO:
n  2
ˆ  
sˆ
:  2 n 2 /g.l.
: t n  2 
T-Student con
(n-2) g.l.
3
Quindi l’intervallo di confidenza per 
all’(1-)% si determina nel seguente modo:
Prob t / 2  tn 2  t / 2   1  


Prob ˆ  t / 2 sˆ    ˆ  t / 2 sˆ  1  
Limite
inferiore
Limite
superiore
In sostanza l’intervallo di confidenza fornisce
il range di valori in cui verosimilmente cade il
vero valore del parametro
4
VERIFICA DI IPOTESI
•
•
•
•
Fissato il livello di significatività 
Ipotesi nulla
Ipotesi alternativa
Statistica test
Regione di
Accettazione o di
Rifiuto del test
5
VERIFICA DI IPOTESI:
SIGNIFICATIVITA’ di 
H0 :   0
HA :   0
ˆ  0
sˆ

ˆ
sˆ
NON ESISTE
RELAZIONE LINEARE
TRA X ED Y
STATISTICA TEST
 tn  2
REGIONE CRITICA
SI RESPINGE L’IPOTESI NULLA SE:
ˆ
sˆ
 t / 2, n  2
REGOLA D’ORO
QUANDO n è grande, t-student
ad una Normale,
quindi se fissiamo il 5% come livello di significatività,
possiamo adottare la “regola d’oro”: se
ALLORA SI RIFIUTA L’IPOTESI
ˆ
 2 NULLA:
sˆ
H0 :   0
6
VERIFICA DI IPOTESI
H0: = 0
• Se 0 è una costante si può verificare:
H0: = 0
H1 :    0
ˆ  
0
sˆ
 tn  2
STATISTICA
TEST
SI RESPINGE L’IPOTESI NULLA SE:
ˆ   0
sˆ
 t / 2,n 2
N.B. ancora una volta se n è grande la
distribuzione t-Student si approssima alla
distribuzione normale standardizzata
7
Significato del coefficiente 
•  esprime di quanto varia mediamente Y in
conseguenza di una variazione unitaria di X.
• Se >0, al crescere di X cresce anche Y
(relazione lineare diretta)
• Se <0, al crescere di X, Y decresce (relazione
lineare inversa)
8
REGRESSIONE E CORRELAZIONE
xi
Y
N COPPIE DI PUNTI
Q
P
Yi V
yi

S X ,Y
S
Y
i=1, …, N
R

P  xi , yi 
B
PV  X i
PT  Yi
T
0
A
Xi
X
X
I QUADRANTE: IL PRODOTTO
xi yi  0
II QUADRANTE: IL PRODOTTO
xi yi  0
III QUADRANTE: IL PRODOTTO
xi yi  0
IV QUADRANTE: IL PRODOTTO
xi yi  0


xi yi  X i  X Yi  Y

9
LA FUNZIONE  xi yi MISURA l’intensità
del LEGAME LINEARE TRA X ED Y.
1
Cov( X , Y ) 
n
1

xi yi

n
sX 
( X
2
x
 i
r 
i
 X )(Yi  Y ) 
COVARIANZA
sY 
n
x
i
yi
s X sY
2
y
 i
n
COEFFICIENTE DI
CORRELAZIONE DI
BRAVAIS-PEARSON
R è un indice relativo, ossia non dipende
dall’unità di misura delle variabili X, Y
10
SE SULLE N COPPIE DI OSSERVAZIONI STIMIAMO UN
MODELLO LINEARE
Y    X  
SICCOME
ˆ 
x y
x
i
i
2
i
ALLORA ABBIAMO:
s
r  ˆ x
sy
MISURA DEL LEGAME
LINEARE TRA X ED Y
MISURA DELLA DIPENDENZA
LINEARE DI Y DA X
Osservazione: SE SI È ACCERTATA L’ESISTENZA DI UN
LEGAME LINEARE SONO POSSIBILI DUE TIPI DI
DIPENDENZA LINEARE: QUELLO DI Y DA X E
QUELLO DI X DA Y;
CONSIDERAZIONE: NELL’ANALISI DI REGRESSIONE
È NECESSARIO DECIDERE “EX ANTE” QUALE TIPO
DI DIPENDENZA SI VUOLE CONSIDERARE;
11
CONSIDERAZIONE: L’ANALISI DI CORRELAZIONE
PRESCINDE DA LEGAMI CAUSALI; QUELLA DI
REGRESSIONE È BASATA SUI LEGAMI CAUSALI;
CONSIDERAZIONE: CORRELAZIONE E CAUSALITÀ.
ESEMPIO: NUMERO DI MALATI DI UNA DATA
PATOLOGIA PER ZONA (X), NUMERO DI MEDICI
PRESENTI PER ZONA (Y). SE r INDICA ALTA
CORRELAZIONE QUESTO NON SIGNIFICA CHE UN
ELEVATO NUMERO DI MEDICI CAUSA UN ELEVATO
NUMERO DI MALATI MA SIGNIFICA SOLO CHE TRA
LE DUE VARIABILI ESISTE UN ALTO LEGAME
LINEARE;
12
PROPRIETÀ DEI RESIDUI
Y
Y
P(xi,yi)
• •
• Q•
• •R
•
•• •
• • •
•
Yˆ  ˆ  ˆX
ˆ  ˆx
y
• •
•
PR  Yi  Y  yi
QR  Yˆi  Y  yˆi
PQ  Yi  Yˆi  uˆi
RESIDUO
S
X
X
uˆ
i
ˆi  yi  ̂xi
uˆi  yi  y
0
uˆ   y    x  0
i
i
i
Sono somme degli scarti
dalla media, quindi sono
zero
13
SCOMPOSIZIONE DELLA DEVIANZA
• Dal precedente grafico:
Yi  Y  (Yi  Yˆi )  (Yˆi  Y )
2
(
Y

Y
)

 i
2
2
ˆ
ˆ
(
Y

Y
)

(
Y

Y
)
 2 (Yi  Yˆi )(Yˆi  Y ) 
 i i  i
ˆ
ˆ
u
(
Y

Y
)

u
Y
i i
 i i  Y  ui 
  ui (ˆ  ˆX i )  0
2
2
2
ˆ
ˆ
(
Y

Y
)

(
Y

Y
)

(
Y

Y
)
 i
 i i  i
DEVIANZA
TOTALE
TSS
=
Total Sum =
Square
DEVIANZA
DEVIANZA
RESIDUA
SPIEGATA
RSS
+
ESS
Residual Sum + Explained Sum
14
Square
Square
Dividendo tutto per TSS si ottiene:
RSS
ESS
1

TSS
TSS
Si definisce COEFFICIENTE DI
DETERMINAZIONE
ESS
RSS
R 
 1
TSS
TSS
2
Tale coefficiente rappresenta la proporzione di
devianza totale spiegata dal modello di
regressione lineare di Y su X.
0  R2  1
Dato che MAX  ESS   TSS
Quando il modello
non spiega niente della
variabilità di Y
Tutta la variabilità di
Y è spiegata dal
modello
15
SE R²=0 SIGNIFICA CHE IL CONTRIBUTO
ESPLICATIVO ALLA DEVIANZA COMPLESSIVA
APPORTATO DAL MODELLO È IDENTICAMENTE
NULLO; LA DEVIANZA COMPLESSIVA È SOLO
SPIEGATA DALLA COMPONENTE CASUALE
(RESIDUO).
SE R²=1 TUTTI GLI N VALORI EMPIRICI OSSERVATI
GIACCIONO ESATTAMENTE SULLA RETTA DI
REGRESSIONE; IL CONTRIBUTO ALLA DEVIANZA
COMPLESSIVA È SOLO FORNITO DAL MODELLO.
NEI CASI INTERMEDI, QUANTO PIÙ R² È PROSSIMO
AD UNO O A ZERO, TANTO PIÙ/MENO LA
VARIABILITÀ COMPLESSIVA È SPIEGATA DAL
MODELLO PRESCELTO. AD ESEMPIO, UN VALORE
r²=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO
RIESCE A SPIEGARE L’80 PER CENTO DELLA
VARIABILITÀ COMPLESSIVA.
16
Il coefficiente di determinazione
rappresenta un indice di fitting (da prendere
con cautela!), in quanto misura l’adattabilità
del modello specificato ai dati.
Vediamo che relazione c’è tra R2 ed i
parametri della retta di regressione. Per fare
questo consideriamo il modello in forma di
scarti
ˆ i  ˆxi
y
Ogni osservazione della variabile
dipendente può essere scomposta in
ˆ i  ui
yi  y
y
2
i
2
2
2
ˆ
ˆ
  ( y i  u i )   yi   u i 
 u yˆ  ˆ  u x  0
i i
i i
2
2
 ˆ 2  xi   ui
17
Ne consegue che
ESS
2
R 

TSS
2
ˆ
y
 i
sX 2
2  xi
2
ˆ
ˆ



(

)

(
r
)
2
2
sY
y
y
 i
 i
2
QUINDI IL COEFFICIENTE DI DETERMINAZIONE È
UGUALE AL QUADRATO DEL COEFFICIENTE DI
CORRELAZIONE.
UNA SEMPLICE ED EFFICIENTE RELAZIONE PER IL
COEFFICIENTE DI DETERMINAZIONE SI PUÒ
RICAVARE ANCHE DA:
ui
RSS

2
R  1
 1
2
TSS
y
 i
2
18
ANALISI DELLA VARIANZA (ANOVA)
La scomposizione
TSS  RSS  ESS
O equivalentemente
y
2
i
2
ˆ
  ui   yi
2
MOSTRA LA SCOMPOSIZIONE DELLA VARIABILITÀ
TOTALE (in forma di DEVIANZA) NEI CONTRIBUTI
della COMPONENTE DI ERRORE e del MODELLO
specificato. INOLTRE:
SAPPIAMO CHE:
ESS   yˆi 2  ˆ 2  xi 2
ˆ     x
2
i
u
: N (0,1)
19
ALLORA:

ˆ  
 x
2
2
i
 u2
Quadrato di
una N(0,1)
:  (21)
SI PUÒ DIMOSTRARE CHE:
2
u
 i
 u2
ALLORA:
ˆ     x
2
u
2
i
2
i
/( n  2)
:  (2n  2 )
: F(1,n  2 )
Rapporto tra
Chi-Quadrato
divise per i
propri g.l.
Pertanto per verificare l’ipotesi H 0 :   0 H1 :   0
Si può utilizzare la suddetta statistica test che
sotto ipotesi nulla è
  x
ˆ
2
2
i
ESS / 1

: F(1,n  2 )
2
 ui /( n  2) RSS /( n  2)
20
Intuitivamente un forte legame lineare tra X e Y
determinerà valori elevati per la statistica test 
bontà del modello.
Pertanto valori grandi della statistica test portano al
rifiuto dell’ipotesi nulla. Formalmente, se
F   F1,n2
H0 :   0
viene rifiutata,
Valore
empirico
Valore
teorico
Osservazione: nel caso del modello di
regressione lineare semplice, applicare il test t
o F è equivalente, in entrambi i casi si verifica
la significatività dell’unico parametro di
regressione, ma nel caso del modello di
regressione lineare multipla il test F servirà
per verificare la ‘bontà’ del modello nel suo
complesso e quindi la significatività congiunta
di tutti i parametri di regressione.
21
TAVOLA ANOVA
CAUSA
VARIAZIONE
MODELLO
DEVIANZE

 ui
RESIDUO
2
1
2
(n-2)
 yi   yˆi   ui
2
TOTALE
ˆi
y
GRADI DI
LIBERTÀ
2
2
STIME CORRETTE
DELLA VARIANZA
ˆ  xi yi 1
 ui /(n  2)
2
(n-1)
22
PREVISIONE
• Il modello di regressione stimato
spesso viene utilizzato a fini previsivi,
ovvero per stimare il valore della
variabile dipendente che corrisponde
ad un determinato valore della
variabile indipendente
Yˆ0  ˆ  ˆX 0
Lo standard error di tale valore previsto è
1
s.e.(Yˆ0 )  s 1 

n
( X 0  X )2
2
(
X

X
)
 i
Pertanto i limiti dell’intervallo di
confidenza per il valore previsto, fissato
un livello di confidenza pari a 1-
23
Yˆ0  t( n 2, / 2 ) s.e.(Yˆ0 )
Si osservi che il valore dello s.e. aumenta al
crescere della distanza tra X0 e il valor
medio di X, pertanto la qualità della
previsione diverrà sempre peggiore.
Inoltre può accadere che la linearità della
relazione tra Y e X sia limitata alla nuvola di
punti osservati e che fuori tale relazione
non sia valida, pertanto può essere
totalmente fuorviante prevedere un valore
di Y partendo da un valore di X che è al di
fuori del range dei valori osservati
24
ESEMPIO NUMERICO
Yi
Xi
yi
xi
166
153
177
201
216
208
227
238
268
268
274
352
373
411
441
462
490
529
577
641
692
743
-51.8
-64.8
-40.8
-16.8
-1.8
-9.8
9.2
20.2
50.2
50.2
56.2
-167.2
-146.2
-108.2
-78.2
-57.2
-29.2
9.8
57.8
121.8
172.8
223.8
ANNI
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
n=11 Σ=2396
Σ=5711
MEDIAy=217.8 MEDIAx=519.2
ˆ 
x y
x
i
i
2

i
xiyi
8660.96
9473.76
4414.56
1313.76
102.96
286.16
90.16
1167.56
6114.36
8674.56
12577.56
xi²
27955.84
21374.44
11707.24
6115.24
3271.84
852.64
96.04
3340.84
14835.24
29859.84
50086.44
Σ=52876.36 Σ=169495.64
52876.36
 0.312
169495.64
ˆ  y  ˆ x  217.8   0.312  519.2   55.81
yˆ i  55.81  0.312 xi
Y→ INCIDENTI STRADALI (X1000)
X →VEICOLI CIRCOLANTI (X1000)
Y
y
}
0
x
25
X
n  11,  X i  5711,  Yi  2396
2
X
 i 3134543,  X iYi  1296836
x
y
2
169495.64,  xi yi  52876.36
2
 17619.64, ˆ  55.81, ˆ  0.312
i
i
sˆ 
 eˆi
FONTE
2
n  2  11.18
SS
MODELLO
RESIDUO
TOTALE
16497.42
1124.33
17621.75
sˆˆ  0.03
DF
MS
1
9
10
16497.42
124.93
F  132, F 0.01;1.9  10.56
H 0 :   0; F  F ; RESPINTA
INTERVALLO DI CONFIDENZA
t  t0.025 ; 95%
2
t 2  sˆ
 2.262  11.18
ˆ

 0.312 
 411.7 
 x2
0.2506    0.3734
95 VOLTE SU 100 IL VALORE DI β È COMPRESO
TRA 0.25 E 0.37
26
x y
x  y
r
i
i
2
i
i
2

52876.36
169495.64  17619.64 
1
2
 0.97
LEGAME LINEARE POSITIVO E MOLTO ELEVATO,
PARI AL 97% DEL MASSIMO VALORE POSSIBILE
VERIFICA D’IPOTESI DISGIUNTA PER β
t 
ˆ
sˆ

0.312
 10.4
0.03
t  t 0.025;9  2.262
H 0 :   0 È RESPINTA
Quindi la variabile veicoli circolanti risulta
significativa
27
Fly UP