...

Presentazione di PowerPoint - Università degli Studi di Siena

by user

on
Category: Documents
22

views

Report

Comments

Transcript

Presentazione di PowerPoint - Università degli Studi di Siena
Università degli
Studi di Siena
Facoltà di
Economia
“R.M. GOODWIN”
Corso di
Statistica Economica I
Laura Neri
1
MODELLO DI
REGRESSIONE
LINEARE SEMPLICE
Introduzione al modello di
regressione lineare (da
deterministico a stocastico)
Modello di regressione lineare
semplice (ipotesi di base, stima OLS
dei parametri, stimatori BLUE, test,
intervalli di confidenza, previsione,
scomposizione devianza, coeff.
determinazione
2
RELAZIONI DI TIPO DETERMINISTICO
TRA VARIABILI
Y  f ( X 1 ,..., X K )
X1,..., X K 
VARIABILI ESPLICATIVE O
INDIPENDENTI

VARIABILE DIPENDENTE
Y
SE IL LEGAME È DI TIPO LINEARE ED IL NUMERO DELLE
ESPLICATIVE È PARI AD UNO, IL MODELLO DIVIENE:
Y    X
CHE IN UN SISTEMA DI ASSI CARTESIANI RAPPRESENTA
UNA RETTA CON COEFFICIENTE ANGOLARE 
ED
INTERCETTA (ORDINATA ALL’ORIGINE) 
3
BISETTRICE 1° e 3°
QUADRANTE
 0
 1
Y1
Y2
X1
X2
y  X
Y
y  X
Y5
Y4
Y3
Y2
Y1
y  X
}

} } 
X1
X2
X3
X4
X
4
La vera relazione tra Y e l’insieme di covariate X può essere
approssimata tramite il modello di regressione
Y  f ( X 1 ,..., X K )  
Dove  si ipotizza come l’errore casuale che rappresenta la
discrepanza dell’approssimazione. Avendo introdotto il
termine di errore il suddetto modello esprime una relazione
STOCASTICA.
Se f(.) esprime una funzione lineare, il modello di
regressione è di tipo lineare e si presenta nella forma
Y   0  1 X 1   2 X 2  ...   K X K  
(  0 , 1 ,  2 ... K ) coefficienti di regressione o
parametri di regressione
5
ANALISI DI REGRESSIONE
La regressione è sostanzialmente un metodo per
investigare relazioni funzionali tra variabili. La relazione
viene espressa sotto forma di equazione o modello che
lega la variabile dipendente ad una o più variabili
indipendenti.
ESEMPIO: se vogliamo verificare se il consumo di
sigarette è legato a variabili demografiche individuali ed a
variabili socioeconomiche, possiamo specificare come Y
il numero di sigarette fumate al giorno e come insieme di
variabili X, l’età dell’individuo, il genere, il reddito, il
titolo di studio, ecc.
Se osserviamo tali variabili su un campione di n unità
statistiche, avremo n osservazioni per ognuna delle
variabili osservate
6
IL MODELLO DI REGRESSIONE
LINEARE SEMPLICE
La relazione tra la variabile dipendente (o di risposta)
e la variabile indipendente è espressa da un modello
lineare
Y   0  1 X  
Dove (  0 , 1 ) rappresentano i coefficienti di
regressione o parametri e  rappresenta la
componente casuale del modello. Si assume che
relativamente alle osservazioni campionarie tra Y e X
vi sia approssimativamente un legame lineare.
Y
X
Y1
X1
…
…
Yn
Xn
Per ogni singola
osservazione i il modello
può essere scritto così
Yi  0  1 X i   i , i  1,..., n
7
Scatter plot
Y
 x3 , y3   x , y 
 x1, y1 
5
y
x
2,
5
 x6 , y6 
y2 
 x4 , y4 
x
X
A questo punto l’obiettivo è determinare l’equazione della retta che
meglio approssima i punti di coordinate (X, Y). Per determinare
l’equazione della retta
Yˆ  ˆ0  ˆ1 X
è sufficiente stimare I parametri intercetta coefficiente angolare.
8
Per questo si adotta il METODO DEI
MINIMI QUADRATI ORDINARI (Ordinary Least
Square-OLS) BASATO SULLA
MINIMIZZAZIONE DELLA FUNZIONE
AUSILIARIA:
n
 (Y
i
 Yˆi ) 
2
i 1
n
 (Y
i
 ˆ0  ˆ1 X i ) 2
i 1
Il minimo della funzione ausiliaria si ottiene
derivando rispetto ai parametri incogniti ̂ , ˆ
ponendo pari a zero le due equazioni e risolvendo il
sistema. Le soluzioni che si ottengono sono:
X  X Y  Y   x y


ˆ 

x
 X  X 
i
i
i
i
2
i
2
i
ˆ  Y  ˆ X
9
CON


 Y  Y 
xi  X i  X
yi
i
1
X   Xi
n
1
Y   Yi
n
Tornando alla natura probabilistica del modello ed
all’esempio del consumo individuale di sigarette. Se ad
esempio fosse Y il numero di sigarette fumate al giorno e X
l’età dell’individuo, è plausibile che, nel campione osservato,
per ogni valore di X (per ogni età) vi siano molti valori di Y
(numero di sigarette fumate al giorno). Quando, per questo
esempio, si specifica un modello probabilistico è come se si
assumesse che ogni età, il consumo di sigarette varia in
‘modo casuale’. Cerchiamo di approfondire questa idea.
10
UN MODELLO DI TIPO STOCASTICO SI ADEGUA
MOLTO
MEGLIO
DI
UN
MODELLO
DETERMINISTICO
AL
TIPO
DI
REALTÀ
RAPPRESENTATA DA n COPPIE DI OSSERVAZIONI Xi
E Yi NON ESATTAMENTE ALLINEATE SU DI UNA
RETTA.
OVVIAMENTE
L’INTRODUZIONE
DI
PROVOCA NOTEVOLI COMPLICAZIONI, MA ANCHE
RISULTATI FORTEMENTE PIÙ UTILI E DENSI DI
SIGNIFICATO.
PRIMA CONSIDERAZIONE:
COME SI GIUSTIFICA L?INTRODUZIONE
COMPONENTE STOCASTICA?
1.1
1.2
1.3
1.4
DELLA
PRESENZA DI ERRORI NEL MODELLO
LIMITATEZZA NEL NUMERO DELLE VARIABILI
ESPLICATIVE (REGRESSORI);
CASUALITÀ DERIVANTE PREVALENTEMENTE
DALLA RILEVAZIONE CAMPIONARIA DELLE
OSSERVAZIONI EMPIRICHE;
PRESENZA DI ERRORI DI MISURA
11
i
SECONDA CONSIDERAZIONE:
L’INTRODUZIONE DI  i PROVOCA LA RIDEFINIZIONE
DI Y IN TERMINI DI VARIABILE CASUALE (V.C.)
NON SOLO, MA OGNI VALORE ESPRESSO IN FUNZIONE
DI Y, DIVIENA ANCH’ESSO V.C.
TERZA CONSIDERAZIONE:
PER POTER UTILIZZARE AL MASSIMO LA PORTATA
INTERPRETATIVA ED ESPLICATIVA DI UN MODELLO
LINEARE STOCASTICO, DEVONO ESSERE INTRODOTTE
ALCUNE ASSUNZIONI:
1. LINEARITÀ DELLA RELAZIONE FUNZIONALE
2. NATURA DETERMINISTICA DEI REGRESSORI
3.
NORMALITÀ DELLA DISTRIBUZIONE
TERMINI DI ERRORE  per ogni i=1….n
DEI
i
4. VALORE ATTESO NULLO DI TALI ERRORI: E  i   0
5.
OMOSCHEDASTICITÀ DEI MEDESIMI: VAR 
6. COV   i j   0
Per ogni i
diverso da j
DATA LA NATURA
NORMALE DEGLI
ASSICURA
ANCHE
L’INDIPENDENZA
i
 2
i
12
ANCORA SULLE ASSUNZIONI
• LA 1. È ABBASTANZA BANALE ANCHE SE SOLO
PARZIALMENTE REALISTICA. VEDREMO CHE MOLTE
RELAZIONI NON LINEARI POSSONO RIDURSI, CON
OPPORTUNE
TRASFORMAZIONI,
A
RELAZIONI
LINEARI.
• LA 2. È FORSE LA PIÙ IRREALISTICA IN AMBITO
SOCIO-ECONOMICO MA MOLTO UTILE A FINI
COMPUTAZIONALI infatti comporta:
E ( X i i )  X i E ( i )  0
•LA 3. DERIVA DALLA TEORIA DELLA PROBABILITÀ
SULLA DISTRIBUZIONE DEGLI ERRORI. DATE LE
CARATTERISTICHE
DALLA
V.C.
NORMALE
(CONTINUITÀ, DEFINIZIONE NEL DOMINIO INFINITO,
SIMMETRIA,
FORMA
CAMPANULARE)
RISULTA
PLAUSIILE.
• LA 4. CI ASSICURA CHE L’ERRORE MASSIMAMENTE
PROBABILE (DAL MOMENTO CHE IN UNA V.C.
NORMALE IL VALOR MEDIO COINCIDE CON IL VALORE
MODALE) È QUELLO DI ENTITÀ ZERO. SI NOTI
COMUNQUE CHE SE
E ( )  k  0
i
SI PUO’ SPECIFICARE IL MODELLO IN MODO DA
TORNARE ALL’ASSUNZIONE
13
yi     xi   i   k  k 
   k    xi   i  k 
    xi   i

CON
    k 

E

 i   i  k 

E  i    E  i  k   E  i   k  k  k  0
CIOÈ SI PUO’ SEMPRE DEFINIRE UN MODELLO CON
MEDIA NULLA DEGLI ERRORI.
• LA 5., POCO REALISTICA IN CASO DI OSSERVAZIONI
“CROSS SECTION”, COMPORTA PROBLEMI DI ENTITÀ
RILEVANTE,
SE
TRALASCIATA.
ANALIZZEREMO
COMUNQUE A FONDO TALE CIRCOSTANZA.
• LA 6., POCO REALISTICA IN CASO DI OSSERVAZIONI
DIPENDENTI
DAL
TEMPO
(SERIE
STORICHE),
COMPORTA PROBLEMI RILEVANTI SE TRALASCIATA.
14
Y
Y
X
ETEROSCHEDASTICITÀ
VARIANZA FUNZIONE
DECRESCENTE DI X
X
VARIANZA FUNZIONE
CRESCENTE DI X
Yt
Yt
Xt
AUTOCORRELAZIONE
POSITIVA
Xt
NEGATIVA
15
Esaminiamo le caratteristiche degli stimatori dei
parametri incogniti della retta di regressione
ottenuti con OLS.
Per questo ricordiamo che le stime ottenute
derivano da un’ennupla di osservazioni
campionarie (estratte con campionamento
probabilistico da una popolazione target)
osservate sulle variabili (X, Y).
Se estraessimo un altro campione dalla stessa
popolazione di riferimento, il campione sarebbe
diverso dal precedente e le stime dei parametri
sarebbero diverse, quindi si può dire che quelle
stime sono associate ad una variabile casuale.
Concludendo quando si scrive ˆ si intende: i) il
coefficiente angolare della retta di regressione,
stimato a partire da una determinata un’ennupla
di osservazioni campionarie, ii) lo stimatore che
segue una certa distribuzione di probabilità.
16
SI CONSIDERINO GLI STIMATORI OLS
ˆ 
ˆ  Y  ˆ X
x y
x
i
i
2
i
TEOREMA DI GAUSS-MARKOV :
Date le assunzioni 1., 2., 4., 5., 6. gli stimatori
OLS ̂
ˆ
sono i MIGLIORI (più efficienti) STIMATORI
LINEARI e CORRETTI (BLUE – BEST
LINEAR UNBIASED ESTIMATOR) dei
parametri


Il senso del teorema è che tali stimatori sono
quelli a varianza minima nella classe degli
stimatori lineari e corretti.
17
Dimostrazione del TEOREMA DI GAUSS-MARKOV:
SI CONSIDERI LO STIMATORE OLS DI β E LO SI
RISCRIVA COME:
x y
x
ˆ 
i
  wi yi
i
2
i
xi
wi 
2
x
i
LINEARITA’
DELLO
STIMATORE
OSSERVAZIONI
SISTEMA DI PESI
CON PROPRIETÀ:
w  0
w x  w  X
i
i i

i
x X
x
i
2
i
i

i

 X   wi X i  X  wi
 X  X  X
 X  X 
i
i
2
i
18


1
n
1

n
X i2 
X i2


Xi
Xi


2
2
 1
SI DIMOSTRA ANALOGAMENTE CHE:
1


ˆ
     X wi  yi
n

PESI
OSSERVAZIONI
COSTANTI
MEDIA STIMATORI
̂   wi yi   wi (Yi  Y )   wiYi  Y  wi
   wi    wi X i   wii     wii
 
E ˆ  E    wi i      wi E  i 
 
E ˆ  
CORRETTEZZA
DELLO
STIMATORE
19
ANALOGAMENTE SI OTTIENE PER
̂
CHE
E ˆ   
QUINDI
̂
E ˆ SONO ENTRAMBI STIMATORI CORRETTI
VARIANZA STIMATORI
 

VAR ˆ  E ˆ  

2
E
  w   
2
i i
 E w1212  ...  wn 2 n 2  2 w1w21 2  ...  2 wn 1wn n 1 n 


2 2
E  wi  i  2 wi w j i j     2  wi 2 2 wi w j E  i j 
i
j
i
j
i

+
2

    wi 
2
x
i
2
2
E  i 2     2
E   i j   0
20
STIMATORI OLS COME BLUE
SIA
ˆˆ
 
c y
i
Altro stimatore lineare
i
CON
ci  wi  di
ˆˆ 

E       ci    ci X i
 
QUINDI
ˆ
E  ˆ   
 
c
i
0
E
stimatore corretto
SE E SOLO SE
c X
i
i
1
21
ˆ
VAR  ˆ   E
 
 
2
  c        c
2
i
i
 w   d
i
2
i
2
 
2
2
i
 2 wi d i 
 VAR ˆ    2  d i 2
QUINDI
 widi 
 
ˆˆ 

VAR     VAR ˆ
 
 x d   x (c  w )  1
x
x
x
i i
2
i
i
i
i
2
i
2
i

1
2
x
i
OVVERO ˆ HA VARIANZA MINIMA NELLA CLASSE DEGLI
STIMATORI LINEARI E CORRETTI. ANALOGHI RISULTATI SI
OTTENGONO PER
.
̂

 SI PUÒ PERVENIRE AI RISULTATI MINIMIZZANDO
CON I VINCOLI
 
VAR ˆ    2  ci
c  0
i
c X
i
i
1
22
DISTRIBUZIONE DEGLI STIMATORI OLS
̂
e
ˆ
Poiché ˆ è una media pesata di y e le y sono
normalmente distribuite, ˆ ha una
distribuzione normale
ˆ :


N ,
2

x
 i

2
OLS = ML




analogamente
2

X
i
2 
ˆ
 : N   , 
2
N
x
 i




OLS SONO
MIGLIORI, LINEARI,
CORRETTI E
ASINTOTICAMENTE
CONSISTENTI
In virtù del Teorema del Limite Centrale,
anche se le y non fossero distribuite
normalmente (sotto condizioni abbastanza
generali) si avrebbe comunque una
distribuzione asintoticamente normale per i
suddetti parametri
23
STIMA DELLA VARIANZA DELL’ERRORE
L’analisi non è ancora completa, resta da stimare la
varianza  2 del termine stocastico del modello.
Il computo di questo stimatore coinvolge
l’applicazione del Metodo della Massima
Verosimiglianza (che omettiamo). Riportiamo
direttamente lo stimatore varianza residua
s 2  ˆ 2 
ˆ  Yi  Yˆi
2
ˆ


i
n2

ˆX )2
ˆ
(
Y




 i
i
n2
rappresenta il residuo
i
La varianza residua è uno stimatore corretto e
consistente della varianza del termine di errore.
24
OSSERVAZIONE
Perché il denominatore della varianza residua
deve essere pari a (n-2) per ottenere uno
stimatore corretto?
Perché le osservazioni campionarie sulle quali
si basa la stima sono n, ma la stima
dell’intercetta e del coefficiente angolare
impongono 2 vincoli, quindi restano (n-2) gradi
di libertà.
25
 
Osservazione sulla VAR ˆ
•FUNZIONE DIRETTA DELLA
VAR  i  ;
ERRORI
MOLTO
VARIABILI
PROVOCANO
DIMINUZIONE DI PRECISIONE E DI AFFIDABILITÀ
PER ˆ .
•FUNZIONE INVERSA DELLA
VAR  X i ;
SE LE Xi SONO CONCENTRATE IN UN PICCOLO
INTERVALLO, PEGGIORA LA QUALITÀ DI ˆ.
X
Xi
26
STANDARD ERROR DEGLI STIMATORI
OLS
Avendo ottenuto una stima della varianza del
termine stocastico del modello di regressione si
sostituisce nell’espressione della varianza degli
stimatori OLS per ottenere gli errori standard
(standard error)
sˆ
2

s
2
x
2
sˆ
i

2
2

X
 i
 s2 
 n x 2
i






2
X
s
COV ˆ , ˆ  
2
x
 i
Gli errori standard FORNISCONO UNA MISURA DELLA
DISPERSIONE DELLE STIME INTORNO ALLE
RISPETTIVE MEDIE.
27
INFERENZA NEL MODELLO
DI REGRESSIONE LINEARE
SEMPLICE
• E’ necessaria l’ipotesi di normalità dei
termini stocastici
• Interpretazione dell’intervallo di
confidenza, fissato il livello di
significatività  (ad esempio per
).
Se estraessi più campioni; ognuno
fornirebbe valori diversi della stima
OLS di  e quindi diversi intervalli di
confidenza; l’(1-)% di questi
intervalli includerebbe , mentre solo
nell’ % dei casi devierebbe da  per
più di un certo .
28
•Verifica d’ipotesi, fissato il livello di
significatività  (ad esempio per ).
Sia data una congettura (ipotesi nulla),
che si assume vera, attraverso la verifica
d’ipotesi si valuta l’entità della discrepanza
tra quanto osservato nei dati campionari e
quanto previsto sotto ipotesi nulla. Se,
fissato il livello di significatività , la
“discrepanza” è significativa l’ipotesi nulla
viene rifiutata, altrimenti l’ipotesi nulla non può
essere rifiutata.
29
INTERVALLI DI CONFIDENZA
SICCOME
ˆ :
standardizzando

 2
N ,
2

x

i

ˆ  





: N (0,1)
x
2
i

ˆ  


2
x
 i
: N  0,1

 n  2 s2

:  2 n 2 /g.l.
 n  2
OVVERO:
ˆ  
sˆ
: t n  2 
T-Student con
(n-2) g.l.
30
Quindi l’intervallo di confidenza per 
all’(1-)% si determina nel seguente modo:
Prob t / 2  tn 2  t / 2   1  


Prob ˆ  t / 2 sˆ    ˆ  t / 2 sˆ  1  
Limite
inferiore
Limite
superiore
In sostanza l’intervallo di confidenza fornisce
il range di valori in cui verosimilmente cade il
vero valore del parametro
31
VERIFICA DI IPOTESI
•
•
•
•
Fissato il livello di significatività 
Ipotesi nulla
Ipotesi alternativa
Statistica test
Regione di
Accettazione o di
Rifiuto del test
32
VERIFICA DI IPOTESI:
SIGNIFICATIVITA’ di 
H0 :   0
HA :   0
ˆ  0
sˆ

ˆ
sˆ
NON ESISTE
RELAZIONE LINEARE
TRA X ED Y
STATISTICA TEST
 tn  2
REGIONE CRITICA
SI RESPINGE L’IPOTESI NULLA SE:
ˆ
sˆ
 t / 2, n  2
REGOLA D’ORO
QUANDO n è grande, t-student
ad una Normale,
quindi se fissiamo il 5% come livello di significatività,
possiamo adottare la “regola d’oro”: se
ALLORA SI RIFIUTA L’IPOTESI
ˆ
 2 NULLA:
sˆ
H0 :   0
33
VERIFICA DI IPOTESI
H0: = 0
• Se 0 è una costante si può verificare:
H0: = 0
H1 :    0
ˆ  
0
sˆ
 tn  2
STATISTICA
TEST
SI RESPINGE L’IPOTESI NULLA SE:
ˆ   0
sˆ
 t / 2,n 2
N.B. ancora una volta se n è grande la
distribuzione t-Student si approssima alla
distribuzione normale standardizzata
34
Significato del coefficiente 
•  esprime di quanto varia mediamente Y in
conseguenza di una variazione unitaria di X.
• Se >0, al crescere di X cresce anche Y
(relazione lineare diretta)
• Se <0, al crescere di X, Y decresce (relazione
lineare inversa)
35
REGRESSIONE E CORRELAZIONE
xi
Y
N COPPIE DI PUNTI
Q
P
Yi V
yi

S X ,Y
S
Y
i=1, …, N
R

P  xi , yi 
B
PV  X i
PT  Yi
T
0
A
Xi
X
X
I QUADRANTE: IL PRODOTTO
xi yi  0
II QUADRANTE: IL PRODOTTO
xi yi  0
III QUADRANTE: IL PRODOTTO
xi yi  0
IV QUADRANTE: IL PRODOTTO
xi yi  0


xi yi  X i  X Yi  Y

36
LA FUNZIONE  xi yi MISURA l’intensità
del LEGAME LINEARE TRA X ED Y.
1
Cov( X , Y ) 
n
1

xi yi

n
sX 
( X
2
x
 i
r 
i
 X )(Yi  Y ) 
COVARIANZA
sY 
n
x
i
yi
s X sY
2
y
 i
n
COEFFICIENTE DI
CORRELAZIONE DI
BRAVAIS-PEARSON
R è un indice relativo, ossia non dipende
dall’unità di misura delle variabili X, Y
37
SE SULLE N COPPIE DI OSSERVAZIONI STIMIAMO UN
MODELLO LINEARE
Y   0  1 X  
SICCOME
ˆ 
x y
x
i
i
2
i
ALLORA ABBIAMO:
s
r  ˆ x
sy
MISURA DEL LEGAME
LINEARE TRA X ED Y
MISURA DELLA DIPENDENZA
LINEARE DI Y DA X
Osservazione: SE SI È ACCERTATA L’ESISTENZA DI UN
LEGAME LINEARE SONO POSSIBILI DUE TIPI DI
DIPENDENZA LINEARE: QUELLO DI Y DA X E
QUELLO DI X DA Y;
CONSIDERAZIONE: NELL’ANALISI DI REGRESSIONE
È NECESSARIO DECIDERE “EX ANTE” QUALE TIPO
DI DIPENDENZA SI VUOLE CONSIDERARE;
38
CONSIDERAZIONE: L’ANALISI DI CORRELAZIONE
PRESCINDE DA LEGAMI CAUSALI; QUELLA DI
REGRESSIONE È BASATA SUI LEGAMI CAUSALI;
CONSIDERAZIONE: CORRELAZIONE E CAUSALITÀ.
ESEMPIO: NUMERO DI MALATI DI UNA DATA
PATOLOGIA PER ZONA (X), NUMERO DI MEDICI
PRESENTI PER ZONA (Y). SE r INDICA ALTA
CORRELAZIONE QUESTO NON SIGNIFICA CHE UN
ELEVATO NUMERO DI MEDICI CAUSA UN ELEVATO
NUMERO DI MALATI MA SIGNIFICA SOLO CHE TRA
LE DUE VARIABILI ESISTE UN ALTO LEGAME
LINEARE;
39
PROPRIETÀ DEI RESIDUI
Y
Y
P(xi,yi)
• •
• Q•
• •R
•
•• •
• • •
•
• •
•
PR  Yi  Y  yi
QR  Yˆi  Y  yˆi
PQ  Yi  Yˆi  eˆi
RESIDUO
S
X
X
 eˆ
i
Yˆ  ˆ  ˆX
ˆ  ˆx
y
eˆi  yi  yˆi  yi  ˆ xi
0
 eˆ
i

y
i
 ˆ  xi  0
Sono somme degli scarti
dalla media, quindi sono
zero
40
 eˆ X
i
i
 eˆ X   eˆ x   eˆ x
0
i
i
i i
i
0

x (y
i
i
 ˆxi ) 
xi yi

2
ˆ
  xi yi    xi   xi yi 
2
x
 i
x
i
2
0
41
SCOMPOSIZIONE DELLA DEVIANZA
• Dal precedente grafico:
Yi  Y  (Yi  Yˆi )  (Yˆi  Y )
2
(
Y

Y
)

 i
2
2
ˆ
ˆ
(
Y

Y
)

(
Y

Y
)
 2 (Yi  Yˆi )(Yˆi  Y ) 
 i i  i
ˆ
ˆ
e
(
Y

Y
)

e
Y
i i
 i i  Y  ei 
  ei (ˆ  ˆX i )  0
2
2
2
ˆ
ˆ
(
Y

Y
)

(
Y

Y
)

(
Y

Y
)
 i
 i i  i
DEVIANZA
TOTALE
TSS
=
Total Sum =
Square
DEVIANZA
DEVIANZA
RESIDUA
SPIEGATA
RSS
+
ESS
Residual Sum + Explained Sum
42
Square
Square
Dividendo tutto per TSS si ottiene:
RSS
ESS
1

TSS
TSS
Si definisce COEFFICIENTE DI
DETERMINAZIONE
ESS
RSS
R 
 1
TSS
TSS
2
Tale coefficiente rappresenta la proporzione di
devianza totale spiegata dal modello di
regressione lineare di Y su X.
0  R2  1
Dato che MAX  ESS   TSS
Quando il modello
non spiega niente della
variabilità di Y
Tutta la variabilità di
Y è spiegata dal
modello
43
SE R²=0 SIGNIFICA CHE IL CONTRIBUTO
ESPLICATIVO ALLA DEVIANZA COMPLESSIVA
APPORTATO DAL MODELLO È IDENTICAMENTE
NULLO; LA DEVIANZA COMPLESSIVA È SOLO
SPIEGATA DALLA COMPONENTE CASUALE
(RESIDUO).
SE R²=1 TUTTI GLI N VALORI EMPIRICI OSSERVATI
GIACCIONO ESATTAMENTE SULLA RETTA DI
REGRESSIONE; IL CONTRIBUTO ALLA DEVIANZA
COMPLESSIVA È SOLO FORNITO DAL MODELLO.
NEI CASI INTERMEDI, QUANTO PIÙ R² È PROSSIMO
AD UNO O A ZERO, TANTO PIÙ/MENO LA
VARIABILITÀ COMPLESSIVA È SPIEGATA DAL
MODELLO PRESCELTO. AD ESEMPIO, UN VALORE
r²=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO
RIESCE A SPIEGARE L’80 PER CENTO DELLA
VARIABILITÀ COMPLESSIVA.
44
Il coefficiente di determinazione
rappresenta un indice di fitting (da prendere
con cautela!), in quanto misura l’adattabilità
del modello specificato ai dati.
Vediamo che relazione c’è tra R2 ed i
parametri della retta di regressione. Per fare
questo consideriamo il modello in forma di
scarti
ˆ i  ˆxi
y
Ogni osservazione della variabile
dipendente può essere scomposta in
ˆ i  ei
yi  y
y
2
i
  ( yˆ i  ei ) 2 
2
2
ˆ
 yi   ei 
 e yˆ  ˆ  e x  0
i i
i i
2
2
 ˆ 2  xi   ei
45
Ne consegue che
ESS
2
R 

TSS
2
ˆ
y
 i
sX 2
2  xi
2
ˆ
ˆ



(

)

(
r
)
2
2
sY
y
y
 i
 i
2
QUINDI IL COEFFICIENTE DI DETERMINAZIONE È
UGUALE AL QUADRATO DEL COEFFICIENTE DI
CORRELAZIONE.
UNA SEMPLICE ED EFFICIENTE RELAZIONE PER IL
COEFFICIENTE DI DETERMINAZIONE SI PUÒ
RICAVARE ANCHE DA:
ei
RSS

2
R  1
 1
2
TSS
y
 i
2
46
ANALISI DELLA VARIANZA (ANOVA)
La scomposizione
TSS  RSS  ESS
O equivalentemente
2
2
2
ˆ
ˆ
y

e

y
 i i  i
MOSTRA LA SCOMPOSIZIONE DELLA VARIABILITÀ
TOTALE (in forma di DEVIANZA) NEI CONTRIBUTI
della COMPONENTE DI ERRORE e del MODELLO
specificato. INOLTRE:
SAPPIAMO CHE:
ESS   yˆi 2  ˆ 2  xi 2
 ˆ     x
i

2
: N  0,1
47
ALLORA:

ˆ  

2
2
x
 i
 2
Quadrato di
una N(0,1)
:  2 1
SI PUÒ DIMOSTRARE CHE:
2
ˆ
e
 i
ALLORA:
 2

ˆ  
e
2
i
 2  n 2 
:
 x
2
2
i
/( n  2)
: F(1,n 2 )
Rapporto tra
Chi-Quadrato
divise per i
propri g.l.
Pertanto per verificare l’ipotesi H 0 :   0 H1 :   0
Si può utilizzare la suddetta statistica test che
sotto ipotesi nulla è
  x
ˆ
2
2
i
2
e
 i /( n  2)

ESS / 1
: F(1,n 2 )
RSS /( n  2)
48
Intuitivamente un forte legame lineare tra X e Y
determinerà valori elevati per la statistica
testbontà del modello.
Pertanto valori grandi della statistica test portano al
rifiuto dell’ipotesi nulla. Formalmente, se
F   F1,n2
H0 :   0
viene rifiutata,
Valore
empirico
Valore
teorico
Osservazione: nel caso del modello di
regressione lineare semplice, applicare il test t
o F è equivalente, in entrambi i casi si verifica
la significatività dell’unico parametro di
regressione, ma nel caso del modello di
regressione lineare multipla il test F servirà
per verificare la ‘bontà’ del modello nel suo
complesso e quindi la significatività congiunta
di tutti i parametri di regressione.
49
TAVOLA ANOVA
CAUSA
VARIAZIONE
DEVIANZE
MODELLO

RESIDUO
2
ˆ
e
i
ˆi
y
2
GRADI DI
LIBERTÀ
1
(n-2)
2
2
ˆ
ˆ
y

y

e
 i  i
STIME CORRETTE
DELLA VARIANZA
ˆ  xi yi 1
2
ˆ
e
 i n2
2
TOTALE
(n-1)
50
PREVISIONE
• Il modello di regressione stimato
spesso viene utilizzato a fini previsivi,
ovvero per stimare il valore della
variabile dipendente che corrisponde
ad un determinato valore della
variabile indipendente
Yˆ0  ˆ  ˆX 0
Lo standard error di tale valore previsto è
1
s.e.(Yˆ0 )  s 1 

n
( X 0  X )2
2
(
X

X
)
 i
Pertanto i limiti dell’intervallo di
confidenza per il valore previsto, fissato
un livello di confidenza pari a 1-
51
Yˆ0  t( n 2, / 2 ) s.e.(Yˆ0 )
Si osservi che il valore dello s.e. aumenta al
crescere della distanza tra X0 e il valor
medio di X, pertanto la qualità della
previsione diverrà sempre peggiore.
Inoltre può accadere che la linearità della
relazione tra Y e X sia limitata alla nuvola di
punti osservati e che fuori tale relazione
non sia valida, pertanto può essere
totalmente fuorviante prevedere un valore
di Y partendo da un valore di X che è al di
fuori del range dei valori osservati
52
ESEMPIO NUMERICO
Yi
Xi
yi
xi
166
153
177
201
216
208
227
238
268
268
274
352
373
411
441
462
490
529
577
641
692
743
-51.8
-64.8
-40.8
-16.8
-1.8
-9.8
9.2
20.2
50.2
50.2
56.2
-167.2
-146.2
-108.2
-78.2
-57.2
-29.2
9.8
57.8
121.8
172.8
223.8
ANNI
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
n=11 Σ=2396
Σ=5711
MEDIAy=217.8 MEDIAx=519.2
ˆ 
x y
x
i
i
2

i
xiyi
8660.96
9473.76
4414.56
1313.76
102.96
286.16
90.16
1167.56
6114.36
8674.56
12577.56
xi²
27955.84
21374.44
11707.24
6115.24
3271.84
852.64
96.04
3340.84
14835.24
29859.84
50086.44
Σ=52876.36 Σ=169495.64
52876.36
 0.312
169495.64
ˆ  y  ˆ x  217.8   0.312  519.2   55.81
yˆ i  55.81  0.312 xi
Y→ INCIDENTI STRADALI (X1000)
X →VEICOLI CIRCOLANTI (X1000)
Y
y
}
0
x
53
X
n  11,  X i  5711,  Yi  2396
2
X
 i 3134543,  X iYi  1296836
x
y
2
169495.64,  xi yi  52876.36
2
 17619.64, ˆ  55.81, ˆ  0.312
i
i
sˆ 
 eˆi
FONTE
2
n  2  11.18
SS
MODELLO
RESIDUO
TOTALE
16497.42
1124.33
17621.75
sˆˆ  0.03
DF
MS
1
9
10
16497.42
124.93
F  132, F 0.01;1.9  10.56
H 0 :   0; F  F ; RESPINTA
INTERVALLO DI CONFIDENZA
t  t0.025 ; 95%
2
t 2  sˆ
 2.262  11.18
ˆ

 0.312 
 411.7 
 x2
0.2506    0.3734
95 VOLTE SU 100 IL VALORE DI β È COMPRESO
TRA 0.25 E 0.37
54
x y
x  y
r
i
i
2
i
i
2

52876.36
169495.64  17619.64 
1
2
 0.97
LEGAME LINEARE POSITIVO E MOLTO ELEVATO,
PARI AL 97% DEL MASSIMO VALORE POSSIBILE
VERIFICA D’IPOTESI DISGIUNTA PER β
t 
ˆ
sˆ

0.312
 10.4
0.03
t  t 0.025;9  2.262
H 0 :   0 È RESPINTA
Quindi la variabile veicoli circolanti risulta
significativa
55
Fly UP