Lucidi Capitolo 4

by user

on 06 июля 2016

Category: Documents

>> Downloads: 5

views

Report

Comments

Description

Download Lucidi Capitolo 4

Transcript

Lucidi Capitolo 4

Capitolo 4
Il modello di regressione lineare
multivariato

Richiami al modello di regressione lineare semplice

Il modello di regressione lineare multipla

Violazione delle ipotesi e analisi dei residui

Modelli con variabile dipendente dicotomica
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
1/85
Copyright © 2009 – The McGraw-Hill Companies srl
L’analisi di regressione
Obiettivo: investigare sulle relazioni empiriche tra variabili per
analizzare le cause che possono spiegare un dato fenomeno

I modelli utilizzati sono basati su funzioni lineari nei parametri
del tipo Y = α + β X
Alcune funzioni non lineari sono riconducibili a lineari attraverso
opportune trasformazioni delle variabili:
Y = α Xβ  log Y = log α + β log X
Anche in caso di relazioni non lineari e non linearizzabili una prima
analisi fondata su forme funzionali lineari è un utile punto di
partenza per passare poi a eventuali modelli più complessi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
2/85
Copyright © 2009 – The McGraw-Hill Companies srl
L’analisi di regressione
 Regressione semplice: una sola variabile indipendente o esplicativa;
Regressione multipla: più di una variabile indipendente
Esempio: effetti sulle vendite di un supermercato derivanti da
una azione di promozione
Da un campione di supermercati si rilevano le vendite settimanali
e la spesa settimanale per promozione  regressione semplice
Se si ritiene che anche altre cause influiscano sulle vendite si
rilevano anche altre variabili  regressione multipla
Obiettivi conoscitivi: c’è una relazione significativa tra il volume delle
vendite e la spesa per promozione (e le altre variabili) ?
Sulla base di tale relazione come prevedere il volume delle vendite a
seguito di una spesa settimanale per promozione di 1500 euro ?
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
3/85
Copyright © 2009 – The McGraw-Hill Companies srl
Le fasi di un’analisi di regressione lineare
- Si ipotizza una relazione funzionale lineare tra una variabile
oggetto di studio (variabile dipendente o risposta) e una o più
altre variabili (indipendenti o esplicative)
- Si stimano i parametri di tale relazione funzionale sulla base dei
dati campionari a disposizione
- Si effettuano i test statistici sulla significatività dei parametri e si
valuta la bontà dell’adattamento del modello ai dati
- Si effettuano altre analisi di conferma sulla validità delle
assunzioni su cui si basa la stima del modello (linearità e altro)
- Eventualmente, sulla base del modello stimato e di valori
ipotizzati per le variabili indipendenti si stimano i valori previsti
per la variabile dipendente
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
4/85
Copyright © 2009 – The McGraw-Hill Companies srl
Il modello di regressione lineare semplice
- Richiami
Su un campione di n unità sono osservati i valori relativi a due variabili:
Y variabile dipendente o variabile risposta
X variabile indipendente o variabile esplicativa
Esempio: Y volume delle vendite; X spesa per promozione
Campione di supermercati:
Diagramma di dispersione:
Vendite
(x100 euro)
Spesa prom
(x10 euro)
300
43.2
48
250
132
134
155
122
13
100.9
80
187.4
99
185
77
Vendite
76
200
150
100
50
0
0
60.7
50
82.9
44
61.3
25
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
20
40
60
80
100
120
140
-50
Spesa_prom
5/85
Copyright © 2009 – The McGraw-Hill Companies srl
Il modello di regressione lineare semplice
Relazione lineare ipotizzata:
Yi     X i  ui
i = 1, 2,…, n
α e β: parametri del modello di regressione
α: intercetta; β: coefficiente di regressione
u: termine di errore (discrepanze tra valori osservati di Y e quelli
derivanti da una relazione esatta con X). Comprende:
- errori di specificazione (alla spiegazione esatta di Y in genere
concorrono moltissime variabili esplicative, ma solo la principale
di esse – o le principali nel caso della regressione multipla – sono
inseribili nel modello);
- errori di misura o di risposta presenti nella variabile Y
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
6/85
Copyright © 2009 – The McGraw-Hill Companies srl
Le ipotesi del modello
Yi     X i  ui
i = 1, 2,…, n
ui: variabili casuali che si
ipotizzano:
- distribuite normalmente
- a media E(ui) = 0
- varianza costante E(ui2) = σ2u
- covarianza nulla E(ui , uj) = 0
X è assunta non affetta da errore di misura
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
7/85
Copyright © 2009 – The McGraw-Hill Companies srl
La retta di regressione stimata
In base alle n osservazioni campionarie: stime dei parametri
α e β del modello di regressione, indicate con a e b
Stimati i parametri, la relazione che lega le due variabili
corrisponde a una particolare retta nel piano:
Ŷ  a  bX
retta di regressione stimata
dove:
 Yˆ indica l’ordinata teorica corrispondente ad un dato
valore di X
 il coefficiente a - o intercetta - rappresenta l’ordinata
all’origine della retta
 il coefficiente di regressione b è il coefficiente angolare
della retta
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
8/85
Copyright © 2009 – The McGraw-Hill Companies srl
La stima dei parametri
La retta stimata è tanto più adatta a descrivere la relazione
tra le due variabili quanto più i punti osservati sono vicini a
tale retta, ovvero quanto minori sono i “residui campionari”
Esempio:
Regressione di Vendite da Spesa_prom (R²=0,507)
300
250
Yi
Vendite
200
ei : residui
| ei
150
Yˆi  a  bX i
100
campionari
50
0
0
20
40
60
80
-50
100
Xi
120
140
Spesa_prom
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
9/85
Copyright © 2009 – The McGraw-Hill Companies srl
La stima dei parametri
Criterio dei minimi quadrati (OLS):
a e b sono scelti in modo da minimizzare la somma dei quadrati
dei residui campionari ei  Yi  Yˆi  Yi  a  bX i
n
n
i 1
i 1
f (a, b)   ei2   Yi  a  bX i 
2
Le derivate parziali di f(a,b) rispetto ai parametri a e b :
n
f (a, b)
 2  (Yi  a  bX i )  0
a
i 1
n
f (a, b)
 2  X i (Yi  a  bX i )  0
b
i 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
n

Y  na  b X
i 1
n

n
i
i 1
i
n
n
i 1
i 1
2
X
Y

a
X

b
X
 ii  i  i
i 1
10/85
Copyright © 2009 – The McGraw-Hill Companies srl
La stima dei parametri
Dalla risoluzione del sistema di equazioni si ottengono le
seguenti stime dei parametri:
a  Y  bX
n
b   xi yi
i 1
n
2
x
i
i 1
( xi  X i  X ; yi  Yi  Y )
Codev( X , Y ) Cov( X , Y )
b

Dev( X )
Var ( X )
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
11/85
Copyright © 2009 – The McGraw-Hill Companies srl
Esempio – Stima dei parametri
Dati dell’esempio precedente:
stime dei parametri
Regressione di Vendite da Spesa_prom (R²=0,507)
300
250
Parametri
a
b
Stima
43.6
0.94
Vendite
200
150
100
50
0
0
20
40
60
80
100
120
140
-50
Spesa_prom
Yˆ  43.6  0.94 X
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
il coefficiente di regressione ci
dice che a seguito di un incremento
unitario della variabile X (una decina
di euro settim. di spesa di
promozione) la variabile Y subisce
un incremento di 0.94 (centinaia di
euro di vendite: 94 euro)
12/85
Copyright © 2009 – The McGraw-Hill Companies srl
Distribuzioni dei parametri
Punto di partenza: gli stimatori a e b sono esprimibili come
funzioni lineari di Yi
n
1
a  (  X
i 1 n
n
xi
Y
2 i
i 1  xi
b
xi
)Yi
2
 xi
i
i
Dove: Yi     X i  ui
e
ui
N  0; u2 
Ne consegue:
che gli stimatori a e b hanno distribuzione di probabilità normale
e che E(a) = α ; E(b) = β  stimatori corretti
Ne derivano le espressioni di Var(a) e Var(b):
2
1
X
Var (a)   u2 ( 
)
2
n  xi
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
i
Var (b) 
 u2
2
x
i
i
13/85
Copyright © 2009 – The McGraw-Hill Companies srl
Distribuzioni dei parametri
Distribuzione di probabilità degli stimatori a e b:
a

2 
N   ; u  1 n  X 2


2
xi  


i 1

N   ; u2

n
b
2
x

i 

i 1
n
Da cui le seguenti variabili standardizzate:
a 
u  1 n  X 2
n
2
x
i
i 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
b
N (0,1)
u
n
N (0,1)
2
x
i
i 1
14/85
Copyright © 2009 – The McGraw-Hill Companies srl
Distribuzioni dei parametri
Varianza dell’errore σ2u ignota; suo stimatore corretto s2:
n
s 2  ( ei2 ) / (n  2)
i 1
Dalle distribuzioni normali standardizzate alle distribuzioni t di
Student:
a 
s 1 n X 2
n
2
x
i
i 1
b
t( n2)
n
s
2
x
i
t( n2)
i 1
Denominatori: errori standard dei parametri
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
15/85
Copyright © 2009 – The McGraw-Hill Companies srl
Inferenza sui singoli parametri
Test di significatività per b :
H0:
β=0
H1:
β≠0
(H0: la variabile esplicativa X
non ha nessuna influenza
sulla variabile risposta Y)
La statistica test: rapporto tra stima e suo errore standard
b
n
s/
2
x
i
 t
2
sì
si respinge H0
β =0
no
si accetta H0
β =0
,  n2 
i 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
16/85
Copyright © 2009 – The McGraw-Hill Companies srl
Esempio – Stime e inferenza
Dati dell’esempio precedente: test sulle stime dei parametri
Stima
(1)
Errore
standard
(2)
t
(3)=(1)/(2)
p-value
(Pr > |t|)
Intercetta
43.566
25.839
1.686
0.130
Spesa_prom
0.937
0.327
2.868
0.021
Yˆ  43.6  0.94 X
P-value: livello di significatività
osservato (probabilità che, vera
H0 , t assuma un valore assoluto
≥ a quello osservato)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
il p-value ci dice che il
test è significativo: il
suo valore ha staccato
un’area di probabilità pari a
0,021 sulla coda della
distribuzione; ci troviamo
quindi nella regione di
17/85
rifiuto del test
Copyright © 2009 – The McGraw-Hill Companies srl
Il modello di regressione multipla
Più variabili indipendenti o esplicative considerate congiuntamente
Nell’esempio: oltre alla spesa per promozione, anche superficie
espositiva e densità della popolazione
Obiettivo: stimare la relazione tra vendite e spesa per
promozione al netto degli effetti della superficie espositiva e
della densità
Caso generale: modello a k variabili, di cui k-1 indipendenti
Yi  1   2 X i 2  ...   k X ik  ui
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
(i  1,..., n)
18/85
Copyright © 2009 – The McGraw-Hill Companies srl
Il modello di regressione multipla
Yi  1   2 X i 2  ...   k X ik  ui
(i  1,..., n)
Per esteso:
Y1  1   2 X 12  ...   k X 1k  u1
Y2  1   2 X 22  ...   k X 2 k  u2
.
Yi  1   2 X i 2  ...   k X ik  ui
.
Yn  1   2 X n 2  ...   k X nk  un
In notazione vettoriale:
y  1x1   2 x 2  ...   k xk  u
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
y : vettore n osservazioni relative
alla variabile dipendente
x1: vettore n elementi unitari
xj (j = 2, 3,…, k): vettori
n osservazioni relative
alle k-1 variabili esplicative
u : vettore n termini di errore
β1 : intercetta
β2 , β3 , …, βk : coefficienti
di regressione del modello
19/85
Copyright © 2009 – The McGraw-Hill Companies srl
La notazione matriciale
Caso generale in forma matriciale:
y  Xβ  u
Dove:
Y1 
Y 
 2
. 
y   ;
Yi 
. 
 
Yn 
1
1

.
X= 
1
.

1
X 12 X 13 ... X 1k 
X 22 X 23 ... X 2 k 

.
. ... . 
;
X i 2 X i 3 ... X ik 
.
. ... . 

X n 2 X n 3 ... X nk 
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
 1 
 
 2
. 
β   ;
 j 
. 
 
k 
u1 
u 
 2
. 
u   .
ui 
. 
 
un 
20/85
Copyright © 2009 – The McGraw-Hill Companies srl
Le ipotesi del modello
1.
2.
la linearità del modello
le caratteristiche della matrice X:
- non stocastica (senza componenti di errore)
- a rango pieno  ρ(X) = k
(variabili linearmente indipendenti: nessuna variabile è
combinazione lineare delle altre)
3.
Le caratteristiche dell’errore u: u N (0, 2I) I .D.
- distribuzione normale
- media nulla: E(u) = 0
- varianza costante
} E(uu’) = σ2I
- covarianza nulla
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
21/85
Copyright © 2009 – The McGraw-Hill Companies srl
La stima dei parametri
Matrice di varianza-covarianza del termine di errore:
 E (u12 ) E (u1u2 ) ...   u2 0

 
2
E (uu ')   E (u2u1 ) E(u2 ) ...   0  u2
 ...
 ... ...
...
...

 
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
... 

... 
... 
22/85
Copyright © 2009 – The McGraw-Hill Companies srl
La stima dei parametri
Obiettivo dell’analisi: la stima del vettore dei coefficienti di
regressione b in modo da ottenere il modello:
yˆ  Xb
Dove ŷ è il vettore delle ordinate teoriche corrispondenti ai
valori stimati b
Per la generica unità i:
Yˆi  b1  b2 X i 2  b3 X i 3  ...  bk X ik
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
23/85
Copyright © 2009 – The McGraw-Hill Companies srl
La stima dei parametri
Metodo dei minimi quadrati: scegliere il vettore b in modo
da minimizzare la somma dei quadrati dei residui
Definizione vettore dei residui:
Y1  (b1  b2 X 12  ...  bk X 1k ) 
Y  (b  b X  ...  b X ) 
1
2 22
k
2k 
 2

e  y  yˆ  y  Xb  ...


...


Yn  (b1  b2 X n 2  ...  bk X nk ) 
Somma dei quadrati dei residui da minimizzare:
2
  y  Xb 

e

e
e

y

Xb


i
n
i 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
24/85
Copyright © 2009 – The McGraw-Hill Companies srl
La stima dei parametri
1. Somma quadrato dei residui:
ee   y  Xb   y  Xb   yy  yXb  bXy  bXXb 
 yy  2 bXy  bXXb
2. Derivata rispetto a b uguagliata a 0:
(ee)
min  ee  
 2 Xy  2XXb  0
b
b
3. Risoluzione rispetto a b:
b   XX  Xy
1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
25/85
Copyright © 2009 – The McGraw-Hill Companies srl
La distribuzione dei parametri
b   XX  Xy
1
y  Xβ  u
b   XX  X  Xβ  u 
1
u
N (0, 2I)
b combinazione lineare di y e quindi di u: distribuzione normale
Dalla precedente espressione di b, poiché  XX  XX  I si ha:
1
b  β   XX  Xu
1
da cui, poiché E(u) = 0

E (b)  β
Proprietà 1: lo stimatore OLS di b
è non distorto
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
26/85
Copyright © 2009 – The McGraw-Hill Companies srl
La distribuzione dei parametri
Matrice di varianza-covarianza di b:
 E (b1  1 ) 2
E (b1  1 )(b2   2 ) ... 


E (b  β)(b  β)'   E (b2   2 )(b1  1 )
E(b2   2 ) 2 ...
....

....
....


(b  β)   XX  Xu
1
(b  β)(b  β)'  [ XX  Xuu ' X  XX  ]
1
1
E (b  β)(b  β)'  E[ XX  Xuu ' X  XX  ]   XX  XE (uu ') X  XX 
1
Poiché E(uu’) = σ2I

1
E (b  β)(b  β)'   2  XX  XX  XX 
E (b  β)(b  β)'   2  XX 
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
1
1
1
1
Proprietà 2: non esistono altri
stimatori lineari non distorti con
varianza inferiore (più efficienti)
27/85
Copyright © 2009 – The McGraw-Hill Companies srl
1
La distribuzione dei parametri
b

N β, 2  XX 
1

Distribuzione di bj ( j-imo elemento del vettore b):
bj
N   j , 2 a jj  ajj : j-esimo elemento sulla diagonale
principale della matrice ( XX) 1
Dalla distribuzione di bj segue che (per ogni j = 1, …k):
bj   j
 a jj
N  0,1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
28/85
Copyright © 2009 – The McGraw-Hill Companies srl
Test sui singoli parametri
Sostituito σ con la sua stima corretta
n
s  [ ei2 / (n  k )]1 2
i 1
si ha:
t
bj   j
s a jj
t n  k 
Dove:
s a jj è l’errore standard della stima
t(n-k) è una distribuzione t di Student con (n-k) g.d.l.
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
29/85
Copyright © 2009 – The McGraw-Hill Companies srl
Test sui singoli parametri
Test di significatività per bj :
H0:
βj = 0
H1:
βj ≠ 0
(la variabile esplicativa Xj non
ha nessuna influenza sulla
variabile risposta)
La statistica test: rapporto tra stima e suo errore standard
bj
s a jj
sì
si respinge H0
βj =0
no
si accetta H0
βj =0
 t 2,  nk 
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
30/85
Copyright © 2009 – The McGraw-Hill Companies srl
Esempio - i dati
Variabile risposta:
volume delle vendite
Variabili esplicative:
- spesa settimanale per promozione
- superficie dello spazio espositivo
- densità di popolazione nella zona di ubicazione
Vendite
Spesa
prom
Spazio
espos.
Densità
43.2
48
95
55
132
134
144
77
155
122
210
88
76
13
156
66
100.9
80
188
68
187.4
99
321
156
185
77
250
90
60.7
50
115
25
82.9
44
178
99
61.3
25
105
44
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
31/85
Copyright © 2009 – The McGraw-Hill Companies srl
Esempio – l’analisi dell’output
Sintesi dell’output dell’analisi di regressione
Stima
Errore
standard
t
Pr > |t|
-22.901
16.773
-1.365
0.221
Spesa prom
0.516
0.171
3.020
0.023
Spazio espos.
0.700
0.195
3.590
0.012
Densità
-0.361
0.382
-0.944
0.382
Intercetta
I parametri evidenziati risultano significativamente diversi da 0
perché il test t ha dato luogo a p-value piuttosto piccoli, se si
considera un livello di significatività dello 0,05
I test hanno prodotto risultati che si trovano sulle code della
distribuzione, ossia nella regione di rifiuto dell’ipotesi nulla
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
32/85
Copyright © 2009 – The McGraw-Hill Companies srl
Esempio - interpretazione
Parametro b2 (0.52): all’aumentare della spesa per promozione di 10
Euro - a parità di altre condizioni - si ha un incremento delle vendite pari
a 0,52*100 Euro (52 Euro)
Parametro b3 (0.70): all’aumentare della superficie espositiva di un
metro quadrato si ha - a parità di altre condizioni - un incremento del
volume settimanale delle vendite pari a 0,70*100 Euro (70 Euro)
Parametro b4 – variabile non significativa: il test t ha prodotto un p-value
molto grande che fa cadere il risultato della verifica nella regione di
accettazione dell’ipotesi nulla  il parametro considerato è assimilabile a
zero  la variabile esplicativa corrispondente (densità della popolazione)
non influisce sulla variabile risposta (vendite settimanali)
Intercetta – non significativamente diversa da 0:
ai valori nulli di tutte le variabili esplicative corrisponderebbe un volume
di vendite pari a zero
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
33/85
Copyright © 2009 – The McGraw-Hill Companies srl
Esempio - interpretazione
L’effetto sulle vendite della spesa settimanale per la promozione :
- Regressione semplice: b = 0.94
- Regressione multipla: b2 = 0.52
Una volta controllato per altre variabili esplicative, l’effetto risulta molto
ridimensionato
Il modello a una sola variabile esplicativa non era correttamente
specificato
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
34/85
Copyright © 2009 – The McGraw-Hill Companies srl
L’adattamento del modello ai dati
La scomposizione della devianza della variabile Y in due
componenti additive:
- devianza spiegata dal modello di regressione
- devianza residua
Caso della regressione semplice:
V 250
o
l
200
u
m
e 150
v 100
e
n
50
d
i
0
t
0
e
Yˆi  a  bX i
Yˆi  Y
50
100
150
200
250
300
350
Spazio espositivo
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
35/85
Copyright © 2009 – The McGraw-Hill Companies srl
La scomposizione della devianza
2
ˆ
ˆ
ˆ
Y

Y

Y

Y

Y

Y

[(
Y

Y
)

e
]


 i
 i i i   i
i
n
2
i 1
n
2
i 1
n
i 1
Devianza totale - Total Sum of Squares (TSS)
2
ˆ
Y

Y

Y

Y

e


 i
 i   i
n
i 1
2
n
i 1
2
n
i 1
Devianza spiegata detta anche
somma dei quadrati spiegata
(ESS, Explained Sum of Squares):
parte di variabilità di Y spiegata
dal modello di regressione
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
Devianza residua detta
anche somma dei quadrati
residua (RSS, Residual Sum of
Squares): parte di variabilità
totale di Y che il modello non è
in grado di spiegare
36/85
Copyright © 2009 – The McGraw-Hill Companies srl
Il coefficiente di determinazione
Scomposizione della devianza :
TSS  ESS  RSS
Misura della bontà di adattamento del modello ai dati denominata
coefficiente di determinazione multiplo:
ESS
RSS
R 
 1
TSS
TSS
2
• R2 può assumere valori compresi nell’intervallo [0,1]
• Può essere interpretato come una misura della vicinanza
della nuvola dei punti campionari all’iperpiano stimato
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
37/85
Copyright © 2009 – The McGraw-Hill Companies srl
Il coefficiente di determinazione
Casi limite:
Il modello si adatta perfettamente ai dati
la variabilità di Y è completamente spiegata dal modello  tutti i
residui campionari sono nulli e nulla è la somma
dei loro quadrati (RSS)  TSS = ESS  R2 = 1
Il modello non si adatta per niente ai dati
il modello non riesce a spiegare nessuna parte della variabilità
di Y : Yˆi  Y (Y non dipende da X)  la devianza spiegata ESS
è pari a zero; tutta la variabilità di Y è nei residui  R2 = 0
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
38/85
Copyright © 2009 – The McGraw-Hill Companies srl
Il coefficiente di determinazione
multiplo corretto
Limite di R2: aumenta (migliora) quando nel modello si
inseriscono variabili aggiuntive (anche non significative)
Rimedio: correzione di R2 per tenere conto del numero di
variabili presenti nel modello
Tavola analisi varianza:
Origine
variabilità
Somma dei
quadrati
Gradi libertà
Media dei
quadrati
Modello
ESS
k–1
ESS / (k – 1)
Errore
RSS
n–k
RSS / (n – k)
In complesso
TSS
n–1
TSS / (n – 1)
R2  1
RSS (n  k )
n 1
 1
1  R2 

TSS (n  1)
nk
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
39/85
Copyright © 2009 – The McGraw-Hill Companies srl
Il coefficiente di determinazione
multiplo corretto
Esempio:
k
Somma quadrati
TSS
100
4
RSS1
40
5
RSS2
39
RSS
R  1
TSS
2
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
R2
Media
quadrati
gdl
R2 corr
n-1 = 29
3.448
0.60
n-k = 26
1.538
0.554
0.61
n-k = 25
1.560
0.548
R2  1
RSS (n  k )
TSS (n  1)
40/85
Copyright © 2009 – The McGraw-Hill Companies srl
Significatività del modello nel suo
complesso
R2 e R2 corretto sono misure descrittive della bontà di
adattamento, delle quali non è nota la distribuzione
 non vi si può fare un test per verificare l’ipotesi di
significatività del modello nel suo complesso
Test per la significatività del modello nel suo complesso:
statistica F di Fisher calcolata sulla tavola della analisi della
varianza (ANOVA  ANalysis Of VAriance)
ESS / (k  1)
RSS / (n  k )
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
F k 1,  nk 
41/85
Copyright © 2009 – The McGraw-Hill Companies srl
Inferenza sui parametri considerati
congiuntamente – test F
Tavola dell’analisi della varianza:
Verifica dell’ipotesi nulla:
•H0: β2 = β3 = … = βk = 0
•H1: almeno un βj ≠ 0 j=2, …, k
ESS /(k  1)
F
 F ,  k 1,  nk 
RSS /(n  k )
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
sì
si respinge H0
β2 =…= βk= 0
no
si accetta H0
42/85
Copyright © 2009 – The McGraw-Hill Companies srl
Inferenza sui parametri considerati
congiuntamente - Esempio
Dati dell’esempio precedente: output della tavola ANOVA
GDL
Somma dei
quadrati
Media dei
quadrati
(1)
(2)
(3) = (2)/(1)
Modello
3
23348.940
7782.980
Errore
6
1989.124
331.521
Totale corretto
9
25338.064
Fonte
F
Pr > F
23.477
0.001
Il risultato del test F produce un valore piuttosto elevato al
quale corrisponde un p-value molto piccolo che porta a
respingere l’ipotesi nulla: parametri tutti pari a zero (tranne
l’intercetta)
Conclusione: il modello è significativo nel suo complesso
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
43/85
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili indipendenti qualitative
Inserite come variabili dummy:
Di = 1 se il fenomeno è presente;
Di = 0 altrimenti
Variabili qualitative dicotomiche
Esempio: invece della densità della
popolazione nell’area di ubicazione,
si può inserire una variabile dummy
che distingua gli esercizi ubicati nel
centro urbano dagli altri:
Di = 1 se l’esercizio è in centro
Di = 0 altrimenti
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
Vendite
Spesa
prom
Spazio
esp
D
centro
43.2
48
95
0
132
134
144
0
155
122
210
1
76
13
156
0
100.9
80
188
1
187.4
99
321
1
185
77
250
1
60.7
50
115
0
82.9
44
178
1
61.3
25
105
0
44/85
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili indipendenti qualitative
Modello con variabili indipendenti quantitative e dummy:
Yi  1   2 X i  3 Di  ui
Di = 1 carattere presente
Di = 0 altrimenti
Per Di = 0  Yi  1   2 X i  ui
Per Di = 1  Yi  1   2 X i  3  ui  ( 1  3 )   2 X i  ui
Due rette di regressione parallele
- stessa pendenza: la variabile X ha lo stesso effetto sui due
sottocampioni (con carattere presente o assente), misurato da β2
- diversa intercetta: β3 è la differenza tra l’intercetta nel
sottocampione con carattere presente e quella del sottocampione
con carattere assente  differenza nel valore di Y per X = 0
 differenza nel valore di Y a parità di X
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
45/85
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili indipendenti qualitative
Regressione di y da x (R²=0,983)
25
25
20
20
15
y
y
15
10
10
5
5
0
0
5
10
15
20
25
0
0
x
5
10
15
20
25
x
Modello(0)
Modello(1)
Regressione di y da x (R²=0,691)
Yi* = 2.24 + 0.71Xi + 7.06 Di
(R2=0.98)
35
30
25
y
20
15
10
5
0
0
5
10
15
20
-5
x
Attivo
Modello
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
25
Yi* = 4.8 + 0.78Xi
(R2=0.69)
46/85
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili indipendenti qualitative
Esempio:
Vendit
e
Spesa
prom
Spazio
esp
D
centro
43.2
48
95
0
132
134
144
0
155
122
210
1
76
13
156
0
100.9
80
188
1
187.4
99
321
1
185
77
250
1
60.7
50
115
0
82.9
44
178
1
61.3
25
105
0
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
par.
Intercetta
St. err.
t
p-value
-43.2
35.2
-1.23
0.266
Spesa prom
0.51
0.17
2.89
0.028
Spazio espos.
0.62
0.15
4.08
0.007
-14.0
19.6
-0.71
0.504
D centro
R²
0.917
R² corretto
0.875
A parità di spesa per promozione e
spazio espositivo, le vendite negli
esercizi ubicati in centro sono
minori di 14.0 (centinaia di euro)
rispetto agli esercizi ubicati altrove
(ma differenza non signif. ≠ 0)
47/85
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili indipendenti qualitative
Variabili qualitative politomiche
Esempio: invece di distinguere soltanto tra ubicazione in
centro e altrove, si possono considerare tre modalità: centro
storico, resto dell’area urbana, area non urbana
Si definiscono tante variabili
dummy quante sono le modalità
In caso di tre modalità a, b, c:
D1i = 1 se modalità = a
NB: nel modello se ne deve inserire
D1i = 0 altrimenti
una in meno (2 nel caso di 3
D2i = 1 se modalità = b
modalità): altrimenti nella matrice
D2i = 0 altrimenti
X si ha perfetta collinearità:
D1 = 1 – (D2 + D3)
D3i = 1 se modalità = c
D2 = 1 – (D1 + D3)
D3i = 0 altrimenti
D3 = 1 – (D1 + D2)
48/85
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili indipendenti qualitative
Esempio: delle tre modalità si esclude la terza e si
inseriscono nel modello le due dummy seguenti:
D1i = 1 se l’esercizio è in centro storico
D1i = 0 altrimenti
D2i = 1 se l’esercizio è nel resto dell’area urbana
D2i = 0 altrimenti
La modalità relativa alla dummy esclusa è la modalità di
riferimento, in relazione alla quale si interpretano i parametri
relativi alle dummy incluse
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
49/85
Copyright © 2009 – The McGraw-Hill Companies srl
Variabili indipendenti qualitative
Variabili indipendenti quantitative
e qualitative politomiche
(caso di tre modalità)
Yi  1   2 X i  3 D1i   4 D2i  ui
D1i = 1
D1i = 0
D2i = 1
D2i = 0
D1i = 0 e D2i = 0 (D3i = 1)  Yi  1   2 X 1i  ui
modalità a
altrimenti
modalità b
altrimenti
( modello base)
D1i = 1 (D2i = 0; D3i = 0) 
Yi  ( 1  3 )   2 X i  ui
D2i = 1 (D1i = 0; D3i = 0) 
Yi  ( 1   4 )   2 X i  ui
Tre rette di regressione parallele relative a tre sottocampioni:
β3: differenze, a parità di X, tra la Y nel sottocampione con
modalità a e la Y nel sottocampione con modalità c esclusa
[Es: differenza, a parità di spesa per promozione, tra vendite
esercizi centro storico e vendite esercizi area non urbana]
β4: idem per modalità b
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
50/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione semplice
Previsione puntuale di Y in corrispondenza di un determinato
valore di X (pari a X0)
Il valore vero:
Il valore atteso:
Y0     X 0  u0
E (Y0 X 0 )     X 0
La previsione corretta
del valore atteso:
Ŷ0  a  bX 0
E’ anche la migliore previsione corretta (a varianza minima)
Esempio: previsione (puntuale) delle vendite settimanali in
corrispondenza a una spesa per promozione di 1500 euro:
Yˆ0  43.57  0.937 X 0
Yˆ  43.57  0.937 150  184.2
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
(184200 euro)
51/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione semplice
Intervallo di confidenza intorno al valore previsto Ŷ0  a  bX 0
Occorre determinare la distribuzione dell’errore di previsione
Errore di previsione: e0  Y0  Yˆ0  (  a )  (   b) X 0  u0
a, b, u0 : variabili casuali normali a media nulla
errore di previsione: distribuzione normale e media nulla
E (e0 )  E (Yˆ0  Y0 )  E[(a   )  (b   ) X 0  u0 ]  0
Varianza dell’errore di previsione
E (e0 ) 2  E (Yˆ0  Y0 ) 2  E[(a   )  (b   ) X 0  u0 ]2
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
52/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione semplice
Due componenti della varianza dell’errore di previsione
E (e0 ) 2  E (Yˆ0  Y0 ) 2  E[(a   )  (b   ) X 0  u0 ]2
- dipendente dall’errore associato a ogni osservazione: E (u0 )
2
2
- dipendente dalla variabilità dei parametri: E[(a   )  (b   ) X 0 ]
Var (e0 )  E (e0 ) 2  E[(a   )  (b   ) X 0 ]2  E (u0 ) 2
Var (e0 )  Var (a)  X 02Var (b)  2 X 0Cov(a, b)  Var (u0 )
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
53/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione semplice
Var (e0 )  Var (a)  X 02Var (b)  2 X 0Cov(a, b)  Var (u0 )
2
1
X
Var (a)   u2 ( 
)
2
n  xi
i
Cov(a, b) 
X
n
2
x
i
 u2
Var (b) 
 u2
x
2
i
i
Var (u0 )   u2
i 1


2

(
X

X
)
1
Varianza errore di previsione: Var (e0 )   u2 1   0n

2
 n

x

i


i 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
54/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione semplice


 1 ( X  X )2 
2
Var (e0 )   u 1   0n

2
 n

x

i


i 1
L’errore di previsione:
- diminuisce all’aumentare della numerosità campionaria
- aumenta all’aumentare della varianza del termine di errore
e quindi all’aumentare dei residui campionari  elevato R2
per una buona previsione
- aumenta con la distanza dalla media di X
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
55/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione semplice
La distribuzione dell’errore di previsione
1/2


 1 ( X  X )2 
(Y0  Yˆ0 ) /  u 1   0n

2
 n

x

i


i 1
Stima di σu: s  [
N (0,1)
n
2
12
e
/
(
n

2)]
i
t(n-2)
i 1
Intervallo di confidenza intorno al valore previsto Ŷ0  a  bX 0
1/2


 1 ( X  X )2 
Yˆ0  t /2( n2) s 1   0n

2
 n

x

i


i 1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
56/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla
Esempio:
Regressione di Vendite da Spesa_prom (R²=0,507)
X  69.2
300
250
s  39.51
Vendite
200
2
x
 i  14617.6
150
100
50
t(0.025;8)  2.306
0
0
20
40
60
80
100
120
140
-50
Spesa_prom
X 0  150
Attivo
Modello
Int. di conf. (Oss. 95%)
[184.2 – 113.3; 184.2 + 113.3]
70.9 – 297.5
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
57/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla
Tramite il vettore dei parametri stimati b si possono
determinare i valori teorici ŷ in corrispondenza:
ˆ
- a ogni vettore riga x '0 di X (dal modello: y
 Xb
)
'
x
- a ogni altro vettore ipotizzato di variabili esplicative 0
Vettore delle variabili esplicative: x 0  1, X 02 ,..., X 0 k 
Previsione puntuale:
'
ŷ0  x0b
yˆ o  b1  b2 X o 2  ...  bk X ok
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
58/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla
Esempio: sulla base del modello stimato, quante vendite sono
prevedibili in un supermercato con uno spazio espositivo di 200
m2 e con una spesa settimanale di promozione di 1500 euro?
(modello con le sole variabili con parametri significativi)
ŷ0  21,34  0, 499 X 02  0,540 X 03
Previsione puntuale:
ŷ0  21,341  0, 499 150  0,540  200  161,5
(161.500 Euro)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
59/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla
Intervallo di confidenza intorno al valore previsto
Errore di previsione
ŷ0  x0b
e0  y0  yˆ0
'
y0: valore vero di Y associato a x0  1, X 02 ,..., X 0 k 
Dal modello teorico: y  Xβ  u

y0  x0β  u0
Errore di previsione:
e0  y0  yˆ 0  x0β  x0' b  u0  x0 (β  b)  u0
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
60/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla
e0  y0  yˆ 0
Distribuzione dell’errore di previsione
Media nulla: E (e0 )  E[x0 (β  b)  u0 ]  0
normale
E (b)  β; E (u0 )  0
Varianza errore di previsione
Due componenti:
- dipendente dal termine di errore associato a ogni osservazione
E (u0 ) 2   u2
- dipendente dai parametri:
E[x'0 (b  β)(x0' (b  β))' ]  x'0 E[(b  β)(b  β)']x0
  u2 [x'0  XX  x 0 ]
1
E (b  β)(b  β)'   u2  XX 
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
1
61/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla
Varianza errore previsione:
Var(e0 )   u2 [1  x'0  XX  x 0 ]
1
Distribuzione errore previsione:
( y0  yˆ 0 ) /  u [1  x'0  XX  x 0 ]1 2
1
Stima di  u : s  [
N (0,1)
n
2
12
e
/
(
n

k
)]
i
i 1
( y0  yˆ 0 ) / s[1  x'0  XX  x 0 ]1 2 t (n  k )
1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
62/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla
Previsione intervallare per un prefissato livello di significatività α :
yˆ0  t 2,( nk )  s 1  x0  XX  x0
1
dove s 1  x0  XX  x 0 è l’errore standard della previsione
1
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
63/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla - Esempio
Previsione (vendite)
161.653
Errore std previsione
22.826
Limite inferiore 95%
107.642
Limite superiore 95%
215.664
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
64/85
Copyright © 2009 – The McGraw-Hill Companies srl
La previsione attraverso il modello
di regressione multipla - Esempio
Intervallo di confidenza: ŷ0  t 2  s 1  x0  XX  x0
1
t0.025,(103)  2.36
n
s  [ ei2 / (n  k )]1 2
 18,1
i 1
Errore Standard:
1


s 1  x0  X X  x 0  22,8
Intervallo di confidenza: 161.5  2.36  22.8  161.5  53.8
[107.6; 215.7]
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
65/85
Copyright © 2009 – The McGraw-Hill Companies srl
La violazione delle ipotesi
Principali ipotesi di cui verificare la eventuale violazione:
caratteristiche del modello
- linearità della relazione tra le variabili
caratteristiche dell’errore u
- varianza costante (omoschedasticità)
caratteristiche della matrice X :
- non collinearità tra le variabili esplicative
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
66/85
Copyright © 2009 – The McGraw-Hill Companies srl
Analisi dei residui
Metodo per diagnosticare la maggior parte delle violazioni di
ipotesi
Residui: ei  Yi  Yˆi
sono a media nulla, ma a varianza non costante
Residui standardizzati (o “studentizzati”):
ei
eis 
stima dell'errore standard di ei
a varianza costante (ma media non nulla)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
67/85
Copyright © 2009 – The McGraw-Hill Companies srl
Analisi dei residui
Diagramma di dispersione dei residui:
in ordinata: ei (o ei s)
2,5
in ascissa: Ŷi (o Xji )
2
1,5
1
0,5
es i0
-0,5 0
50
100
150
200
250
-1
-1,5
-2
Ŷi
Se le assunzioni sono verificate: nuvola di punti che non
presenta particolari strutture (i punti tendono a disporsi tra i
valori –2 e 2 e risultano distribuiti casualmente intorno allo 0)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
68/85
Copyright © 2009 – The McGraw-Hill Companies srl
Analisi dei residui
Residui che si dispongono secondo qualche struttura
riconoscibile: violazione di ipotesi
Esempi:
2,5
2
2
1,5
Residui stud.
1
0,5
0
-50
-0,5 0
50
100
-1
150
200
Residui studentizzati
1,5
1
0,5
0
-0,5
-1
-1,5
-2
-1,5
-2,5
-2
-3
Vendite (valori stimati)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
Variabile X
69/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
Si diagnostica principalmente in due modi:
1. dalla struttura del diagramma
dei punti campionari (nel caso bivariato)
Esempio: Volume vendite in funzione
della durata pubblicità (Tab. 4.9)
250
Vendite * 1000€
200
150
100
50
0
0
2
4
6
8
10
Giorni di campagna pubblicitaria
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
12
14
16
Durata
pubblicità
(giorni)
Vendite
(migliaia
euro)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
20
23
34
37
40
56
60
106
107
143
166
198
211
70/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
Diagramma di dispersione dei punti campionari:
Si può stimare un modello
lineare
250
Vendite * 1000€
200
150
100
50
0
0
2
4
6
8
10
12
14
16
Ma il diagramma fa supporre
una relazione non lineare
(esponenziale)
Giorni di campagna pubblicitaria
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
71/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
2. dalla struttura del diagramma di dispersione dei residui
Diagramma di dispersione dei residui:
2
1,5
Residui stud.
1
0,5
0
-50
-0,5 0
50
100
-1
-1,5
-2
Vendite (valori stimati)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
150
200
mostra non una
disposizione casuale
intorno allo zero ma una
struttura curvilinea che
indica una relazione non
lineare
72/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
Si può risolvere con opportune trasformazioni di variabili
In particolare:
- trasformazione logaritmica della variabile esplicativa
(o di una o più delle variabili esplicative)
- trasformazione logaritmica della variabile dipendente
- trasformazione logaritmica di entrambe (dipendente ed esplicative)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
73/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
– Esempio di linearizzazione
Si ipotizza una relazione esponenziale del tipo
vendite    e  *gg_pubblicità  u
Applicando il logaritmo naturale ad ambo i membri della
equazione di regressione si ottiene il modello linearizzato:
log(vendite)  log   *gg_pubblicità  log u
vendite      *gg_pubblicità  u
Stima del modello linearizzato: regressione del logaritmo naturale
delle vendite sulla variabile esplicativa
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
74/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
– Esempio di linearizzazione
Durata
pubblicità
(giorni)
Vendite
(miliaia
euro)
Ln Vendite
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
20
23
34
37
40
56
60
106
107
143
166
198
211
2.708
2.996
3.135
3.526
3.611
3.689
4.025
4.094
4.663
4.673
4.963
5.112
5.288
5.353
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
75/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
– Esempio di linearizzazione
- Stima del modello linearizzato:
venditeSTIMA  2,553  0, 21 gg_pubblicità
(log(vendite)  log   * gg_pubblicità)
- Stima del modello esponenziale nella forma originaria:
venditeSTIMA  12,84  e0,21gg_pubblicità
(vendite    e *gg_pubblicità )
(ln a  2.553  a  e2.553  12.84)
Interpretazione di β: variazione relativa di Y in corrispondenza
a variazione unitaria di X (semielasticità di Y a X)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
76/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
– Altre trasformazioni
- Trasformazione logaritmica variabile indipendente:
Y     log X
Interpretazione di β: variazione di Y in relazione ad una
variazione relativa unitaria di X
- Trasformazione logaritmica di entrambe le variabili:
Y X 
logY     log X
Modello a elasticità costante – interpretazione di β: misura la
variazione relativa di Y in relazione a una variazione relativa
unitaria di X (elasticità)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
77/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di linearità
Per avvalorare l’ipotesi che la relazione stimata sia lineare
nella trasformata di una o più variabili originarie si
esaminano i residui della nuova regressione e si verifica
che non presentino nessuna particolare struttura
Esempio- Diagrammi di dispersione (dopo trasformazione)
dei punti campionari:
dei residui:
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
78/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di
omoschedasticità
Omoschedasticità: varianza costante dei termini di errore
Var (uj) = σ2
Eteroschedasticità:
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
79/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di
omoschedasticità
Problemi derivanti dalla eteroschedasticità:
- le stime dei minimi quadrati sono ancora corrette
ma non sono più efficienti (a varianza minima)
- la stima della varianza, e quindi dell’errore standard,
è distorta  può invalidare i test di significatività
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
80/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di
omoschedasticità
Diagnosticata attraverso l’analisi del diagramma di dispersione dei
residui:
- se la banda in cui giacciono i punti tende ad allargarsi
o a restringersi la varianza degli errori tende a crescere
o a decrescere al crescere della variabile esplicativa
2,5
2
2
1,5
1
0,5
0
-0,5
-1
presenza di eteroschedasticità
 relazione crescente
-1,5
Residui studentizzati
Residui studentizzati
1,5
1
0,5
0
-0,5
presenza di eteroschedasticità
 relazione decrescente
-1
-2
-1,5
-2,5
-2
-3
Variabile X
Variabile X
- se invece i punti giacciono tra due parallele non si
riscontra alcuna evidenza di violazione dell’assunzione
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
81/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di
omoschedasticità
Caso di varianza dell’errore legata a una var. esplicativa Xj
Diagnostica: Test di Goldfeld e Quandt
Fasi:
- si riordinano le osservazioni secondo i valori decrescenti di Xj
e si omettono c osservazioni centrali
- si effettuano due regressioni OLS separate sulle prime
e sulle ultime (n - c)/2 osservazioni
- si calcola il rapporto tra le due somme dei quadrati dei
residui R= RSS1/RSS2 (= rapporto tra le due varianze)
- si fa il test, considerando che sotto l’ipotesi di
omoschedasticità R si distribuisce come una F di Fisher
con (n – c – 2k)/2 e (n – c – 2k)/2 g.d.l.
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
82/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di
omoschedasticità
Rimedio: Metodo dei minimi quadrati ponderati (WLS)
n
f (b1 ,..., bk )   wi (Yi  b1  b2 X i 2  ...  bk X ik ) 2
i 1
Pesi decrescenti al crescere di σi
Se si può assumere σi proporzionale a una variabile esplicativa:
 i    X ij (i  1,..., n)
Trasformazione: divisione di tutti gli elementi della equazione di
regressione per Xij :
X ij
Yi
X i2
X ik ui
1
 1
 2
...   j
 ...+ k

X ij
X ij
X ij
X ij
X ij X ij
Nella equazione trasformata la varianza del termine di errore
ui
'
ui 
è costante: Var(u ' )  1  2  1  2 X 2   2
i
i
ij
X ij
X2
X2
ij
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
ij
83/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di
omoschedasticità
Modello teorico originario:
Yi  1   2 X i 2  ...   k X ik  ui
Modello teorico trasformato:
Yi
X
X
1
 1
  2 i 2 ...   j  ...+ k ik  ui'
X ij
X ij
X ij
X ij
Stima OLS dei parametri:
Yi
X
X
1
 b1
 b2 i 2 ...  b j  ...+bk ik
X ij
X ij
X ij
X ij
Modello stimato nella forma originaria:
Yi  b1  b2 X i 2  ...  b j X ij  ...  bk X ik
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
84/85
Copyright © 2009 – The McGraw-Hill Companies srl
Violazione dell’ipotesi di
rango pieno della matrice X
Multicollinearità: dipendenza lineare o quasi dipendenza
lineare di due o più variabili esplicative
a.
Esatta multicollinearità: dipendenza perfetta tra due
o più variabili esplicative  rango della matrice X minore
di k  determinante nullo della matrice XX
 impossibilità di calcolare il vettore delle stime b
1
(b   XX  Xy )
Soluzione:
eliminare dal modello la variabile esplicativa che risulta
esatta combinazione lineare delle altre
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
85/85
Copyright © 2009 – The McGraw-Hill Companies srl
Quasi multicollinearità
b. Quasi multicollinearità: “quasi combinazione lineare” di una
variabile indipendente rispetto alle rimanenti o a un
sottoinsieme di esse  determinante della matrice XX
prossimo allo zero  notevole aumento della variabilità
delle stime
1
(b N β, 2  XX  )


Spiegazione intuitiva:
- il coefficiente di regressione βj misura l’effetto di Xj su Y
a parità delle altre X
- se c’è stretta correlazione tra Xj e le altre X, quando vengono
tenute costanti queste ultime Xj varia poco
- è quindi difficile scindere l’effetto della sua variazione su Y
da quello delle altre variabili
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
86/85
Copyright © 2009 – The McGraw-Hill Companies srl
Quasi multicollinearità
Conseguenze:
- viene meno la precisione delle stime;
- stime sensibili a piccoli cambiamenti nei dati campionari;
- si può essere indotti a scartare delle variabili non significative
che in realtà sono buone determinanti della variabile esplicativa
Diagnostica:
- Analisi matrice di correlazione tra le variabili esplicative:
valori molto elevati di rhj  QM
- Regressioni ausiliarie tra ogni variabile esplicativa
e le altre k-2:
X ij  b1  b2 X i 2  ...  bk X ik (j = 2 ,..., k )
R2 molto elevati (es. > 0,7)  QM
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
87/85
Copyright © 2009 – The McGraw-Hill Companies srl
Quasi multicollinearità
VIF (Variance Inflation Factor)
VIF 
1
1  R 2j
(R2j coefficiente di determinazione multiplo relativo alla
regressione della j-sima variabile esplicativa sulle altre k-2)
Dalla seguente espressione di Var(bj):
s2
1
Var (b j ) 

(n  1) Var ( X j ) 1  R 2j
Interpretazione di VIF1/2: fattore moltiplicativo dell’errore
standard di bj dovuto alla collinearità tra la variabile Xj e le
altre variabili esplicative
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
88/85
Copyright © 2009 – The McGraw-Hill Companies srl
Quasi multicollinearità
VIF  1/ (1  R 2j )
Si sospetta Q.M. per valori del VIF > 3,5
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
89/85
Copyright © 2009 – The McGraw-Hill Companies srl
Quasi multicollinearità
Soluzione quasi multicollinearità:
- individuare la variabile esplicativa quasi
combinazione lineare delle altre ed eliminarla dal modello
Se più di una: eliminarle progressivamente a partire
da quelle con VIF più elevato
NB: non eliminare contemporaneamente tutte le variabili
esplicative con VIF elevato (maggiore di 3.5)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
90/85
Copyright © 2009 – The McGraw-Hill Companies srl
Quasi multicollinearità - Esempio
Campione di 22 aziende (Tab. 4.15):
 Variabile risposta: volume delle vendite (Vend)
 Variabili esplicative:
 spese di pubblicità (Pubbli)
 spese di promozione (Prom)
 spese di promozionale anno passato (Prom_0)
 spese di gestione (Spese)
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
91/85
Copyright © 2009 – The McGraw-Hill Companies srl
Quasi multicollinearità - Esempio
Buono l’adattamento generale del modello ai dati
Problemi di significatività per alcuni parametri
Problemi di multicollinearità per alcune variabili
Soluzione: eliminare progressivamente
dal modello le variabili “quasi
combinazione lineare” delle altre,
partendo da quella con indice VIF più
alto (Prom_0)
Nel nuovo modello:
 non si riscontrano indici VIF >3,5
 la variabile Pubbli è significativa
e senza problemi di collinearità
Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas
92/85
Copyright © 2009 – The McGraw-Hill Companies srl