...

Diapositiva 1 - e

by user

on
Category: Documents
13

views

Report

Comments

Transcript

Diapositiva 1 - e
Corso di Laurea magistrale in
Psicologia Clinica, dello Sviluppo e Neuropsicologia
Esame di
Analisi Multivariata dei Dati
La regressione lineare multipla
Martedì 15 ottobre 2012
A cura di
Matteo Forgiarini
1
La regressione multipla
Esercitazione N°2 – La regressione lineare multipla
Nelle precedenti analisi abbiamo ipotizzato che una variabile dipendente venga
spiegata – prevista – da una sola variabile indipendente: abbiamo analizzato il
modello di regressione semplice.
Ma non sempre la realtà è semplice…
In alcuni casi occorre utilizzare più di una variabile indipendente per spiegare (la
varianza di) una variabile dipendente.
Un modello di regressione che preveda 2 o più variabili indipendenti e una sola
variabile dipendete è chiamato modello di regressione multipla.
2
La regressione multipla
Esercitazione N°2 – La regressione lineare multipla
yˆ  a  byx.w x  byw. x w
Come nella regressione
semplice, la costante “a”
rappresenta
l’intercetta
della retta, ovvero il valore
di y quando tutte le x
hanno valore 0.
I coefficienti di regressione b cosa rappresentano?
Nella regressione semplice i coefficienti b esprimono
l’intero legame tra la x e la y.
Nella regressione multipla la loro interpretazione è
più complessa…
Nella regressione multipla, il coefficiente b di ogni x esprime solo l’effetto diretto della
x sulla y al netto degli effetti indiretti prodotti mediante l’interazione con le altre
variabili indipendenti.
Infatti l’effetto indiretto di una VI sulla y esiste solo se la
correlazione tra le VI è diversa da 0; in caso contrario, non essendoci interazione tra le VI,
gli effetti indiretti saranno nulli.
Il coefficiente di ogni VI è chiamato coefficiente parziale di regressione tra la VI e y ed è
ottenuto parzializzando l’effetto delle altre VI su y.
3
La regressione multipla
Esercitazione N°2 – La regressione lineare multipla
Con spss è possibile stimare i parametri della retta di regressione multipla…
Nell’esempio proposto, la
“peso” viene considerata
dipendente.
variabile
variabile
Il
modello
prevede due
VI.
Selezioniamo questa opzione per
ottenere le stime dei coefficienti di un
modello di regressione sia con una
4
sola VI sia con le due VI.
La regressione multipla
Coefficientsa
Model Summary
Model
1
2
R
R Square
,789 a
,622
,957 b
,916
Adjus ted
R Square
,605
,908
Esercitazione N°2 – La regressione lineare multipla
Std. Error of
the Es timate
107,63258
52,02760
a. Predictors : (Constant), potenza del motore
b. Predictors : (Constant), potenza del motore, lunghezza
(cm)
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
a. Dependent Variable: peso (in Kg)
Modello 1: regressione semplice:
y=“peso”, x=“potenza del motore”.
Modello 1: regressione multipla:
y=“peso”, x1=“potenza”,x2=“lunghezza”.
I parametri del modello di regressione multipla sono tutti significativi (p-value<0.05). Il modello con due
VI infatti ottiene una proporzione di varianza spiegata (0,916) maggiore del modello con una sola VI
(0,622).
Possiamo concludere che utilizzare anche “lunghezza” per spiegare “peso” migliora
significativamente il modello; infatti il coefficiente parziale di regressione stimato per “lunghezza” risulta
significativamente diverso da 0
Notiamo come il metodo “stepwise” permetta di confrontare la bontà dei due modelli ottenuti e di
verificare la significatività dei parametri di tutti i modelli. Al contrario, con il metodo “enter” vengono
5
considerate contemporaneamente tutte le VI inserite.
La regressione multipla
Esercitazione N°2 – La regressione lineare multipla
Continuiamo l’analisi degli output del modello di regressione multiplo…
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
a. Dependent Variable: peso (in Kg)
I coefficienti parziali di regressione indicano solo l’effetto diretto che ogni VI produce sulla y
e vengono infatti stimati parzializzando l’effetto delle altre VI.
Il segno della loro stima permette di capire la direzione della relazione (positiva o negativa)
tra la VI e la y. Se il segno è positivo al crescere della VI, anche la y cresce; se il segno è
negativo, ad un aumento della VI corrisponde una diminuzione della y. In particolare nel
modello proposto i coefficienti indicano che il crescere della potenza del motore e della
lunghezza, producono un aumento del peso dell’auto.
Ma…
La stima dei coefficienti parziali non ci permette di comprendere in modo chiaro il contributo
unico di ogni VI: per l’analisi di un modello di regressione multipla è importante avere anche
una stima della quantità di varianza della y che ogni VI permette di spiegare…
6
Il contributo unico delle VI
Esercitazione N°2 – La regressione lineare multipla
In particolare occorre distinguere due indici che permettono di comprendere il contributo unico
di ogni VI:
Il contributo unico di una VI può essere
stimato
grazie
al
quadrato
della
correlazione parziale: ipotizzando che y
venga spiegata da x e w,
Il contributo unico di una VI può anche
essere valutato come la varianza della y
spiegata unicamente dalla VI: ipotizzando
che y venga spiegata da x e w, il quadrato
della correlazione semi-parziale tra y e w
Pr2yw.x
indica l’effetto di w dopo aver rimosso tutta
la variabilita’ spiegata da x.
Sr2yw.x
indica la varianza
unicamente da w.
di y spiegata
Pr2yw.x indica la proporzione di varianza
spiegata da w rispetto alla parte di varianza
di y che non viene spiegata da x.
7
Il contributo unico delle VI
Esercitazione N°2 – La regressione lineare multipla
e
b
a
c
X
W
pr
2
yw. x
a

ae
sr
2
yw. x
a

a
acbe
8
La correlazione parziale
Esercitazione N°2 – La regressione lineare multipla
Per stimare i contributi unici di ogni VI in un modello di regressione multipla risulta quindi
importante calcolare la matrice di correlazioni parziali tra un set di variabili...
In questa finestra occorre inserire le variabili fra
le quali si vuole calcolare la correlazione
parziale.
Nell’esempio
proposto
le
correlazioni vengono parzializzate
mantenendo costante la variabile
“lunghezza”.
9
La correlazione parziale
Esercitazione N°2 – La regressione lineare multipla
Correlations
Control Variables
lunghezza (cm)
capienza bagagliaio (litri)
pes o (in Kg)
potenza del motore
capienza s erbatoio (litri)
prezzo da catalogo (lire)
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
Correlation
Significance (2-tailed)
df
capienza
bagagliaio
(litri)
1,000
.
0
-,001
,996
21
,046
,834
21
,152
,489
21
,011
,960
21
pes o (in Kg)
-,001
,996
21
1,000
.
0
,894
,000
21
,545
,007
21
,745
,000
21
potenza
del motore
,046
,834
21
,894
,000
21
1,000
.
0
,663
,001
21
,820
,000
21
capienza
s erbatoio
(litri)
,152
,489
21
,545
,007
21
,663
,001
21
1,000
.
0
,695
,000
21
prezzo da
catalogo (lire)
,011
,960
21
,745
,000
21
,820
,000
21
,695
,000
21
1,000
.
0
La matrice contiene le correlazioni tra le coppie di variabili calcolate parzializzando l’effetto di
“lunghezza”. Ogni cella (non appartenente alla diagonale principale) contiene la correlazione
prxy.lunghezza.
Nell’esempio proposto, 0.894=prpotenza peso.lunghezza è la correlazione parziale tra potenza e peso;
pr2=(0,894)2=0,799 indica la proporzione di varianza di “peso” spiegata da “potenza” rispetto alla
quantità di varianza di “peso” non spiegata dall’altra VI “lunghezza”.
Nell’esempio proposto la correlazione parziale tra “potenza” e “peso” risulta significativa
(p.value<0,01): possiamo quindi concludere che rispetto alla varianza di “peso” non spiegata da
“lunghezza”, la variabile “potenza” permette di spiegare una quantità di varianza della VD
10
statisticamente significativa.
La correlazione parziale
Esercitazione N°2 – La regressione lineare multipla
Selezioniamo questa
opzione per ottenere
le
correlazioni
semplici, parziali e
semi-parziali
Attraverso questa procedura possiamo ottenere, oltre alle stime dei coefficienti del modello di
regressione multiplo, anche le stime delle correlazioni semplici, parziali e semi-parziali (cfr.
diapositive successive) che ci permettono di analizzare più in profondità il contributo unico delle
singole variabili.
11
La correlazione parziale
Esercitazione N°2 – La regressione lineare multipla
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
Zero-order
Correlations
Partial
Part
,789
,789
,789
,789
,762
,894
,881
,579
,542
a. Dependent Variable: peso (in Kg)
I
coefficienti
del
modello
sono uguali a
quelli stimati in
precedenza.
In
questa
colonna
troviamo
le
correlazioni
semplici tra le
due VI e la
VD.
In questa colonna troviamo le correlazioni parziali tra le due VI
e la VD; in particolare: 0,894=prpotenza peso.lunghezza;
0,881=prlunghezza peso.potenza. Notiamo che 0,894 corrisponde alla
stima ottenuta calcolando la matrice delle correlazioni parziali tra
le variabili. Per stimare 0,881 all’interno della matrice delle pr,
avremmo dovuto eseguire la medesima procedura per creare la
matrice, ma parzializzando l’effetto della variabile “potenza”.
Elevando al quadrato le pr possiamo calcolare il contributo unico
delle due VI.
(0,894)2=0,799; la variabile “potenza” spiega il 79% della
varianza di “peso” che non viene spiegata da “lunghezza”.
(0,881)2=0,776; la variabile “lunghezza” spiega il 77% 12
della
varianza di “peso” che non viene spiegata da “potenza”.
La correlazione semi-parziale
Esercitazione N°2 – La regressione lineare multipla
Come accennato in precedenza, è possibile stimare il contributo unico di una VI anche mediante la correlazione
semi-parziale tra le VI e la VD.
In particolare il quadrato della correlazione semi-parziale indica la parte di varianza della VD spiegata
unicamente dalla VI al netto della varianza della VD che la VI spiega in comune con le altre VI.
Sr2xy.w indica la parte di varianza della y spiegata dalla x al netto della parte di varianza della y che x spiega in
comune con w.
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
Zero-order
Correlations
Partial
Part
,789
,789
,789
,789
,762
,894
,881
,579
,542
Correlazioni
semi-parziali
a. Dependent Variable: peso (in Kg)
Nell’esempio proposto, 0,579 indica la correlazione semi-parziale srpotenza peso.lunghezza.
In modo analogo 0,542=srlunghezza peso.potenza.
Possiamo quindi affermare che la variabile “potenza” spiega, senza tenere conto del contributo in
comune con “lunghezza”, il 33,5% della varianza di “peso”: (0,579)2=0,335.
Similmente, il contributo unico della variabile “lunghezza” al netto del contributo comune a
“potenza” risulta: (0,542)2=0,293: la variabile “lunghezza” spiega il 29,3% della varianza di
13
“peso”.
Esercitazione N°2 – La regressione lineare multipla
Una particolarità
Procediamo con l’analisi dei tre tipi di correlazione…
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
Zero-order
Correlations
Partial
Part
,789
,789
,789
,789
,762
,894
,881
,579
,542
a. Dependent Variable: peso (in Kg)
Notiamo che se ipotizziamo un modello di regressione semplice la correlazione semplice, parziale
e semi-parziale sono uguali… perché!?!
Perché in un modello di regressione semplice il legame diretto tra x e y è l’unico che vi sia… non
esiste altro legame che si debba parzializzare: la proporzione di varianza spiegata di y da parte di x
coincide con il contributo unico di x poiché non occorre parzializzare nessun effetto di altre VI:
r2xy=pr2xy=sr2xy
14
L’R2
Esercitazione N°2 – La regressione lineare multipla
del modello
Model Summary
Regr.
Sempl.
Change Statis tics
Model
1
2
Regr.
Mult.
R Square
R
,622
,789 a
b
,916
,957
Adjus ted
R Square
,605
,908
Std. Error of
the Es timate
107,63258
52,02760
R Square
Change
,622
,294
F Change
36,180
73,155
df2
df1
22
21
1
1
Sig. F Change
,000
,000
a. Predictors : (Cons tant), potenza del motore
b. Predictors : (Cons tant), potenza del motore, lunghezza (cm)
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
Zero-order
Correlations
Partial
Part
,789
,789
,789
,789
,762
,894
,881
,579
,542
a. Dependent Variable: peso (in Kg)
Notiamo come nel modello di regressione semplice la proporzione di varianza spiegata dalla VI
sia coincidente con il quadrato della correlazione semplice corr(xy): R2=0,7892=0,622.
Nel modello di regressione multipla è più complesso: la proporzione di varianza spiegata R2 del
modello è formata dai contributi di ogni variabile…
R2=r2potenza peso + sr2lunghezza peso.potenza=(0,789)2 + (0,542)2=0,622 + 0,293=0,9157
R2=r2lunghezza peso + sr2potenza peso.lunghezza=(0,762)2 + (0,579)2=0,58 + 0,335=0,9152
15
Fly UP