...

Analisi Multivariata dei Dati Bontà del modello di Regressione

by user

on
Category: Documents
21

views

Report

Comments

Transcript

Analisi Multivariata dei Dati Bontà del modello di Regressione
Analisi Multivariata dei Dati
Bontà del modello di Regressione
A
M
D
Marcello Gallucci
Milano-Bicocca
Lezione: II
Regressione NS
La retta di regressione rappresenta la predizione lineare (o dipendenza lineare)
tra una variabile indipendente ed una dipendente, espressa nelle unità di misura
originali
10
9
8
7
6
5
4
SORRISI
3
2
1
0
-2
-1
BIRRE
0
1
2
3
4
5
6
7
8
9
10
11
12
Regressione NS
La retta di regressione potrà dunque essere scritta come
y =ab yx x
Coefficientsa
Model
1
(Constant)
NBEERS
Unstandardized
Coefficients
B
Std. Error
2.091
.684
.709
.116
Standardized
Coefficients
Beta
.898
t
3.057
6.132
y =2 . 09. 70 x
Sig.
.014
.000
a. Dependent Variable: SMILES
10
9
b
8
In media, per ogni birra bevuta ci
aspettiamo il .7 sorrisi in piu’
7
6
5
4
Quando non si è bevuta neanche
una birra, ci aspettiamo 2.09
sorrisi
SORRISI
a
3
2
1
0
-2
-1
BIRRE
0
1
2
3
4
5
6
7
8
9
10
11
12
Bonta’ di adattamento
L’ R-quadro viene comunmente usato come indice di bonta’ di adattamento del
modello di regressione ai dati
basso R2
alto R2
All’aumentare dell valore di R2, diminuisce la
dispersione dei punti intorno alla retta, dunque
diminuisce l’errore
Errori di regressione
Notiamo che la predizione non corrisponde di norma ai valori osservati
yˆ i = a + byx xi
predetti
errore
yi − yˆ i = yi − (a + byx xi )
Dunque i valori osservati di Y
possono essere espressi come
somma dei valori predetti e l’errore
yi = (a + byx xi ) + ( yi − yˆ i )
retta
errore
Discrepanza osservatipredetti
Quanto e’ grande l’errore di regressione
Calcoliamoci la distanza media tra i punti osservati e la retta
Le distanze si calcolano mediante le
differenze al quadrato
∑  y i− y i  =s 2
2
 n−1
e
Notiamo che questa e’ una varianza,
che chiameremo varianza di errore
Discrepanza osservatipredetti
Quanto e’ buona la regressione
Se Y e’ funzione della retta e dell’errore, cosi’ sara’ la sua viarianza
Decomponiamo la varianza di Y
s =s
2
y
2
reg
+s
2
e
La nostra retta sara tanto piu’ buona
quanto sara’ grande la varianza
spiegata dalla regressione
2
sreg
= s y2 − se2
s
2
y
se2 YYs
Varianza spiegata
2
regX
R2=% di varianza spiegata
Essendo una quantita’ relativa, non dipende dalla grandezza assoluta della
varianza di Y, inclusa varianza uquale a 1
s
2
eY
Y
s
2
reg X
s
2
sreg
Dunque questa quantita’ e’
data da R2
s
2
y
=
s
2Y
Y
ez zz
2
Xz
regz
s y2 − se2
s
2
y
=R
2
yx
In alcuni testi R2 viene chiamato coefficiente di
determinazione
% di varianza non spiegata
La varianza non spiegata sara’ data dal complemento di R-quadro
2
e
s Y
Y
s
2
reg X
s
Dunque questa quantita’ e’
data da 1-R2
2
e
2
y
s
=
s
2Y
Yzz
ez
2
s y2 − sreg
s
2
y
s
X
z
2
regz
= 1− R
In alcuni testi 1-R2 viene chiamato coefficiente
di alienazione
2
yx
Predizione e Spiegazione
Nelle tecniche che studieremo, così come nella regressione lineare,
possiamo sempre considerare il fine della tecnica sia esplicativo che
predittivo
E’ importante capire che nella concezione statistica, predire una
variabile è equivalente a spiegare la sua variabilità, e spiegare la
variabilità di una variabile è equivalente a predire una variabile
Predizione senza regressione
Ricordiamo che in assenza di ogni ulteriore informazione, la miglior
predizione che si può fare dei punteggi di una variabileIstogramma
è predire il
valore medio
120
100
Quale è lo stipendio più
probabile di un accademico?
Media=2145
Varianza=599
Frequenza
yˆ i = M y
80
60
40
20
0
,
00
45
,
00
40
00
00
00
,
00
35
00
00
00
00
00
,
00
30
,
00
25
,
00
20
,
00
15
,
00
10
00
0,
50
stipendio
Mean = 2145,3403
Std. Dev. = 599,06439
N = 1.200
Varianza ed errore di predizione
Se predicessimo che tutti hanno un punteggio pari al valore medio,
quale sarebbe il nostro errore?
Istogramma
Tutto ciò che si distanzia dalla
media
120
100
 y i −M y 
∑
s=
2
n−1
60
40
20
0
Mean = 2145,3403
Std. Dev. = 599,06439
N = 1.200
,
00
45
,
00
40
00
00
00
,
00
35
stipendio
00
00
00
00
00
,
00
30
,
00
25
,
00
20
,
00
15
,
00
10
00
0,
50
Media=16.14
Varianza=20.38
2
Frequenza
yi − yˆ i = yi − M y
80
Varianza ed errore di predizione
La varianza della variabile da predire rappresenta sia l’errore che
commettiamo nell’usare la media come predittore, sia tutta
l’informazione che possiamo spiegare se usassimo un predittore
migliore della media
YY
 y i −M y 
∑
s=
2
n−1
2
Varianza ed errore di predizione
Consideriamo il diagramma di dispersione tra la nostra variabile
dipendente ed una altra variabile, sempre nel caso volessimo usare il
4500,00
valore medio come predittore della VD
4000,00
Errore di predizione: Tutto ciò
che si distanzia dalla media
yi − M y
3500,00
stipendio
3000,00
2500,00
2000,00
 y i −M y 
∑
s=
2
n−1
2
1500,00
1000,00
500,00
0,00
20,00
40,00
60,00
pub
80,00
100,00
Regressione
Se ora usiamo i valori di una variabile indipendente, pesati per i
coefficienti di regressione, come predittori, il nostro punteggio predetto
4500,00
sarà generalmente diverso da prima
4000,00
Valori predetti
3000,00
stipendio
yˆ i = a + byx xi
3500,00
2500,00
2000,00
1500,00
1000,00
500,00
0,00
20,00
40,00
60,00
pub
80,00
100,00
Errore della Regressione
Anche la predizione fatta con la regressione commetterà degli errori,
cioè il valore predetto non coinciderà perfettamente con il valore
4500,00
osservato
4000,00
Errore che commettiamo
3500,00
stipendio
yi − yˆ i = yi − (a + byx xi )
3000,00
2500,00
2000,00
[ y i − ab yx x i ]
∑
s=
2
2
e
n−1
1500,00
1000,00
500,00
0,00
20,00
40,00
60,00
pub
80,00
100,00
Varianza di errore
Questa varianza, detta di errore, indica la parte della varianza della
VD che non è predicibile mediante i punteggi della VI
e
Media degli errori di
regressione
2
[
y
−
ab
x
]
2 ∑
i
yx i
se=
n−1
X
% Varianza di errore
Rapportando tutto a 1 (standardizzando) otteniamo la percentuale di
errore
% di errore di regressione
e
errore di regressione
2
e
2
y
s
s
[ y i−(a+b yx x i)]
∑
=
2
∑ ( y i−M y)
2
massimo errore totale
X
Riduzione dell’errore
Potremo dire che l’errore di predizione si è ridotto, al confronto con
l’errore che facevamo senza usare la regressione (usando cioè la media
di Y come valore predetto)
e
% di riduzione
s
2
y
2
y
2
e
2
y
2
e
2
y
s
s
− = 1− = 1− e
s
s
s
X
Varianza spiegata
Quella parte della varianza che non è di errore, sarà varianza che
possiamo spiegare (predire) grazie all’uso della regressione
e
Chiamiamo tale % di varianza:
R2
s
2
y
2
y
2
e
2
y
2
e
2
y
s
s
2
− = 1 − = R yx
s
s
s
X
Decomposizione della Varianza
Dunque la varianza di errore iniziale, cioè la varianza della y, dopo la
regressione si può decomporre in
% di varianza di errore:1-R2
e
X
% di varianza spiegata: R2
s
2
y
2
y
s
2
reg
2
y
s
=
+
s
s
s
2
e
2
y
Predizione e Spiegazione
All’aumentare della correlazione, aumenta la nostra capacità di
predire il cambiamento di una variabile usando la variabilità dell’altra
All’aumentare della correlazione, aumenta la nostra capacità di
spiegare la variabilità una variabile usando la variabilità dell’altra
In sostanza, predire una variabile mediante un’altra ci consente di
spiegarne la variabilità. Migliore è l’adeguatezza della nostra
predizione, migliore è la capacità esplicativa
Spiegazione e Causalità
Spiegare la variabilità statistica di una variabile non significa spiegare
le cause del fenomeno che la variabile misura
La spiegazione statistica dipende dalla bontà del modello statistico e
dall’associazione fra variabili
La spiegazione causale dipende dalla spiegazione statistica e dalla
fondatezza teorica del modello utilizzato
Esempio
In ricerca sull’anoressia sono state misurate su un campione di 85 donne la
propria “figura reale”, la “figura ideale” e l’autostima.
Pictorial Body Image Scale
Regressione con SPSS
Lezione III
Regressione
Ci proponiamo di capire se la propria corporatura ideale (variabile
figura_ideale) dipenda (cioè sia influenzata) dalla autostima (media di dieci items
su scala da 0 a 6).
Statistiche descrittive
N
figura_ideale
Autostima
Validi (listwise)
85
85
85
Minimo
1
.66172
Massimo
4
6.00000
Media
3.15
4.0000000
Deviazione
std.
.681
1.50000000
Lezione: II
Regressione
Ci proponiamo di capire se la propria corporatura ideale (variabile
figura_ideale) dipenda (cioè sia influenzata) dalla autostima.
Lezione: II
Output
Coefficientia
Modello
1
(Costante)
Autostima
Coefficienti non
standardizzati
B
Errore std.
2.683
.206
.117
.048
Coefficienti
standardizzati
Beta
.258
t
13.048
2.437
Sig.
.000
.017
a. Variabile dipendente: figura_ideale
Lezione: II
Output
Coefficientia
Modello
1
(Costante)
Autostima
Coefficienti non
standardizzati
B
Errore std.
2.683
.206
.117
.048
Coefficienti
standardizzati
Beta
.258
t
13.048
2.437
Sig.
.000
.017
a. Variabile dipendente: figura_ideale
Per ogni punto in più di autostima, la figura ideale
aumenta di .117
Per autostima molto bassa (x=0) si preferisce una
figura molto magra (2.6)
Lezione: II
Cioè
Media attesa per
autostima molto bassa
Aumentando l’autostima…
Lezione: II
Output
Coefficientia
Modello
1
(Costante)
Autostima
Coefficienti non
standardizzati
B
Errore std.
2.683
.206
.117
.048
Coefficienti
standardizzati
Beta
.258
t
13.048
2.437
Sig.
.000
.017
a. Variabile dipendente: figura_ideale
In termini di correlazione
Ad una devizione standard sopra la media di
autostima, corrisponde un incremento della “figura”
di .25 deviazioni standad
Lezione: II
Interpretazione
C’è dunque una relazione tra figura ideale ed autostima,
nel senso che per minori livelli di autostima si tende ad una
figura ideale più magra
Quanto è forte questa relazione?
Lezione: II
Interpretazione
Lezione: II
Corrispondenze
Coefficientia
Modello
1
(Costante)
Autostima
Coefficienti non
standardizzati
B
Errore std.
2.683
.206
.117
.048
Coefficienti
standardizzati
Beta
.258
t
13.048
2.437
Sig.
.000
.017
a. Variabile dipendente: figura_ideale
Lezione: II
Fine
Fine della Lezione II
Fly UP