...

La regressione I - Dipartimento di Psicologia

by user

on
Category: Documents
19

views

Report

Comments

Transcript

La regressione I - Dipartimento di Psicologia
La regressione I
Cristina Zogmaister
Investigare l’associazione lineare tra due (o
più) variabili continue:

Analisi della relazione lineare tra due variabili continue:
Correlazione bivariata: misura la relazione tra due variabili, senza
la necessità di distinguere tra IV e DV.
Regressione lineare semplice (o bivariata): si prevede il punteggio
inuna variabile dalla conoscenza del punteggio in un’altra
variabile. La variabile predetta è considerata DV, quella
predittrice è considerata IV.
Se le variabili in gioco sono più di due:
Correlazione multipla: misura il grado in cui una variabile continua
è legata con un insieme di variabili, che sono (generalmente)
continue e vengono combinate per creare una nuova variabile
composita.
Regressione multipla: si prevede il punteggio della DV dai
punteggi in una serie di IV.
Come per correlazione e regressione bivariate,
 la correlazione multipla enfatizza il grado di relazione tra una
variabile e un insieme di variabili
 La regressione multipla enfatizza la previsione della DV a
partire dalla IV.
Esempio: file regressione.sav

Rappresentazione grafica del legame tra





Due misure successive della stessa variabile
Altezza e punteggio ad un esame
Punteggio ad un esame e punteggio ad un altro
esame
Ansia pre-esame e punteggio all’esame
Tensione durante l’esame e punteggio all’esame
Rappresentazione grafica
Relazione lineare,
legame elevato tra le
due variabili
Come costruire il grafico a dispersione
Legame tra altezza e punteggio all’esame di
psicometria:
relazione tra voto all’esame di psicometria
e voto all’esame di fisiologia:
Ansia pre-esame e voto all’esame
Tensione durante l’esame e voto di
psicometria
In due situazioni è emerso un chiaro legame
lineare tra le due variabili:


Quanto è intenso questo legame?
Come facciamo a essere sicuri che non è
dovuto al caso?
Coefficiente di correlazione r di Pearson

Misura la intensità e la DIREZIONE di una
relazione lineare tra due variabili.

Elevato al quadrato misura la FORZA
dell’associazione.

E’ indipendente dalla scala di misura.
Calcoliamo il coefficiente di correlazione di Pearson:
Calcoliamo il coefficiente di correlazione
Correlazione positiva, molto elevata (prossima a +1.0).
La correlazione è significativa, p < .001
Il valore del coeff. di correlazione elevato al quadrato è di .937:
la prima variabile spiega il 94% della varianza della seconda variabile
(e vice versa).
Il coeff. di correlazione è indipendente
dalla scala di misura:
Correlazione tra voto all’esame di
psicometria e voto all’esame di fisiologia:
Correlazione significativa ed elevata.
Il 46% della variabilità del voto
all’esame di fisiologia può essere
spiegata a partire dalla conoscenza
del voto di psicometria (e vice versa)
Correlazione tra altezza e punteggio
all’esame di psicometria:
Correlazione prossima allo zero e
non significativa.
Non è influenzata dalla scala di
misura
Ansia pre-esame e voto all’esame
Correlazione tra tensione durante
l’esame e voto di psicometria:
Trend quadratico: p < .001
Conoscendo il voto di psicometria di uno
studente, possiamo fare una previsione sul voto
che otterrà all’esame di fisiologia?
regressione
Individuare la retta nello spazio
bi-dimensionale
che più si avvicina ai punti che
rappresentano le osservazioni
(criterio dei minimi quadrati)
Conoscendo il voto di psicometria di uno
studente, possiamo fare una previsione sul voto
che otterrà all’esame di fisiologia?

La retta è rappresentata dall’equazione
Y’ = A + B X
dove:
Y’ è il punteggio previsto
A è il valore di Y quando X = 0
B è la pendenza della linea
(rappresenta quanto cambia Y
al cambiare di X di un’unità)
X è il valore della variabile dalla
quale Y viene previsto.
La differenza tra i valori previsti Y’ e i valori osservati Y rappresenta
l’errore di previsione o residuo.
Attraverso l’analisi di regressione si individua l’equazione che minimizza
i residui elevati al quadrato.
Previsione del punteggio di fisiologia a
partire dal punteggio di psicometria


Criterio (VD) –
punteggio di fisiologia
Predittore (IV) –
punteggio di psicometria
Criterio (la variabile
che vogliamo
prevedere)
Predittori
Dopo aver indicato criterio e
predittore/i, cliccare su OK
Osserviamo l’output:
1) Il modello di regressione
Nella nostra analisi stiamo testando un unico modello, con un
unico predittore (indicato nella colonna “variabili inserite”):
esame.psicometria
Esame psicometria
Esame fisiologia
2. Riepilogo del modello
Questa tabella fornisce le seguenti informazioni:
- R2 = Percentuale di varianza spiegata
- R2 corretto = aggiustamento del valore di R2 per tener
conto del fatto che, soprattutto nei piccoli campioni, questa
statistica tende ad essere sovrastimata
3. Test del modello
Il nostro modello è significativo, F (1, 48) = 41.581,
p < .001
4. Tabella dei coefficienti
Esame.fisiologia = 4.169 + .832 * esame.psicometria + errore
Y’ = 4.169 + .832 * X
Testiamo il legame tra l’ansia pre-esame e
il voto di psicometria (r = - .382)

Criterio = ?
Predittore = ?

Il modello:

Ansia pre-esame
Voto di psicometria
Analisi di regressione
Nella regressione lineare
semplice, R = | r |
Nella regressione lineare
semplice, beta = r
L’equazione di regressione: VOTO PREVISTO = 26.796 - .389 * ANSIA
Da soli: esiste un legame tra il nr. di ore
trascorse a ripassare e il voto di
psicometria?
Provate a fare tutti i passaggi:
- diagramma a dispersione: suggerisce la presenza di una relazione
lineare tra le variabili?
- la correlazione è significativa?
- in tal caso: qual è l’equazione di regressione? Come varia il voto previsto
all’esame all’aumentare di un’ora di studio?
Problemi importanti nella regressione:

Gamma di osservazioni ristretta
Quando la gamma delle risposte in una o entrambe le variabili è
ristretta, il coefficiente di correlazione è sottostimato.

Presenza di outliers
Outlier univariato: caso con un valore così estremo in una
variabile da distorcere le statistiche
Outlier multivariato: caso con una combinazione strana di
punteggi su due o più variabili, che distorce le statistiche
Gli outliers hanno un impatto molto maggiore sul coefficiente di
regressione, rispetto agli altri casi
Gamma di osservazioni ristretta

Esempio: esiste un legame tra età e tempi di reazione, ma questo
difficilmente emerge con un campione di studenti universitari (la
gamma di età è troppo ristretta)
Presenza di outliers

Ragioni per la presenza di outliers




Errori nell’inserimento dei dati (soluzione: correzione dei
dati sbagliati)
Mancanza di specificazione dei codici “valori mancanti”
(soluzione: indicazione dei valori mancanti)
Errore nel campionamento – il caso non fa parte della
popolazione a cui siamo interessati (soluzione: eliminare il
dato)
Caso estremo – il caso fa parte della popolazione
(soluzione: trasformazione dei dati per ridurne l’impatto)
Effetti degli outlier

Legame tra autocollocazione politica
(1=estrema sinistra, 9=estrema destra) e
pregiudizio razziale (1=estremamente basso;
9 = estremamente alto)
Una tabella di frequenze o un grafico a dispersione ci
permettono di individuare eventuali valori “fuori gamma”
Prima della correzione
Dopo la correzione
Legame tra autocollocazione politica e
cinismo politico
Trasformazione della variabile per
diminuire l’effetto dei valori estremi
Prima della trasformazione
Dopo la trasformazione
Verifichiamo la normalità della distribuzione,
prima e dopo la trasformazione
(Asimmetria e curtosi verranno affrontate in una slide successiva)
Indagare la normalità

Statisticamente:



Asimmetria – se la variabile è asimmetrica la
media non rappresenta il centro della
distribuzione
Curtosi – grado di assembramento delle variabili
intorno alla media o dispersione nelle code
Se la variabile è normale, asimmetria = 0, curtosi
=0

asimmetria positiva = coda lunga a destra;
asimmetria negativa = coda lunga a sinistra
Significatività di asimmetria e curtosi
Per valutare se la distribuzione devia significativamente dalla normalità,
si dividono i valori di asimmetria e curtosi per i rispettivi errori standard e
si confrontano questi valori con l’ipotesi nulla che siano uguali a zero.
Con campioni piccoli o moderati si usano valori di alpha convenzionali
ma conservativi (.01 o .001), ma se il campione è ampio è meglio
osservare la forma della distribuzione anziché usare test di inferenza
statistica formali.
(Con campioni ampi, indici di asimmetria o curtosi significativi non sono
necessariamente spie di una forte deviazione dalla normalità)
Come indagare la normalità

Graficamente


Istogrammi di frequenza, con visualizzazione della
distribuzione normale
Grafici P-P
Per ottenere l’istogramma a barre con la
sovraimposizione della curva normale:
Grafici P-P
Grafico P-P (probabilità cumulativa osservata vs. probabilità
cumulativa prevista)

Come si legge il grafico P-P :


Se la distribuzione è normale i punti dei casi
cadono sulla diagonale;
le deviazioni dalla normalità spostano i casi dalla
diagonale

Come si legge il grafico della probabilità P-P
detrendizzata:


Sono rappresentate le deviazioni dalla diagonale;
Se la variabile è distribuita normalmente, i casi si
distribuiscono sopra e sotto la linea orizzontale.
Regressione lineare multipla





E’ un’estensione della regressione lineare semplice.
Due o più predittori vengono combinati linearmente per prevedere il
valore del criterio in ciascuna osservazione.
Equazione:
L’obiettivo dell’analisi di regressione è arrivare a un insieme di valori
B (coefficienti di regressione) tali da minimizzare lo scostamento tra
i valori Y’ predetti e i valori Y osservati (criterio dei minimi quadrati).
Come risultato dell’analisi di regressione, abbiamo anche il
COEFFICIENTE DI CORRELAZIONE MULTIPLA R, ossia la
correlazione tra Y’ e Y.
Spesso l’obiettivo dell’analisi di regressione è individuare
il legame tra un insieme di variabili predittrici e una
variabile criterio.
Es. child_data.sav
E’ possibile prevedere le abilità di lettura a partire da QI e
memoria a breve termine?
Criterio: ?
Predittori: ?
Il modello
Q.I.
Capacità di lettura
Span di memoria
I coefficienti di correlazione bivariati
L’output: 1 Il modello
2. Riepilogo del modello
R: coefficiente di correlazione multipla – indica la correlazione tra Y’ e Y
R2: percentuale di varianza spiegata della variabile Y attraverso il modello
di regressione
R2: percentuale di varianza spiegata corretta (per tener conto della
sovrastima di R)
3. Test del modello
Esiste una relazione significativa tra i predittori nel loro complesso e il criterio.
Il modello che abbiamo testato è significativo, F (2, 37) = 40.006, p < .001.
4. Coefficienti di regressione
La retta di regressione:
Abilità di lettura prevista = 2.936 + 1.015 * memory span -.012 IQ
Nota: solo memory span è un predittore significativo
Provate: file ripasso.esami.sav


Dati di 20 studenti.
Vogliamo vedere se il punteggio all’esame è legato a
 Ore trascorse a ripassare
 Livello di ansia
 Punteggio al test d’ingresso al corso
Il modello:
Ore trascorse a
ripassare
Punteggio all’esame
Livello di ansia
Punteggio al test
d’ingresso
I coefficienti di correlazione bivariati
L’analisi di regressione
Provate: consumo.gelati.sav

Il numero di gelati consumati in un’estate può essere previsto
sulla base di:
 Prezzo medio dei gelati in una certa area
 Temperatura media in quell’area
 Reddito del consumatore?
Il modello:
Prezzo medio dei gelati
Temperatura
Reddito del
consumatore
Numero gelati
consumati
I coefficienti di correlazione
Il prezzo medio dei gelati ha una
gamma troppo ristretta:
Il modello:
Prezzo medio dei gelati
Temperatura
Reddito del
consumatore
Numero gelati
consumati
L’analisi di regressione
Analisi di regressione sequenziale
Spesso nella regressione si desidera
analizzare l’effetto di uno o più predittori sul
criterio,
controllando statisticamente l’effetto di altre
variabili (covariate).
Esempio: qual è l’effetto di QI e memoria di
lavoro su capacità di lettura, se teniamo sotto
controllo l’effetto dell’età?
Multicollinearità
=
•
•

i predittori sono troppo correlati tra di loro
causa problemi logici (ridondanza)
causa problemi statistici (aumenta la dimensione dei termini d’errore,
indebolendo l’analisi)
Nel caso due predittori siano altamente correlati (es. r > .70)



omettere una delle variabili
creare un punteggio composito
SPSS calcola la tolleranza (1 – SMC)


SMC: correlazione multipla di una variabile con tutte le altre, elevata al
quadrato
Se la SMC è elevata, la variabile è altamente correlata con le altre
dell’insieme: situazione di multicollinearità
Statistiche di collinearità:
Tolleranza: Varia tra 0 e 1.
Valori più elevati indicano
minore multicollinearità.
VIF =Variance Inflaction Factor (Fattore
di inflazione della varianza – è il
reciproco della tolleranza)
VIF = 1 se i predittori sono ortogonali.
VIF maggiori di 1 indicano presenza di
relazione tra i predittori.
La radice quadrata di VIF indica quanto
più largo è l’errore standard rispetto al
caso in cui i fattori non fossero correlati.
Correlazione troppo
elevata tra i due
predittori
Modello di
mediazione?
Se teniamo sotto controllo l’effetto dell’età, c’è un legame tra IQ e abilità di
lettura:
Questo effetto non emergeva quando non tenevamo sotto controllo statistico
l’età
Indagare la presenza di
multicollinearità nel modello

Ripasso.esami.sav
Indagare la presenza di
multicollinearità nel modello

Consumo.gelati.sav
Fly UP