Analisi Multivariata dei Dati Bontà del modello di Regressione
by user
Comments
Transcript
Analisi Multivariata dei Dati Bontà del modello di Regressione
Analisi Multivariata dei Dati Bontà del modello di Regressione A M D Marcello Gallucci Milano-Bicocca Lezione: II Regressione NS La retta di regressione rappresenta la predizione lineare (o dipendenza lineare) tra una variabile indipendente ed una dipendente, espressa nelle unità di misura originali 10 9 8 7 6 5 4 SORRISI 3 2 1 0 -2 -1 BIRRE 0 1 2 3 4 5 6 7 8 9 10 11 12 Regressione NS La retta di regressione potrà dunque essere scritta come y =ab yx x Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error 2.091 .684 .709 .116 Standardized Coefficients Beta .898 t 3.057 6.132 y =2 . 09. 70 x Sig. .014 .000 a. Dependent Variable: SMILES 10 9 b 8 In media, per ogni birra bevuta ci aspettiamo il .7 sorrisi in piu’ 7 6 5 4 Quando non si è bevuta neanche una birra, ci aspettiamo 2.09 sorrisi SORRISI a 3 2 1 0 -2 -1 BIRRE 0 1 2 3 4 5 6 7 8 9 10 11 12 Bonta’ di adattamento L’ R-quadro viene comunmente usato come indice di bonta’ di adattamento del modello di regressione ai dati basso R2 alto R2 All’aumentare dell valore di R2, diminuisce la dispersione dei punti intorno alla retta, dunque diminuisce l’errore Errori di regressione Notiamo che la predizione non corrisponde di norma ai valori osservati yˆ i = a + byx xi predetti errore yi − yˆ i = yi − (a + byx xi ) Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l’errore yi = (a + byx xi ) + ( yi − yˆ i ) retta errore Discrepanza osservatipredetti Quanto e’ grande l’errore di regressione Calcoliamoci la distanza media tra i punti osservati e la retta Le distanze si calcolano mediante le differenze al quadrato ∑ y i− y i =s 2 2 n−1 e Notiamo che questa e’ una varianza, che chiameremo varianza di errore Discrepanza osservatipredetti Quanto e’ buona la regressione Se Y e’ funzione della retta e dell’errore, cosi’ sara’ la sua viarianza Decomponiamo la varianza di Y s =s 2 y 2 reg +s 2 e La nostra retta sara tanto piu’ buona quanto sara’ grande la varianza spiegata dalla regressione 2 sreg = s y2 − se2 s 2 y se2 YYs Varianza spiegata 2 regX R2=% di varianza spiegata Essendo una quantita’ relativa, non dipende dalla grandezza assoluta della varianza di Y, inclusa varianza uquale a 1 s 2 eY Y s 2 reg X s 2 sreg Dunque questa quantita’ e’ data da R2 s 2 y = s 2Y Y ez zz 2 Xz regz s y2 − se2 s 2 y =R 2 yx In alcuni testi R2 viene chiamato coefficiente di determinazione % di varianza non spiegata La varianza non spiegata sara’ data dal complemento di R-quadro 2 e s Y Y s 2 reg X s Dunque questa quantita’ e’ data da 1-R2 2 e 2 y s = s 2Y Yzz ez 2 s y2 − sreg s 2 y s X z 2 regz = 1− R In alcuni testi 1-R2 viene chiamato coefficiente di alienazione 2 yx Predizione e Spiegazione Nelle tecniche che studieremo, così come nella regressione lineare, possiamo sempre considerare il fine della tecnica sia esplicativo che predittivo E’ importante capire che nella concezione statistica, predire una variabile è equivalente a spiegare la sua variabilità, e spiegare la variabilità di una variabile è equivalente a predire una variabile Predizione senza regressione Ricordiamo che in assenza di ogni ulteriore informazione, la miglior predizione che si può fare dei punteggi di una variabileIstogramma è predire il valore medio 120 100 Quale è lo stipendio più probabile di un accademico? Media=2145 Varianza=599 Frequenza yˆ i = M y 80 60 40 20 0 , 00 45 , 00 40 00 00 00 , 00 35 00 00 00 00 00 , 00 30 , 00 25 , 00 20 , 00 15 , 00 10 00 0, 50 stipendio Mean = 2145,3403 Std. Dev. = 599,06439 N = 1.200 Varianza ed errore di predizione Se predicessimo che tutti hanno un punteggio pari al valore medio, quale sarebbe il nostro errore? Istogramma Tutto ciò che si distanzia dalla media 120 100 y i −M y ∑ s= 2 n−1 60 40 20 0 Mean = 2145,3403 Std. Dev. = 599,06439 N = 1.200 , 00 45 , 00 40 00 00 00 , 00 35 stipendio 00 00 00 00 00 , 00 30 , 00 25 , 00 20 , 00 15 , 00 10 00 0, 50 Media=16.14 Varianza=20.38 2 Frequenza yi − yˆ i = yi − M y 80 Varianza ed errore di predizione La varianza della variabile da predire rappresenta sia l’errore che commettiamo nell’usare la media come predittore, sia tutta l’informazione che possiamo spiegare se usassimo un predittore migliore della media YY y i −M y ∑ s= 2 n−1 2 Varianza ed errore di predizione Consideriamo il diagramma di dispersione tra la nostra variabile dipendente ed una altra variabile, sempre nel caso volessimo usare il 4500,00 valore medio come predittore della VD 4000,00 Errore di predizione: Tutto ciò che si distanzia dalla media yi − M y 3500,00 stipendio 3000,00 2500,00 2000,00 y i −M y ∑ s= 2 n−1 2 1500,00 1000,00 500,00 0,00 20,00 40,00 60,00 pub 80,00 100,00 Regressione Se ora usiamo i valori di una variabile indipendente, pesati per i coefficienti di regressione, come predittori, il nostro punteggio predetto 4500,00 sarà generalmente diverso da prima 4000,00 Valori predetti 3000,00 stipendio yˆ i = a + byx xi 3500,00 2500,00 2000,00 1500,00 1000,00 500,00 0,00 20,00 40,00 60,00 pub 80,00 100,00 Errore della Regressione Anche la predizione fatta con la regressione commetterà degli errori, cioè il valore predetto non coinciderà perfettamente con il valore 4500,00 osservato 4000,00 Errore che commettiamo 3500,00 stipendio yi − yˆ i = yi − (a + byx xi ) 3000,00 2500,00 2000,00 [ y i − ab yx x i ] ∑ s= 2 2 e n−1 1500,00 1000,00 500,00 0,00 20,00 40,00 60,00 pub 80,00 100,00 Varianza di errore Questa varianza, detta di errore, indica la parte della varianza della VD che non è predicibile mediante i punteggi della VI e Media degli errori di regressione 2 [ y − ab x ] 2 ∑ i yx i se= n−1 X % Varianza di errore Rapportando tutto a 1 (standardizzando) otteniamo la percentuale di errore % di errore di regressione e errore di regressione 2 e 2 y s s [ y i−(a+b yx x i)] ∑ = 2 ∑ ( y i−M y) 2 massimo errore totale X Riduzione dell’errore Potremo dire che l’errore di predizione si è ridotto, al confronto con l’errore che facevamo senza usare la regressione (usando cioè la media di Y come valore predetto) e % di riduzione s 2 y 2 y 2 e 2 y 2 e 2 y s s − = 1− = 1− e s s s X Varianza spiegata Quella parte della varianza che non è di errore, sarà varianza che possiamo spiegare (predire) grazie all’uso della regressione e Chiamiamo tale % di varianza: R2 s 2 y 2 y 2 e 2 y 2 e 2 y s s 2 − = 1 − = R yx s s s X Decomposizione della Varianza Dunque la varianza di errore iniziale, cioè la varianza della y, dopo la regressione si può decomporre in % di varianza di errore:1-R2 e X % di varianza spiegata: R2 s 2 y 2 y s 2 reg 2 y s = + s s s 2 e 2 y Predizione e Spiegazione All’aumentare della correlazione, aumenta la nostra capacità di predire il cambiamento di una variabile usando la variabilità dell’altra All’aumentare della correlazione, aumenta la nostra capacità di spiegare la variabilità una variabile usando la variabilità dell’altra In sostanza, predire una variabile mediante un’altra ci consente di spiegarne la variabilità. Migliore è l’adeguatezza della nostra predizione, migliore è la capacità esplicativa Spiegazione e Causalità Spiegare la variabilità statistica di una variabile non significa spiegare le cause del fenomeno che la variabile misura La spiegazione statistica dipende dalla bontà del modello statistico e dall’associazione fra variabili La spiegazione causale dipende dalla spiegazione statistica e dalla fondatezza teorica del modello utilizzato Esempio In ricerca sull’anoressia sono state misurate su un campione di 85 donne la propria “figura reale”, la “figura ideale” e l’autostima. Pictorial Body Image Scale Regressione con SPSS Lezione III Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima (media di dieci items su scala da 0 a 6). Statistiche descrittive N figura_ideale Autostima Validi (listwise) 85 85 85 Minimo 1 .66172 Massimo 4 6.00000 Media 3.15 4.0000000 Deviazione std. .681 1.50000000 Lezione: II Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima. Lezione: II Output Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std. 2.683 .206 .117 .048 Coefficienti standardizzati Beta .258 t 13.048 2.437 Sig. .000 .017 a. Variabile dipendente: figura_ideale Lezione: II Output Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std. 2.683 .206 .117 .048 Coefficienti standardizzati Beta .258 t 13.048 2.437 Sig. .000 .017 a. Variabile dipendente: figura_ideale Per ogni punto in più di autostima, la figura ideale aumenta di .117 Per autostima molto bassa (x=0) si preferisce una figura molto magra (2.6) Lezione: II Cioè Media attesa per autostima molto bassa Aumentando l’autostima… Lezione: II Output Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std. 2.683 .206 .117 .048 Coefficienti standardizzati Beta .258 t 13.048 2.437 Sig. .000 .017 a. Variabile dipendente: figura_ideale In termini di correlazione Ad una devizione standard sopra la media di autostima, corrisponde un incremento della “figura” di .25 deviazioni standad Lezione: II Interpretazione C’è dunque una relazione tra figura ideale ed autostima, nel senso che per minori livelli di autostima si tende ad una figura ideale più magra Quanto è forte questa relazione? Lezione: II Interpretazione Lezione: II Corrispondenze Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std. 2.683 .206 .117 .048 Coefficienti standardizzati Beta .258 t 13.048 2.437 Sig. .000 .017 a. Variabile dipendente: figura_ideale Lezione: II Fine Fine della Lezione II