Comments
Description
Transcript
Lez_Cap4 – II parte
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE • E’ necessaria l’ipotesi di normalità dei termini stocastici • Interpretazione dell’intervallo di confidenza, fissato il livello di significatività (ad esempio per ). Se estraessi più campioni; ognuno fornirebbe valori diversi della stima OLS di e quindi diversi intervalli di confidenza; l’(1-)% di questi intervalli includerebbe , mentre solo nell’ % dei casi devierebbe da per più di un certo . 1 • Verifica d’ipotesi, fissato il livello di significatività (ad esempio per ). Sia data una congettura (ipotesi nulla), che si assume vera, attraverso la verifica d’ipotesi si valuta l’entità della discrepanza tra quanto osservato nei dati campionari e quanto previsto sotto ipotesi nulla. Se, fissato il livello di significatività , la “discrepanza” è significativa l’ipotesi nulla viene rifiutata, altrimenti l’ipotesi nulla non può essere rifiutata. 2 INTERVALLI DI CONFIDENZA SICCOME 2 u ˆ : N , xi2 ˆ standardizzando u : N 0,1 2 x i ˆ x : N 0,1 2 i u n 2s 2 u2 OVVERO: n 2 ˆ sˆ : 2 n 2 /g.l. : t n 2 T-Student con (n-2) g.l. 3 Quindi l’intervallo di confidenza per all’(1-)% si determina nel seguente modo: Prob t / 2 tn 2 t / 2 1 Prob ˆ t / 2 sˆ ˆ t / 2 sˆ 1 Limite inferiore Limite superiore In sostanza l’intervallo di confidenza fornisce il range di valori in cui verosimilmente cade il vero valore del parametro 4 VERIFICA DI IPOTESI • • • • Fissato il livello di significatività Ipotesi nulla Ipotesi alternativa Statistica test Regione di Accettazione o di Rifiuto del test 5 VERIFICA DI IPOTESI: SIGNIFICATIVITA’ di H0 : 0 HA : 0 ˆ 0 sˆ ˆ sˆ NON ESISTE RELAZIONE LINEARE TRA X ED Y STATISTICA TEST tn 2 REGIONE CRITICA SI RESPINGE L’IPOTESI NULLA SE: ˆ sˆ t / 2, n 2 REGOLA D’ORO QUANDO n è grande, t-student ad una Normale, quindi se fissiamo il 5% come livello di significatività, possiamo adottare la “regola d’oro”: se ALLORA SI RIFIUTA L’IPOTESI ˆ 2 NULLA: sˆ H0 : 0 6 VERIFICA DI IPOTESI H0: = 0 • Se 0 è una costante si può verificare: H0: = 0 H1 : 0 ˆ 0 sˆ tn 2 STATISTICA TEST SI RESPINGE L’IPOTESI NULLA SE: ˆ 0 sˆ t / 2,n 2 N.B. ancora una volta se n è grande la distribuzione t-Student si approssima alla distribuzione normale standardizzata 7 Significato del coefficiente • esprime di quanto varia mediamente Y in conseguenza di una variazione unitaria di X. • Se >0, al crescere di X cresce anche Y (relazione lineare diretta) • Se <0, al crescere di X, Y decresce (relazione lineare inversa) 8 REGRESSIONE E CORRELAZIONE xi Y N COPPIE DI PUNTI Q P Yi V yi S X ,Y S Y i=1, …, N R P xi , yi B PV X i PT Yi T 0 A Xi X X I QUADRANTE: IL PRODOTTO xi yi 0 II QUADRANTE: IL PRODOTTO xi yi 0 III QUADRANTE: IL PRODOTTO xi yi 0 IV QUADRANTE: IL PRODOTTO xi yi 0 xi yi X i X Yi Y 9 LA FUNZIONE xi yi MISURA l’intensità del LEGAME LINEARE TRA X ED Y. 1 Cov( X , Y ) n 1 xi yi n sX ( X 2 x i r i X )(Yi Y ) COVARIANZA sY n x i yi s X sY 2 y i n COEFFICIENTE DI CORRELAZIONE DI BRAVAIS-PEARSON R è un indice relativo, ossia non dipende dall’unità di misura delle variabili X, Y 10 SE SULLE N COPPIE DI OSSERVAZIONI STIMIAMO UN MODELLO LINEARE Y X SICCOME ˆ x y x i i 2 i ALLORA ABBIAMO: s r ˆ x sy MISURA DEL LEGAME LINEARE TRA X ED Y MISURA DELLA DIPENDENZA LINEARE DI Y DA X Osservazione: SE SI È ACCERTATA L’ESISTENZA DI UN LEGAME LINEARE SONO POSSIBILI DUE TIPI DI DIPENDENZA LINEARE: QUELLO DI Y DA X E QUELLO DI X DA Y; CONSIDERAZIONE: NELL’ANALISI DI REGRESSIONE È NECESSARIO DECIDERE “EX ANTE” QUALE TIPO DI DIPENDENZA SI VUOLE CONSIDERARE; 11 CONSIDERAZIONE: L’ANALISI DI CORRELAZIONE PRESCINDE DA LEGAMI CAUSALI; QUELLA DI REGRESSIONE È BASATA SUI LEGAMI CAUSALI; CONSIDERAZIONE: CORRELAZIONE E CAUSALITÀ. ESEMPIO: NUMERO DI MALATI DI UNA DATA PATOLOGIA PER ZONA (X), NUMERO DI MEDICI PRESENTI PER ZONA (Y). SE r INDICA ALTA CORRELAZIONE QUESTO NON SIGNIFICA CHE UN ELEVATO NUMERO DI MEDICI CAUSA UN ELEVATO NUMERO DI MALATI MA SIGNIFICA SOLO CHE TRA LE DUE VARIABILI ESISTE UN ALTO LEGAME LINEARE; 12 PROPRIETÀ DEI RESIDUI Y Y P(xi,yi) • • • Q• • •R • •• • • • • • Yˆ ˆ ˆX ˆ ˆx y • • • PR Yi Y yi QR Yˆi Y yˆi PQ Yi Yˆi uˆi RESIDUO S X X uˆ i ˆi yi ̂xi uˆi yi y 0 uˆ y x 0 i i i Sono somme degli scarti dalla media, quindi sono zero 13 SCOMPOSIZIONE DELLA DEVIANZA • Dal precedente grafico: Yi Y (Yi Yˆi ) (Yˆi Y ) 2 ( Y Y ) i 2 2 ˆ ˆ ( Y Y ) ( Y Y ) 2 (Yi Yˆi )(Yˆi Y ) i i i ˆ ˆ u ( Y Y ) u Y i i i i Y ui ui (ˆ ˆX i ) 0 2 2 2 ˆ ˆ ( Y Y ) ( Y Y ) ( Y Y ) i i i i DEVIANZA TOTALE TSS = Total Sum = Square DEVIANZA DEVIANZA RESIDUA SPIEGATA RSS + ESS Residual Sum + Explained Sum 14 Square Square Dividendo tutto per TSS si ottiene: RSS ESS 1 TSS TSS Si definisce COEFFICIENTE DI DETERMINAZIONE ESS RSS R 1 TSS TSS 2 Tale coefficiente rappresenta la proporzione di devianza totale spiegata dal modello di regressione lineare di Y su X. 0 R2 1 Dato che MAX ESS TSS Quando il modello non spiega niente della variabilità di Y Tutta la variabilità di Y è spiegata dal modello 15 SE R²=0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA COMPONENTE CASUALE (RESIDUO). SE R²=1 TUTTI GLI N VALORI EMPIRICI OSSERVATI GIACCIONO ESATTAMENTE SULLA RETTA DI REGRESSIONE; IL CONTRIBUTO ALLA DEVIANZA COMPLESSIVA È SOLO FORNITO DAL MODELLO. NEI CASI INTERMEDI, QUANTO PIÙ R² È PROSSIMO AD UNO O A ZERO, TANTO PIÙ/MENO LA VARIABILITÀ COMPLESSIVA È SPIEGATA DAL MODELLO PRESCELTO. AD ESEMPIO, UN VALORE r²=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO RIESCE A SPIEGARE L’80 PER CENTO DELLA VARIABILITÀ COMPLESSIVA. 16 Il coefficiente di determinazione rappresenta un indice di fitting (da prendere con cautela!), in quanto misura l’adattabilità del modello specificato ai dati. Vediamo che relazione c’è tra R2 ed i parametri della retta di regressione. Per fare questo consideriamo il modello in forma di scarti ˆ i ˆxi y Ogni osservazione della variabile dipendente può essere scomposta in ˆ i ui yi y y 2 i 2 2 2 ˆ ˆ ( y i u i ) yi u i u yˆ ˆ u x 0 i i i i 2 2 ˆ 2 xi ui 17 Ne consegue che ESS 2 R TSS 2 ˆ y i sX 2 2 xi 2 ˆ ˆ ( ) ( r ) 2 2 sY y y i i 2 QUINDI IL COEFFICIENTE DI DETERMINAZIONE È UGUALE AL QUADRATO DEL COEFFICIENTE DI CORRELAZIONE. UNA SEMPLICE ED EFFICIENTE RELAZIONE PER IL COEFFICIENTE DI DETERMINAZIONE SI PUÒ RICAVARE ANCHE DA: ui RSS 2 R 1 1 2 TSS y i 2 18 ANALISI DELLA VARIANZA (ANOVA) La scomposizione TSS RSS ESS O equivalentemente y 2 i 2 ˆ ui yi 2 MOSTRA LA SCOMPOSIZIONE DELLA VARIABILITÀ TOTALE (in forma di DEVIANZA) NEI CONTRIBUTI della COMPONENTE DI ERRORE e del MODELLO specificato. INOLTRE: SAPPIAMO CHE: ESS yˆi 2 ˆ 2 xi 2 ˆ x 2 i u : N (0,1) 19 ALLORA: ˆ x 2 2 i u2 Quadrato di una N(0,1) : (21) SI PUÒ DIMOSTRARE CHE: 2 u i u2 ALLORA: ˆ x 2 u 2 i 2 i /( n 2) : (2n 2 ) : F(1,n 2 ) Rapporto tra Chi-Quadrato divise per i propri g.l. Pertanto per verificare l’ipotesi H 0 : 0 H1 : 0 Si può utilizzare la suddetta statistica test che sotto ipotesi nulla è x ˆ 2 2 i ESS / 1 : F(1,n 2 ) 2 ui /( n 2) RSS /( n 2) 20 Intuitivamente un forte legame lineare tra X e Y determinerà valori elevati per la statistica test bontà del modello. Pertanto valori grandi della statistica test portano al rifiuto dell’ipotesi nulla. Formalmente, se F F1,n2 H0 : 0 viene rifiutata, Valore empirico Valore teorico Osservazione: nel caso del modello di regressione lineare semplice, applicare il test t o F è equivalente, in entrambi i casi si verifica la significatività dell’unico parametro di regressione, ma nel caso del modello di regressione lineare multipla il test F servirà per verificare la ‘bontà’ del modello nel suo complesso e quindi la significatività congiunta di tutti i parametri di regressione. 21 TAVOLA ANOVA CAUSA VARIAZIONE MODELLO DEVIANZE ui RESIDUO 2 1 2 (n-2) yi yˆi ui 2 TOTALE ˆi y GRADI DI LIBERTÀ 2 2 STIME CORRETTE DELLA VARIANZA ˆ xi yi 1 ui /(n 2) 2 (n-1) 22 PREVISIONE • Il modello di regressione stimato spesso viene utilizzato a fini previsivi, ovvero per stimare il valore della variabile dipendente che corrisponde ad un determinato valore della variabile indipendente Yˆ0 ˆ ˆX 0 Lo standard error di tale valore previsto è 1 s.e.(Yˆ0 ) s 1 n ( X 0 X )2 2 ( X X ) i Pertanto i limiti dell’intervallo di confidenza per il valore previsto, fissato un livello di confidenza pari a 1- 23 Yˆ0 t( n 2, / 2 ) s.e.(Yˆ0 ) Si osservi che il valore dello s.e. aumenta al crescere della distanza tra X0 e il valor medio di X, pertanto la qualità della previsione diverrà sempre peggiore. Inoltre può accadere che la linearità della relazione tra Y e X sia limitata alla nuvola di punti osservati e che fuori tale relazione non sia valida, pertanto può essere totalmente fuorviante prevedere un valore di Y partendo da un valore di X che è al di fuori del range dei valori osservati 24 ESEMPIO NUMERICO Yi Xi yi xi 166 153 177 201 216 208 227 238 268 268 274 352 373 411 441 462 490 529 577 641 692 743 -51.8 -64.8 -40.8 -16.8 -1.8 -9.8 9.2 20.2 50.2 50.2 56.2 -167.2 -146.2 -108.2 -78.2 -57.2 -29.2 9.8 57.8 121.8 172.8 223.8 ANNI 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 n=11 Σ=2396 Σ=5711 MEDIAy=217.8 MEDIAx=519.2 ˆ x y x i i 2 i xiyi 8660.96 9473.76 4414.56 1313.76 102.96 286.16 90.16 1167.56 6114.36 8674.56 12577.56 xi² 27955.84 21374.44 11707.24 6115.24 3271.84 852.64 96.04 3340.84 14835.24 29859.84 50086.44 Σ=52876.36 Σ=169495.64 52876.36 0.312 169495.64 ˆ y ˆ x 217.8 0.312 519.2 55.81 yˆ i 55.81 0.312 xi Y→ INCIDENTI STRADALI (X1000) X →VEICOLI CIRCOLANTI (X1000) Y y } 0 x 25 X n 11, X i 5711, Yi 2396 2 X i 3134543, X iYi 1296836 x y 2 169495.64, xi yi 52876.36 2 17619.64, ˆ 55.81, ˆ 0.312 i i sˆ eˆi FONTE 2 n 2 11.18 SS MODELLO RESIDUO TOTALE 16497.42 1124.33 17621.75 sˆˆ 0.03 DF MS 1 9 10 16497.42 124.93 F 132, F 0.01;1.9 10.56 H 0 : 0; F F ; RESPINTA INTERVALLO DI CONFIDENZA t t0.025 ; 95% 2 t 2 sˆ 2.262 11.18 ˆ 0.312 411.7 x2 0.2506 0.3734 95 VOLTE SU 100 IL VALORE DI β È COMPRESO TRA 0.25 E 0.37 26 x y x y r i i 2 i i 2 52876.36 169495.64 17619.64 1 2 0.97 LEGAME LINEARE POSITIVO E MOLTO ELEVATO, PARI AL 97% DEL MASSIMO VALORE POSSIBILE VERIFICA D’IPOTESI DISGIUNTA PER β t ˆ sˆ 0.312 10.4 0.03 t t 0.025;9 2.262 H 0 : 0 È RESPINTA Quindi la variabile veicoli circolanti risulta significativa 27