Comments
Transcript
INFERENZA SUL COEFFICIENTE DI CORRELAZIONE Richiami
INFERENZA SUL COEFFICIENTE DI CORRELAZIONE Richiami sulla normale doppia La distribuzione normale doppia è descritta dalla funzione di densità seguente − 1 f ( x, y ) = 2πσ X σY 1 − ρ 2 e x −µ X 2 (1−ρ ) σ X 1 2 2 x −µ X −2ρ σX y −µY σY y −µY + σY 2 , ∞ < x , y < ∞, dove σ X > 0, σY > 0, e ρ ∈ [−1, 1]. Graficamente. … 10.4.1. Inferenza sul coefficiente di correlazione Sia ( X 1 , Y1 ), ( X 2 , Y2 ), K , ( X n , Yn ) un campione proveniente da una popolazione normale doppia. Si può dimostrare (Sadowski, 1971, pp. 2457) che lo stimatore di massima verosimiglianza di ρ è il coefficiente di correlazione del campione r= ∑1n( X i − X )(Yi − Y ) ∑1n( X i − X ) 2 ∑1n(Yi − Y ) 2 . Un’espressione equivalente di r, utile per i calcoli, è data da r= ∑1n X i Yi − (∑1n X i ∑1nYi ) n [∑1n X i2 − ( ∑1n X i ) 2 n][∑1nYi 2 − ∑1nYi ) 2 n] Nel caso particolare in cui ρ = 0, si può dimostrare (Birnbaum, 1964, pp. 226-7) che la variabile casuale T= r 1− r 2 n − 2 , per n ≥ 3 , ha dimostrazione t di Student con n − 2 gradi di libertà. Nel caso generale, la distribuzione di r è alquanto complicata; tuttavia si può dimostrare (Birnbaum, 1964, p. 226) che la distribuzione della variabile casuale 1 U= 1 1+ r ln , 2 1− r nota come trasformata di Fisher, è prossima alla normale con media e varianza date, rispettivamente, da ρ 1 1+ ρ 1 E(U ) = ln + , Var(U ) = . 2 1 − ρ 2( n − 1) n−3 Quando il campione ha ampiezza sufficientemente elevata, si può prendere come media approssimata di U la quantità 1 ln (1 + ρ) (1 − ρ) . 2 Intervallo fiduciario per ρ Usando la trasformata di Fisher, è facile determinare un intervallo fiduciario per 1 1+ ρ ln . Si può scrivere infatti 2 1− ρ 0,5 ln[(1 + r ) (1 − r )] − 0,5 ln[(1 + ρ) (1 − ρ)] P − z α 2 ≤ ≤ z α 2 ≈ 1 − α, 1 n−3 da cui, risolvendo rispetto a ρ, dopo qualche passaggio algebrico, si ricava (1 + r ) − (1 − r )e 2 zα 2 P (1 + r ) + (1 − r )e 2 zα 2 n −3 n−3 ≤ρ≤ (1 + r ) − (1 − r )e (1 + r ) + (1 − r )e − 2 zα 2 − 2 zα 2 ≈ 1 − α. n −3 n −3 Esempio 10.8. Si voglia determinare un intervallo fiduciario per ρ al 95% con i dati dell’Esempio 10.1 che qui si riproducono. 2 Individuo Pressione Età Individuo Pressione Età i Yi xi i Yi xi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 144 220 138 145 162 142 170 124 158 154 162 150 140 110 39 47 45 47 65 46 67 42 67 56 64 56 59 34 16 17 18 19 20 21 22 23 24 25 26 27 28 29 130 135 114 116 124 136 142 120 120 160 158 144 130 125 48 45 17 20 19 36 50 39 21 44 53 63 29 25 15 128 42 30 175 69 Si ha r= 199.576 − (1.354 × 4.276) 30 [67.894 − 1.35 4 2 30][624.260 − 4.2 76 2 30] I limiti fiduciari al 95% per ρ (1 + 0,66) − (1 − 0,66)e 2×1,96 27 (1 + 0,66) + (1 − 0,66)e 2×1,96 27 = 0,66. sono: = 0,39, (1 + 0,66) − (1 − 0,66)e − 2×1,96 27 (1 + 0,66) + (1 − 0,66)e − 2×1,96 27 = 0,82. In altri termini ρ è compreso verosimilmente nell’intervallo (0,39, 0,82). Verifica di ipotesi su ρ Per la verifica dell’ipotesi nulla H 0 : ρ = ρ 0 contro l’alternativa H 1 : ρ ≠ ρ 0 (si farà riferimento, per brevità, solo a questa ipotesi alternativa, negli altri casi si procede in modo simile), si usa come statistica test la trasformata di 1 2 Fisher di r, U = ln 1+ r . Tenendo presente quanto detto poc’anzi intorno 1− r alla distribuzione di U, è facile stabilire che la zona di rifiuto del test è R = {z : | z | ≥ z α 2 }, dove naturalmente 3 z= u − E(U ) Var(U) . Se ρ 0 = 0, si può utilizzare come statistica test il rapporto t= r 1− r2 n − 2. In questo caso, la zona di rifiuto è R = {t : | t | ≥ t α 2 }, dove t α 2 è il centile della distribuzione t di Student con n − 2 gradi di libertà. Esempio 10.9. Riprendendo ancora i dati dell’Esempio 10.1, si voglia verificare l’ipotesi H 0 : ρ = 0,5, contro l’alternativa H 1 : ρ ≠ 0,5 ad un livello di significatività del 5%. Poiché r = 0,66, si ha u= 1 1,66 ln = 0,79. 2 0,34 Essendo z= 0,79 − [ln(1,5 0,5)] 2 + 0,5 (2 × 29) 1 27 = 1,20 < 1,96, l’ipotesi nulla non viene rifiutata. Si consideri ora il problema della verifica dell’ipotesi H 0 : ρ = 0, contro l’alternativa H 0 : ρ ≠ 0. In questo caso, si ha t= Siccome t 0, 025 = 2,048, 0,66 1 − 0,66 2 28 = 4,65. si deve concludere che r è significativamente diverso da 0. 4