Variabili casuali, media e varianza campionaria, teorema centrale
by user
Comments
Transcript
Variabili casuali, media e varianza campionaria, teorema centrale
Capitolo 1 Alcune nozioni introduttive alla statistica 1.1 Valore atteso e varianza di variabili casuali Definizione 1. Se X è una variabile casuale discreta con distribuzione p(x), ossia P(X = xi ) = p(xi ) := pi per definizione il valore atteso di X, E(X), (spesso detto anche media) è X E(X) = xi p i . i Se X è una variabile casuale continua con densità π(x) ossia Z b P(a ≤ X ≤ b) = π(x) dx a Z +∞ E(X) = xπ(x) dx. −∞ E’ possibile dare una definizione unica di E(X), ma ciò richiederebbe l’introduzione del concetto dei spazio degli eventi e misure di probabilità. Alcune dimostrazioni diventerebbero molto più semplici in questo contesto, ma preferisco evitarlo qui. Data una qualunque funzione g : R → R anche Y = g(X) è una variabile casuale e si potrebbe calcolare E(Y ) = E(g(X))1 . Vale il seguente fatto, 1 Se g(X) è una variabile casuale che può assumere valori infinitamente grandi, non è detto che E(g(X)) sia ben definito. In particolare, non è detto che tutte le variabili casuali X ammettano valore atteso e varianza. Qua trascuriamo questi aspetti tecnici. 1 molto intuitivo, (P se X è discreta i g(xi )pi E(g(X)) = R +∞ g(x)π(x) dx se X è continua. −∞ (1.1) In particolare, definiamo in questo modo la varianza di X, V(X) come V(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 . (1.2) L’ultima identità si dimostra con qualche passaggio algebrico. La varianza è una misura della dispersione dei valori che può assumere X. La disuguaglianza di Chebysev, semplice da dimostrare ma molto importante teoricamente, mostra come la media e la varianza permettano di stimare la probabilità che X prenda valori lontani dalla media. Si ha infatti Teorema 1. Sia g : R → R+ una funzione nonnegativa, ossia g(x) ≥ 0. Si ha 1 P(g(X) ≥ k) ≤ E(g(X)). k In particolare, vale la disuguaglianza di Chebysev: P(|X − E(X)| ≥ c) ≤ 1 V(X). c2 (1.3) Dimostrazione. Do una dimostrazione nel caso di X continua, ma è analoga nel caso X discreta. Z Z Z +∞ g(x)π(x) dx g(x)π(x) dx+ g(x)π(x) dx = E(g(X)) = {x: g(x)≥k} {x: g(x)<k} −∞ Z Z g(x)π(x) dx ≥ k π(x) dx = kP(g(X) ≥ k). (1.4) ≥ {x: g(x)≥k} {x: g(x)≥k} Dividendo il primo e l’ultimo termine di (1.4) per k, otteniamo la tesi. Per dimostrare (1.3), basta scegliere g(x) = (x − E(X))2 e k = c2 si ottiene 1 P((X − E(X))2 ≥ c2 ) ≤ 2 V(X). c 2 2 Ma (X − E(X)) ≥ c ⇐⇒ |X − E(X)| ≥ c e si ha quidni (1.3). Prima di parlare di valore atteso e varianza della somma di due variabili casuali, ricordo la definizione di indipendenza. Definizione 2. Due variabili casuali X e Y si dicono indipendenti se, per ogni coppia di intervalli I e J, si ha P(X ∈ I, Y ∈ J) = P(X ∈ I)P(Y ∈ J). 2 (1.5) Si ha Teorema 2. Date due variabili casuali X e Y e una costante c ∈ R si ha a) E(cX) = cE(X); b) E(X + Y ) = E(X) + E(Y ); c) V(cX) = c2 V(X); d) se X e Y sono indipendenti V(X + Y ) = V(X) + V(Y ). Le proprietà a)-b)-c) sono molto intuitive, anche se non è immediato dimostrarle usando la definizione usata qui. Per capire che l’indipendenza è necessaria per la validità di d), consideriamo un’urna con due palline, una con valore 0, l’altra con valore 1. Estraiamo una pallina e sia X il numero della pallina estratta e Y quello della pallina rimasta nell’urna. Allora X + Y = 1 con certezza e quindi V(X + Y ) = 0; d’altra parte V(X) = V(Y ) = 1/4 [controllare!]. 1.2 Media e varianza campionaria Molti problemi della statistica si possono ricondurre al problema di osservare un campione, ma di volere dedurne le caratteristiche di una popolazione da cui il campione è estratto. In alcuni casi la popolazione è letteralmente tale (si pensi al problema di prevedere il risultato di un’elezione tramite un sondaggio), più spesso la popolazione è un’idealizzazione: si vuole valutare se la presenza di un certo gene protegge da una certa malattia; le popolazioni sono allora tutti gli individui passati, presenti e futuri portatori o non portatori di quel gene, al di là di tutte le altre differenze biologiche, culturali e sociali. Al di là di tutti gli aspetti pratici, per noi l’osservazione di un campione è l’estrazione di n (la dimensione del campione) variabili casuali X1 , . . . , Xn con una stessa distribuzione (quella della popolazione da cui il campione è estratto). Nel caso in cui (come normalmente in un sondaggio) il campionamento avvenga senza ripetizioni da una popolazione finita di dimensione M , le variabili casuali X1 , . . . , Xn non sono indipendenti. La teoria è però estremamente più semplice se assumiamo che X1 , . . . , Xn siano indipendenti, cosa che avverrebbe se il campionamento fosse con ripetizioni o la popolazione di riferimento fosse infinita2 . Per questo nel seguito assumerò che il campionamento avvenga con ripetizioni; alla fine, scriverò le formule anche per il caso senza ripetizioni. In ogni caso, se n (la dimensione 2 cosa che renderebbe le ripetizioni infinitamente improbabili 3 del campione) è molto più piccola di M (la dimensione della popolazione), come avviene quasi sempre in pratica, la differenza fra i due casi è minima. La media campionaria, calcolata secondo la definizione intuitiva di media, è n 1 1X X̄ = (X1 + · · · + Xn ) = Xi . (1.6) n n i=1 Anch’essa è una variabile casuale (come X1 , . . . , Xn ) e si può discutere del suo valore atteso e della sua varianza. Posto µ = E(Xi ), σ 2 = V(Xi ) (ricordare che si è supposto che tutte le variabili X1 , . . . , Xn abbiano la stessa distribuzione, e quindi lo stesso valore atteso e varianza), usando le formule per valore atteso e varianza della somma, si ha E(X̄) = 1 1 E(X1 + · · · + Xn ) = (µ + · · · + µ) = µ n n (1.7) e 1 2 σ2 1 2 (1.8) V(X̄) = 2 V(X1 + · · · + Xn ) = 2 (σ + · · · + σ ) = . n n n Notare che in (1.8), l’ipotesi di indipendenza di X1 , . . . , Xn è essenziale. Per stimare la varianza di X si usa la seguente quantità, la varianza campionaria n 1 1 X S = [(X1 − X̄)2 + · · · + (Xn − X̄)2 ] = (Xi − X̄)2 . n−1 n − 1 i=1 2 (1.9) La ragione per dividere per n − 1 (e non per n) dipende dal fatto che in questo modo vale E(S 2 ) = V(Xi ) = σ 2 , (1.10) ossia il valore atteso di S 2 è uguale a σ 2 , la quantità che si vuole stimare. Uno stimatore con questa proprietà viene detto non distorto. Se invece avessimo diviso per n, il valore atteso sarebbe stato uguale a n−1 2 σ , quindi avremmo in media sottostimato σ 2 (anche se lievemente per n n grande). La dimostrazione di (1.10) non è difficile ma è un po’ lunga, quindi non la presento. Un ragionamento spesso usato per convincersi del fatto che sia giusto dividere per n − 1, è che X̄ è stato ricavato usando X1 , . . . , Xn ; quindi degli n termini di (1.9), solo n − 1 sono indipendenti, in quanto conoscendo X1 , . . . , Xn−1 e X̄, conosco anche Xn . Si dirà che l’espressione (1.9) ha solo n − 1 gradi di libertà, facendo un analogo con i sistemi meccanici. 4 1.2.1 Campionamento senza ripetizioni Supponiamo di estrarre senza ripetizioni un campione di n individui da una popolazione di N (ovviamente dovrà essere n ≤ N ). Possiamo sempre calcolare la media e la varianza campionaria. Con calcoli molto più complessi dei precedenti, è anche possibile calcolare il valore atteso e la varianza di queste statistiche; il valore atteso si riferisce a tutti i possibili campionamenti di grandezza n da quella popolazione. I risultati sono i seguenti, intendendo con µ e σ 2 i veri valori della media e della varianza di X nella popolazione: • E(X̄) = µ; • V(X̄) = (N −n) σ 2 ; (N −1) n • E(S 2 ) = σ 2 NN−1 . Confrontando questi risultati con (1.7), (1.8) e (1.10), notiamo che il valore atteso della media campionaria è uguale nei due casi. La varianza della media campionaria è un po’ più piccola senza ripetizioni (in particolare nel caso limite in cui n = N , cioè il campione è uguale alla popolazione, la varianza è 0 perché non c’è possibilità di errore). Il valore atteso della varianza campionaria è lievemente più grande senza ripetizioni; questo corrisponde al fatto che non si possono estrarre campioni in cui si misura più volte lo stesso individuo, campioni che avranno una varianza campionaria minore. In ogni caso, le differenze fra i due casi sono minime quando N n, che è il caso tipico. 1.2.2 Legge dei grandi numeri Le relazioni (1.7) e (1.8) mostrano che il valore atteso della media campionaria è sempre uguale al valor medio della variabile considerata, mentre la varianza decresce all’aumentare della dimensione del campione. Utilizzando la disuguaglianza di Cebysev (1.3), queste semplici osservazioni forniscono un risultato notevole. Teorema 3 (Legge dei grandi numeri). Chiamiamo la media campionaria X̄n = n12 V(X1 +· · ·+Xn ) per mettere in risalto la dipendenza dalla numerosità del campione. Per ogni a > 0 si ha P(|X̄n − µ| > a) −→ 0. n→∞ (1.11) In termini intuitivi, possiamo dire che la media campionaria si avvicina sempre più alla media teorica al crescere della numerosità del campione. 5 Dimostrazione. Usando prima (1.3) e poi (1.8), si ha P(|X̄n − µ| > a) ≤ 1 σ2 V( X̄ ) = −→ 0. n a2 na2 n→∞ I risultati precedenti assicurano che la media campionaria è una buona approssimazione della media teorica (ignota). In termini tecnici, si dice che X̄ è uno stimatore di µ. 1.3 Il teorema centrale La legge dei grandi numeri assicura che la media campionaria si avvicinerà sempre più (nel senso specificato da (1.11)) alla media teorica. C’è però un’altra proprietà, molto più inaspettata, che in sostanza dice che, per n abbastanza grande, la distribuzione della media campionaria segue la distribuzione normale (o gaussiana) indipendentemente da quale sia la distribuzione delle variabili Xi . Sappiamo che vale E(X̄n ) = µ e V(X̄n ) = σ 2 /n. Volendo ottenere una distribuzione limite, conviene introdurre la variabile Zn = X̄n − µ √ . σ/ n Le regole per il calcolo di media e varianza mostrando che per ogni n vale E(Zn ) = 0 V(Zn ) = 1. Il teorema seguente indica che le variabili casuali Zn tendono alla distribuzione normale. Teorema 4 (Teorema centrale del limite). Per ogni a ≤ b ∈ R 1 P(a ≤ Zn ≤ b) −→ √ n→∞ 2π Z b x2 e− 2 dx = P(a ≤ N (0, 1) ≤ b), a dove N (0, 1) indica una variabile casuale standardizzata. Possiamo scrivere (1.12) come X̄n − µ √ = Zn ∼ N (0, 1) σ/ n 6 (1.12) nel senso che P(a ≤ Zn ≤ b) ≈ P(a ≤ N (0, 1) ≤ b). √ Moltiplicando ambo i termini per σ/ n, possiamo anche scrivere che σ2 σ X̄n − µ ∼ √ N (0, 1) = N (0, ) n n implicando (anche se il Teorema centrale dà una relazione un po’ diversa) che σ2 P(a ≤ X̄n − µ ≤ b) ≈ P(a ≤ N (0, ) ≤ b). n Sommando infine µ a entrambi i termini si può scrivere X̄n ∼ N (µ, σ2 ) n che può venire usata nel senso che P(a ≤ X̄n ≤ b) ≈ P(a ≤ N (µ, σ2 ) ≤ b). n In questo senso possiamo scrivere che la media campionaria può essere approssimata, per n abbastanza grande, da una normale di media µ e varianza σ 2 /n, le cui probabilità si calcolano facilmente con le tavole. Considerando Sn = X1 + · · · + Xn = nX̄n , possiamo anche scrivere (con qualche improprietà) che σ2 Sn ∼ nN (µ, ) = N (nµ, nσ 2 ). n Di conseguenza P(a ≤ Sn ≤ b) ≈ P(a ≤ N (nµ, nσ 2 ) ≤ b). (1.13) Questa approssimazione si usa in particolare per la distribuzione binomiale. Infatti se X1 , . . . Xn sono variabili casuali bernoulliane, ossia i possibili valori sono 1 (con probabilità p) e 0 (con probabilità 1−p), Sn = X1 +· · ·+Xn ha distribuzione binomiale di parametri n e p. Da (1.13), abbiamo allora (ricordando che E(Xi ) = p e V(Xi ) = p(1 − p)) P(a ≤ B(n.p) ≤ b) ≈ P(a ≤ N (np, np(1 − p)) ≤ b). (1.14) La relazione (1.14) si usa molto spesso per calcolare le probabilità delle distribuzioni binomiali, appena n non è cosı̀ piccolo da fare i conti facilmente a mano. 7 0.5 Densita' chi quadro 0.3 0.2 0.0 0.1 densità 0.4 n=1 n=5 n=10 0 2 4 6 8 10 x Figura 1.1: Densità della distribuzione χ2 (n). 1.3.1 Le distribuzioni chi-quadro e t Alcune distribuzioni collegate alla normale giocano un ruolo importante in statistica, anche grazie al teorema centrale. Precisamente se X1 , . . . , Xn sono variabili normali standard (media = 0, varianza = 1) indipendenti, la somma dei loro quadrati S 2 = X12 + · · · + Xn2 segue una distribuzione che è detta chi-quadro con n gradi di libertà. Scriveremo S 2 ∼ χ2 (n). Anche per le distribuzioni chi-quadro esistono tabelle e routine al computer (per esempio in R) per calcolarne i valori. In Figura 1.1 viene mostrata la densità chi-quadro per n = 1, 5 e 10; si vede che, al crescere di n, la densità si sposta verso destra. Ciò è coerente col fatto che se S 2 ∼ χ2 (n) allore E(S 2 ) = n, come si può facilmente calcolare Un risultato molto importante è che la varianza campionaria (1.9) è distribuita come un chi-quadro. Precisamente Teorema 5. Se X1 , . . . , Xn sono variabili normali indipendenti (di media µ e varianza σ 2 ), allora Pn (Xi − X̄)2 2 2 ∼ χ2 (n − 1). (1.15) (n − 1)S /σ = i=1 2 σ Inoltre S 2 è indipendente da X̄ − µ (che come noto segue una distribuzione normale). 8 0.2 0.1 densità 0.3 0.4 Il teorema centrale assicura che anche se X1 , . . . , Xn non seguono la distribuzione normale, si ha comunque che (n − 1)S 2 /σ 2 tende ad una distribuzione chi-quadro al tendere di n → ∞. 0.0 normal t(20) t(5) -3 -2 -1 0 1 2 3 x Figura 1.2: Densità delle distribuzioni t(n) e N (0, 1). Un’altra distribuzione molto usata in statistica è la distribuzione t (di Student) che è il rapporto fra una normale standard e la radice di un chi2 quadro. √ Esattamente, se Z ∼ N (0, 1) e W ∼ χ (n) con Z e W indipendenti, √ nZ/ W ∼ t(n), segue la distribuzione t con n gradi di libertà. Anche per la distribuzione t esistono tabelle, ed è fra quelle nell’elenco standard di R. In Figura 1.2 viene mostrata la densità t per n = 5 e 20 confrontata con la distribuzione normale standard; si vede che le distribuzioni t sono simmetriche e simili alla normale, ma con la densità più spostata verso le ‘code’, ossia, dato a > 0, P(|t(n)| > a) > P(|N (0, 1)| > a); al crescere di n, la densità diventa sempre più simile a quella di una normale standard, e anche le tavole non riportano valori per n grande (ad esempio n > 100), nel qual caso si può usare direttamente la distribuzione normale. Segue dal Teorema 5 che, se X1 , . . . , Xn sono variabili normali indipendenti (di media µ e varianza σ 2 ), allora (n − 1)S 2 /σ 2 ∼ χ2 (n − 1) e X̄−µ √ ∼ N (0, 1). Allora ( σ/ n √ √ √ n(X̄ − µ)/σ n(X̄ − µ) √ n − 1p = ∼ t(n − 1). (1.16) (n − 1)S 2 /σ 2 S2 Questo fatto è utile in statistica perché la quantità in (1.16) non dipende da σ 2 ma solo da S 2 che si calcola dai dati. Tramite essa sarà possibile calcolare 9 intervalli di confidenza per µ tramite la distribuzione t quando (come in genere) σ 2 non è noto a priori. 10