...

Variabili casuali, media e varianza campionaria, teorema centrale

by user

on
Category: Documents
18

views

Report

Comments

Transcript

Variabili casuali, media e varianza campionaria, teorema centrale
Capitolo 1
Alcune nozioni introduttive alla
statistica
1.1
Valore atteso e varianza di variabili casuali
Definizione 1. Se X è una variabile casuale discreta con distribuzione p(x),
ossia
P(X = xi ) = p(xi ) := pi
per definizione il valore atteso di X, E(X), (spesso detto anche media) è
X
E(X) =
xi p i .
i
Se X è una variabile casuale continua con densità π(x) ossia
Z b
P(a ≤ X ≤ b) =
π(x) dx
a
Z
+∞
E(X) =
xπ(x) dx.
−∞
E’ possibile dare una definizione unica di E(X), ma ciò richiederebbe
l’introduzione del concetto dei spazio degli eventi e misure di probabilità.
Alcune dimostrazioni diventerebbero molto più semplici in questo contesto,
ma preferisco evitarlo qui.
Data una qualunque funzione g : R → R anche Y = g(X) è una variabile
casuale e si potrebbe calcolare E(Y ) = E(g(X))1 . Vale il seguente fatto,
1
Se g(X) è una variabile casuale che può assumere valori infinitamente grandi, non è
detto che E(g(X)) sia ben definito. In particolare, non è detto che tutte le variabili casuali
X ammettano valore atteso e varianza. Qua trascuriamo questi aspetti tecnici.
1
molto intuitivo,
(P
se X è discreta
i g(xi )pi
E(g(X)) = R +∞
g(x)π(x) dx se X è continua.
−∞
(1.1)
In particolare, definiamo in questo modo la varianza di X, V(X) come
V(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 .
(1.2)
L’ultima identità si dimostra con qualche passaggio algebrico.
La varianza è una misura della dispersione dei valori che può assumere X.
La disuguaglianza di Chebysev, semplice da dimostrare ma molto importante
teoricamente, mostra come la media e la varianza permettano di stimare la
probabilità che X prenda valori lontani dalla media. Si ha infatti
Teorema 1. Sia g : R → R+ una funzione nonnegativa, ossia g(x) ≥ 0. Si
ha
1
P(g(X) ≥ k) ≤ E(g(X)).
k
In particolare, vale la disuguaglianza di Chebysev:
P(|X − E(X)| ≥ c) ≤
1
V(X).
c2
(1.3)
Dimostrazione. Do una dimostrazione nel caso di X continua, ma è analoga
nel caso X discreta.
Z
Z
Z +∞
g(x)π(x) dx
g(x)π(x) dx+
g(x)π(x) dx =
E(g(X)) =
{x: g(x)≥k}
{x: g(x)<k}
−∞
Z
Z
g(x)π(x) dx ≥ k
π(x) dx = kP(g(X) ≥ k). (1.4)
≥
{x: g(x)≥k}
{x: g(x)≥k}
Dividendo il primo e l’ultimo termine di (1.4) per k, otteniamo la tesi.
Per dimostrare (1.3), basta scegliere g(x) = (x − E(X))2 e k = c2 si
ottiene
1
P((X − E(X))2 ≥ c2 ) ≤ 2 V(X).
c
2
2
Ma (X − E(X)) ≥ c ⇐⇒ |X − E(X)| ≥ c e si ha quidni (1.3).
Prima di parlare di valore atteso e varianza della somma di due variabili
casuali, ricordo la definizione di indipendenza.
Definizione 2. Due variabili casuali X e Y si dicono indipendenti se, per
ogni coppia di intervalli I e J, si ha
P(X ∈ I, Y ∈ J) = P(X ∈ I)P(Y ∈ J).
2
(1.5)
Si ha
Teorema 2. Date due variabili casuali X e Y e una costante c ∈ R si ha
a) E(cX) = cE(X);
b) E(X + Y ) = E(X) + E(Y );
c) V(cX) = c2 V(X);
d) se X e Y sono indipendenti V(X + Y ) = V(X) + V(Y ).
Le proprietà a)-b)-c) sono molto intuitive, anche se non è immediato
dimostrarle usando la definizione usata qui.
Per capire che l’indipendenza è necessaria per la validità di d), consideriamo un’urna con due palline, una con valore 0, l’altra con valore 1. Estraiamo
una pallina e sia X il numero della pallina estratta e Y quello della pallina
rimasta nell’urna. Allora X + Y = 1 con certezza e quindi V(X + Y ) = 0;
d’altra parte V(X) = V(Y ) = 1/4 [controllare!].
1.2
Media e varianza campionaria
Molti problemi della statistica si possono ricondurre al problema di osservare
un campione, ma di volere dedurne le caratteristiche di una popolazione da
cui il campione è estratto. In alcuni casi la popolazione è letteralmente tale
(si pensi al problema di prevedere il risultato di un’elezione tramite un sondaggio), più spesso la popolazione è un’idealizzazione: si vuole valutare se la
presenza di un certo gene protegge da una certa malattia; le popolazioni sono
allora tutti gli individui passati, presenti e futuri portatori o non portatori
di quel gene, al di là di tutte le altre differenze biologiche, culturali e sociali.
Al di là di tutti gli aspetti pratici, per noi l’osservazione di un campione
è l’estrazione di n (la dimensione del campione) variabili casuali X1 , . . . , Xn
con una stessa distribuzione (quella della popolazione da cui il campione è
estratto). Nel caso in cui (come normalmente in un sondaggio) il campionamento avvenga senza ripetizioni da una popolazione finita di dimensione
M , le variabili casuali X1 , . . . , Xn non sono indipendenti.
La teoria è però estremamente più semplice se assumiamo che X1 , . . . , Xn
siano indipendenti, cosa che avverrebbe se il campionamento fosse con ripetizioni o la popolazione di riferimento fosse infinita2 . Per questo nel seguito
assumerò che il campionamento avvenga con ripetizioni; alla fine, scriverò le
formule anche per il caso senza ripetizioni. In ogni caso, se n (la dimensione
2
cosa che renderebbe le ripetizioni infinitamente improbabili
3
del campione) è molto più piccola di M (la dimensione della popolazione),
come avviene quasi sempre in pratica, la differenza fra i due casi è minima.
La media campionaria, calcolata secondo la definizione intuitiva di media,
è
n
1
1X
X̄ = (X1 + · · · + Xn ) =
Xi .
(1.6)
n
n i=1
Anch’essa è una variabile casuale (come X1 , . . . , Xn ) e si può discutere del
suo valore atteso e della sua varianza.
Posto µ = E(Xi ), σ 2 = V(Xi ) (ricordare che si è supposto che tutte
le variabili X1 , . . . , Xn abbiano la stessa distribuzione, e quindi lo stesso
valore atteso e varianza), usando le formule per valore atteso e varianza della
somma, si ha
E(X̄) =
1
1
E(X1 + · · · + Xn ) = (µ + · · · + µ) = µ
n
n
(1.7)
e
1 2
σ2
1
2
(1.8)
V(X̄) = 2 V(X1 + · · · + Xn ) = 2 (σ + · · · + σ ) = .
n
n
n
Notare che in (1.8), l’ipotesi di indipendenza di X1 , . . . , Xn è essenziale.
Per stimare la varianza di X si usa la seguente quantità, la varianza
campionaria
n
1
1 X
S =
[(X1 − X̄)2 + · · · + (Xn − X̄)2 ] =
(Xi − X̄)2 .
n−1
n − 1 i=1
2
(1.9)
La ragione per dividere per n − 1 (e non per n) dipende dal fatto che in
questo modo vale
E(S 2 ) = V(Xi ) = σ 2 ,
(1.10)
ossia il valore atteso di S 2 è uguale a σ 2 , la quantità che si vuole stimare.
Uno stimatore con questa proprietà viene detto non distorto.
Se invece avessimo diviso per n, il valore atteso sarebbe stato uguale a
n−1 2
σ , quindi avremmo in media sottostimato σ 2 (anche se lievemente per
n
n grande).
La dimostrazione di (1.10) non è difficile ma è un po’ lunga, quindi non
la presento. Un ragionamento spesso usato per convincersi del fatto che sia
giusto dividere per n − 1, è che X̄ è stato ricavato usando X1 , . . . , Xn ; quindi
degli n termini di (1.9), solo n − 1 sono indipendenti, in quanto conoscendo
X1 , . . . , Xn−1 e X̄, conosco anche Xn . Si dirà che l’espressione (1.9) ha solo
n − 1 gradi di libertà, facendo un analogo con i sistemi meccanici.
4
1.2.1
Campionamento senza ripetizioni
Supponiamo di estrarre senza ripetizioni un campione di n individui da una
popolazione di N (ovviamente dovrà essere n ≤ N ).
Possiamo sempre calcolare la media e la varianza campionaria. Con calcoli
molto più complessi dei precedenti, è anche possibile calcolare il valore atteso
e la varianza di queste statistiche; il valore atteso si riferisce a tutti i possibili
campionamenti di grandezza n da quella popolazione.
I risultati sono i seguenti, intendendo con µ e σ 2 i veri valori della media
e della varianza di X nella popolazione:
• E(X̄) = µ;
• V(X̄) =
(N −n) σ 2
;
(N −1) n
• E(S 2 ) = σ 2 NN−1 .
Confrontando questi risultati con (1.7), (1.8) e (1.10), notiamo che il valore atteso della media campionaria è uguale nei due casi. La varianza della
media campionaria è un po’ più piccola senza ripetizioni (in particolare nel
caso limite in cui n = N , cioè il campione è uguale alla popolazione, la varianza è 0 perché non c’è possibilità di errore). Il valore atteso della varianza
campionaria è lievemente più grande senza ripetizioni; questo corrisponde al
fatto che non si possono estrarre campioni in cui si misura più volte lo stesso
individuo, campioni che avranno una varianza campionaria minore. In ogni
caso, le differenze fra i due casi sono minime quando N n, che è il caso
tipico.
1.2.2
Legge dei grandi numeri
Le relazioni (1.7) e (1.8) mostrano che il valore atteso della media campionaria è sempre uguale al valor medio della variabile considerata, mentre la
varianza decresce all’aumentare della dimensione del campione. Utilizzando
la disuguaglianza di Cebysev (1.3), queste semplici osservazioni forniscono
un risultato notevole.
Teorema 3 (Legge dei grandi numeri). Chiamiamo la media campionaria
X̄n = n12 V(X1 +· · ·+Xn ) per mettere in risalto la dipendenza dalla numerosità
del campione. Per ogni a > 0 si ha
P(|X̄n − µ| > a) −→ 0.
n→∞
(1.11)
In termini intuitivi, possiamo dire che la media campionaria si avvicina
sempre più alla media teorica al crescere della numerosità del campione.
5
Dimostrazione. Usando prima (1.3) e poi (1.8), si ha
P(|X̄n − µ| > a) ≤
1
σ2
V(
X̄
)
=
−→ 0.
n
a2
na2 n→∞
I risultati precedenti assicurano che la media campionaria è una buona
approssimazione della media teorica (ignota). In termini tecnici, si dice che
X̄ è uno stimatore di µ.
1.3
Il teorema centrale
La legge dei grandi numeri assicura che la media campionaria si avvicinerà
sempre più (nel senso specificato da (1.11)) alla media teorica.
C’è però un’altra proprietà, molto più inaspettata, che in sostanza dice
che, per n abbastanza grande, la distribuzione della media campionaria segue
la distribuzione normale (o gaussiana) indipendentemente da quale sia la
distribuzione delle variabili Xi .
Sappiamo che vale E(X̄n ) = µ e V(X̄n ) = σ 2 /n. Volendo ottenere una
distribuzione limite, conviene introdurre la variabile
Zn =
X̄n − µ
√ .
σ/ n
Le regole per il calcolo di media e varianza mostrando che per ogni n vale
E(Zn ) = 0
V(Zn ) = 1.
Il teorema seguente indica che le variabili casuali Zn tendono alla distribuzione normale.
Teorema 4 (Teorema centrale del limite). Per ogni a ≤ b ∈ R
1
P(a ≤ Zn ≤ b) −→ √
n→∞
2π
Z
b
x2
e− 2 dx = P(a ≤ N (0, 1) ≤ b),
a
dove N (0, 1) indica una variabile casuale standardizzata.
Possiamo scrivere (1.12) come
X̄n − µ
√ = Zn ∼ N (0, 1)
σ/ n
6
(1.12)
nel senso che
P(a ≤ Zn ≤ b) ≈ P(a ≤ N (0, 1) ≤ b).
√
Moltiplicando ambo i termini per σ/ n, possiamo anche scrivere che
σ2
σ
X̄n − µ ∼ √ N (0, 1) = N (0, )
n
n
implicando (anche se il Teorema centrale dà una relazione un po’ diversa)
che
σ2
P(a ≤ X̄n − µ ≤ b) ≈ P(a ≤ N (0, ) ≤ b).
n
Sommando infine µ a entrambi i termini si può scrivere
X̄n ∼ N (µ,
σ2
)
n
che può venire usata nel senso che
P(a ≤ X̄n ≤ b) ≈ P(a ≤ N (µ,
σ2
) ≤ b).
n
In questo senso possiamo scrivere che la media campionaria può essere approssimata, per n abbastanza grande, da una normale di media µ e varianza
σ 2 /n, le cui probabilità si calcolano facilmente con le tavole.
Considerando Sn = X1 + · · · + Xn = nX̄n , possiamo anche scrivere (con
qualche improprietà) che
σ2
Sn ∼ nN (µ, ) = N (nµ, nσ 2 ).
n
Di conseguenza
P(a ≤ Sn ≤ b) ≈ P(a ≤ N (nµ, nσ 2 ) ≤ b).
(1.13)
Questa approssimazione si usa in particolare per la distribuzione binomiale. Infatti se X1 , . . . Xn sono variabili casuali bernoulliane, ossia i possibili
valori sono 1 (con probabilità p) e 0 (con probabilità 1−p), Sn = X1 +· · ·+Xn
ha distribuzione binomiale di parametri n e p.
Da (1.13), abbiamo allora (ricordando che E(Xi ) = p e V(Xi ) = p(1 − p))
P(a ≤ B(n.p) ≤ b) ≈ P(a ≤ N (np, np(1 − p)) ≤ b).
(1.14)
La relazione (1.14) si usa molto spesso per calcolare le probabilità delle distribuzioni binomiali, appena n non è cosı̀ piccolo da fare i conti facilmente
a mano.
7
0.5
Densita' chi quadro
0.3
0.2
0.0
0.1
densità
0.4
n=1
n=5
n=10
0
2
4
6
8
10
x
Figura 1.1: Densità della distribuzione χ2 (n).
1.3.1
Le distribuzioni chi-quadro e t
Alcune distribuzioni collegate alla normale giocano un ruolo importante in
statistica, anche grazie al teorema centrale.
Precisamente se X1 , . . . , Xn sono variabili normali standard (media = 0,
varianza = 1) indipendenti, la somma dei loro quadrati
S 2 = X12 + · · · + Xn2
segue una distribuzione che è detta chi-quadro con n gradi di libertà. Scriveremo S 2 ∼ χ2 (n). Anche per le distribuzioni chi-quadro esistono tabelle
e routine al computer (per esempio in R) per calcolarne i valori. In Figura
1.1 viene mostrata la densità chi-quadro per n = 1, 5 e 10; si vede che, al
crescere di n, la densità si sposta verso destra. Ciò è coerente col fatto che
se S 2 ∼ χ2 (n) allore E(S 2 ) = n, come si può facilmente calcolare
Un risultato molto importante è che la varianza campionaria (1.9) è
distribuita come un chi-quadro. Precisamente
Teorema 5. Se X1 , . . . , Xn sono variabili normali indipendenti (di media µ
e varianza σ 2 ), allora
Pn
(Xi − X̄)2
2
2
∼ χ2 (n − 1).
(1.15)
(n − 1)S /σ = i=1 2
σ
Inoltre S 2 è indipendente da X̄ − µ (che come noto segue una distribuzione
normale).
8
0.2
0.1
densità
0.3
0.4
Il teorema centrale assicura che anche se X1 , . . . , Xn non seguono la distribuzione normale, si ha comunque che (n − 1)S 2 /σ 2 tende ad una distribuzione chi-quadro al tendere di n → ∞.
0.0
normal
t(20)
t(5)
-3
-2
-1
0
1
2
3
x
Figura 1.2: Densità delle distribuzioni t(n) e N (0, 1).
Un’altra distribuzione molto usata in statistica è la distribuzione t (di
Student) che è il rapporto fra una normale standard e la radice di un chi2
quadro.
√ Esattamente, se Z ∼ N (0, 1) e W ∼ χ (n) con Z e W indipendenti,
√
nZ/ W ∼ t(n), segue la distribuzione t con n gradi di libertà. Anche
per la distribuzione t esistono tabelle, ed è fra quelle nell’elenco standard
di R. In Figura 1.2 viene mostrata la densità t per n = 5 e 20 confrontata
con la distribuzione normale standard; si vede che le distribuzioni t sono
simmetriche e simili alla normale, ma con la densità più spostata verso le
‘code’, ossia, dato a > 0, P(|t(n)| > a) > P(|N (0, 1)| > a); al crescere di n, la
densità diventa sempre più simile a quella di una normale standard, e anche
le tavole non riportano valori per n grande (ad esempio n > 100), nel qual
caso si può usare direttamente la distribuzione normale.
Segue dal Teorema 5 che, se X1 , . . . , Xn sono variabili normali indipendenti (di media µ e varianza σ 2 ), allora (n − 1)S 2 /σ 2 ∼ χ2 (n − 1) e
X̄−µ
√ ∼ N (0, 1). Allora
( σ/
n
√
√
√
n(X̄ − µ)/σ
n(X̄ − µ)
√
n − 1p
=
∼ t(n − 1).
(1.16)
(n − 1)S 2 /σ 2
S2
Questo fatto è utile in statistica perché la quantità in (1.16) non dipende da
σ 2 ma solo da S 2 che si calcola dai dati. Tramite essa sarà possibile calcolare
9
intervalli di confidenza per µ tramite la distribuzione t quando (come in
genere) σ 2 non è noto a priori.
10
Fly UP