Variabili casuali, media e varianza campionaria, teorema centrale

by user

on 06 июля 2016

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download Variabili casuali, media e varianza campionaria, teorema centrale

Transcript

Variabili casuali, media e varianza campionaria, teorema centrale

Capitolo 1
Alcune nozioni introduttive alla
statistica
1.1
Valore atteso e varianza di variabili casuali
Definizione 1. Se X è una variabile casuale discreta con distribuzione p(x),
ossia
P(X = xi ) = p(xi ) := pi
per definizione il valore atteso di X, E(X), (spesso detto anche media) è
X
E(X) =
xi p i .
i
Se X è una variabile casuale continua con densità π(x) ossia
Z b
P(a ≤ X ≤ b) =
π(x) dx
a
Z
+∞
E(X) =
xπ(x) dx.
−∞
E’ possibile dare una definizione unica di E(X), ma ciò richiederebbe
l’introduzione del concetto dei spazio degli eventi e misure di probabilità.
Alcune dimostrazioni diventerebbero molto più semplici in questo contesto,
ma preferisco evitarlo qui.
Data una qualunque funzione g : R → R anche Y = g(X) è una variabile
casuale e si potrebbe calcolare E(Y ) = E(g(X))1 . Vale il seguente fatto,
1
Se g(X) è una variabile casuale che può assumere valori infinitamente grandi, non è
detto che E(g(X)) sia ben definito. In particolare, non è detto che tutte le variabili casuali
X ammettano valore atteso e varianza. Qua trascuriamo questi aspetti tecnici.
1
molto intuitivo,
(P
se X è discreta
i g(xi )pi
E(g(X)) = R +∞
g(x)π(x) dx se X è continua.
−∞
(1.1)
In particolare, definiamo in questo modo la varianza di X, V(X) come
V(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 .
(1.2)
L’ultima identità si dimostra con qualche passaggio algebrico.
La varianza è una misura della dispersione dei valori che può assumere X.
La disuguaglianza di Chebysev, semplice da dimostrare ma molto importante
teoricamente, mostra come la media e la varianza permettano di stimare la
probabilità che X prenda valori lontani dalla media. Si ha infatti
Teorema 1. Sia g : R → R+ una funzione nonnegativa, ossia g(x) ≥ 0. Si
ha
1
P(g(X) ≥ k) ≤ E(g(X)).
k
In particolare, vale la disuguaglianza di Chebysev:
P(|X − E(X)| ≥ c) ≤
1
V(X).
c2
(1.3)
Dimostrazione. Do una dimostrazione nel caso di X continua, ma è analoga
nel caso X discreta.
Z
Z
Z +∞
g(x)π(x) dx
g(x)π(x) dx+
g(x)π(x) dx =
E(g(X)) =
{x: g(x)≥k}
{x: g(x)<k}
−∞
Z
Z
g(x)π(x) dx ≥ k
π(x) dx = kP(g(X) ≥ k). (1.4)
≥
{x: g(x)≥k}
{x: g(x)≥k}
Dividendo il primo e l’ultimo termine di (1.4) per k, otteniamo la tesi.
Per dimostrare (1.3), basta scegliere g(x) = (x − E(X))2 e k = c2 si
ottiene
1
P((X − E(X))2 ≥ c2 ) ≤ 2 V(X).
c
2
2
Ma (X − E(X)) ≥ c ⇐⇒ |X − E(X)| ≥ c e si ha quidni (1.3).
Prima di parlare di valore atteso e varianza della somma di due variabili
casuali, ricordo la definizione di indipendenza.
Definizione 2. Due variabili casuali X e Y si dicono indipendenti se, per
ogni coppia di intervalli I e J, si ha
P(X ∈ I, Y ∈ J) = P(X ∈ I)P(Y ∈ J).
2
(1.5)
Si ha
Teorema 2. Date due variabili casuali X e Y e una costante c ∈ R si ha
a) E(cX) = cE(X);
b) E(X + Y ) = E(X) + E(Y );
c) V(cX) = c2 V(X);
d) se X e Y sono indipendenti V(X + Y ) = V(X) + V(Y ).
Le proprietà a)-b)-c) sono molto intuitive, anche se non è immediato
dimostrarle usando la definizione usata qui.
Per capire che l’indipendenza è necessaria per la validità di d), consideriamo un’urna con due palline, una con valore 0, l’altra con valore 1. Estraiamo
una pallina e sia X il numero della pallina estratta e Y quello della pallina
rimasta nell’urna. Allora X + Y = 1 con certezza e quindi V(X + Y ) = 0;
d’altra parte V(X) = V(Y ) = 1/4 [controllare!].
1.2
Media e varianza campionaria
Molti problemi della statistica si possono ricondurre al problema di osservare
un campione, ma di volere dedurne le caratteristiche di una popolazione da
cui il campione è estratto. In alcuni casi la popolazione è letteralmente tale
(si pensi al problema di prevedere il risultato di un’elezione tramite un sondaggio), più spesso la popolazione è un’idealizzazione: si vuole valutare se la
presenza di un certo gene protegge da una certa malattia; le popolazioni sono
allora tutti gli individui passati, presenti e futuri portatori o non portatori
di quel gene, al di là di tutte le altre differenze biologiche, culturali e sociali.
Al di là di tutti gli aspetti pratici, per noi l’osservazione di un campione
è l’estrazione di n (la dimensione del campione) variabili casuali X1 , . . . , Xn
con una stessa distribuzione (quella della popolazione da cui il campione è
estratto). Nel caso in cui (come normalmente in un sondaggio) il campionamento avvenga senza ripetizioni da una popolazione finita di dimensione
M , le variabili casuali X1 , . . . , Xn non sono indipendenti.
La teoria è però estremamente più semplice se assumiamo che X1 , . . . , Xn
siano indipendenti, cosa che avverrebbe se il campionamento fosse con ripetizioni o la popolazione di riferimento fosse infinita2 . Per questo nel seguito
assumerò che il campionamento avvenga con ripetizioni; alla fine, scriverò le
formule anche per il caso senza ripetizioni. In ogni caso, se n (la dimensione
2
cosa che renderebbe le ripetizioni infinitamente improbabili
3
del campione) è molto più piccola di M (la dimensione della popolazione),
come avviene quasi sempre in pratica, la differenza fra i due casi è minima.
La media campionaria, calcolata secondo la definizione intuitiva di media,
è
n
1
1X
X̄ = (X1 + · · · + Xn ) =
Xi .
(1.6)
n
n i=1
Anch’essa è una variabile casuale (come X1 , . . . , Xn ) e si può discutere del
suo valore atteso e della sua varianza.
Posto µ = E(Xi ), σ 2 = V(Xi ) (ricordare che si è supposto che tutte
le variabili X1 , . . . , Xn abbiano la stessa distribuzione, e quindi lo stesso
valore atteso e varianza), usando le formule per valore atteso e varianza della
somma, si ha
E(X̄) =
1
1
E(X1 + · · · + Xn ) = (µ + · · · + µ) = µ
n
n
(1.7)
e
1 2
σ2
1
2
(1.8)
V(X̄) = 2 V(X1 + · · · + Xn ) = 2 (σ + · · · + σ ) = .
n
n
n
Notare che in (1.8), l’ipotesi di indipendenza di X1 , . . . , Xn è essenziale.
Per stimare la varianza di X si usa la seguente quantità, la varianza
campionaria
n
1
1 X
S =
[(X1 − X̄)2 + · · · + (Xn − X̄)2 ] =
(Xi − X̄)2 .
n−1
n − 1 i=1
2
(1.9)
La ragione per dividere per n − 1 (e non per n) dipende dal fatto che in
questo modo vale
E(S 2 ) = V(Xi ) = σ 2 ,
(1.10)
ossia il valore atteso di S 2 è uguale a σ 2 , la quantità che si vuole stimare.
Uno stimatore con questa proprietà viene detto non distorto.
Se invece avessimo diviso per n, il valore atteso sarebbe stato uguale a
n−1 2
σ , quindi avremmo in media sottostimato σ 2 (anche se lievemente per
n
n grande).
La dimostrazione di (1.10) non è difficile ma è un po’ lunga, quindi non
la presento. Un ragionamento spesso usato per convincersi del fatto che sia
giusto dividere per n − 1, è che X̄ è stato ricavato usando X1 , . . . , Xn ; quindi
degli n termini di (1.9), solo n − 1 sono indipendenti, in quanto conoscendo
X1 , . . . , Xn−1 e X̄, conosco anche Xn . Si dirà che l’espressione (1.9) ha solo
n − 1 gradi di libertà, facendo un analogo con i sistemi meccanici.
4
1.2.1
Campionamento senza ripetizioni
Supponiamo di estrarre senza ripetizioni un campione di n individui da una
popolazione di N (ovviamente dovrà essere n ≤ N ).
Possiamo sempre calcolare la media e la varianza campionaria. Con calcoli
molto più complessi dei precedenti, è anche possibile calcolare il valore atteso
e la varianza di queste statistiche; il valore atteso si riferisce a tutti i possibili
campionamenti di grandezza n da quella popolazione.
I risultati sono i seguenti, intendendo con µ e σ 2 i veri valori della media
e della varianza di X nella popolazione:
• E(X̄) = µ;
• V(X̄) =
(N −n) σ 2
;
(N −1) n
• E(S 2 ) = σ 2 NN−1 .
Confrontando questi risultati con (1.7), (1.8) e (1.10), notiamo che il valore atteso della media campionaria è uguale nei due casi. La varianza della
media campionaria è un po’ più piccola senza ripetizioni (in particolare nel
caso limite in cui n = N , cioè il campione è uguale alla popolazione, la varianza è 0 perché non c’è possibilità di errore). Il valore atteso della varianza
campionaria è lievemente più grande senza ripetizioni; questo corrisponde al
fatto che non si possono estrarre campioni in cui si misura più volte lo stesso
individuo, campioni che avranno una varianza campionaria minore. In ogni
caso, le differenze fra i due casi sono minime quando N n, che è il caso
tipico.
1.2.2
Legge dei grandi numeri
Le relazioni (1.7) e (1.8) mostrano che il valore atteso della media campionaria è sempre uguale al valor medio della variabile considerata, mentre la
varianza decresce all’aumentare della dimensione del campione. Utilizzando
la disuguaglianza di Cebysev (1.3), queste semplici osservazioni forniscono
un risultato notevole.
Teorema 3 (Legge dei grandi numeri). Chiamiamo la media campionaria
X̄n = n12 V(X1 +· · ·+Xn ) per mettere in risalto la dipendenza dalla numerosità
del campione. Per ogni a > 0 si ha
P(|X̄n − µ| > a) −→ 0.
n→∞
(1.11)
In termini intuitivi, possiamo dire che la media campionaria si avvicina
sempre più alla media teorica al crescere della numerosità del campione.
5
Dimostrazione. Usando prima (1.3) e poi (1.8), si ha
P(|X̄n − µ| > a) ≤
1
σ2
V(
X̄
)
=
−→ 0.
n
a2
na2 n→∞
I risultati precedenti assicurano che la media campionaria è una buona
approssimazione della media teorica (ignota). In termini tecnici, si dice che
X̄ è uno stimatore di µ.
1.3
Il teorema centrale
La legge dei grandi numeri assicura che la media campionaria si avvicinerà
sempre più (nel senso specificato da (1.11)) alla media teorica.
C’è però un’altra proprietà, molto più inaspettata, che in sostanza dice
che, per n abbastanza grande, la distribuzione della media campionaria segue
la distribuzione normale (o gaussiana) indipendentemente da quale sia la
distribuzione delle variabili Xi .
Sappiamo che vale E(X̄n ) = µ e V(X̄n ) = σ 2 /n. Volendo ottenere una
distribuzione limite, conviene introdurre la variabile
Zn =
X̄n − µ
√ .
σ/ n
Le regole per il calcolo di media e varianza mostrando che per ogni n vale
E(Zn ) = 0
V(Zn ) = 1.
Il teorema seguente indica che le variabili casuali Zn tendono alla distribuzione normale.
Teorema 4 (Teorema centrale del limite). Per ogni a ≤ b ∈ R
1
P(a ≤ Zn ≤ b) −→ √
n→∞
2π
Z
b
x2
e− 2 dx = P(a ≤ N (0, 1) ≤ b),
a
dove N (0, 1) indica una variabile casuale standardizzata.
Possiamo scrivere (1.12) come
X̄n − µ
√ = Zn ∼ N (0, 1)
σ/ n
6
(1.12)
nel senso che
P(a ≤ Zn ≤ b) ≈ P(a ≤ N (0, 1) ≤ b).
√
Moltiplicando ambo i termini per σ/ n, possiamo anche scrivere che
σ2
σ
X̄n − µ ∼ √ N (0, 1) = N (0, )
n
n
implicando (anche se il Teorema centrale dà una relazione un po’ diversa)
che
σ2
P(a ≤ X̄n − µ ≤ b) ≈ P(a ≤ N (0, ) ≤ b).
n
Sommando infine µ a entrambi i termini si può scrivere
X̄n ∼ N (µ,
σ2
)
n
che può venire usata nel senso che
P(a ≤ X̄n ≤ b) ≈ P(a ≤ N (µ,
σ2
) ≤ b).
n
In questo senso possiamo scrivere che la media campionaria può essere approssimata, per n abbastanza grande, da una normale di media µ e varianza
σ 2 /n, le cui probabilità si calcolano facilmente con le tavole.
Considerando Sn = X1 + · · · + Xn = nX̄n , possiamo anche scrivere (con
qualche improprietà) che
σ2
Sn ∼ nN (µ, ) = N (nµ, nσ 2 ).
n
Di conseguenza
P(a ≤ Sn ≤ b) ≈ P(a ≤ N (nµ, nσ 2 ) ≤ b).
(1.13)
Questa approssimazione si usa in particolare per la distribuzione binomiale. Infatti se X1 , . . . Xn sono variabili casuali bernoulliane, ossia i possibili
valori sono 1 (con probabilità p) e 0 (con probabilità 1−p), Sn = X1 +· · ·+Xn
ha distribuzione binomiale di parametri n e p.
Da (1.13), abbiamo allora (ricordando che E(Xi ) = p e V(Xi ) = p(1 − p))
P(a ≤ B(n.p) ≤ b) ≈ P(a ≤ N (np, np(1 − p)) ≤ b).
(1.14)
La relazione (1.14) si usa molto spesso per calcolare le probabilità delle distribuzioni binomiali, appena n non è cosı̀ piccolo da fare i conti facilmente
a mano.
7
0.5
Densita' chi quadro
0.3
0.2
0.0
0.1
densità
0.4
n=1
n=5
n=10
0
2
4
6
8
10
x
Figura 1.1: Densità della distribuzione χ2 (n).
1.3.1
Le distribuzioni chi-quadro e t
Alcune distribuzioni collegate alla normale giocano un ruolo importante in
statistica, anche grazie al teorema centrale.
Precisamente se X1 , . . . , Xn sono variabili normali standard (media = 0,
varianza = 1) indipendenti, la somma dei loro quadrati
S 2 = X12 + · · · + Xn2
segue una distribuzione che è detta chi-quadro con n gradi di libertà. Scriveremo S 2 ∼ χ2 (n). Anche per le distribuzioni chi-quadro esistono tabelle
e routine al computer (per esempio in R) per calcolarne i valori. In Figura
1.1 viene mostrata la densità chi-quadro per n = 1, 5 e 10; si vede che, al
crescere di n, la densità si sposta verso destra. Ciò è coerente col fatto che
se S 2 ∼ χ2 (n) allore E(S 2 ) = n, come si può facilmente calcolare
Un risultato molto importante è che la varianza campionaria (1.9) è
distribuita come un chi-quadro. Precisamente
Teorema 5. Se X1 , . . . , Xn sono variabili normali indipendenti (di media µ
e varianza σ 2 ), allora
Pn
(Xi − X̄)2
2
2
∼ χ2 (n − 1).
(1.15)
(n − 1)S /σ = i=1 2
σ
Inoltre S 2 è indipendente da X̄ − µ (che come noto segue una distribuzione
normale).
8
0.2
0.1
densità
0.3
0.4
Il teorema centrale assicura che anche se X1 , . . . , Xn non seguono la distribuzione normale, si ha comunque che (n − 1)S 2 /σ 2 tende ad una distribuzione chi-quadro al tendere di n → ∞.
0.0
normal
t(20)
t(5)
-3
-2
-1
0
1
2
3
x
Figura 1.2: Densità delle distribuzioni t(n) e N (0, 1).
Un’altra distribuzione molto usata in statistica è la distribuzione t (di
Student) che è il rapporto fra una normale standard e la radice di un chi2
quadro.
√ Esattamente, se Z ∼ N (0, 1) e W ∼ χ (n) con Z e W indipendenti,
√
nZ/ W ∼ t(n), segue la distribuzione t con n gradi di libertà. Anche
per la distribuzione t esistono tabelle, ed è fra quelle nell’elenco standard
di R. In Figura 1.2 viene mostrata la densità t per n = 5 e 20 confrontata
con la distribuzione normale standard; si vede che le distribuzioni t sono
simmetriche e simili alla normale, ma con la densità più spostata verso le
‘code’, ossia, dato a > 0, P(|t(n)| > a) > P(|N (0, 1)| > a); al crescere di n, la
densità diventa sempre più simile a quella di una normale standard, e anche
le tavole non riportano valori per n grande (ad esempio n > 100), nel qual
caso si può usare direttamente la distribuzione normale.
Segue dal Teorema 5 che, se X1 , . . . , Xn sono variabili normali indipendenti (di media µ e varianza σ 2 ), allora (n − 1)S 2 /σ 2 ∼ χ2 (n − 1) e
X̄−µ
√ ∼ N (0, 1). Allora
( σ/
n
√
√
√
n(X̄ − µ)/σ
n(X̄ − µ)
√
n − 1p
=
∼ t(n − 1).
(1.16)
(n − 1)S 2 /σ 2
S2
Questo fatto è utile in statistica perché la quantità in (1.16) non dipende da
σ 2 ma solo da S 2 che si calcola dai dati. Tramite essa sarà possibile calcolare
9
intervalli di confidenza per µ tramite la distribuzione t quando (come in
genere) σ 2 non è noto a priori.
10