...

dispensa sulla ANALISI DELLA VARIANZA AD UNA VIA (ANOVA)

by user

on
Category: Documents
26

views

Report

Comments

Transcript

dispensa sulla ANALISI DELLA VARIANZA AD UNA VIA (ANOVA)
L’Analisi della Varianza
ANOVA
(ANalysis Of VAriance)
1
Concetti generali (1/3):
• Confronto simultaneo tra più di due
popolazioni, esempi.....
•La analisi della varianza estende il
confronto a p gruppi con p>2.
2
Concetti generali (2/3)
• Fattore: variabile utilizzata per differenziare un gruppo
da un altro gruppo.
• Livello (o trattamento): uno dei possibili
valori/stati/caratteristiche che il fattore può assumere
• Variabile risposta: variabile quantitativa oggetto dello
studio
Esempio:
Si vuole verificare se la razza dei vitelli (FATTORE) considerando tre razze
(LIVELLI) influenza il peso (VARIABILE RISPOSTA) di 20 vitelli :
bovini
Razza 1
Razza 2
Razza 3
1
63,3
72,8
82,3
2
...
...
...
...
...
...
...
.....
20
...
3
Il disegno completamente
randomizzato
E’ il disegno sperimentale più semplice
Si utilizza quando si considera un solo fattore
sperimentale a più livelli.
I trattamenti/livelli sono assegnati alle unità
sperimentali in modo casuale (randomizzazione).
Se il numero di repliche è uguale per tutti i
trattamenti il disegno è detto bilanciato (preferibile),
altrimenti è detto sbilanciato.
4
Concetti generali (3/3)
In genere i livelli o gruppi possono essere non solo
numerici ma anche qualitativi.
I fattori che definiscono i gruppi possono essere più di
uno.
Con un solo fattore  analisi della varianza ad un fattore
o ad una via
Con due (o più) fattori  analisi della varianza a due ( o
più) fattori o a due vie (o più vie)
5
Predisposizione dei dati
Fattore
repliche 1
2
.....
i
....
p
1
y11
y21
....
yi1
yp1
2
y12
y22
....
yi2
yp2
...
...
....
...
y1j
y2j
....
yij
ypj
J
...
ni
Medie
....
Y1n (i)
Y2n(i)
....
Yin(i)
Ypn(i)
y1
y2
....
yi
yp
y
6
ANALISI DELLA VARIANZA
ESEMPIO: peso di 20 vitelli
y1 =
y2 =
y3 =
68
74
74
y4 =
y5 =
72
73
ripetizioni
y6
y7
y8
y9
y10
y11
=
=
=
=
=
=
62
64
65
63
68
65
j=1
j=2
j=3
j=4
j=5=ni
medie
y12
y13
y14
y15
y16
y17
y18
y19
y20
=
=
=
=
=
=
=
=
=
62
66
68
66
64
65
64
66
65
media = 66,7
i=1
68
74
74
72
73
72,2
livelli
i=2
i=3
62
64
65
63
68
64,4
65
62
66
68
66
65,4
i=4=p
64
65
64
66
65
64,8
66,7
7
ANALISI DELLA VARIANZA
Il modello lineare:
y1 =
y2 =
y3 =
68
74
74
y4 =
y5 =
72
73
ripetizioni
y6
y7
y8
y9
y10
y11
=
=
=
=
=
=
62
64
65
63
68
65
j=1
j=2
j=3
j=4
j=5=ni
medie
y12
y13
y14
y15
y16
y17
y18
y19
y20
=
=
=
=
=
=
=
=
=
62
66
68
66
64
65
64
66
65
media = 66,7
i=1
68
74
74
72
73
72,2
livelli
i=2
i=3
62
64
65
63
68
64,4
i=4=p
65
62
66
68
66
65,4
y ij = m i + e ij
64
65
64
66
65
64,8
"
66,7
i
m̂ i = y i
yij = m + (mi - m) +eij
= m + a i + e ij
yk = m + e k
8
m̂ = y
Il modello lineare
Il modello può essere rappresentato in questa forma:
Yij = m + αi + εij
• con μ media di tutte le popolazioni rappresentate
nell’esperimento
• αi = μ − μi effetto dell’i-esimo trattamento/livello
Generalmente si assume:
•
i = 1, . . . , p (p numero dei livelli)
•
j = 1, . . . , ni (ni numero di repliche all’interno di un livello)
•
nt= n.ro totale di osservazioni
Se il disegno è bilanciato, n1 = n2 = . . . = np
9
IDEA DI FONDO: Scomposizione della
variabilità totale
Variabilità all’interno dei gruppi (SSE)  errore sperimentale
Variabilità tra i gruppi (SSA)  effetti del trattamento/livello
Si ha che:
SST = SSA + SSE
10
Come fare inferenza
Assumendo che i p gruppi (popolazioni) da cui
vengono estratte casualmente le osservazioni siano
distribuiti normalmente e abbiano uguali varianze,
l’ipotesi sottoposta a verifica è:
H0: m1 = m2 = … = mp
oppure
H0 : αi= 0
HA: non tutte le mi sono uguali
11
Come costruire il test?
Il test è basato sulle seguenti considerazioni:
• Se è vera l’ipotesi nulla, i dati differiscono tra loro
per il solo effetto della variabilità casuale.
• Se invece è vera l’ipotesi alternativa (quindi rifiuto
l’H0), entrambe le fonti di variabilità contribuiscono
a determinare la variabilità complessiva.
• Il test è quindi basato sull’analisi della variabilità
complessiva in funzione delle diverse cause (da cui
il termine Analisi della Varianza).
12
Scomposizione della variabilità totale
La VARIABILITA’ TOTALE è descritta dalla SST:
Devianza totale:
SST =  yij - y 
p
ni
2
i =1 j=1
13
Scomposizione della variabilità totale
La VARIABILITA’ TRA I GRUPPI è descritta dalla
SSA (devianza tra i gruppi)
p
Devianza tra i gruppi: SSA =  n i yi - y 2
i =1
FORMULA CALCOLATORIA:

SSA =  n i  y
p
i =1
2
i
- n y 
2
T
14
Scomposizione della variabilità totale
La VARIABILITA’ NEI GRUPPI (o ENTRO I
GRUPPI) è descritta dalla SSE: devianza entro i
gruppi
Devianza entro i gruppi: SSE =  y ij - y i 2
p
ni
i =1 j=1
FORMULA CALCOLATORIA

SSE =   y -  n i  y
p
ni
i =1 j=1
p
2
ij
i =1
2
i

Cosa ci aspettiamo?
• Se l’ipotesi nulla è vera, ci possiamo attendere uno
scarso contributo della devianza tra gruppi alla
devianza totale.
• Sell’ipotesi nulla è falsa, ci possiamo attendere che
entrambe le devianze contribuiscano a determinare la
devianza totale.
• A questo livello non è però possibile fare confronti,
perchè le devianze hanno un numero di addendi diverso.
• Dobbiamo quindi rendere confrontabili le devianze....
16
I gradi di libertà
Ad ognuna delle devianze sono associati i gradi di libertà:
• la devianza totale ha nt − 1 gradi di libertà
• la devianza tra gruppi ha p − 1 gradi di libertà
• la devianza entro i gruppi ha nt - p gradi di libertà
Dividendo ciascuna devianza per i rispettivi gradi di libertà
si ottengono le VARIANZE, cioè le medie dei quadrati:
SSA
MSA =
p -1
Varianza tra i gruppi
SSE
MSE =
nt - p
Varianza entro i gruppi
17
Test F per la ANOVA a un fattore
Per verificare l’ipotesi di uguaglianza delle medie utilizzo
il test F che confronta MSA e MSE.
MSA
var ianza - tra - gruppi
F=
=
MSE var ianza - entro - gruppi
Il test F segue una distribuzione F di Fisher con
(p-1, nt-p) gradi di libertà.
La regola decisionale è: Rifiuto H0 se F>Fα
18
Test F per la ANOVA a un fattore
Il valore critico della F viene determinato in funzione del
livello di significatività a del test.
I valori critici si individuano
nelle tavole della distribuzione F
in base ai gradi di libertà
e al livello di significatività
scelto
Se H0 è falsa ci aspettiamo che F assuma valori maggiori rispetto ai
valori tabulati nella tavola della F  la variabilità totale è dovuta
soprattutto all’effetto del trattamento/fattore.
Se H0 è vera ci aspettiamo che il valore osservato di F sia minore al
19
valore tabulato.
Test F per la ANOVA a un fattore
I risultati del test F per la ANOVA a un fattore vengono
sintetizzati in una tabella come quella seguente:
Fonti di
Variabilità
FdV
DEVIANZE
GDL
VARIANZE
F
Fra i gruppi
Entro i
gruppi
SS(A)
p-1
MS(A)
MS(A)/ MS(E)
Totale
SSTOT
SS(E)
nt-p
nt-1
MS(E)
MSTOT
20
Esempio
Esempio:Peso dei vitelli di 3 razze diverse:
bovini
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
razza 1
63,33
68,32
86,66
52,82
75,01
57,99
69,48
32,68
60,88
58,24
45,54
44,92
67,04
62,99
66,63
65,53
59,58
85,65
64,55
83,74
razza 2
72,85
88,17
80,82
71,27
81,5
47,56
81,04
81,38
82,96
75,98
77,35
69,31
61,69
64,87
75,43
59,83
89,65
59,1
76,14
74,46
razza 3
82,33
89,69
81,01
85,09
74,14
75,93
74,74
81,13
76,36
81,77
83,32
81,66
71,77
81,04
78,67
74,86
77,45
79,37
73,89
81,38
Output di excel:
Analisi varianza: ad un fattore
RIEPILOGO
Gruppi
razza 1
razza 2
razza 3
Conteggio Somma
20 1271.58
20 1471.36
20
1585.6
Media
Varianza
63.579 182.5172
73.568 112.556
79.28 19.42282
ANALISI VARIANZA
Origine della
variazione
Tra gruppi
In gruppi
SQ
2526.19
5975.425
Totale
8501.614
Valore di
gdl
MQ
F
significatività
F crit
2 1263.095 12.04875
0.000043 3.158843
57 104.832
59
21
Fly UP