Statistica Obiettivi Spazio di probabilità Variabili casuali

by user

on 06 июля 2016

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download Statistica Obiettivi Spazio di probabilità Variabili casuali

Transcript

Statistica Obiettivi Spazio di probabilità Variabili casuali

Obiettivi
Statistica
Scopo di questi lucidi è di fornire i concetti base di statistica
utili in azienda per:
• la raccolta dei dati,
• la progettazione degli esperimenti,
• l’interpretazione dei risultati.
Introduzione
Raffaele Pesenti
1
Raffaele Pesenti
2
Variabili casuali
Spazio di probabilità
• Variabile casuale o aleatoria: per un dato spazio di probabilità
• Spazio di probabilità: tripletta (Ω,A,P)
– Ω: spazio campioni, insieme di tutti i possibili risultati di un
esperimento concettuale
– A: spazio degli eventi, insieme di tutti gli eventi (evento: un
sottoinsieme dello spazio dei campioni)
– P: funzione di probabilità, P: A→[0,1] e t.c
(Ω,A,P), una variabile casuale X è una funzione avente come
dominio Ω, come codominio la retta reale e t.c. che l’insieme Ar,
definito da Ar={ω,X(ω)≤r}, appartenga ad A, e quindi sia definita
una probabilità P(Ar) = P(X≤r), per qualunque r.
• P(A) ≥ 0, ∀ A∈ A
• P(Ω) = 1
• P(∪Ai) = ΣiP(Ai) se Ai indipendenti (anche infiniti)
In parole povere
• Variabile casuale o aleatoria: quantità i cui valori dipendono dal
caso e per i quali è stata definita una funzione di probabilità
Raffaele Pesenti
3
Raffaele Pesenti
4
Media e Varianza
Funzioni di distribuzione e di densità
µ X = E{ X } = ∫
+∞
xf X ( x)dx
• Funzione di distribuzione cumulativa (di una variabile
casuale): FX:R →[0,1] t.c. FX(x) = P(X≤x).
• Media:
• Funzione di densità discreta/di probabilità (di una variabile
casuale): fX(x) t.c.
• Deviazione standard: σ X = var(x)
 P( X = xi )
– caso discreto f X ( x) = 
0
– caso continuo FX ( x) = ∫
x
−∞
+∞
2
2
2
• Varianza: σ X = var( x) = E{( X − µ X ) } = ∫ ( x − µ X ) f X ( x)dx
−∞
x = xi , i = 1,2,..
• Valore atteso della funzione g(.) della variabile casuale X:
E{g ( X )} = ∫
altrimenti
g ( x) f X ( x)dx
NB: caso continuo e nell’ipotesi che convergano gli integrali,
i pedici a µ e σ sono omessi se non ci sono ambiguità
Raffaele Pesenti
5
Raffaele Pesenti
6
Momenti, Quantili, Moda
Disuguaglianza di Tchebycheff
• Momento di ordine r:
• Disuguaglianza di Tchebycheff: sia X una variabile casuale e
g(.) una funzione non negativa definita in R, allora
µ'r = E{ X r }
• Momento centrale di ordine r:
k >0
µ r = E{( X − µ X ) r }
• Quantile q-mo: il più piccolo numero ξq t.c. FX(ξq) ≥ q
• Corollario
1
P(| X − µ x |≥ rσ) = P(( X − µ x ) 2 ≥ rσ 2 ) ≤ , r > 0
r2
ovvero
1
P(µ X − rσ < X < µ X + rσ) ≥ 1 − ,
r>0
r2
Raffaele Pesenti
+∞
−∞
f X (u )du
E{g ( X )}
P( g ( X ) ≥ k ) ≤
,
k
−∞
• Mediana: quantile 0.5
• Moda: punto di massimo di fX(.) - se esiste
7
Raffaele Pesenti
8
Popolazione e campioni
Statistiche campionarie
• Popolazione oggetto: totalità degli elementi in esame circa i
quali si vogliono ottenere informazioni.
• Statistica campionaria: funzione di variabili casuali
osservabili, a sua volta variabile casuale osservabile
• Campione: gruppo di elementi prelevati da una popolazione
allo scopo di raccogliere informazioni sulla popolazione stessa.
• Campione casuale: campione la cui densità congiunta delle n
variabili casuali che lo compongono è:
f X 1... X n ( x1,..., xn ) = f X 1 ( x1 )... f X n ( xn )
momenti campionari
9
• Teorema sulla media campionaria: E{X n } = µ, var(X n ) =
σ2
n
(X i − X n ) 2
n -1
………….
10
Se la popolazione è distribuita secondo una distribuzione
normale allora sono note le distribuzioni di statistiche che
legano ai parametri della popolazione e alle statistiche dei
campioni Xi e Yj
X n −µ
~ t (n − 1)
S/ n
σ2/ε2δ
P(-ε < X n - µ < ε) ≥ 1 - δ
∑
∑
• Teorema centrale della statistica:
X −µ
Zn = n
→ ~ n(0,1)
σ/ n
Raffaele Pesenti
∑
=
Ruolo distribuzione normale
• Teorema sulla varianza campionaria:
n−3 4 
1
E{S2 } = σ 2 , var(S2 ) =  µ 4 −
σ 
n
n −1 
• Legge dei grandi numeri: allora per n >
S
2
n
n
i =1
Raffaele Pesenti
Teoremi base
Popolazione con media e varianza finita
n
varianza campionaria
• Distribuzione campionaria: densità congiunta delle variabili
casuali che compongono il campione.
Raffaele Pesenti
∑ Xi
X n = i =1
E.g.,
media campionaria
11
m
i =1
n
j =1
Raffaele Pesenti
( X i− X ) 2 / m
(Y j − Y ) / n
2
∑i =1
n
( X i−µ) 2
σ
2
~ χ 2 (n − 1)
~ F (m − 1, n − 1)
12
Processi stocastici
Conseguenze
• Processo stocastico: X(t), variabile casuale parametrizzata nel
tempo. Per t fissato X(t) è la realizzazione del processo
stocastico al tempo t.
• Processo (stocastico) stazionario: processo in cui la probabilità
che un evento si verifichi un dato numero di volte dipende
dall’ampiezza dell’intervallo temporale considerato e non dalla
sua posizione sull’asse reale.
• Processo (stocastico) stazionario rispetto ad una
caratteristica: processo in cui la caratteristica (e.g., media)
delle realizzazioni X(t) non dipende da t.
• Serie temporale: campionamento (in genere finito) nel tempo di
un processo stocastico
• Se le variabili sono distribuite in modo normale si inferiscono
facilmente le proprietà della popolazione dal campione,
• il Teorema centrale della statistica afferma che la media
campionaria di campioni sufficientemente grandi tende ad
essere normale,
• dovendo considerare popolazioni non normali conviene
– estrarre più campioni,
– valutare le medie campionarie di ognuno di essi,
– inferire i parametri della popolazione a partire da tali medie
considerandole statistiche distribuite normalmente.
Raffaele Pesenti
13
Raffaele Pesenti
Serie temporali e simulazione
14
Test di goodness of fit
Una simulazione ha lo scopo inferire induttivamente le
caratteristiche di processi stocastici dipendenti e
Goodness of fit ⇔Buon adattamento
parametrizzati al variare delle leggi di dipendenza e dei
parametri.
• Test Chi-quadro
E.g., il tempo di permanenza dei clienti in un sistema è un processo
stocastico dipendente dal processo dei tempi di arrivo dei clienti,
dai processi dei tempi di servizio e dal numero dei servitori
utilizzati.
Raffaele Pesenti
15
• Test Kolmorgorov-Smirnov
Raffaele Pesenti
16
Numeri casuali
Per realizzare un esperimento statistico significativo, bisogna
estrarre dalla popolazione un campione casualizzato.
Statistica
Questa operazione dovrebbe venire effettuata con l’aiuto di
numeri generati casualmente (e.g., si controllano i lotti Xi, dove
Xi è un numero casuale).
Purtroppo un calcolatore, macchina deterministica, non riesce a
generare numeri completamente casuali ma solo sequenze di
numeri pseudocasuali generati da procedure matematiche e da
un numero (seme) di inizializzazione.
numeri casuali
Raffaele Pesenti
1
Numeri pseudocasuali e semi
2
Numeri pseudocasuali e semi
le sequenze dei numeri pseudocasuali sono debolmente
autocorrelate, quindi ...
Antefatto
Un generatore produce una sequenza di numeri pseudocasuali
diversa in funzione del seme iniziale
– il valore atteso di operazioni che coinvolgono pochi numeri
della stessa sequenza può essere significativamente deviato
dal vero valore atteso
Domanda
Quando è opportuno usare numeri casuali estratti da sequenze
diverse e quindi usare semi differenti?
Raffaele Pesenti
Raffaele Pesenti
– il valore atteso della media di molti numeri della stessa
sequenza non devia significativamente dal vero valore atteso
3
Raffaele Pesenti
4
Numeri pseudocasuali e semi
Numeri pseudocasuali e semi
Conseguenze:
– assegnare i valori di un’unica sequenza ad una attività o ad
un unico attributo quando si è interessati a prestazioni medie;
– assegnare valori da sequenze generate da semi diversi per
ogni attività o attributo da cui dipendono, anche in modo
estremamente indiretto, gli indici di prestazione osservato;
Tipico errore:
In una coda, usare numeri provenienti dalla stessa sequenza per
descrivere gli intertempi di arrivo dei clienti e i tempi di
servizio.
Si devono usare valori provenienti da sequenze generate da semi
diversi.
– cambiare tutti i semi ad ogni esperimento.
In una coda M/M/1 ci si accorge immediatamente dell’errore,
perché, sul lungo periodo, la media e la deviazione standard
degli intertempi di uscita differiscono significativamente.
Comportarsi diversamente è gravemente sbagliato conduce a
risultati statistici completamente deviati
Raffaele Pesenti
5
Raffaele Pesenti
6
Parametri
• Analisi preliminare (già svolta a questo livello)
identificazione dei componenti del sistema e
dei reciproci nessi causali
Statistica
• Definizione parametri
campagna dati per l’identificazione dei parametri
caratterizzanti il sistema:
• parametri deterministici
• parametri stocastici
Determinazione parametri
di un sistema noto
Raffaele Pesenti
1
Raffaele Pesenti
Attenzione
2
Parametri deterministici
Errori comuni nell’analisi di sistemi:
• Teoricamente: non si pongono particolari problemi, se non
eventualmente quelli associati alla presenza di rumore nella
misura di tali parametri.
– assumere due parametri indipendenti quando non lo sono
si interviene quindi erroneamente su uno di essi ritenendo che non
influenzi l’altro (e.g., numero di lavoratori presenti in un officina,
prestazioni medie dei lavoratori)
• Praticamente: molte aziende hanno informazioni poco
affidabile su quanto in loro possesso, sono quasi sempre
necessarie delle campagne di misura, inventario o catalogazione.
– assumere due parametri dipendenti quando non lo sono
si interviene quindi erroneamente su uno di essi ritenendo di potere
modificare di conseguenza anche l’altro (e.g., molte delle politiche di
repressione del crimine)
Raffaele Pesenti
3
Raffaele Pesenti
4
Parametri stocastici
Parametri stocastici: passi necessari
• Teoricamente e praticamente si pongono notevoli problemi la
cui soluzione richiede generalmente un significativo
investimento di tempo e denaro.
• individuazione parametri rappresentabili come variabili casuali
i.i.d.;
• Esempio:
si identifichino i parametri stocastici che descrivono il
funzionamento degli sportelli della segreteria studenti.
Si valuti in termini di giorni uomo il costo di tale operazione.
• Soluzione:
una volta individuati quali sono i parametri di interesse la loro
misura deve essere fatta in maniera automatica.
Raffaele Pesenti
• identificazione delle distribuzioni di probabilità;
• identificazione dei parametri delle distribuzioni;
• verifica delle ipotesi (goodness of fit).
5
Raffaele Pesenti
Individuazione parametri
Individuazione parametri
Le componenti casuali indipendenti sono in genere note a priori
oppure sono state dedotte dall’analisi preliminare del sistema.
Spesso è comunque opportuno fare una verifica della loro:
– indipendenza e mancata autocorrelazione.
– possibile tempo varianza.
• I parametri osservati in un sistema reale possono essere
autocorrelati oppure tra loro dipendenti/correlati.
• Esempio: la richiesta per un prodotto è spesso soggetta a
variazioni stagionali; la richiesta di più prodotti sono spesso
correlate.
• Esempio:
i tempi di arrivo e di fine servizio dei clienti in una coda sono tra loro
dipendenti (i clienti successivi non possono essere caratterizzati da tempi
minori dei clienti precedenti).
Gli intertempi di arrivo e i tempi di servizio possono essere i.i.d.
• Bisogna individuare le componenti casuali indipendenti ed
esprimere i parametri osservati in funzione di esse.
NB: i generatori forniscono solo numeri i.i.d..
Raffaele Pesenti
6
7
Raffaele Pesenti
8
Individuazione parametri
Identificazione della distribuzione
• Per capire quali parametri possano essere rappresentati con
variabili casuali i.i.d. conviene cercare di esprimere i parametri
di interesse nelle componenti elementari. Queste ultime sono
probabilmente quelle più atte ad una rappresentazione tramite
variabili casuali i.i.d..
• Diagramma quantile-quantile
– quando ci sono pochi dati e si vuole fare solo una valutazione empirica
– quando non si devono stimare parametri della distribuzione di origine
• Esempio (cont.):
tfine_servizio(i+1)=max{tfine_servizio(i), tarrivo(i+1)}+ tservizio(i+1)
tarrivo(i+1)=tarrivo(i)+ tintertempo_arrivo(i,i+1)
tintertempo_arrivo e tservizio sono migliori candidati che tfine_servizioe tarrivo
Raffaele Pesenti
• Istogramma
– quando ci sono molti dati e si devono stimare parametri
9
Raffaele Pesenti
Diagramma q-q
10
Diagramma q-q
Principi base:
Note:
• siano y1, y2, …, yn le osservazioni ordinate in modo crescente,
yj è una stima del quantile (j-0.5)/n
• sia γj il ((j-0.5)/n)-mo quantile
γj=FX-1
• vi è probabilità 0 di ottenere effettivamente una linea retta
• i punti, in quanto ordinati, non sono indipendenti, quindi
difficilmente appariranno dispersi attorno alla retta, ma piuttosto
suggeriranno una curva dolce
((j-0.5)/n)),
• i punti (yj, γj) dovrebbero essere approssimativamente allineati
lungo la bisettrice del primo quadrante
Raffaele Pesenti
• le varianze agli estremi sono maggiori che nei valori centrali. La
linearità va ricercata soprattutto per i valori centrali.
11
Raffaele Pesenti
12
Esempio 1
Esempio 2
campione esponenziale con media 1 confrontato distribuzione
esponenziale e normale con stessa media e varianza
campione ~ n(1,4) confrontato distribuzione normale con stessa
media e deviazione standard metà ed uguale
5
4
5
4
4
4
3
3
3
2
2
2
1
1
1
0
3
2
-4
0
1
-1
0
0
1
2
3
4
5
0
1
2
3
4
-3
5
-2
Raffaele Pesenti
13
-2
-1
-1
0
0
1
2
3
4
-4
-3
-2
-1
-1
-2
-2
-3
-3
-4
-4
0
1
2
3
Raffaele Pesenti
Istogramma
4
14
Istogramma
• Si partizionano i dati osservati in intervalli di uguale ampiezza o
in classi di occorrenza (per dati qualitativi)
Principi base:
• si rappresentano i dati tramite istogramma;
• si confronta la forma dell’istogramma con quella di distribuzioni
note e se ne sceglie una, fissando gli eventuali parametri;
– i limiti degli intervalli possibilmente non dovrebbero coincidere con un
dato osservato al fine di non avere ambiguità nella rappresentazione
– in numero degli intervalli ~10 (5-20) deve essere sufficientemente fine da
permettere di individuare la distribuzione, ma non eccessivamente da
essere troppo dipendente dalle occorrenze osservate
• si verifica quanto l’istogramma osservato devia da quello atteso.
• Si determinano le frequenze delle realizzazioni osservate per
ogni intervallo
Raffaele Pesenti
15
Raffaele Pesenti
16
Esempio 1
Esempio 2
3 classi
30 realizzazioni / 6 classi
20
18
16
14
12
10
8
6
4
2
0
• 30 realizzazioni di una
variabile X~n(15,5)
12
Realizzazioni di una
variabile X~n(15,5)
0
10-20
20-30
0-5
8 classi
12
10
8
8
6
6
4
50 realizzazioni / 6 classi
2
0
0
0-5
5-10
10-15
15-20
0-3
3-6
6-9
9-12
12-15
15-18
18-21
21-24
200 realizzazioni / 6 classi
200 realizzazioni / 9 classi
60
50
60
40
40
30
30
20
20
10
10
0
0
0-5
5-10
10-15
15-20
20-25
25-30
0-3
3-6
6-9
9-12
12-15
15-18
18-21
21-24
200 realizzazioni / 14 classi
40
35
30
25
20
15
10
5
0
0-2
Raffaele Pesenti
2-4
4-6
6-8
25
8-10 10-12 12-14 14-16 16-18 18-20 20-22 22-24 24-26 26-28
19
24-27
10-15
15-20
20-25
25-30
20-25
25-30
20
15
4
10
2
5
0
0-5
5-10
Raffaele Pesenti
Esempio 2: cont.
50
30
12
0
17
70
35
14
6
Raffaele Pesenti
80
16
8
20-25
5-10
100 realizzazioni / 6 classi
10
4
2
6
2
5 classi
10
8
4
0-10
12
10
10-15
15-20
20-25
25-30
0-5
5-10
10-15
15-20
18
Confronto con distribuzioni note
Distribuzioni discrete
• Uniforme (anche continua): per variabili che possono assumere
ogni valore indifferentemente all'interno di un certo intervallo,
e.g., valore singolo dado, posizione ruota.
• Dalla fase preliminare di analisi del problema in genere è
possibile dedurre con quali famiglie di distribuzioni si devono
confrontare gli istogrammi ottenuti.
• Poisson: numero di eventi x intervallati con distribuzione
esponenziale verificatesi, dove λ è il numero medio atteso. e.g.,
numero clienti in una giornata, numero di telefonate.
• Una prima macroscopica suddivisione è tra
– distribuzioni discrete
– distribuzioni continue
Raffaele Pesenti
1
Raffaele Pesenti
2
Distribuzioni discrete
Distribuzioni continue
• Bernoulli: due sole realizzazioni, probabilità p e 1-p.
• Binomiale: numero di prove di successo x su un dato numero di
prove bernoulliane n.
• Geometrica: numero di prove x prima di un successo.
• Ipergeometrica: numero di prove x di successo estratti senza
reimmissione su un campione dato n, in una popolazione
limitata M di cui è noto il numero di elementi di successo k.
• Binomiale negativa: numero di insuccessi x che precedono l'rmo successo.
• Gaussiana o Normale: per variabili che descrivono disturbi
risultati di tante piccole azioni, e.g., ritardo dovuto a traffico,
scostamento rispetto a dimensione progettata di una parte,
scostamento rispetto ad un guadagno atteso, scostamento
rispetto ad un tempo di servizio atteso.
• Normale troncata: come normale, ma non sono ammessi valori
estremi per le code.
• Logonormale: per variabili il cui logaritmo ha distribuzione
normale. Per molte variabili casuali il logaritmo tende ad essere
normale.
Raffaele Pesenti
Raffaele Pesenti
3
4
Distribuzione normale
( x −µ ) 2
−
2
1
e 2σ
2πσ
f (x ) =
Distribuzioni continue
• Esponenziale: per variabili che modellano l'intervallo tra due
eventi, il cui accadimento non è influenzato dal tempo trascorso
dall'evento precedente, e.g., intervallo tra due guasti di un
singolo componente, intervallo tra l'arrivo di due persone ad una
coda, intervallo tra due richieste di servizio.
Anche per tempi di servizio assolutamente casuali, e.g., durata
di una telefonata, disbrigo di una pratica non nota a priori.
• Esponenziale doppia: generalizza esponenziale, simmetrica
rispetto all’origine.
• Erlang: per variabili che modellano intervalli esprimibili come
somma di variabili esponenziali.
0.9
σ=0.5
0.6
σ=1
0.3
σ=2
0
-6
-4
-2
0
2
4
6
Raffaele Pesenti
5
Raffaele Pesenti
Distribuzione gamma
Distribuzione esponenziale
1.5
2
f ( x ) = λe − λ x
λ=2
β =12 f ( x ) = βθ (βθx )β −1 e −βθx
Γ(β)
β =1
1.5
1
1
6
0.5
sempre θ=1
θ: fattore scala
β: fattore forma
β =4
λ=1
β =2
0.5
λ=0.5
0
0
0
Raffaele Pesenti
0.5
1
1.5
2
2.5
0
3
7
Raffaele Pesenti
0.5
1
1.5
2
2.5
3
8
Distribuzioni continue
Distribuzione Weibull
• Gamma: generalizza Erlang, per fattore forma non intero.
Modella interarrivi e tempi di servizio, il maggior numero di
parametri che la caratterizza permette di fissare la moda e la
forma delle code. Trova applicazione, e.g., per modellare
intervalli tra guasti in presenza di ridondanze quando ogni
singolo componente ha un tempo tra guasti esponenziale.
• Weibull: come gamma. Trova applicazione, e.g., per modellare
intervalli tra guasti quando questi sono dovuti alla presenza di
più difetti e dipendono dal più serio tra essi.
• Beta: generalizza gamma, utilizzata nel PERT, viene in genere
utilizzata per lo studio su campioni delle variazioni percentuali
di un elemento o di una situazione qualsiasi, quale ad esempio il
numero di ore che si trascorrono quotidianamente davanti al
televisore.
Raffaele Pesenti
9
2
β =0.5
1.5
1
β =1
α/β=5/80
10
α/β=10/40
α/β=40/10
α/β=20/20
5
0
0
Raffaele Pesenti
0.2
0.4
0.6
0.8


α α 
sempre ν=0, α=1
α: fattore scala
β: fattore forma
ν: fattore di locazione
β =2
0
0
0.5
1
1.5
2
Raffaele Pesenti
2.5
3
10
Distribuzioni continue
sempre Α=0, Β=1
α: fattore forma
β: fattore forma
Α,Β: fattori di
locazione
α/β=80/5
f (x ) =
β
0.5
Distribuzione beta
15
β =4
 x −ν 
β  x − ν β−1 − α 
e
• Logistica: utilizzata, soprattutto in biologia, per modelli relativi
a livelli di tolleranza.
• Pareto: utilizzata per distribuzione di redditi che superano un
dato valore.
• Gumbel: utilizzata per statistiche su valori estremi
• Triangolari, trapezoidali, spline empiriche: utilizzate per
distribuzioni su intervalli finiti non meglio approssimate da altre
distribuzioni.
• t, F, χ2: usate per verifica ipotesi statistiche.
1
11
Raffaele Pesenti
12
Identificazione dei parametri
caratteristici della distribuzione
Definizioni
• Metodo dei momenti successivi: si impone che i momenti
campionari coincidano con quelli della popolazione e quindi si
fissano i parametri della distribuzione (problemi di deviazione bias).
• Metodo della massima verosimiglianza: si determinano i
parametri in modo che sia massima la probabilità che siano stati
estratti i campioni osservati dalla popolazione (migliore ma più
complesso, a volte coincidente col metodo dei momenti).
• Eccezioni: stimatori distorti (biased) che vengono corretti.
Raffaele Pesenti
13
Si voglia stimare in funzione dei parametri θ una caratteristica
τ=τ(θ) di una distribuzione (e.g., la media).
• Stimatore non deviato: T è uno stimatore non deviato di τ(θ) se
e solo se Eθ{T}=τ(θ).
• Stimatore UMVUE (non deviato con varianza uniformemente
minima - stimatore non deviato efficiente): stimatore non
deviato
che
minimizza
l'errore
quadratico
medio
2
l'MSE(θ)=Eθ{(T-τ(θ)) }, che per uno stimatore non deviato
coincide con Varθ(T).
Raffaele Pesenti
14
Metodo dei momenti:esempio
Metodo dei momenti
• Metodo dei momenti: data una distribuzione caratterizzata da k
parametri incogniti, questi vengono stimati esprimendoli come
funzione dei primi k momenti della popolazione e quindi
sostituendo ai momenti della popolazione i momenti
campionari.
• Esempio: si voglia stimare media µ e varianza σ2 di una
popolazione caratterizzata da una distribuzione normale.
• la media µ=µ1 è il momento di ordine uno e viene stimato con
M=ΣiXi/n
2
2
• la varianza σ = µ2−(µ1) è legata al momento di ordine due,
viene stimato con
µk=E{Xk} : momento k-mo della popolazione
Μk=ΣiXik/n : momento k-mo campionario
2
1 n 2 1  n
 1 n

2

X i − 2  ∑ X i   = ∑ (X i − M )
∑
 n i =1
n  i =1   n i =1

che risulta essere deviato.
Raffaele Pesenti
15
Raffaele Pesenti
16
Metodo della massima
verosimiglianza
Metodo dei momenti: osservazioni
• Vantaggi: la estrema semplicità che rende il metodo dei
momenti applicabile facilmente a situazioni in cui sarebbe
troppo complesso applicarne altri.
• Svantaggi: se si deve stimare il valore della funzione di un
parametro è in generale meglio stimare tale valore direttamente
invece che il parametro e quindi applicare la funzione, e.g., si
consideri il problema di stimare il valore di e−λ. Per queste
ragioni il metodo di massima verosimiglianza deve essere
preferito, quando possibile, al metodo dei momenti.
Raffaele Pesenti
17
• Funzione di verosimiglianza: la funzione L(θ,x1,…,xn),
funzione di densità congiunta dei valori assunti dalle n variabili
casuali associate ai campioni e del parametro θ.
L(θ,x1,…,xn)dx1... dxn e sprime la probabilità che n osservazioni
realizzino i valori x1,…,xn.
• Stimatore di massima verosimiglianza: stimatore di θ,
funzione delle variabili casuali associate ai campioni, che se
sostituito a θ massimizza il valore di L(θ,x1,…,xn).
Raffaele Pesenti
Metodo della massima
verosimiglianza
Metodo della massima
verosimiglianza: esempio
• Nel caso in cui L(θ,x1,…,xn), rispetti le opportune condizioni di
derivabilità lo stimatore cercato coincide con la soluzione
(espressa come θ in funzione di x1,…,xn) dell'equazione
• Esempio: si voglia stimare il parametro λ di una distribuzione
esponenziale.
n
L(λ , x1,..., xn ) = ∏ λe -λxi
dL/dθ = 0
• Nell'ipotesi di campioni indipendenti
n
i =1
n
∑ dλln(λe-λX i ) = ∑  λ − Xi  = 0
L(θ,x1,…,xn) = fX(θ,x1)… fX(θ,xn) = ΠifX(θ,xi)
invece di risolvere dL/dθ=0 può convenire risolvere
l'equivalente, ma più semplice,
i =1
d
1
i =1
λ= n
n
∑ Xi
∂ln(L)/∂θ = ∂Σiln(fX(θ,xi))/∂θ = Σi ∂ln(fX(θ,xi))/∂θ = 0 .
Raffaele Pesenti
18
i =1
19
Raffaele Pesenti
20
Metodo della massima
verosimiglianza:proprietà
Stimatori distribuzioni note
• Invarianza, se t è uno stimatore di θ e h è una funzione
invertibile di θ, lo stimatore di massima verosimiglianza di h(θ)
è h(t).
• Ottimalità UMVUE, se L(θ,x1,…,xn) = ΠifX(θ,xi) e lo
stimatore ottenuto non è deviato allora lo stimatore è UMVUE.
N.B. si deve sempre verificare che lo stimatore non sia deviato,
ci sono infatti casi comuni come per la stima della varianza di
distribuzioni normali in cui tale stimatore è deviato.
Raffaele Pesenti
21
• Per le distribuzioni note, in letteratura sono dati gli stimatori di
massima verosimiglianza o loro correzioni.
•
•
•
•
binomiale:
uniforme:
normale:
esponenziale:
b(p,1-p)
u(0,b)
n(µ,σ2)
exp(λ)
p=f/n
b=((n+1)maxi{Xi})/n
µ=Μ, σ2=Σi(Xi-M)2/(n-1)
λ=1/Μ
Raffaele Pesenti
22
Test χ2
Verifica correttezza delle ipotesi
• Test statistico, su k classi con Ot frequenze osservate per classe
e Et frequenze attese, dato da
(Ot − Et ) 2
Et
t =1
k
χ 02 = ∑
• Si verifica la correttezza delle ipotesi: si esegue un frequency
test con
– χ2 (grezzo ma semplice);
• H0: la variabile casuale X può essere distribuita secondo la
distribuzione assunta coi parametri stimati
• H1: la variabile casuale X non può essere distribuita secondo la
distribuzione assunta coi parametri stimati
– Kolmogorov-Smirnov (migliore ma più complesso).
Raffaele Pesenti
23
Raffaele Pesenti
24
Test χ2
Esempi
Dati s parametri identificati dalla distribuzione assunta, se
• Valori estratti da popolazione normale
– media popolazione: 15
– deviazione standard popolazione: 5
• Per fare test χ2 si devono fare il seguente numero di classi
χ 02 ≤ χα2 %,k − s −1
L’ipotesi nulla H0 è accettata, altrimenti si assume valere H1.
num eros ita'
c am pione
20
50
100
> 100
NB: i test statistici impediscono soltanto di prendere abbagli
clamorosi, non provano la correttezza dell’ipotesi nulla.
Si assume che sia vero quello che si vuole verificare, e si rifiuta
la congettura solo se ci sono risultati molto lontani
dall’atteso,ovvero che si possono verificare per il puro effetto
del caso solo nell’α% dei casi.
Raffaele Pesenti
25
Raffaele Pesenti
0-5
5-10
10-15
15-20
20-25
Fre q. Oss.
2
5
11
7
5
tota le
30
χ2
2.87
0.21
0.06
1.03
0.21
4.37
Uniform e
Fre q. Att.
6.00
6.00
6.00
6.00
6.00
χ2
2.67
0.17
4.17
0.17
0.17
7.33
• Valore critico χ21%,5-2-1=9.21, χ25%,5-2-1=5.99.
• Tutte e due le scelte sono accettabili all’1%, solo quella normale
è accettabile al 5%. Estrarre ulteriori campioni per accettare o
respingere la distribuzione uniforme.
Raffaele Pesenti
26
Esempio
Esempio
Norm a le
Fre q. Att.
0.64
4.08
10.24
10.24
4.08
num ero c las s i k
non us are χ2
da 5 a 10
da10 a 20
da √n a n/5
27
0 -2
2 -4
4 -6
6 -8
8 -1 0
1 0 -1 2
1 2 -1 4
1 4 -1 6
1 6 -1 8
1 8 -2 0
2 0 -2 2
2 2 -2 4
2 4 -2 6
2 6 -2 8
to ta l e
F r e q . O ss. F r e q . A tt.
1
0.33
1
0.92
2
2.20
5
4.48
10
7.79
9
11.56
16
14.65
15
15.85
6
14.65
18
11.56
9
7.79
5
4.48
2
2.20
1
0.92
100
χ2 F r e q . A tt.
7.14
7.14
0.14
7.14
7.14
0.63
7.14
0.57
7.14
0.12
7.14
0.05
7.14
5.11
7.14
3.59
7.14
0.19
7.14
7.14
0.02
7.14
7.14
10.41
χ2
13.41
1.14
0.48
10.98
8.64
0.18
16.50
0.48
8.42
60.24
• Valore critico χ21%,9-2-1=16.8 , χ25%,9-2-1=12.6.
• Solo la distribuzione normale è accettabile
Raffaele Pesenti
28
Kolmogorov-Smirnov
Esempio
Test per H0: campione proveniente da popolazione ~ FX(x)
Principi base
• per n→∞, Fn(x) ~ n(FX(x), FX(x)(1-FX(x))/n)
Note:
• teorema Glivenko-Cantelli
– quando ci sono meno di 5 realizzazioni osservate
P(sup | Fn ( x) − FX ( x) | → 0) = 1
n →∞
complessivamente le classi dovrebbero venire raggruppate;
– il valore di χ2 varia al variare del numero delle classi. Per
• Dn = max |FX(x) - Fn(x)|,
ha distribuzione indipendente da FX(x), per n→∞,
(dipende da FX(x) per n piccoli e per FX(x,Θ) parametrizzata)
• se deviazione massima campionaria è maggiore del valore
critico Dn,α% si rigetta H0
questo è importante partire dai numeri consigliati ed
eventualmente dopo raggruppare.
Raffaele Pesenti
29
Se tutto fallisce
• Se tutte le ipotesi falliscono: realizzare distribuzioni empiriche
lineari a tratti.
Raffaele Pesenti
31
Raffaele Pesenti
30
Correlazione
Correlazione
• Siano date N coppie di realizzazioni, (X1, Y1)…, (Xn, Yn), di X e Y,
si vuole verificare se esiste una correlazione, se cioè
• Nel caso di relazioni lineari tra due variabili casuali distribuite
normalmente (distribuzione normale bivariata) si definisce il
coefficiente di correlazione campionario r (stima di ρ) come:
cov(x,y)=E{(Xi-µx)(Yi-µy)} = E{XiYi}- µx µy ≠ 0
r=
• Se X e Y sono correlati, Y può essere espresso in funzione di X e di
• si verifica che nell’ipotesi nulla di non correlazione H0: ρ = 0
r N −2
t=
1− r2
• segue la distribuzione di student con N-2 gradi di libertà.
una variabile aleatoria indipendente E
Y=h(X,E)
Raffaele Pesenti
1
Raffaele Pesenti
Correlazione
Misura ordinaria di correlazione è la
correlazione tra ranghi o di Spearmen
1 1+ r
Z = ln(
)
2 1− r
Corr. di Spearmen = S =
• è approssimativamente normale con media e varianza come segue
Raffaele Pesenti
σ Z2 =
2
Correlazione
• si verifica che nell’ipotesi nulla di correlazione data H0: ρ = ρ 0
1 1+ r
µ z = ln(
)
2 1− r
∑ ( X i − M X )(Yi − M Y )
2
∑ ( X i − M X ) ∑ (Yi − M Y ) 2
∑i (r ( X i ) − r ( X ))∑i (r (Yi ) − r (Y ))
∑i (r ( X i ) − r ( X )) 2 ∑i (r (Yi ) − r (Y ))2
se dati incorrelati E{S} = 0 e var{S} = 1/(n-1)
1
N −3
3
Raffaele Pesenti
4
Regressione lineare
Regressione lineare
• si usano modelli di regressione lineare
• Test sul coefficiente di correlazione
dell’ipotesi nulla H0: a1= A1
X i : indipendente
Yi = a0 + a1 X i + Ε i
aˆ − A
t= 1 1
1− r2
• dove Ei~n(0, σE2), e gli stimatori dei parametri sono
1
2
( ∑ ( Yi − M Y ) − â1 ∑ Yi ( X i − M X ) )
S E2 =
N −2
Y (X − M X )
aˆ1 = ∑ i i
aˆ0 = M Y − aˆ1M X
2
∑(Xi − M X )
Raffaele Pesenti
• segue la distribuzione di student con N-2 gradi di libertà
5
Correlazione: generalizzazioni
Raffaele Pesenti
6
Correlazione: generalizzazioni
• Correlazione multipla: una variabile può essere espressa in
termini di più di una altra variabile casuale.
• Regressione non lineare: una variabile può essere espressa in
termini di una relazione non lineare con un’altra variabile
casuale. In questo caso r, che esprime quanto è forte la
dipendenza, risulta essere t.c.:
• Multivarianza: un vettore X di variabili casuali correlate
espresso in funzione di variabili indipendenti E.
Se è dato il vettore X di variabili aleatorie normali correlate con
media µ e matrice di covarianza Σ. X può essere espresso come
2
varianza spiegata ∑ (Yi, stimato − M Y )
r =
=
vatianza totale
∑ (Yi − M Y ) 2
X= µ + CE
2
dove
– E~n(0,1) e
– C è una matrice triangolare inferiore di Cholesky, t.c.
CCT=Σ.
NB: con sufficienti gradi di libertà si spiega qualunque cosa, ma la stima dei
parametri diventa assolutamente inaffidabile. Se non ci sono giustificati
motivi conviene sempre usare modelli semplici.
Raffaele Pesenti
N −2
7
Raffaele Pesenti
8
Autocorrelazione
Autocorrelazione
• se X1,…,Xn~ u(0,1), una stima di sim è
• Siano date N realizzazioni, X1,…,Xn, di X
sˆim =
• si vuole verificare se a partire da Xi esiste una correlazione ogni
m realizzazioni, se cioè
• dove M è t.c. i+Mm≤N
sim=E{(Xi+km-µ)(Xi+(k+1)m-µ)} = E{Xi+kmXi+(k+1)m}-µ2≠ 0
• definiti
σ βim =
13M − 5
12M
Z0 =
sˆim
σ βim
• si dimostra che per M grandi Z0~n(0,1)
NB: il test va fatto per ogni coppia i,m
Raffaele Pesenti
1 M −1
( ∑ Ri km Ri + ( k +1) m ) − 0.25
M k =0 +
9
Raffaele Pesenti
Autocorrelazione
10
Autocorrelazione
• Date
– H0: sim= 0
– H1: sim≠ 0
• Per lo studio dell’autocorrelazione si può utilizzare l’analisi
spettrale di potenza nel caso di dati provenienti da un processo
stazionario ed ergodico.
• Se |Z0|≤Zα% (test a due code) si accetta H0,
altrimenti si accetta H1
• valori critici di Zα%
– Z2.5%= 1.96
– Z0.5%= 1.645
Raffaele Pesenti
11
Raffaele Pesenti
12
Modelli lineari per
valori autocorrelati
Tempovarianza
• si usano modelli ARMA o loro generalizzazioni
• Test
• si individuano i parametri che si suppongono tempovarianti
(tipicamente medie)
• si eseguono test di confronto tra due valori
xt = µ + ∑i φi ( xt −i − µ ) − ∑i θ iε t −i + ε t
– H0: valori uguali (non tempovarianza)
• dove, nel caso più comune ARMA, εt~n(0,σ2)
– H1: valori diversi (tempovarianza)
NB: rimane il problema di identificare i parametri
• test classici sono quelli di confronto tra due medie o due
varianze di distribuzioni normali (vedi norme UNI 6806-72)
del modello ARMA
Raffaele Pesenti
13
Raffaele Pesenti
Modelli per valori tempovarianti
Indicazioni pratiche
• Esempio (trasformata inversa):
• si supponga variabili esponenziali tempovariabili. La funzione
cumulata di probabilità di un intertempo Ti,i+1 al tempo ti è
FTi ,i +1|ti (ti +1 ) = 1 − e
• Conviene sempre graficare i dati su diagrammi a scattering (per
correlazione) o su carte di controllo (per autocorrelazione - UNI
4728 - 66) per avere un’indicazione visiva sulle caratteristiche
dei dati.
− ∫t i +1 λ (t ) dt
t
i
• Conviene dividere i dati disponibili tra learning set e verification
set. Le caratteristiche e i parametri di correlazione o
autocorrelazione vengono identificate attraverso i dati del
learning set. Una verifica qualitativa che i modelli identificati
testando la correttezza delle previsioni ottenute con tali modelli
sui dati del verification set.
• da cui eseguendo la trasformata inversa, ovvero risolvendo in
ti+1 l’equazione,
∫tii +1 λ (t )dt = − ln(1 − Ri +1 )
t
• si può calcolare Ti,i+1= ti+1- ti
Raffaele Pesenti
14
15
Raffaele Pesenti
16
Le carte di controllo
Diagrammi a scattering (100 dati)
3
3
0
-3
0
0
3
-3
0
-3
3
-3
non correlati
correlati
Raffaele Pesenti
17
• Cosa sono:
diagrammi in cui sono riportati i punti
rappresentativi dei sottogruppi,... (es.: valore
caratteristica, numero difetti, percentuale pezzi non
conformi)
• Cosa servono:
a controllare caratteristiche processo o prodotto
valutare opportunità azioni correttive
• Come funzionano:
la disposizione dei punti permette di dedurre lo stato
del processo
Raffaele Pesenti
DEEI - University of Trieste
Struttura carte
% elementi non conformi
LC: linea centrale
0.12
Variazioni cicliche
LSC: limite controllo superiore
0.12
fuori controllo
0.08
0.08
0.04
0.04
0.00
0.00
0
5
LIS: limite controllo inferiore
Raffaele Pesenti
18
10
15
20
sottogruppi
DEEI - University of Trieste
25
25
30
35
40
45
50
periodo
19
Raffaele Pesenti
DEEI - University of Trieste
20
Stocasticità dati
I dati di output di un esperimento statistico sono stocastici
dipendono da:
Statistica
– sequenze numeri casuali generati per produrre il campione;
– condizioni iniziali
– durata teorica dell’esperimento/simulazione
• terminante
• non terminante
analisi dati output - modello singolo
NB: essere o non essere terminante dipende dalla struttura e dagli obiettivi
scelti. E.g., banca terminante rispetto a clienti, non terminante rispetto
operazioni.
Raffaele Pesenti
1
Raffaele Pesenti
Stima del valore e
stima dell’intervallo
Concetti generali
• Si vuole stimare uno o più parametri che descrivono le
prestazioni del sistema.
• stima del valore (o puntuale): dati {X1, X2, …, Xn} si
desidera una stima del valore “più plausibile” di ξ;
– ξ parametro da stimare
– {X1, X2, …, Xn} osservazioni di tale parametro
• stima dell’intervallo (o intervallo di confidenza): dati
{X1, X2, …, Xn} si desidera una stima di un intervallo che
includa ξ con una data probabilità (95%, 99%);
• Dati {X1, X2, …, Xn} si desidera una stima di ξ
Raffaele Pesenti
2
3
Raffaele Pesenti
4
Stima del valore
Stima dell’intervallo
Uno stimatore è
ξ̂ è una variabile aleatoria caratterizzata da una sua
deviazione standard
σ(ξˆ )
che può essere solo stimata da
σˆ (ξˆ )
1 n
ξˆ = ∑ X i
n i =1
ma, in generale è deviato
che è una stima deviata
ˆ =ξ+b
E { ξ}
E{σˆ 2 (ξˆ )} = Bσ 2 (ξˆ )
lo stimatore non deviato se b = 0 e si ottiene, e.g., per Xi i.i.d..
Raffaele Pesenti
tranne nel caso B=1, e si ottiene, e.g., per Xi i.i.d.,
ammesso che la varianza campionaria sia stata corretta
5
Raffaele Pesenti
6
Stima dell’intervallo
Stima dell’intervallo
Una stima della varianza, con n-1 gradi di libertà, è
Se la stima della varianza non è deviata,
S 2 1 n ( X i − ξˆ ) 2
= ∑
n n i =1 n − 1
che è non deviata se Xi sono i.i.d.,
mentre è
– una sottostima se Xi autocorrelati positivamente
– una sovrastima se Xi autocorrelati negativamente
ξˆ − ξ
t=
σˆ (ξˆ )
è distribuito come t-student con f gradi di libertà, se
σˆ 2 (ξˆ ) =
osservazioni provenienti da popolazione normale.
L’intervallo di confidenza è
ξˆ − tα / 2, f σˆ (ξˆ ) ≤ ξ ≤ ξˆ + tα / 2, f σˆ (ξˆ )
NB: si ricordi la relazione tra la varianza della media campionaria e la
varianza della popolazione
2 ˆ
2
σ (ξ) = σ / n
Raffaele Pesenti
7
Raffaele Pesenti
8
Attenzione
• se si ha uno stimatore puntuale deviato, si può ottenere
un intervallo di confidenza stretto intorno ad un valore
sbagliato (errore grave);
• se si ha una autocorrelazione positiva e si usa lo
stimatore derivato da S2 si ottiene un intervallo di
confidenza più stretto di quello reale (errore grave);
• se si ha una autocorrelazione negativa e si usa lo
stimatore derivato da S2 si ottiene un intervallo di
confidenza più largo di quello reale (errore minore, si è
solo sprecato del tempo).
Raffaele Pesenti
Analisi di transitori
(simulazioni di durata finita)
9
Raffaele Pesenti
Misura delle prestazioni
di un sistema
10
Stima del valore
Uno stimatore è
1 n
θˆ r = ∑ Y ri
n i =1
• L’esperimento / la simulazione servono a stimare uno o più
parametri che descrivono le prestazioni del sistema.
– θ parametro da stimare
– R sequenze {Yr1, Yr2, …, Yrn} per ogni replica (run di
simulazione) r eseguita dell’esperimento
ma, in generale è deviato
E { θˆ r } = θ + b
• Dati le R {Yr1, Yr2, …, Yrn} si desidera una stima di θ
in funzione dello stato iniziale (gli Yri sono autocorrelati)
E.g.: tempo di attesa medio, tempo di attesa singolo cliente, numero di
clienti inizialmente in coda.
Raffaele Pesenti
11
Raffaele Pesenti
12
Stima del valore
Stima del valore
1 R ˆ
θˆ =
∑ θr
R r =1
Si può ottenere uno stimatore non deviato se i singoli
stimatori di run sono i.i.d.:
– ottenuti con semi diversi;
– ottenuti in base a stati iniziali definiti casualmente
secondo le corrispondenti distribuzioni.
S 2 1 R (θˆ r − θˆ ) 2
σˆ 2 (θˆ ) =
= ∑
R R r =1 R − 1
NB: tipicamente lo stimatore è deviato perché si suppone uno stato
iniziale “nullo” che in generale non si presenta in natura.
Raffaele Pesenti
Stimatori non deviati se stime di run i.i.d.
13
Raffaele Pesenti
14
Intervallo di confidenza
con precisione data
Stima dell’intervallo
Se la stima della varianza non è deviata,
• L’intervallo di confidenza è funzione del numero di run
eseguiti:
θˆ − θ
σˆ (θˆ )
è distribuito come t-student con R-1 gradi di libertà.
t=
h.l. = tα / 2, R −1σˆ (θˆ ) = tα / 2, R −1
σˆ
R
L’intervallo di confidenza è
• si esegue una prima stima approssimata della varianza
della popolazione con un numero ridotto di run R0 (almeno
4 o 5) e si deduce R di conseguenza.
θˆ − tα / 2, R −1σˆ (θˆ ) ≤ θ ≤ θˆ + tα / 2, R −1σˆ (θˆ )
NB: per il teorema centrale della statistica, lo stimatore è
approssimativamente distribuito in modo normale
Raffaele Pesenti
15
Raffaele Pesenti
16
Stocasticità dati
I dati di output di un esperimento statistico sono stocastici
dipendono da:
Statistica
– sequenze numeri casuali generati per produrre il campione;
– condizioni iniziali
– durata teorica dell’esperimento/simulazione
• terminante
• non terminante
analisi dati output - modello singolo
NB: essere o non essere terminante dipende dalla struttura e dagli obiettivi
scelti. E.g., banca terminante rispetto a clienti, non terminante rispetto
operazioni.
Raffaele Pesenti
1
Raffaele Pesenti
Stima del valore e
stima dell’intervallo
Concetti generali
• Si vuole stimare uno o più parametri che descrivono le
prestazioni del sistema.
• stima del valore (o puntuale): dati {X1, X2, …, Xn} si
desidera una stima del valore “più plausibile” di ξ;
– ξ parametro da stimare
– {X1, X2, …, Xn} osservazioni di tale parametro
• stima dell’intervallo (o intervallo di confidenza): dati
{X1, X2, …, Xn} si desidera una stima di un intervallo che
includa ξ con una data probabilità (95%, 99%);
• Dati {X1, X2, …, Xn} si desidera una stima di ξ
Raffaele Pesenti
2
3
Raffaele Pesenti
4
Stima del valore
Stima dell’intervallo
Uno stimatore è
ξ̂ è una variabile aleatoria caratterizzata da una sua
deviazione standard
σ(ξˆ )
che può essere solo stimata da
σˆ (ξˆ )
1 n
ξˆ = ∑ X i
n i =1
ma, in generale è deviato
che è una stima deviata
ˆ =ξ+b
E { ξ}
E{σˆ 2 (ξˆ )} = Bσ 2 (ξˆ )
lo stimatore non deviato se b = 0 e si ottiene, e.g., per Xi i.i.d..
Raffaele Pesenti
tranne nel caso B=1, e si ottiene, e.g., per Xi i.i.d.,
ammesso che la varianza campionaria sia stata corretta
5
Raffaele Pesenti
6
Stima dell’intervallo
Stima dell’intervallo
Una stima della varianza, con n-1 gradi di libertà, è
Se la stima della varianza non è deviata,
S 2 1 n ( X i − ξˆ ) 2
σˆ 2 (ξˆ ) =
= ∑
n n i =1 n − 1
che è non deviata se Xi sono i.i.d.,
mentre è
– una sottostima se Xi autocorrelati positivamente
– una sovrastima se Xi autocorrelati negativamente
ξˆ − ξ
t=
σˆ (ξˆ )
è distribuito come t-student con f gradi di libertà, se
osservazioni provenienti da popolazione normale.
L’intervallo di confidenza è
ξˆ − tα / 2, f σˆ (ξˆ ) ≤ ξ ≤ ξˆ + tα / 2, f σˆ (ξˆ )
NB: si ricordi la relazione tra la varianza della media campionaria e la
varianza della popolazione
2 ˆ
2
σ ( ξ) = σ / n
Raffaele Pesenti
7
Raffaele Pesenti
8
Attenzione
• se si ha uno stimatore puntuale deviato, si può ottenere
un intervallo di confidenza stretto intorno ad un valore
sbagliato (errore grave);
• se si ha una autocorrelazione positiva e si usa lo
stimatore derivato da S2 si ottiene un intervallo di
confidenza più stretto di quello reale (errore grave);
• se si ha una autocorrelazione negativa e si usa lo
stimatore derivato da S2 si ottiene un intervallo di
confidenza più largo di quello reale (errore minore, si è
solo sprecato del tempo).
Analisi di transitori
(simulazioni di durata finita)
Raffaele Pesenti
9
Raffaele Pesenti
Misura delle prestazioni
di un sistema
10
Stima del valore
Uno stimatore è
1 n
θˆ r = ∑ Y ri
n i =1
• L’esperimento / la simulazione servono a stimare uno o più
parametri che descrivono le prestazioni del sistema.
– θ parametro da stimare
– R sequenze {Yr1, Yr2, …, Yrn} per ogni replica (run di simulazione)
r eseguita dell’esperimento
ma, in generale è deviato
E { θˆ r } = θ + b
• Date le R sequenze {Yr1, Yr2, …, Yrn} si desidera una stima
di θ
Raffaele Pesenti
11
in funzione dello stato iniziale (gli Yri sono autocorrelati)
E.g.: tempo di attesa medio, tempo di attesa singolo cliente, numero di
clienti inizialmente in coda.
Raffaele Pesenti
12
Stima del valore
Stima del valore
1 R ˆ
θˆ =
∑ θr
R r =1
Si può ottenere uno stimatore non deviato se i singoli
stimatori di run sono i.i.d.:
– ottenuti con semi diversi;
– ottenuti in base a stati iniziali definiti casualmente
secondo le corrispondenti distribuzioni.
σˆ 2 (θˆ ) =
NB: tipicamente lo stimatore è deviato perché si suppone uno stato
iniziale “nullo” che in generale non si presenta in natura.
Raffaele Pesenti
S 2 1 R (θˆ r − θˆ ) 2
= ∑
R R r =1 R − 1
Stimatori non deviati se stime di run i.i.d.
13
Raffaele Pesenti
14
Intervallo di confidenza
con precisione data
Stima dell’intervallo
Se la stima della varianza non è deviata,
• L’intervallo di confidenza è funzione del numero di run
eseguiti:
θˆ − θ
t=
σˆ (θˆ )
è distribuito come t-student con R-1 gradi di libertà.
σˆ
h.l. = tα / 2, R −1σˆ (θˆ ) = tα / 2, R −1
R
L’intervallo di confidenza è
• si esegue una prima stima approssimata della varianza
della popolazione con un numero ridotto di run R0 (almeno
4 o 5) e si deduce R di conseguenza.
θˆ − tα / 2, R −1σˆ (θˆ ) ≤ θ ≤ θˆ + tα / 2, R −1σˆ (θˆ )
NB: per il teorema centrale della statistica, lo stimatore è
approssimativamente distribuito in modo normale
Raffaele Pesenti
15
Raffaele Pesenti
16
Processi non terminanti
Esistono sistemi che lavorano senza soluzione (logica) di
continuità:
– pronto soccorso, polizia, etc…
– produzione manifatturiera
– flussi monetari
Analisi di sistemi a regime
– ….
Raffaele Pesenti
17
Raffaele Pesenti
18
Esempio: coda M/M/1
Sistemi a regime
Tempo di attesa in coda:
Problema:
dato un processo non terminante, ha senso cercare di
stimare una sua caratteristica che potrebbe variare nel
tempo ?
wi = max{wi-1+ si-1- ai,0}
P(Wi ≤ wi| Wi-1 ≤ wi-1) ≠ P(Wi≤ wi)
quindi
Risposta:
si! Almeno nel caso in cui il processo è stazionario rispetto
a tale caratteristica.
P(Wi ≤ wi| W1 ≤ w1) ≠ P(Wi≤ wi)
vi è dipendenza dallo stato iniziale,
ma se il fattore di utilizzazione è minore di 1 ...
Raffaele Pesenti
19
Raffaele Pesenti
20
Esempio: coda M/M/1
t-stazionarietà
per i→∞:
Definizione:
Xw è t-stazionario se la dipendenza tra Xw e Xu esiste
solo per |w-u|≤t
P(Wi ≤ wi| W1 ≤ w1) = P(Wi≤ wi)
inoltre
P(Wi ≤ wi| Wi-1 ≤ wi-1) ≠ P(Wi≤ wi)
Teorema del limite centrale
ma indipendente da i (stazionarietà in senso stretto)
se Xw è t-stazionario e ∃ E{Xw}= µ e E{|Xw|3}<∞
In particolare
γd= cov(Wi+d, Wi) dipende da d ma non da i
X
Stazionarietà in senso ampio:
Raffaele Pesenti
21
Raffaele Pesenti
Sistemi a regime
Per i sistemi precedenti ha senso studiare le prestazioni a
regime (quando questo esiste, e.g., sistemi stazionari)
1 n
∑ Yi
n → ∞ n i =1
θ = Lim
Risposta:
2
n
∑ ∑
n i =1 j =1
n −1
γ
cov(X i , X j ) = n0 [1 + 2 ∑ (1 − kn ) ρ k ]
k =1
γ
k
dove γ k = cov(X i , X i + k ), ρ k =
γ0
NB: la relazione si ottiene applicando
var(X+Y) = var(X) + var(Y) + 2cov(X,Y)
Raffaele Pesenti
22
Sistemi a regime
Problema:
come cambia la varianza se le osservazioni non sono
indipendenti (campione non casuale) ?
1 n
1 T
∑ X i+r
T r =1
è asintoticamente normale ed ha valore atteso µ
se solo E{Wi} e γd indipendenti da d
σ 2 (X ) =
=
23
Le stime ottenute attraverso la simulazione
sono necessariamente di durata finita
sono deviate in funzione delle condizioni iniziali, ma tale
deviazione diminuisce tanto più sono lunghi i run
Problemi:
come capire di avere raggiunto il regime?
come ottenere dati i.i.d.
Raffaele Pesenti
24
Deviazione da condizioni iniziali
Determinazione durata warm-up
fase di inizializzazione
Per ridurre la deviazione indotta da condizioni iniziali
arbitrarie si:
– scelgono condizioni iniziali reali (richiede un’analisi approfondita
e costosa del sistema)
0
Raffaele Pesenti
25
Raffaele Pesenti
Y .. =
Y..(n, d) =
1
R
• eseguire più run (~10)
• dividere i run osservati in batch di durata uguale
• per ogni gruppo di batch corrispondenti, calcolare la media dei
batch
• calcolare la media cumulativa delle medie dei batch
eliminando progressivamente un batch alla volta, a partire da
quello iniziale
• quando la media cumulativa non risente “significativamente”
dell’ultimo batch eliminato, si ritiene di avere superato la fase
di transitorio
R
∑Y
r =1
rj
:media batch j-mi
1 n
∑Y . j
n j =1
:media cumulata
1 n
∑Y. j
n−d j=d+1
:media cumulata con d cancellazioni
NB: non usare più di 25~30 batch, stimare l’intervallo di confidenza delle
medie dei batch
NB: a j fissato e a r variabile Yrj sono i.i.d. e quindi la loro media è circa
distribuita con il t-student
Raffaele Pesenti
26
Metodi empirici
:media individuale batch
valore osservato j-mo replicazione r-ma
Y .j =
batch
• metodi statistici (di difficile applicazione, praticamente
non usati)
• metodi empirici
Metodi empirici
Yrj
t
punto di cancellazione
– scelgono condizioni iniziali realistiche, ottenibili da modelli
matematici - reti di code - molto semplificativi della realtà (spesso
difficile matematicamente)
– si parte da uno stato arbitrario (in genere lo stato nullo) e non si
raccolgono dati statistici per un periodo di inizializzazione (warmup) (più usato)
fase raccolta dati
27
Raffaele Pesenti
28
Come capire se le variazioni non
sono più significative
poco solidi
• ad occhio
statisticamente
• variazioni inferiori all’1-2%
più solidi, a volte
• intervalli di confidenza sulle medie dei
conservativi
batch corrispondenti
• intervalli di confidenza (deviati) sulle medie cumulate
• metodi statistici ad hoc
complessi
• La deviazione dovuta alle condizioni iniziali è affetta dalla
posizione del punto di cancellazione, non dal numero di
repliche dell’esperimento. Se non si è calcolata
correttamente il punto di cancellazione tutte le stime
verranno deviate.
• Il punto di cancellazione dipende dal parametro che si
vuole stimare. Deve essere ricalcolato per ognuno di essi.
Per autocorrelazioni vicine ad 1 non c’è metodo che tenga
Raffaele Pesenti
Attenzione
29
Raffaele Pesenti
Stime con repliche
Stime con long run
• Nota la durata del transitorio, si calcola la media di replica
con cancellazione
Y r . ( n, d ) =
n
1
∑ Y rj
n − d i = d +1
• si eseguono le stime come per simulazioni finite, le medie
di replica sono tra loro i.i.d.
• non conviene fare più di ~25 repliche, piuttosto fare run
lunghi
• si sprecano dati e tempi perché si devono superare tanti
transitori
Raffaele Pesenti
30
31
• Nota la durata del transitorio, si esegue un unico lungo run
• si eseguono le stime come per simulazioni finite
utilizzando i valori Yj calcolati per i batch del run (si usano
~30 batch)
vantaggi
• è necessario un solo transitorio
svantaggi
• stime corrette solo se Yi sono i.i.d.
Raffaele Pesenti
32
Indipendenza Yi
Test di autocorrelazione
• Osservazioni
in generale
– Yj e Yj+k sono autocorrelati, cov(Yj,Yj+k)≠0
– |cov(Yj,Yj+k)| > |cov(Yj,Yj+m)| se k<m
– l’autocorrelazione diminuisce con la lunghezza del
batch
• Conseguenza
– se si definiscono batch per cui si può supporre
cov(Yj,Yj+1) = 0, allora le Yj possono essere ritenute
i.i.d., si possono eseguire le stime nel modo usuale
Raffaele Pesenti
Statistica di Von Neumann
n −1
∑ (Y j − Y j +1) 2
q=
j =1
n
∑ (Y j − Y ) 2
j =1
33
Raffaele Pesenti
Test di autocorrelazione
34
Test di autocorrelazione
Se Yj i.i.d.
– E{q} = 2
– σ2(q) = 4(n-2)/(n2-1)
– q pressoché normale per n≥100
Problema
il test di autocorrelazione funziona correttamente se il
numero di batch è superiore a 100 (si consiglia 100-400
batch)
quindi:
si calcola q e l’intervallo di confidenza
(q - z2.5%σ (q); q + z2.5%σ (q))
se 2 appartiene a tale intervallo si accetta l’ipotesi nulla di
Yj i.i.d.
quindi, per stime con long run,
si definiscono prima 100-400 batch iniziali per verificarne
l’indipendenza,
si aggregano i batch iniziali in 30 batch finali per calcolare
le statistiche di interesse
Raffaele Pesenti
35
Raffaele Pesenti
36
Stime con renewal point
• se il sistema osservato passa ripetutamente attraverso uno “stato”
t.c. la sua evoluzione futura è indipendente dalla storia passata,
tale stato è detto “renewal state” (stato di rigenerazione),, gli
istanti di tali passaggi sono detti renewal point
• le statistiche rilevate tra due renewal point sono i.i.d.
• se lo stato iniziale è un renewal state non si deve eliminare il
transitorio,
però
• il metodo è difficilmente usabile in sistemi complessi poiché è
difficile che si ripeta lo stesso stato.
Raffaele Pesenti
37
Confronto tra due alternative
Esempio
si hanno tre centri di controllo qualità.
alternative
– lavorano in parallelo, eseguendo ognuno di essi tutti i
controlli
– lavorano in serie, ognuno di essi esegue solo dei
controlli (maggiore specializzazione tempo medio
singolo controllo minore)
si vuole determinare quale configurazione induce un
minore tempo medio di permanenza nel sistema
Statistica
Confronto tra alternative:
due o più alternative
Raffaele Pesenti
1
Confronto tra due alternative
2
Confronto tra due alternative
Procedura di soluzione
Siano θ1 e θ2 i parametri di interesse (e.g., tempo di
permanenza nel sistema), si esegue un test sull’ipotesi
nulla
H0: θ1 = θ2 ⇒ θ1 - θ2 = 0
Due metodi per stimare θ1 - θ2
– stima separata di θ1 e di θ2, quindi calcolo della
differenza
– si stima θ1 - θ2 in base ai dati disponibili,
– si verifica se θ1 - θ2 è significativamente maggiore o
minore di 0
Raffaele Pesenti
Raffaele Pesenti
– stima diretta di θ1 - θ2
3
Raffaele Pesenti
4
Stima separata di θ1 - θ2
Stima separata di θ1 - θ2
• date le osservazioni Yri (osservazione r-ma rispetto al
sistema i-mo)
• si deducono separatamente in modo indipendente, con
semi diversi, le stime per θ1 e θ2 e le loro varianze
(vedi, e.g., norma UNI 6806 -72)
• la stima di θ1 - θ2 risulta
θˆ 1 − θˆ 2 = Y .1 − Y .2
• poiché le stime sono calcolate in modo indipendente
R
1 i
θˆ i = Y .i = ∑ Yri
Ri r =1
σ 2 (θˆ 1 − θˆ 2 ) = σ 2 (θˆ 1 ) + σ 2 (θˆ 2 )
R
Si2
i
1
=
(Yri −Y .i ) 2
∑
Ri − 1 r =1
• e la stima di θ1 - θ2 è distribuita circa con il t-student
Raffaele Pesenti
5
Raffaele Pesenti
Stima separata di θ1 - θ2
Stima separata di θ1 - θ2
• altrimenti, per R1 e R2 ≥ 6 una stima non deviata della
varianza risulta
• una stima non deviata della varianza risulta
( R − 1) S12 + ( R2 − 1) S 22
σˆ (θˆ 1 − θˆ 2 ) = 1
R1 + R2 − 2
2
S2 S2
σˆ 2 (θˆ 1 − θˆ 2 ) = 1 + 2
R1 R2
1
1
+
R1 R2
• con ν−1=R1+R2-2 gradi di libertà, se si ritiene
• con gradi di libertà
σ 2 (θˆ 1 ) ≈ σ 2 (θˆ 2 )
Raffaele Pesenti
6
ν=
7
Raffaele Pesenti
( S12 / R1 + S 22 / R2 ) 2
( S12 / R1 ) 2 /( R1 − 1) + ( S 22 / R2 ) 2 /( R2 − 1)
8
Stima separata di θ1 - θ2
Stima diretta di θ1 - θ2
• non si può rifiutare H0 se, la stima non è significativamente
distante da 0 se
θˆ 1 − θˆ 2 − tα / 2, ν −1σˆ (θˆ 1 − θˆ 2 ) ≤ 0 ≤ θˆ 1 − θˆ 2 + tα / 2, ν −1σˆ (θˆ 1 − θˆ 2 )
La stima diretta è anche nota come tecnica di
– campionamento correlato
0
• altrimenti si può ritenere statisticamente significativo
intervallo confidenza θ1 − θ2
θ1 > θ2, θ2 > θ1 se
θˆ 1 > θˆ 2 + tα / 2,ν −1σˆ (θˆ 1 − θˆ 2 )
θˆ 2 > θˆ 1 + t α / 2,ν −1 σˆ (θˆ 1 − θˆ 2 )
– riduzione della varianza
– numeri casuali comuni
0
0
Raffaele Pesenti
9
Raffaele Pesenti
Stima diretta di θ1 - θ2
Stima diretta di θ1 - θ2
Concetto base:
• date osservazioni accoppiate Yr1 e Yr2 dello stesso
parametro nei due sistemi diversi (e.g., il tempo di
permanenza nel sistema dello stesso cliente)
• si deducono delle stime per D e la sua varianza (vedi, e.g.,
norma UNI 6807 -72)
confrontare due sistemi sottoponendoli agli stessi input.
Giustificazione matematica:
Sia D = θ1 - θ2, se le osservazioni sui due sistemi sono
correlate
Dr = Yr1 − Yr 2
σ 2 ( Dˆ ) = σ 2 (θˆ 1 ) + σ 2 (θˆ 2 ) − 2σ(θˆ 1 )σ(θˆ 2 )ρ12
2
SD
=
Se la correlazione è positiva la varianza può essere ridotta
rispetto al caso precedente
Raffaele Pesenti
10
11
Raffaele Pesenti
1 R
∑ ( Dr − D) 2
R − 1 r =1
1 R
Dˆ = ∑ Dr
R r =1
S
σˆ ( Dˆ ) = D
R
12
Stima diretta di θ1 - θ2
Stima diretta di θ1 - θ2
• non si può rifiutare H0 se, la stima non è significativamente
distante da 0 se
Dˆ − tα / 2, R −1σˆ ( Dˆ ) ≤ 0 ≤ Dˆ + tα / 2, R −1σˆ ( Dˆ )
• altrimenti si può ritenere statisticamente significativo
θ1 > θ2, θ2 > θ1 se
Dˆ > tα / 2, R −1σˆ ( Dˆ )
Dˆ < −tα / 2, R −1σˆ ( Dˆ )
Raffaele Pesenti
13
• vantaggi
– può ridurre significativamente la varianza e quindi
permettere di concludere, dove nel caso precedente non
era possibile
• difficoltà
– può essere complesso recuperare i valori da accoppiare
(e.g., si consideri la possibilità che i clienti
abbandonino i sistemi in sequenze diverse)
– non vi è garanzia matematica che vi sia correlazione
positiva
Raffaele Pesenti
14
Confronti multipli
Perché:
• per determinare i parametri caratteristici di sistemi
Tre o più alternative
alternativi
• per confrontare alternative rispetto ad un sistema di
riferimento
• per confrontare tutte le coppie di alternative
Raffaele Pesenti
15
Raffaele Pesenti
16
Confronti multipli
Confronti multipli
E.g., (affermazioni indipendenti)
Problema:
• P(affermazione i-ma corretta) = 1-αi
Se ogni affermazione è corretta con un certo grado di
• P(tutte le affermazioni corrette)=Πi(1-αi)
probabilità. Quando si compiono tante affermazioni la
• se αi=5% e n=10
• P(tutte le affermazioni corrette)<60%
probabilità che siano tutte corrette diminuisce
significativamente.
Soluzione:
• si devono fissare coefficienti di confidenza 1-αi più grandi,
ma di quanto?
Raffaele Pesenti
17
Raffaele Pesenti
Bonferroni
18
Bonferroni
n
P(n affermazioni corrette) ≥ 1 − ∑ αi
Dovendosi fare n affermazioni con errore complessivo non
i =1
• Condizione vera per affermazioni indipendenti o
dipendenti.
• Se affermazioni indipendenti, si prova per induzione
superiore ad α, bisogna imporre per ogni affermazione un
coefficiente di confidenza 1-αi, tale che
n
∑
1) P (1 affermazione corretta) ≥ 1 − α1
n) P (n affermazioni corrette) = (1 − α n ) P (n − 1 affermazioni corrette) ≥
n −1
n
n −1
n
i =1
i =1
i =1
i =1
tipicamente αi= α/n.
≥ (1 − α n )(1 − ∑ α i ) = 1 − ∑ α i + α n ∑ α i ≥ 1 − ∑ α i
Raffaele Pesenti
i =1
αi ≤ α
19
Raffaele Pesenti
20
Esempio 1
Esempio 1 (cont.)
Si vogliono confrontare 3 alternative con una di
riferimento (altenativa 1) per verificare che quest’ultima è
ottima, con un coefficiente di confidenza del 95%:
– 3 test
– se α=5% allora αi=1.66%
– si determinano gli intervalli di confidenza
θˆ 1 − θˆ i − t1.66 / 2, ν −1σˆ (θˆ 1 − θˆ i ) ≤ θ1 − θi ≤ θˆ 1 − θˆ i + t1.66 / 2, ν −1σˆ (θˆ 1 − θˆ i )
NB: Bonferroni vale anche per campionamento correlato
Raffaele Pesenti
21
Esempio 2
Problema
Si vuole verificare se, tra 100 monete, ci sono delle monete
false al 95% di confidenza.
Metodo scorretto
si eseguono test al 95% su tutte le monete e quindi si
considera solo uno per cui, per puro effetto del caso,
l’ipotesi nulla (moneta buona) è rifiutata.
Metodo corretto
si calcolano con Bonferroni i coefficienti di confidenza per
tutti i test (αi=0.05%). Si eseguono test al 99.95% su tutte
le monete.
Raffaele Pesenti
23
si ottenga
-1.2 ≤ θ1- θ2 ≤ 1.2
0.3 ≤ θ1- θ3 ≤ 2.0
0.6 ≤ θ1- θ4 ≤ 0.9
l’alternativa 1 non è ottima, le alternative 3 e 4 sono
migliori di quella di riferimento. Si desidererebbe quindi
confrontare 3 e 4 fra loro, ma …
ATTENZIONE
Non usare gli stessi dati. Si deve fare un test ad hoc.
Non è corretto prima osservare i risultati e poi decidere le
affermazioni da verificare, altrimenti si prova qualunque
cosa.
Raffaele Pesenti
22
Prerequisiti
Si riportino alla mente i seguenti concetti:
Statistica
• relazione tra varianza della popolazione e varianza delle
medie campionarie della popolazione
• determinazione di uno stimatore non deviato della varianza
Progetto degli esperimenti:
metodo Anova
• determinazione del numero di gradi di libertà di una stima
della varianza
Raffaele Pesenti
1
Raffaele Pesenti
Problema
Sistema, fattori, livelli
Problema
• Un sistema è caratterizzato da
– fattori
determinare se le prestazioni di un sistema dipendono dai
livelli assunti da uno o più fattori.
• qualitativi(e.g., politica di servizio FIFO, LIFO,..)
• quantitativi (e.g., numero di servitori)
Test statistico
si usa la metodologia detta ANOVA
• i fattori possono essere
– variabili decisionali o politiche
– fattori non decisionali (e.g., tasso arrivo clienti)
• i valori assunti dai fattori si dicono livelli.
• l’insieme dei livelli assunti dai fattori di un sistema è detto
trattamento.
Raffaele Pesenti
2
Commenti
• per due livelli ANOVA equivale ad un test con t-student;
• si suppongono repliche indipendenti, non correlate;
• il numero di prove che si compiono è minore che nel caso
di confronto diretto di tutte le coppie di trattamenti
3
Raffaele Pesenti
4
Analisi di un fattore
Analisi di un fattore
Assunzione
il valore Yrj osservato nella replica r-ma a livello j-mo è
Yrj= µ + Nj+ εrj
dove
– µ: prestazione media del sistema mediata su tutti i
possibili livelli
– Nj: variazione media rispetto a µ dovuta al livello j
– εrj: disturbo casuale associato a replica r e livello j
Scindibilità delle variazioni
la variazione totale di Yrj dalla media campionaria
generale è esprimibile come dalla variazione fra i
campioni ovvero del valore medio osservato in repliche
con lo stesso livello dalla la media campionaria generale
più la variazione nei campioni o residua ovvero
variazione del campione dalla media del suo livello.
• εrj è i.i.d.
• εrj ~ n(0,σ)), σ comune per ogni livello e fattore.
Raffaele Pesenti
Yrj − Y .. = (Y . j − Y .. ) + (Yrj − Y . j )
5
Raffaele Pesenti
Analisi di un fattore
Scarti quadratici
lo scarto quadratico totale SSTOTAL risulta essere la
somma dello scarto quadratico fra i campioni SSTREAT e
lo scarto quadratico residuo SSE. I prodotti incrociati si
annullano nelle sommatorie.
SSTOTAL =
=
N R
∑∑
j =1r =1
(Yrj − Y .. ) 2 =
6
Analisi di un fattore
Ipotesi nulla
H0: Nj= 0, ∀j
quindi
– Yrj dovrebbero disporsi intorno a µ con varianza σ2;
N
N R
– Y .. e Y . j sono stime di µ;
j =1
j =1r =1
– SSTOTAL, SSTREAT e SSE sono legate a σ2.
∑ R(Y . j − Y .. ) 2 + ∑ ∑ (Yrj − Y . j ) 2 = SSTREAT + SS E
NB: si assume che per tutti gli N livelli si facciano lo stesso numero di
repliche R, ma ciò non è indispensabile
Raffaele Pesenti
7
Raffaele Pesenti
8
Analisi di un fattore
Analisi di un fattore
• E{SSTOTAL}=(NR-1)σ2,
gdl=NR-1
SSTOTAL/(NR-1) è la varianza campionaria non deviata
Scarti quadratici medi:
• MSTOTAL = SSTOTAL/ NR-1
• E{SSTREAT}=(N-1)σ2 ,
gdl=N-1
SSTREAT/R(N-1) è la varianza campionaria non deviata
delle medie campionarie, E{SSTREAT/R(N-1)}= σ2/R
• MSTREAT = SSTOTAL/ N-1
• MSE = SSE/ NR-N
• E{SSE}=(NR-N)σ2 ,
gdl=NR-N
SSE/(NR-N) è la varianza campionaria non deviata, quando
calcolata rispetto a N diverse stime della media.
Raffaele Pesenti
9
Se vale l’ipotesi nulla, a meno dei disturbi casuali
MSTREAT/ MSE ≈1
Raffaele Pesenti
Analisi di un fattore
10
Esempio
Test F di significatività
Problema
si vuole determinare se la scelta di una tra tre macchine
influenza significativamente le prestazioni di un sistema.
la variabile casuale FN-1,NR-N
FN-1,NR-N= MSTREAT/ MSE
è distribuita come la distribuzione F con gradi di libertà
Tempi di permanenza dei pezzi osservati in tre replicazioni
per ogni livello
N-1 e NR-N.
Se FN-1,NR-N≤Fα,N-1,NR-N si accetta H0, altrimenti la si
respinge
Macchina A Macchina B Macchina C
23.71
18.54
9.78
32.14
10.86
13.54
26.87
11.23
4.32
NB: le tavole di F sono sempre date assumendo maggiore la varianza al
numeratore.Vale però la proprietà Fa,b=1/Fb,a.
Raffaele Pesenti
11
Raffaele Pesenti
12
Esempio (cont.)
Esempio (cont.)
Risultati: da Excel (aggiunta Strumenti Analisi, Analisi
Varianza: ad un fattore)
Commenti
Analisi varianza: ad un fattore
RIEPILOGO
Gruppi
Macchina A
Macchina B
Macchina C
Conteggio Somma
3
82.72
3
40.63
3
27.64
Si può rigettare l’ipotesi nulla.
Media
Varianza
27.57
18.14
13.54
18.76
9.21
21.49
Il fattore macchina da usare è significativo.
ANALISI VARIANZA
Attenzione
Origine
della
variazione
SQ
gdl
Tra gruppi
552.68
In gruppi
116.78
2
6
Totale
8
669.46
MQ
F
276.34
19.46
Valore
di
significatività F crit
14.20
0.01
5.14
Raffaele Pesenti
Non usare gli stessi dati per scegliere la macchina.
Fare test ad hoc oppure usare statistiche avanzate.
13
Raffaele Pesenti
Analisi di due fattori
Analisi di due fattori
Assunzione
il valore Yrj della replica r-ma a livello i-mo per il primo
fattore e j-mo per il secondo fattore è dato da
Scindibilità delle variazioni
la variazione totale di Yrj è data dalle due variazioni fra i
campioni, dalla variazione per l’interazione (depurata
dall’influenza dei singoli livelli) e dalla variazione nei
campioni o residua.
Yrij= µ + Qi + Nj + NQij + εrij
dove
– Nj, Qi : variazioni medie rispetto a µ dovuta al livello i/
livello j
– NQij: variazione media rispetto a µ dovuta all’interazione
due fattori
Raffaele Pesenti
14
15
Yrij − Y .. = (Y .i. − Y ... ) + (Y .. j − Y ... ) +
+ [Y .ij − (Y .i. − Y ... ) − (Y .. j − Y ... ) − Y ... ] +
+ (Yrij − Y .ij )
Raffaele Pesenti
16
Analisi di due fattori
Scarti quadratici
Analisi di due fattori
Q N R
SSTOTAL = ∑ ∑ ∑ (Yrij − Y ... ) 2
Ipotesi nulle
i =1 j =1r =1
Q
SSQ = ∑ NR (Y .i. − Y ... )
SS N =
i =1
N
∑
H0: Qi=0, ∀i
2
H0: Nj=0, ∀j
H0: NQij=0, ∀ij
QR (Y .. j − Y ... ) 2
quindi
– Yrij dovrebbero disporsi intorno a µ con varianza σ2;
– Y ... , Y .i. , Y .. j e Y .ij sono stime di µ;
– SSTOTAL, SSQ , SSN , SSNQ e SSE sono legate a σ2.
j =1
Q
SS NQ = ∑
N
∑
i =1 j =1
R(Y.ij − Y .i. − Y .. j + Y ... ) 2
SS E = SSTOTAL − SSQ − SS N − SS NQ
Raffaele Pesenti
17
Raffaele Pesenti
Analisi di due fattori
18
Analisi di due fattori
Scarti quadratici medi:
• MSTOTAL = SSTOTAL/ NQR-1
gdl: NQR-1
• MSQ = SSQ/ Q-1
gdl: Q-1
• MSN = SSN/ N-1
gdl: N-1
• MSNQ = SSNQ/ (N-1)(Q-1)
gdl: (N-1)(Q-1)
• MSE = SSE/ NQ(R-1)
gdl: NQ(R-1)
Test F di significatività
la variabile casuale Fν1,ν2
Fν1,ν2 = MSTREAT/ MSE
è distribuita come la distribuzione F con gradi di libertà
Se vale l’ipotesi nulla, a meno del disturbo casuale
opportuni ν1, ν2
MSTREAT/ MSE ≈1
dove TREAT vale Q, N o NQ, a seconda delle ipotesi da verificare
Se Fν1,ν2 ≤ Fα,ν1,ν2 si accetta H0, altrimenti la si respinge.
Raffaele Pesenti
19
Raffaele Pesenti
20
Esempio
Esempio
Problema
Tempi di permanenza dei pezzi osservati in tre replicazioni
per ogni fattore, per ogni livello
si vuole determinare se la scelta di una tra tre macchine e
l’uso di uno o due operatori influenza significativamente le
Macchina A Macchina B Macchina C
un operatore
23.71
18.54
9.78
32.14
10.86
13.54
26.87
11.23
4.32
due operatori
21.17
13.24
5.95
19.31
7.91
9.95
22.34
10.10
3.88
prestazioni di un sistema.
Raffaele Pesenti
21
Raffaele Pesenti
22
Esempio (cont.)
Esempio (cont.)
Ana lisi va ria nz a : a d ue fa ttori con re plica
RIEP IL O G O
M a cchin a A M a cchin a B M a cchin a C To ta le
uno
Conte gg io
3
3
3
9
S om m a
82.72
40.63
27.64
150.99
M e dia
27.57
13.54
9.21
16.78
V a ria n z a
18.14
18.76
21.49
83.68
ANALIS I V ARIANZA
Origine della
variazione
SQ
Ca m pione
Colonne
Inte ra zione
In
due
Conte gg io
S om m a
M e dia
V a ria n z a
Tota le
Conte gg io
S om m a
M e dia
V a ria n z a
Raffaele Pesenti
3
62.81
20.94
2.33
3
31.25
10.42
7.18
3
19.78
6.59
9.54
6
145.53
24.26
21.40
6
71.88
11.98
13.31
6
47.42
7.90
14.47
9
113.84
12.65
46.14
Tota le
23
Raffaele Pesenti
gdl
MQ
76.68
869.35
14.35
154.90
1
2
2
12
1115.29
17
F
76.68
434.68
7.18
12.91
V alore
di
significatività F crit
5.94
0.03
33.67
0.00
0.56
0.59
4.75
3.89
3.89
24
Esempio (cont.)
Più di due fattori
Commenti
L’analisi con due fattori può essere generalizzata a k
fattori.
Cresce però in numero esponenziale il numero di
esperimenti da condurre se si vogliono esaminare tutte le
possibili combinazioni di livelli di fattori (full factorial
experiment).
Per questo si ricorre spesso a fractional factorial
experiment, dove alcune interazioni sono escluse a priori
o dedotte.
Nel caso di due fattori se è esclusa l’interazione si usa
l’analisi di varianza senza replica.
Si possono rigettare due ipotesi nulle su tre:
– il fattore macchina da usare è significativo;
– il fattore operatori è significativo;
– non si può ritenere significativa l’interazione tra i
fattori.
Raffaele Pesenti
25
Raffaele Pesenti
26