Statistica Obiettivi Spazio di probabilità Variabili casuali
by user
Comments
Transcript
Statistica Obiettivi Spazio di probabilità Variabili casuali
Obiettivi Statistica Scopo di questi lucidi è di fornire i concetti base di statistica utili in azienda per: • la raccolta dei dati, • la progettazione degli esperimenti, • l’interpretazione dei risultati. Introduzione Raffaele Pesenti 1 Raffaele Pesenti 2 Variabili casuali Spazio di probabilità • Variabile casuale o aleatoria: per un dato spazio di probabilità • Spazio di probabilità: tripletta (Ω,A,P) – Ω: spazio campioni, insieme di tutti i possibili risultati di un esperimento concettuale – A: spazio degli eventi, insieme di tutti gli eventi (evento: un sottoinsieme dello spazio dei campioni) – P: funzione di probabilità, P: A→[0,1] e t.c (Ω,A,P), una variabile casuale X è una funzione avente come dominio Ω, come codominio la retta reale e t.c. che l’insieme Ar, definito da Ar={ω,X(ω)≤r}, appartenga ad A, e quindi sia definita una probabilità P(Ar) = P(X≤r), per qualunque r. • P(A) ≥ 0, ∀ A∈ A • P(Ω) = 1 • P(∪Ai) = ΣiP(Ai) se Ai indipendenti (anche infiniti) In parole povere • Variabile casuale o aleatoria: quantità i cui valori dipendono dal caso e per i quali è stata definita una funzione di probabilità Raffaele Pesenti 3 Raffaele Pesenti 4 Media e Varianza Funzioni di distribuzione e di densità µ X = E{ X } = ∫ +∞ xf X ( x)dx • Funzione di distribuzione cumulativa (di una variabile casuale): FX:R →[0,1] t.c. FX(x) = P(X≤x). • Media: • Funzione di densità discreta/di probabilità (di una variabile casuale): fX(x) t.c. • Deviazione standard: σ X = var(x) P( X = xi ) – caso discreto f X ( x) = 0 – caso continuo FX ( x) = ∫ x −∞ +∞ 2 2 2 • Varianza: σ X = var( x) = E{( X − µ X ) } = ∫ ( x − µ X ) f X ( x)dx −∞ x = xi , i = 1,2,.. • Valore atteso della funzione g(.) della variabile casuale X: E{g ( X )} = ∫ altrimenti g ( x) f X ( x)dx NB: caso continuo e nell’ipotesi che convergano gli integrali, i pedici a µ e σ sono omessi se non ci sono ambiguità Raffaele Pesenti 5 Raffaele Pesenti 6 Momenti, Quantili, Moda Disuguaglianza di Tchebycheff • Momento di ordine r: • Disuguaglianza di Tchebycheff: sia X una variabile casuale e g(.) una funzione non negativa definita in R, allora µ'r = E{ X r } • Momento centrale di ordine r: k >0 µ r = E{( X − µ X ) r } • Quantile q-mo: il più piccolo numero ξq t.c. FX(ξq) ≥ q • Corollario 1 P(| X − µ x |≥ rσ) = P(( X − µ x ) 2 ≥ rσ 2 ) ≤ , r > 0 r2 ovvero 1 P(µ X − rσ < X < µ X + rσ) ≥ 1 − , r>0 r2 Raffaele Pesenti +∞ −∞ f X (u )du E{g ( X )} P( g ( X ) ≥ k ) ≤ , k −∞ • Mediana: quantile 0.5 • Moda: punto di massimo di fX(.) - se esiste 7 Raffaele Pesenti 8 Popolazione e campioni Statistiche campionarie • Popolazione oggetto: totalità degli elementi in esame circa i quali si vogliono ottenere informazioni. • Statistica campionaria: funzione di variabili casuali osservabili, a sua volta variabile casuale osservabile • Campione: gruppo di elementi prelevati da una popolazione allo scopo di raccogliere informazioni sulla popolazione stessa. • Campione casuale: campione la cui densità congiunta delle n variabili casuali che lo compongono è: f X 1... X n ( x1,..., xn ) = f X 1 ( x1 )... f X n ( xn ) momenti campionari 9 • Teorema sulla media campionaria: E{X n } = µ, var(X n ) = σ2 n (X i − X n ) 2 n -1 …………. 10 Se la popolazione è distribuita secondo una distribuzione normale allora sono note le distribuzioni di statistiche che legano ai parametri della popolazione e alle statistiche dei campioni Xi e Yj X n −µ ~ t (n − 1) S/ n σ2/ε2δ P(-ε < X n - µ < ε) ≥ 1 - δ ∑ ∑ • Teorema centrale della statistica: X −µ Zn = n → ~ n(0,1) σ/ n Raffaele Pesenti ∑ = Ruolo distribuzione normale • Teorema sulla varianza campionaria: n−3 4 1 E{S2 } = σ 2 , var(S2 ) = µ 4 − σ n n −1 • Legge dei grandi numeri: allora per n > S 2 n n i =1 Raffaele Pesenti Teoremi base Popolazione con media e varianza finita n varianza campionaria • Distribuzione campionaria: densità congiunta delle variabili casuali che compongono il campione. Raffaele Pesenti ∑ Xi X n = i =1 E.g., media campionaria 11 m i =1 n j =1 Raffaele Pesenti ( X i− X ) 2 / m (Y j − Y ) / n 2 ∑i =1 n ( X i−µ) 2 σ 2 ~ χ 2 (n − 1) ~ F (m − 1, n − 1) 12 Processi stocastici Conseguenze • Processo stocastico: X(t), variabile casuale parametrizzata nel tempo. Per t fissato X(t) è la realizzazione del processo stocastico al tempo t. • Processo (stocastico) stazionario: processo in cui la probabilità che un evento si verifichi un dato numero di volte dipende dall’ampiezza dell’intervallo temporale considerato e non dalla sua posizione sull’asse reale. • Processo (stocastico) stazionario rispetto ad una caratteristica: processo in cui la caratteristica (e.g., media) delle realizzazioni X(t) non dipende da t. • Serie temporale: campionamento (in genere finito) nel tempo di un processo stocastico • Se le variabili sono distribuite in modo normale si inferiscono facilmente le proprietà della popolazione dal campione, • il Teorema centrale della statistica afferma che la media campionaria di campioni sufficientemente grandi tende ad essere normale, • dovendo considerare popolazioni non normali conviene – estrarre più campioni, – valutare le medie campionarie di ognuno di essi, – inferire i parametri della popolazione a partire da tali medie considerandole statistiche distribuite normalmente. Raffaele Pesenti 13 Raffaele Pesenti Serie temporali e simulazione 14 Test di goodness of fit Una simulazione ha lo scopo inferire induttivamente le caratteristiche di processi stocastici dipendenti e Goodness of fit ⇔Buon adattamento parametrizzati al variare delle leggi di dipendenza e dei parametri. • Test Chi-quadro E.g., il tempo di permanenza dei clienti in un sistema è un processo stocastico dipendente dal processo dei tempi di arrivo dei clienti, dai processi dei tempi di servizio e dal numero dei servitori utilizzati. Raffaele Pesenti 15 • Test Kolmorgorov-Smirnov Raffaele Pesenti 16 Numeri casuali Per realizzare un esperimento statistico significativo, bisogna estrarre dalla popolazione un campione casualizzato. Statistica Questa operazione dovrebbe venire effettuata con l’aiuto di numeri generati casualmente (e.g., si controllano i lotti Xi, dove Xi è un numero casuale). Purtroppo un calcolatore, macchina deterministica, non riesce a generare numeri completamente casuali ma solo sequenze di numeri pseudocasuali generati da procedure matematiche e da un numero (seme) di inizializzazione. numeri casuali Raffaele Pesenti 1 Numeri pseudocasuali e semi 2 Numeri pseudocasuali e semi le sequenze dei numeri pseudocasuali sono debolmente autocorrelate, quindi ... Antefatto Un generatore produce una sequenza di numeri pseudocasuali diversa in funzione del seme iniziale – il valore atteso di operazioni che coinvolgono pochi numeri della stessa sequenza può essere significativamente deviato dal vero valore atteso Domanda Quando è opportuno usare numeri casuali estratti da sequenze diverse e quindi usare semi differenti? Raffaele Pesenti Raffaele Pesenti – il valore atteso della media di molti numeri della stessa sequenza non devia significativamente dal vero valore atteso 3 Raffaele Pesenti 4 Numeri pseudocasuali e semi Numeri pseudocasuali e semi Conseguenze: – assegnare i valori di un’unica sequenza ad una attività o ad un unico attributo quando si è interessati a prestazioni medie; – assegnare valori da sequenze generate da semi diversi per ogni attività o attributo da cui dipendono, anche in modo estremamente indiretto, gli indici di prestazione osservato; Tipico errore: In una coda, usare numeri provenienti dalla stessa sequenza per descrivere gli intertempi di arrivo dei clienti e i tempi di servizio. Si devono usare valori provenienti da sequenze generate da semi diversi. – cambiare tutti i semi ad ogni esperimento. In una coda M/M/1 ci si accorge immediatamente dell’errore, perché, sul lungo periodo, la media e la deviazione standard degli intertempi di uscita differiscono significativamente. Comportarsi diversamente è gravemente sbagliato conduce a risultati statistici completamente deviati Raffaele Pesenti 5 Raffaele Pesenti 6 Parametri • Analisi preliminare (già svolta a questo livello) identificazione dei componenti del sistema e dei reciproci nessi causali Statistica • Definizione parametri campagna dati per l’identificazione dei parametri caratterizzanti il sistema: • parametri deterministici • parametri stocastici Determinazione parametri di un sistema noto Raffaele Pesenti 1 Raffaele Pesenti Attenzione 2 Parametri deterministici Errori comuni nell’analisi di sistemi: • Teoricamente: non si pongono particolari problemi, se non eventualmente quelli associati alla presenza di rumore nella misura di tali parametri. – assumere due parametri indipendenti quando non lo sono si interviene quindi erroneamente su uno di essi ritenendo che non influenzi l’altro (e.g., numero di lavoratori presenti in un officina, prestazioni medie dei lavoratori) • Praticamente: molte aziende hanno informazioni poco affidabile su quanto in loro possesso, sono quasi sempre necessarie delle campagne di misura, inventario o catalogazione. – assumere due parametri dipendenti quando non lo sono si interviene quindi erroneamente su uno di essi ritenendo di potere modificare di conseguenza anche l’altro (e.g., molte delle politiche di repressione del crimine) Raffaele Pesenti 3 Raffaele Pesenti 4 Parametri stocastici Parametri stocastici: passi necessari • Teoricamente e praticamente si pongono notevoli problemi la cui soluzione richiede generalmente un significativo investimento di tempo e denaro. • individuazione parametri rappresentabili come variabili casuali i.i.d.; • Esempio: si identifichino i parametri stocastici che descrivono il funzionamento degli sportelli della segreteria studenti. Si valuti in termini di giorni uomo il costo di tale operazione. • Soluzione: una volta individuati quali sono i parametri di interesse la loro misura deve essere fatta in maniera automatica. Raffaele Pesenti • identificazione delle distribuzioni di probabilità; • identificazione dei parametri delle distribuzioni; • verifica delle ipotesi (goodness of fit). 5 Raffaele Pesenti Individuazione parametri Individuazione parametri Le componenti casuali indipendenti sono in genere note a priori oppure sono state dedotte dall’analisi preliminare del sistema. Spesso è comunque opportuno fare una verifica della loro: – indipendenza e mancata autocorrelazione. – possibile tempo varianza. • I parametri osservati in un sistema reale possono essere autocorrelati oppure tra loro dipendenti/correlati. • Esempio: la richiesta per un prodotto è spesso soggetta a variazioni stagionali; la richiesta di più prodotti sono spesso correlate. • Esempio: i tempi di arrivo e di fine servizio dei clienti in una coda sono tra loro dipendenti (i clienti successivi non possono essere caratterizzati da tempi minori dei clienti precedenti). Gli intertempi di arrivo e i tempi di servizio possono essere i.i.d. • Bisogna individuare le componenti casuali indipendenti ed esprimere i parametri osservati in funzione di esse. NB: i generatori forniscono solo numeri i.i.d.. Raffaele Pesenti 6 7 Raffaele Pesenti 8 Individuazione parametri Identificazione della distribuzione • Per capire quali parametri possano essere rappresentati con variabili casuali i.i.d. conviene cercare di esprimere i parametri di interesse nelle componenti elementari. Queste ultime sono probabilmente quelle più atte ad una rappresentazione tramite variabili casuali i.i.d.. • Diagramma quantile-quantile – quando ci sono pochi dati e si vuole fare solo una valutazione empirica – quando non si devono stimare parametri della distribuzione di origine • Esempio (cont.): tfine_servizio(i+1)=max{tfine_servizio(i), tarrivo(i+1)}+ tservizio(i+1) tarrivo(i+1)=tarrivo(i)+ tintertempo_arrivo(i,i+1) tintertempo_arrivo e tservizio sono migliori candidati che tfine_servizioe tarrivo Raffaele Pesenti • Istogramma – quando ci sono molti dati e si devono stimare parametri 9 Raffaele Pesenti Diagramma q-q 10 Diagramma q-q Principi base: Note: • siano y1, y2, …, yn le osservazioni ordinate in modo crescente, yj è una stima del quantile (j-0.5)/n • sia γj il ((j-0.5)/n)-mo quantile γj=FX-1 • vi è probabilità 0 di ottenere effettivamente una linea retta • i punti, in quanto ordinati, non sono indipendenti, quindi difficilmente appariranno dispersi attorno alla retta, ma piuttosto suggeriranno una curva dolce ((j-0.5)/n)), • i punti (yj, γj) dovrebbero essere approssimativamente allineati lungo la bisettrice del primo quadrante Raffaele Pesenti • le varianze agli estremi sono maggiori che nei valori centrali. La linearità va ricercata soprattutto per i valori centrali. 11 Raffaele Pesenti 12 Esempio 1 Esempio 2 campione esponenziale con media 1 confrontato distribuzione esponenziale e normale con stessa media e varianza campione ~ n(1,4) confrontato distribuzione normale con stessa media e deviazione standard metà ed uguale 5 4 5 4 4 4 3 3 3 2 2 2 1 1 1 0 3 2 -4 0 1 -1 0 0 1 2 3 4 5 0 1 2 3 4 -3 5 -2 Raffaele Pesenti 13 -2 -1 -1 0 0 1 2 3 4 -4 -3 -2 -1 -1 -2 -2 -3 -3 -4 -4 0 1 2 3 Raffaele Pesenti Istogramma 4 14 Istogramma • Si partizionano i dati osservati in intervalli di uguale ampiezza o in classi di occorrenza (per dati qualitativi) Principi base: • si rappresentano i dati tramite istogramma; • si confronta la forma dell’istogramma con quella di distribuzioni note e se ne sceglie una, fissando gli eventuali parametri; – i limiti degli intervalli possibilmente non dovrebbero coincidere con un dato osservato al fine di non avere ambiguità nella rappresentazione – in numero degli intervalli ~10 (5-20) deve essere sufficientemente fine da permettere di individuare la distribuzione, ma non eccessivamente da essere troppo dipendente dalle occorrenze osservate • si verifica quanto l’istogramma osservato devia da quello atteso. • Si determinano le frequenze delle realizzazioni osservate per ogni intervallo Raffaele Pesenti 15 Raffaele Pesenti 16 Esempio 1 Esempio 2 3 classi 30 realizzazioni / 6 classi 20 18 16 14 12 10 8 6 4 2 0 • 30 realizzazioni di una variabile X~n(15,5) 12 Realizzazioni di una variabile X~n(15,5) 0 10-20 20-30 0-5 8 classi 12 10 8 8 6 6 4 50 realizzazioni / 6 classi 2 0 0 0-5 5-10 10-15 15-20 0-3 3-6 6-9 9-12 12-15 15-18 18-21 21-24 200 realizzazioni / 6 classi 200 realizzazioni / 9 classi 60 50 60 40 40 30 30 20 20 10 10 0 0 0-5 5-10 10-15 15-20 20-25 25-30 0-3 3-6 6-9 9-12 12-15 15-18 18-21 21-24 200 realizzazioni / 14 classi 40 35 30 25 20 15 10 5 0 0-2 Raffaele Pesenti 2-4 4-6 6-8 25 8-10 10-12 12-14 14-16 16-18 18-20 20-22 22-24 24-26 26-28 19 24-27 10-15 15-20 20-25 25-30 20-25 25-30 20 15 4 10 2 5 0 0-5 5-10 Raffaele Pesenti Esempio 2: cont. 50 30 12 0 17 70 35 14 6 Raffaele Pesenti 80 16 8 20-25 5-10 100 realizzazioni / 6 classi 10 4 2 6 2 5 classi 10 8 4 0-10 12 10 10-15 15-20 20-25 25-30 0-5 5-10 10-15 15-20 18 Confronto con distribuzioni note Distribuzioni discrete • Uniforme (anche continua): per variabili che possono assumere ogni valore indifferentemente all'interno di un certo intervallo, e.g., valore singolo dado, posizione ruota. • Dalla fase preliminare di analisi del problema in genere è possibile dedurre con quali famiglie di distribuzioni si devono confrontare gli istogrammi ottenuti. • Poisson: numero di eventi x intervallati con distribuzione esponenziale verificatesi, dove λ è il numero medio atteso. e.g., numero clienti in una giornata, numero di telefonate. • Una prima macroscopica suddivisione è tra – distribuzioni discrete – distribuzioni continue Raffaele Pesenti 1 Raffaele Pesenti 2 Distribuzioni discrete Distribuzioni continue • Bernoulli: due sole realizzazioni, probabilità p e 1-p. • Binomiale: numero di prove di successo x su un dato numero di prove bernoulliane n. • Geometrica: numero di prove x prima di un successo. • Ipergeometrica: numero di prove x di successo estratti senza reimmissione su un campione dato n, in una popolazione limitata M di cui è noto il numero di elementi di successo k. • Binomiale negativa: numero di insuccessi x che precedono l'rmo successo. • Gaussiana o Normale: per variabili che descrivono disturbi risultati di tante piccole azioni, e.g., ritardo dovuto a traffico, scostamento rispetto a dimensione progettata di una parte, scostamento rispetto ad un guadagno atteso, scostamento rispetto ad un tempo di servizio atteso. • Normale troncata: come normale, ma non sono ammessi valori estremi per le code. • Logonormale: per variabili il cui logaritmo ha distribuzione normale. Per molte variabili casuali il logaritmo tende ad essere normale. Raffaele Pesenti Raffaele Pesenti 3 4 Distribuzione normale ( x −µ ) 2 − 2 1 e 2σ 2πσ f (x ) = Distribuzioni continue • Esponenziale: per variabili che modellano l'intervallo tra due eventi, il cui accadimento non è influenzato dal tempo trascorso dall'evento precedente, e.g., intervallo tra due guasti di un singolo componente, intervallo tra l'arrivo di due persone ad una coda, intervallo tra due richieste di servizio. Anche per tempi di servizio assolutamente casuali, e.g., durata di una telefonata, disbrigo di una pratica non nota a priori. • Esponenziale doppia: generalizza esponenziale, simmetrica rispetto all’origine. • Erlang: per variabili che modellano intervalli esprimibili come somma di variabili esponenziali. 0.9 σ=0.5 0.6 σ=1 0.3 σ=2 0 -6 -4 -2 0 2 4 6 Raffaele Pesenti 5 Raffaele Pesenti Distribuzione gamma Distribuzione esponenziale 1.5 2 f ( x ) = λe − λ x λ=2 β =12 f ( x ) = βθ (βθx )β −1 e −βθx Γ(β) β =1 1.5 1 1 6 0.5 sempre θ=1 θ: fattore scala β: fattore forma β =4 λ=1 β =2 0.5 λ=0.5 0 0 0 Raffaele Pesenti 0.5 1 1.5 2 2.5 0 3 7 Raffaele Pesenti 0.5 1 1.5 2 2.5 3 8 Distribuzioni continue Distribuzione Weibull • Gamma: generalizza Erlang, per fattore forma non intero. Modella interarrivi e tempi di servizio, il maggior numero di parametri che la caratterizza permette di fissare la moda e la forma delle code. Trova applicazione, e.g., per modellare intervalli tra guasti in presenza di ridondanze quando ogni singolo componente ha un tempo tra guasti esponenziale. • Weibull: come gamma. Trova applicazione, e.g., per modellare intervalli tra guasti quando questi sono dovuti alla presenza di più difetti e dipendono dal più serio tra essi. • Beta: generalizza gamma, utilizzata nel PERT, viene in genere utilizzata per lo studio su campioni delle variazioni percentuali di un elemento o di una situazione qualsiasi, quale ad esempio il numero di ore che si trascorrono quotidianamente davanti al televisore. Raffaele Pesenti 9 2 β =0.5 1.5 1 β =1 α/β=5/80 10 α/β=10/40 α/β=40/10 α/β=20/20 5 0 0 Raffaele Pesenti 0.2 0.4 0.6 0.8 α α sempre ν=0, α=1 α: fattore scala β: fattore forma ν: fattore di locazione β =2 0 0 0.5 1 1.5 2 Raffaele Pesenti 2.5 3 10 Distribuzioni continue sempre Α=0, Β=1 α: fattore forma β: fattore forma Α,Β: fattori di locazione α/β=80/5 f (x ) = β 0.5 Distribuzione beta 15 β =4 x −ν β x − ν β−1 − α e • Logistica: utilizzata, soprattutto in biologia, per modelli relativi a livelli di tolleranza. • Pareto: utilizzata per distribuzione di redditi che superano un dato valore. • Gumbel: utilizzata per statistiche su valori estremi • Triangolari, trapezoidali, spline empiriche: utilizzate per distribuzioni su intervalli finiti non meglio approssimate da altre distribuzioni. • t, F, χ2: usate per verifica ipotesi statistiche. 1 11 Raffaele Pesenti 12 Identificazione dei parametri caratteristici della distribuzione Definizioni • Metodo dei momenti successivi: si impone che i momenti campionari coincidano con quelli della popolazione e quindi si fissano i parametri della distribuzione (problemi di deviazione bias). • Metodo della massima verosimiglianza: si determinano i parametri in modo che sia massima la probabilità che siano stati estratti i campioni osservati dalla popolazione (migliore ma più complesso, a volte coincidente col metodo dei momenti). • Eccezioni: stimatori distorti (biased) che vengono corretti. Raffaele Pesenti 13 Si voglia stimare in funzione dei parametri θ una caratteristica τ=τ(θ) di una distribuzione (e.g., la media). • Stimatore non deviato: T è uno stimatore non deviato di τ(θ) se e solo se Eθ{T}=τ(θ). • Stimatore UMVUE (non deviato con varianza uniformemente minima - stimatore non deviato efficiente): stimatore non deviato che minimizza l'errore quadratico medio 2 l'MSE(θ)=Eθ{(T-τ(θ)) }, che per uno stimatore non deviato coincide con Varθ(T). Raffaele Pesenti 14 Metodo dei momenti:esempio Metodo dei momenti • Metodo dei momenti: data una distribuzione caratterizzata da k parametri incogniti, questi vengono stimati esprimendoli come funzione dei primi k momenti della popolazione e quindi sostituendo ai momenti della popolazione i momenti campionari. • Esempio: si voglia stimare media µ e varianza σ2 di una popolazione caratterizzata da una distribuzione normale. • la media µ=µ1 è il momento di ordine uno e viene stimato con M=ΣiXi/n 2 2 • la varianza σ = µ2−(µ1) è legata al momento di ordine due, viene stimato con µk=E{Xk} : momento k-mo della popolazione Μk=ΣiXik/n : momento k-mo campionario 2 1 n 2 1 n 1 n 2 X i − 2 ∑ X i = ∑ (X i − M ) ∑ n i =1 n i =1 n i =1 che risulta essere deviato. Raffaele Pesenti 15 Raffaele Pesenti 16 Metodo della massima verosimiglianza Metodo dei momenti: osservazioni • Vantaggi: la estrema semplicità che rende il metodo dei momenti applicabile facilmente a situazioni in cui sarebbe troppo complesso applicarne altri. • Svantaggi: se si deve stimare il valore della funzione di un parametro è in generale meglio stimare tale valore direttamente invece che il parametro e quindi applicare la funzione, e.g., si consideri il problema di stimare il valore di e−λ. Per queste ragioni il metodo di massima verosimiglianza deve essere preferito, quando possibile, al metodo dei momenti. Raffaele Pesenti 17 • Funzione di verosimiglianza: la funzione L(θ,x1,…,xn), funzione di densità congiunta dei valori assunti dalle n variabili casuali associate ai campioni e del parametro θ. L(θ,x1,…,xn)dx1... dxn e sprime la probabilità che n osservazioni realizzino i valori x1,…,xn. • Stimatore di massima verosimiglianza: stimatore di θ, funzione delle variabili casuali associate ai campioni, che se sostituito a θ massimizza il valore di L(θ,x1,…,xn). Raffaele Pesenti Metodo della massima verosimiglianza Metodo della massima verosimiglianza: esempio • Nel caso in cui L(θ,x1,…,xn), rispetti le opportune condizioni di derivabilità lo stimatore cercato coincide con la soluzione (espressa come θ in funzione di x1,…,xn) dell'equazione • Esempio: si voglia stimare il parametro λ di una distribuzione esponenziale. n L(λ , x1,..., xn ) = ∏ λe -λxi dL/dθ = 0 • Nell'ipotesi di campioni indipendenti n i =1 n ∑ dλln(λe-λX i ) = ∑ λ − Xi = 0 L(θ,x1,…,xn) = fX(θ,x1)… fX(θ,xn) = ΠifX(θ,xi) invece di risolvere dL/dθ=0 può convenire risolvere l'equivalente, ma più semplice, i =1 d 1 i =1 λ= n n ∑ Xi ∂ln(L)/∂θ = ∂Σiln(fX(θ,xi))/∂θ = Σi ∂ln(fX(θ,xi))/∂θ = 0 . Raffaele Pesenti 18 i =1 19 Raffaele Pesenti 20 Metodo della massima verosimiglianza:proprietà Stimatori distribuzioni note • Invarianza, se t è uno stimatore di θ e h è una funzione invertibile di θ, lo stimatore di massima verosimiglianza di h(θ) è h(t). • Ottimalità UMVUE, se L(θ,x1,…,xn) = ΠifX(θ,xi) e lo stimatore ottenuto non è deviato allora lo stimatore è UMVUE. N.B. si deve sempre verificare che lo stimatore non sia deviato, ci sono infatti casi comuni come per la stima della varianza di distribuzioni normali in cui tale stimatore è deviato. Raffaele Pesenti 21 • Per le distribuzioni note, in letteratura sono dati gli stimatori di massima verosimiglianza o loro correzioni. • • • • binomiale: uniforme: normale: esponenziale: b(p,1-p) u(0,b) n(µ,σ2) exp(λ) p=f/n b=((n+1)maxi{Xi})/n µ=Μ, σ2=Σi(Xi-M)2/(n-1) λ=1/Μ Raffaele Pesenti 22 Test χ2 Verifica correttezza delle ipotesi • Test statistico, su k classi con Ot frequenze osservate per classe e Et frequenze attese, dato da (Ot − Et ) 2 Et t =1 k χ 02 = ∑ • Si verifica la correttezza delle ipotesi: si esegue un frequency test con – χ2 (grezzo ma semplice); • H0: la variabile casuale X può essere distribuita secondo la distribuzione assunta coi parametri stimati • H1: la variabile casuale X non può essere distribuita secondo la distribuzione assunta coi parametri stimati – Kolmogorov-Smirnov (migliore ma più complesso). Raffaele Pesenti 23 Raffaele Pesenti 24 Test χ2 Esempi Dati s parametri identificati dalla distribuzione assunta, se • Valori estratti da popolazione normale – media popolazione: 15 – deviazione standard popolazione: 5 • Per fare test χ2 si devono fare il seguente numero di classi χ 02 ≤ χα2 %,k − s −1 L’ipotesi nulla H0 è accettata, altrimenti si assume valere H1. num eros ita' c am pione 20 50 100 > 100 NB: i test statistici impediscono soltanto di prendere abbagli clamorosi, non provano la correttezza dell’ipotesi nulla. Si assume che sia vero quello che si vuole verificare, e si rifiuta la congettura solo se ci sono risultati molto lontani dall’atteso,ovvero che si possono verificare per il puro effetto del caso solo nell’α% dei casi. Raffaele Pesenti 25 Raffaele Pesenti 0-5 5-10 10-15 15-20 20-25 Fre q. Oss. 2 5 11 7 5 tota le 30 χ2 2.87 0.21 0.06 1.03 0.21 4.37 Uniform e Fre q. Att. 6.00 6.00 6.00 6.00 6.00 χ2 2.67 0.17 4.17 0.17 0.17 7.33 • Valore critico χ21%,5-2-1=9.21, χ25%,5-2-1=5.99. • Tutte e due le scelte sono accettabili all’1%, solo quella normale è accettabile al 5%. Estrarre ulteriori campioni per accettare o respingere la distribuzione uniforme. Raffaele Pesenti 26 Esempio Esempio Norm a le Fre q. Att. 0.64 4.08 10.24 10.24 4.08 num ero c las s i k non us are χ2 da 5 a 10 da10 a 20 da √n a n/5 27 0 -2 2 -4 4 -6 6 -8 8 -1 0 1 0 -1 2 1 2 -1 4 1 4 -1 6 1 6 -1 8 1 8 -2 0 2 0 -2 2 2 2 -2 4 2 4 -2 6 2 6 -2 8 to ta l e F r e q . O ss. F r e q . A tt. 1 0.33 1 0.92 2 2.20 5 4.48 10 7.79 9 11.56 16 14.65 15 15.85 6 14.65 18 11.56 9 7.79 5 4.48 2 2.20 1 0.92 100 χ2 F r e q . A tt. 7.14 7.14 0.14 7.14 7.14 0.63 7.14 0.57 7.14 0.12 7.14 0.05 7.14 5.11 7.14 3.59 7.14 0.19 7.14 7.14 0.02 7.14 7.14 10.41 χ2 13.41 1.14 0.48 10.98 8.64 0.18 16.50 0.48 8.42 60.24 • Valore critico χ21%,9-2-1=16.8 , χ25%,9-2-1=12.6. • Solo la distribuzione normale è accettabile Raffaele Pesenti 28 Kolmogorov-Smirnov Esempio Test per H0: campione proveniente da popolazione ~ FX(x) Principi base • per n→∞, Fn(x) ~ n(FX(x), FX(x)(1-FX(x))/n) Note: • teorema Glivenko-Cantelli – quando ci sono meno di 5 realizzazioni osservate P(sup | Fn ( x) − FX ( x) | → 0) = 1 n →∞ complessivamente le classi dovrebbero venire raggruppate; – il valore di χ2 varia al variare del numero delle classi. Per • Dn = max |FX(x) - Fn(x)|, ha distribuzione indipendente da FX(x), per n→∞, (dipende da FX(x) per n piccoli e per FX(x,Θ) parametrizzata) • se deviazione massima campionaria è maggiore del valore critico Dn,α% si rigetta H0 questo è importante partire dai numeri consigliati ed eventualmente dopo raggruppare. Raffaele Pesenti 29 Se tutto fallisce • Se tutte le ipotesi falliscono: realizzare distribuzioni empiriche lineari a tratti. Raffaele Pesenti 31 Raffaele Pesenti 30 Correlazione Correlazione • Siano date N coppie di realizzazioni, (X1, Y1)…, (Xn, Yn), di X e Y, si vuole verificare se esiste una correlazione, se cioè • Nel caso di relazioni lineari tra due variabili casuali distribuite normalmente (distribuzione normale bivariata) si definisce il coefficiente di correlazione campionario r (stima di ρ) come: cov(x,y)=E{(Xi-µx)(Yi-µy)} = E{XiYi}- µx µy ≠ 0 r= • Se X e Y sono correlati, Y può essere espresso in funzione di X e di • si verifica che nell’ipotesi nulla di non correlazione H0: ρ = 0 r N −2 t= 1− r2 • segue la distribuzione di student con N-2 gradi di libertà. una variabile aleatoria indipendente E Y=h(X,E) Raffaele Pesenti 1 Raffaele Pesenti Correlazione Misura ordinaria di correlazione è la correlazione tra ranghi o di Spearmen 1 1+ r Z = ln( ) 2 1− r Corr. di Spearmen = S = • è approssimativamente normale con media e varianza come segue Raffaele Pesenti σ Z2 = 2 Correlazione • si verifica che nell’ipotesi nulla di correlazione data H0: ρ = ρ 0 1 1+ r µ z = ln( ) 2 1− r ∑ ( X i − M X )(Yi − M Y ) 2 ∑ ( X i − M X ) ∑ (Yi − M Y ) 2 ∑i (r ( X i ) − r ( X ))∑i (r (Yi ) − r (Y )) ∑i (r ( X i ) − r ( X )) 2 ∑i (r (Yi ) − r (Y ))2 se dati incorrelati E{S} = 0 e var{S} = 1/(n-1) 1 N −3 3 Raffaele Pesenti 4 Regressione lineare Regressione lineare • si usano modelli di regressione lineare • Test sul coefficiente di correlazione dell’ipotesi nulla H0: a1= A1 X i : indipendente Yi = a0 + a1 X i + Ε i aˆ − A t= 1 1 1− r2 • dove Ei~n(0, σE2), e gli stimatori dei parametri sono 1 2 ( ∑ ( Yi − M Y ) − â1 ∑ Yi ( X i − M X ) ) S E2 = N −2 Y (X − M X ) aˆ1 = ∑ i i aˆ0 = M Y − aˆ1M X 2 ∑(Xi − M X ) Raffaele Pesenti • segue la distribuzione di student con N-2 gradi di libertà 5 Correlazione: generalizzazioni Raffaele Pesenti 6 Correlazione: generalizzazioni • Correlazione multipla: una variabile può essere espressa in termini di più di una altra variabile casuale. • Regressione non lineare: una variabile può essere espressa in termini di una relazione non lineare con un’altra variabile casuale. In questo caso r, che esprime quanto è forte la dipendenza, risulta essere t.c.: • Multivarianza: un vettore X di variabili casuali correlate espresso in funzione di variabili indipendenti E. Se è dato il vettore X di variabili aleatorie normali correlate con media µ e matrice di covarianza Σ. X può essere espresso come 2 varianza spiegata ∑ (Yi, stimato − M Y ) r = = vatianza totale ∑ (Yi − M Y ) 2 X= µ + CE 2 dove – E~n(0,1) e – C è una matrice triangolare inferiore di Cholesky, t.c. CCT=Σ. NB: con sufficienti gradi di libertà si spiega qualunque cosa, ma la stima dei parametri diventa assolutamente inaffidabile. Se non ci sono giustificati motivi conviene sempre usare modelli semplici. Raffaele Pesenti N −2 7 Raffaele Pesenti 8 Autocorrelazione Autocorrelazione • se X1,…,Xn~ u(0,1), una stima di sim è • Siano date N realizzazioni, X1,…,Xn, di X sˆim = • si vuole verificare se a partire da Xi esiste una correlazione ogni m realizzazioni, se cioè • dove M è t.c. i+Mm≤N sim=E{(Xi+km-µ)(Xi+(k+1)m-µ)} = E{Xi+kmXi+(k+1)m}-µ2≠ 0 • definiti σ βim = 13M − 5 12M Z0 = sˆim σ βim • si dimostra che per M grandi Z0~n(0,1) NB: il test va fatto per ogni coppia i,m Raffaele Pesenti 1 M −1 ( ∑ Ri km Ri + ( k +1) m ) − 0.25 M k =0 + 9 Raffaele Pesenti Autocorrelazione 10 Autocorrelazione • Date – H0: sim= 0 – H1: sim≠ 0 • Per lo studio dell’autocorrelazione si può utilizzare l’analisi spettrale di potenza nel caso di dati provenienti da un processo stazionario ed ergodico. • Se |Z0|≤Zα% (test a due code) si accetta H0, altrimenti si accetta H1 • valori critici di Zα% – Z2.5%= 1.96 – Z0.5%= 1.645 Raffaele Pesenti 11 Raffaele Pesenti 12 Modelli lineari per valori autocorrelati Tempovarianza • si usano modelli ARMA o loro generalizzazioni • Test • si individuano i parametri che si suppongono tempovarianti (tipicamente medie) • si eseguono test di confronto tra due valori xt = µ + ∑i φi ( xt −i − µ ) − ∑i θ iε t −i + ε t – H0: valori uguali (non tempovarianza) • dove, nel caso più comune ARMA, εt~n(0,σ2) – H1: valori diversi (tempovarianza) NB: rimane il problema di identificare i parametri • test classici sono quelli di confronto tra due medie o due varianze di distribuzioni normali (vedi norme UNI 6806-72) del modello ARMA Raffaele Pesenti 13 Raffaele Pesenti Modelli per valori tempovarianti Indicazioni pratiche • Esempio (trasformata inversa): • si supponga variabili esponenziali tempovariabili. La funzione cumulata di probabilità di un intertempo Ti,i+1 al tempo ti è FTi ,i +1|ti (ti +1 ) = 1 − e • Conviene sempre graficare i dati su diagrammi a scattering (per correlazione) o su carte di controllo (per autocorrelazione - UNI 4728 - 66) per avere un’indicazione visiva sulle caratteristiche dei dati. − ∫t i +1 λ (t ) dt t i • Conviene dividere i dati disponibili tra learning set e verification set. Le caratteristiche e i parametri di correlazione o autocorrelazione vengono identificate attraverso i dati del learning set. Una verifica qualitativa che i modelli identificati testando la correttezza delle previsioni ottenute con tali modelli sui dati del verification set. • da cui eseguendo la trasformata inversa, ovvero risolvendo in ti+1 l’equazione, ∫tii +1 λ (t )dt = − ln(1 − Ri +1 ) t • si può calcolare Ti,i+1= ti+1- ti Raffaele Pesenti 14 15 Raffaele Pesenti 16 Le carte di controllo Diagrammi a scattering (100 dati) 3 3 0 -3 0 0 3 -3 0 -3 3 -3 non correlati correlati Raffaele Pesenti 17 • Cosa sono: diagrammi in cui sono riportati i punti rappresentativi dei sottogruppi,... (es.: valore caratteristica, numero difetti, percentuale pezzi non conformi) • Cosa servono: a controllare caratteristiche processo o prodotto valutare opportunità azioni correttive • Come funzionano: la disposizione dei punti permette di dedurre lo stato del processo Raffaele Pesenti DEEI - University of Trieste Struttura carte % elementi non conformi LC: linea centrale 0.12 Variazioni cicliche LSC: limite controllo superiore 0.12 fuori controllo 0.08 0.08 0.04 0.04 0.00 0.00 0 5 LIS: limite controllo inferiore Raffaele Pesenti 18 10 15 20 sottogruppi DEEI - University of Trieste 25 25 30 35 40 45 50 periodo 19 Raffaele Pesenti DEEI - University of Trieste 20 Stocasticità dati I dati di output di un esperimento statistico sono stocastici dipendono da: Statistica – sequenze numeri casuali generati per produrre il campione; – condizioni iniziali – durata teorica dell’esperimento/simulazione • terminante • non terminante analisi dati output - modello singolo NB: essere o non essere terminante dipende dalla struttura e dagli obiettivi scelti. E.g., banca terminante rispetto a clienti, non terminante rispetto operazioni. Raffaele Pesenti 1 Raffaele Pesenti Stima del valore e stima dell’intervallo Concetti generali • Si vuole stimare uno o più parametri che descrivono le prestazioni del sistema. • stima del valore (o puntuale): dati {X1, X2, …, Xn} si desidera una stima del valore “più plausibile” di ξ; – ξ parametro da stimare – {X1, X2, …, Xn} osservazioni di tale parametro • stima dell’intervallo (o intervallo di confidenza): dati {X1, X2, …, Xn} si desidera una stima di un intervallo che includa ξ con una data probabilità (95%, 99%); • Dati {X1, X2, …, Xn} si desidera una stima di ξ Raffaele Pesenti 2 3 Raffaele Pesenti 4 Stima del valore Stima dell’intervallo Uno stimatore è ξ̂ è una variabile aleatoria caratterizzata da una sua deviazione standard σ(ξˆ ) che può essere solo stimata da σˆ (ξˆ ) 1 n ξˆ = ∑ X i n i =1 ma, in generale è deviato che è una stima deviata ˆ =ξ+b E { ξ} E{σˆ 2 (ξˆ )} = Bσ 2 (ξˆ ) lo stimatore non deviato se b = 0 e si ottiene, e.g., per Xi i.i.d.. Raffaele Pesenti tranne nel caso B=1, e si ottiene, e.g., per Xi i.i.d., ammesso che la varianza campionaria sia stata corretta 5 Raffaele Pesenti 6 Stima dell’intervallo Stima dell’intervallo Una stima della varianza, con n-1 gradi di libertà, è Se la stima della varianza non è deviata, S 2 1 n ( X i − ξˆ ) 2 = ∑ n n i =1 n − 1 che è non deviata se Xi sono i.i.d., mentre è – una sottostima se Xi autocorrelati positivamente – una sovrastima se Xi autocorrelati negativamente ξˆ − ξ t= σˆ (ξˆ ) è distribuito come t-student con f gradi di libertà, se σˆ 2 (ξˆ ) = osservazioni provenienti da popolazione normale. L’intervallo di confidenza è ξˆ − tα / 2, f σˆ (ξˆ ) ≤ ξ ≤ ξˆ + tα / 2, f σˆ (ξˆ ) NB: si ricordi la relazione tra la varianza della media campionaria e la varianza della popolazione 2 ˆ 2 σ (ξ) = σ / n Raffaele Pesenti 7 Raffaele Pesenti 8 Attenzione • se si ha uno stimatore puntuale deviato, si può ottenere un intervallo di confidenza stretto intorno ad un valore sbagliato (errore grave); • se si ha una autocorrelazione positiva e si usa lo stimatore derivato da S2 si ottiene un intervallo di confidenza più stretto di quello reale (errore grave); • se si ha una autocorrelazione negativa e si usa lo stimatore derivato da S2 si ottiene un intervallo di confidenza più largo di quello reale (errore minore, si è solo sprecato del tempo). Raffaele Pesenti Analisi di transitori (simulazioni di durata finita) 9 Raffaele Pesenti Misura delle prestazioni di un sistema 10 Stima del valore Uno stimatore è 1 n θˆ r = ∑ Y ri n i =1 • L’esperimento / la simulazione servono a stimare uno o più parametri che descrivono le prestazioni del sistema. – θ parametro da stimare – R sequenze {Yr1, Yr2, …, Yrn} per ogni replica (run di simulazione) r eseguita dell’esperimento ma, in generale è deviato E { θˆ r } = θ + b • Dati le R {Yr1, Yr2, …, Yrn} si desidera una stima di θ in funzione dello stato iniziale (gli Yri sono autocorrelati) E.g.: tempo di attesa medio, tempo di attesa singolo cliente, numero di clienti inizialmente in coda. Raffaele Pesenti 11 Raffaele Pesenti 12 Stima del valore Stima del valore 1 R ˆ θˆ = ∑ θr R r =1 Si può ottenere uno stimatore non deviato se i singoli stimatori di run sono i.i.d.: – ottenuti con semi diversi; – ottenuti in base a stati iniziali definiti casualmente secondo le corrispondenti distribuzioni. S 2 1 R (θˆ r − θˆ ) 2 σˆ 2 (θˆ ) = = ∑ R R r =1 R − 1 NB: tipicamente lo stimatore è deviato perché si suppone uno stato iniziale “nullo” che in generale non si presenta in natura. Raffaele Pesenti Stimatori non deviati se stime di run i.i.d. 13 Raffaele Pesenti 14 Intervallo di confidenza con precisione data Stima dell’intervallo Se la stima della varianza non è deviata, • L’intervallo di confidenza è funzione del numero di run eseguiti: θˆ − θ σˆ (θˆ ) è distribuito come t-student con R-1 gradi di libertà. t= h.l. = tα / 2, R −1σˆ (θˆ ) = tα / 2, R −1 σˆ R L’intervallo di confidenza è • si esegue una prima stima approssimata della varianza della popolazione con un numero ridotto di run R0 (almeno 4 o 5) e si deduce R di conseguenza. θˆ − tα / 2, R −1σˆ (θˆ ) ≤ θ ≤ θˆ + tα / 2, R −1σˆ (θˆ ) NB: per il teorema centrale della statistica, lo stimatore è approssimativamente distribuito in modo normale Raffaele Pesenti 15 Raffaele Pesenti 16 Stocasticità dati I dati di output di un esperimento statistico sono stocastici dipendono da: Statistica – sequenze numeri casuali generati per produrre il campione; – condizioni iniziali – durata teorica dell’esperimento/simulazione • terminante • non terminante analisi dati output - modello singolo NB: essere o non essere terminante dipende dalla struttura e dagli obiettivi scelti. E.g., banca terminante rispetto a clienti, non terminante rispetto operazioni. Raffaele Pesenti 1 Raffaele Pesenti Stima del valore e stima dell’intervallo Concetti generali • Si vuole stimare uno o più parametri che descrivono le prestazioni del sistema. • stima del valore (o puntuale): dati {X1, X2, …, Xn} si desidera una stima del valore “più plausibile” di ξ; – ξ parametro da stimare – {X1, X2, …, Xn} osservazioni di tale parametro • stima dell’intervallo (o intervallo di confidenza): dati {X1, X2, …, Xn} si desidera una stima di un intervallo che includa ξ con una data probabilità (95%, 99%); • Dati {X1, X2, …, Xn} si desidera una stima di ξ Raffaele Pesenti 2 3 Raffaele Pesenti 4 Stima del valore Stima dell’intervallo Uno stimatore è ξ̂ è una variabile aleatoria caratterizzata da una sua deviazione standard σ(ξˆ ) che può essere solo stimata da σˆ (ξˆ ) 1 n ξˆ = ∑ X i n i =1 ma, in generale è deviato che è una stima deviata ˆ =ξ+b E { ξ} E{σˆ 2 (ξˆ )} = Bσ 2 (ξˆ ) lo stimatore non deviato se b = 0 e si ottiene, e.g., per Xi i.i.d.. Raffaele Pesenti tranne nel caso B=1, e si ottiene, e.g., per Xi i.i.d., ammesso che la varianza campionaria sia stata corretta 5 Raffaele Pesenti 6 Stima dell’intervallo Stima dell’intervallo Una stima della varianza, con n-1 gradi di libertà, è Se la stima della varianza non è deviata, S 2 1 n ( X i − ξˆ ) 2 σˆ 2 (ξˆ ) = = ∑ n n i =1 n − 1 che è non deviata se Xi sono i.i.d., mentre è – una sottostima se Xi autocorrelati positivamente – una sovrastima se Xi autocorrelati negativamente ξˆ − ξ t= σˆ (ξˆ ) è distribuito come t-student con f gradi di libertà, se osservazioni provenienti da popolazione normale. L’intervallo di confidenza è ξˆ − tα / 2, f σˆ (ξˆ ) ≤ ξ ≤ ξˆ + tα / 2, f σˆ (ξˆ ) NB: si ricordi la relazione tra la varianza della media campionaria e la varianza della popolazione 2 ˆ 2 σ ( ξ) = σ / n Raffaele Pesenti 7 Raffaele Pesenti 8 Attenzione • se si ha uno stimatore puntuale deviato, si può ottenere un intervallo di confidenza stretto intorno ad un valore sbagliato (errore grave); • se si ha una autocorrelazione positiva e si usa lo stimatore derivato da S2 si ottiene un intervallo di confidenza più stretto di quello reale (errore grave); • se si ha una autocorrelazione negativa e si usa lo stimatore derivato da S2 si ottiene un intervallo di confidenza più largo di quello reale (errore minore, si è solo sprecato del tempo). Analisi di transitori (simulazioni di durata finita) Raffaele Pesenti 9 Raffaele Pesenti Misura delle prestazioni di un sistema 10 Stima del valore Uno stimatore è 1 n θˆ r = ∑ Y ri n i =1 • L’esperimento / la simulazione servono a stimare uno o più parametri che descrivono le prestazioni del sistema. – θ parametro da stimare – R sequenze {Yr1, Yr2, …, Yrn} per ogni replica (run di simulazione) r eseguita dell’esperimento ma, in generale è deviato E { θˆ r } = θ + b • Date le R sequenze {Yr1, Yr2, …, Yrn} si desidera una stima di θ Raffaele Pesenti 11 in funzione dello stato iniziale (gli Yri sono autocorrelati) E.g.: tempo di attesa medio, tempo di attesa singolo cliente, numero di clienti inizialmente in coda. Raffaele Pesenti 12 Stima del valore Stima del valore 1 R ˆ θˆ = ∑ θr R r =1 Si può ottenere uno stimatore non deviato se i singoli stimatori di run sono i.i.d.: – ottenuti con semi diversi; – ottenuti in base a stati iniziali definiti casualmente secondo le corrispondenti distribuzioni. σˆ 2 (θˆ ) = NB: tipicamente lo stimatore è deviato perché si suppone uno stato iniziale “nullo” che in generale non si presenta in natura. Raffaele Pesenti S 2 1 R (θˆ r − θˆ ) 2 = ∑ R R r =1 R − 1 Stimatori non deviati se stime di run i.i.d. 13 Raffaele Pesenti 14 Intervallo di confidenza con precisione data Stima dell’intervallo Se la stima della varianza non è deviata, • L’intervallo di confidenza è funzione del numero di run eseguiti: θˆ − θ t= σˆ (θˆ ) è distribuito come t-student con R-1 gradi di libertà. σˆ h.l. = tα / 2, R −1σˆ (θˆ ) = tα / 2, R −1 R L’intervallo di confidenza è • si esegue una prima stima approssimata della varianza della popolazione con un numero ridotto di run R0 (almeno 4 o 5) e si deduce R di conseguenza. θˆ − tα / 2, R −1σˆ (θˆ ) ≤ θ ≤ θˆ + tα / 2, R −1σˆ (θˆ ) NB: per il teorema centrale della statistica, lo stimatore è approssimativamente distribuito in modo normale Raffaele Pesenti 15 Raffaele Pesenti 16 Processi non terminanti Esistono sistemi che lavorano senza soluzione (logica) di continuità: – pronto soccorso, polizia, etc… – produzione manifatturiera – flussi monetari Analisi di sistemi a regime – …. Raffaele Pesenti 17 Raffaele Pesenti 18 Esempio: coda M/M/1 Sistemi a regime Tempo di attesa in coda: Problema: dato un processo non terminante, ha senso cercare di stimare una sua caratteristica che potrebbe variare nel tempo ? wi = max{wi-1+ si-1- ai,0} P(Wi ≤ wi| Wi-1 ≤ wi-1) ≠ P(Wi≤ wi) quindi Risposta: si! Almeno nel caso in cui il processo è stazionario rispetto a tale caratteristica. P(Wi ≤ wi| W1 ≤ w1) ≠ P(Wi≤ wi) vi è dipendenza dallo stato iniziale, ma se il fattore di utilizzazione è minore di 1 ... Raffaele Pesenti 19 Raffaele Pesenti 20 Esempio: coda M/M/1 t-stazionarietà per i→∞: Definizione: Xw è t-stazionario se la dipendenza tra Xw e Xu esiste solo per |w-u|≤t P(Wi ≤ wi| W1 ≤ w1) = P(Wi≤ wi) inoltre P(Wi ≤ wi| Wi-1 ≤ wi-1) ≠ P(Wi≤ wi) Teorema del limite centrale ma indipendente da i (stazionarietà in senso stretto) se Xw è t-stazionario e ∃ E{Xw}= µ e E{|Xw|3}<∞ In particolare γd= cov(Wi+d, Wi) dipende da d ma non da i X Stazionarietà in senso ampio: Raffaele Pesenti 21 Raffaele Pesenti Sistemi a regime Per i sistemi precedenti ha senso studiare le prestazioni a regime (quando questo esiste, e.g., sistemi stazionari) 1 n ∑ Yi n → ∞ n i =1 θ = Lim Risposta: 2 n ∑ ∑ n i =1 j =1 n −1 γ cov(X i , X j ) = n0 [1 + 2 ∑ (1 − kn ) ρ k ] k =1 γ k dove γ k = cov(X i , X i + k ), ρ k = γ0 NB: la relazione si ottiene applicando var(X+Y) = var(X) + var(Y) + 2cov(X,Y) Raffaele Pesenti 22 Sistemi a regime Problema: come cambia la varianza se le osservazioni non sono indipendenti (campione non casuale) ? 1 n 1 T ∑ X i+r T r =1 è asintoticamente normale ed ha valore atteso µ se solo E{Wi} e γd indipendenti da d σ 2 (X ) = = 23 Le stime ottenute attraverso la simulazione sono necessariamente di durata finita sono deviate in funzione delle condizioni iniziali, ma tale deviazione diminuisce tanto più sono lunghi i run Problemi: come capire di avere raggiunto il regime? come ottenere dati i.i.d. Raffaele Pesenti 24 Deviazione da condizioni iniziali Determinazione durata warm-up fase di inizializzazione Per ridurre la deviazione indotta da condizioni iniziali arbitrarie si: – scelgono condizioni iniziali reali (richiede un’analisi approfondita e costosa del sistema) 0 Raffaele Pesenti 25 Raffaele Pesenti Y .. = Y..(n, d) = 1 R • eseguire più run (~10) • dividere i run osservati in batch di durata uguale • per ogni gruppo di batch corrispondenti, calcolare la media dei batch • calcolare la media cumulativa delle medie dei batch eliminando progressivamente un batch alla volta, a partire da quello iniziale • quando la media cumulativa non risente “significativamente” dell’ultimo batch eliminato, si ritiene di avere superato la fase di transitorio R ∑Y r =1 rj :media batch j-mi 1 n ∑Y . j n j =1 :media cumulata 1 n ∑Y. j n−d j=d+1 :media cumulata con d cancellazioni NB: non usare più di 25~30 batch, stimare l’intervallo di confidenza delle medie dei batch NB: a j fissato e a r variabile Yrj sono i.i.d. e quindi la loro media è circa distribuita con il t-student Raffaele Pesenti 26 Metodi empirici :media individuale batch valore osservato j-mo replicazione r-ma Y .j = batch • metodi statistici (di difficile applicazione, praticamente non usati) • metodi empirici Metodi empirici Yrj t punto di cancellazione – scelgono condizioni iniziali realistiche, ottenibili da modelli matematici - reti di code - molto semplificativi della realtà (spesso difficile matematicamente) – si parte da uno stato arbitrario (in genere lo stato nullo) e non si raccolgono dati statistici per un periodo di inizializzazione (warmup) (più usato) fase raccolta dati 27 Raffaele Pesenti 28 Come capire se le variazioni non sono più significative poco solidi • ad occhio statisticamente • variazioni inferiori all’1-2% più solidi, a volte • intervalli di confidenza sulle medie dei conservativi batch corrispondenti • intervalli di confidenza (deviati) sulle medie cumulate • metodi statistici ad hoc complessi • La deviazione dovuta alle condizioni iniziali è affetta dalla posizione del punto di cancellazione, non dal numero di repliche dell’esperimento. Se non si è calcolata correttamente il punto di cancellazione tutte le stime verranno deviate. • Il punto di cancellazione dipende dal parametro che si vuole stimare. Deve essere ricalcolato per ognuno di essi. Per autocorrelazioni vicine ad 1 non c’è metodo che tenga Raffaele Pesenti Attenzione 29 Raffaele Pesenti Stime con repliche Stime con long run • Nota la durata del transitorio, si calcola la media di replica con cancellazione Y r . ( n, d ) = n 1 ∑ Y rj n − d i = d +1 • si eseguono le stime come per simulazioni finite, le medie di replica sono tra loro i.i.d. • non conviene fare più di ~25 repliche, piuttosto fare run lunghi • si sprecano dati e tempi perché si devono superare tanti transitori Raffaele Pesenti 30 31 • Nota la durata del transitorio, si esegue un unico lungo run • si eseguono le stime come per simulazioni finite utilizzando i valori Yj calcolati per i batch del run (si usano ~30 batch) vantaggi • è necessario un solo transitorio svantaggi • stime corrette solo se Yi sono i.i.d. Raffaele Pesenti 32 Indipendenza Yi Test di autocorrelazione • Osservazioni in generale – Yj e Yj+k sono autocorrelati, cov(Yj,Yj+k)≠0 – |cov(Yj,Yj+k)| > |cov(Yj,Yj+m)| se k<m – l’autocorrelazione diminuisce con la lunghezza del batch • Conseguenza – se si definiscono batch per cui si può supporre cov(Yj,Yj+1) = 0, allora le Yj possono essere ritenute i.i.d., si possono eseguire le stime nel modo usuale Raffaele Pesenti Statistica di Von Neumann n −1 ∑ (Y j − Y j +1) 2 q= j =1 n ∑ (Y j − Y ) 2 j =1 33 Raffaele Pesenti Test di autocorrelazione 34 Test di autocorrelazione Se Yj i.i.d. – E{q} = 2 – σ2(q) = 4(n-2)/(n2-1) – q pressoché normale per n≥100 Problema il test di autocorrelazione funziona correttamente se il numero di batch è superiore a 100 (si consiglia 100-400 batch) quindi: si calcola q e l’intervallo di confidenza (q - z2.5%σ (q); q + z2.5%σ (q)) se 2 appartiene a tale intervallo si accetta l’ipotesi nulla di Yj i.i.d. quindi, per stime con long run, si definiscono prima 100-400 batch iniziali per verificarne l’indipendenza, si aggregano i batch iniziali in 30 batch finali per calcolare le statistiche di interesse Raffaele Pesenti 35 Raffaele Pesenti 36 Stime con renewal point • se il sistema osservato passa ripetutamente attraverso uno “stato” t.c. la sua evoluzione futura è indipendente dalla storia passata, tale stato è detto “renewal state” (stato di rigenerazione),, gli istanti di tali passaggi sono detti renewal point • le statistiche rilevate tra due renewal point sono i.i.d. • se lo stato iniziale è un renewal state non si deve eliminare il transitorio, però • il metodo è difficilmente usabile in sistemi complessi poiché è difficile che si ripeta lo stesso stato. Raffaele Pesenti 37 Confronto tra due alternative Esempio si hanno tre centri di controllo qualità. alternative – lavorano in parallelo, eseguendo ognuno di essi tutti i controlli – lavorano in serie, ognuno di essi esegue solo dei controlli (maggiore specializzazione tempo medio singolo controllo minore) si vuole determinare quale configurazione induce un minore tempo medio di permanenza nel sistema Statistica Confronto tra alternative: due o più alternative Raffaele Pesenti 1 Confronto tra due alternative 2 Confronto tra due alternative Procedura di soluzione Siano θ1 e θ2 i parametri di interesse (e.g., tempo di permanenza nel sistema), si esegue un test sull’ipotesi nulla H0: θ1 = θ2 ⇒ θ1 - θ2 = 0 Due metodi per stimare θ1 - θ2 – stima separata di θ1 e di θ2, quindi calcolo della differenza – si stima θ1 - θ2 in base ai dati disponibili, – si verifica se θ1 - θ2 è significativamente maggiore o minore di 0 Raffaele Pesenti Raffaele Pesenti – stima diretta di θ1 - θ2 3 Raffaele Pesenti 4 Stima separata di θ1 - θ2 Stima separata di θ1 - θ2 • date le osservazioni Yri (osservazione r-ma rispetto al sistema i-mo) • si deducono separatamente in modo indipendente, con semi diversi, le stime per θ1 e θ2 e le loro varianze (vedi, e.g., norma UNI 6806 -72) • la stima di θ1 - θ2 risulta θˆ 1 − θˆ 2 = Y .1 − Y .2 • poiché le stime sono calcolate in modo indipendente R 1 i θˆ i = Y .i = ∑ Yri Ri r =1 σ 2 (θˆ 1 − θˆ 2 ) = σ 2 (θˆ 1 ) + σ 2 (θˆ 2 ) R Si2 i 1 = (Yri −Y .i ) 2 ∑ Ri − 1 r =1 • e la stima di θ1 - θ2 è distribuita circa con il t-student Raffaele Pesenti 5 Raffaele Pesenti Stima separata di θ1 - θ2 Stima separata di θ1 - θ2 • altrimenti, per R1 e R2 ≥ 6 una stima non deviata della varianza risulta • una stima non deviata della varianza risulta ( R − 1) S12 + ( R2 − 1) S 22 σˆ (θˆ 1 − θˆ 2 ) = 1 R1 + R2 − 2 2 S2 S2 σˆ 2 (θˆ 1 − θˆ 2 ) = 1 + 2 R1 R2 1 1 + R1 R2 • con ν−1=R1+R2-2 gradi di libertà, se si ritiene • con gradi di libertà σ 2 (θˆ 1 ) ≈ σ 2 (θˆ 2 ) Raffaele Pesenti 6 ν= 7 Raffaele Pesenti ( S12 / R1 + S 22 / R2 ) 2 ( S12 / R1 ) 2 /( R1 − 1) + ( S 22 / R2 ) 2 /( R2 − 1) 8 Stima separata di θ1 - θ2 Stima diretta di θ1 - θ2 • non si può rifiutare H0 se, la stima non è significativamente distante da 0 se θˆ 1 − θˆ 2 − tα / 2, ν −1σˆ (θˆ 1 − θˆ 2 ) ≤ 0 ≤ θˆ 1 − θˆ 2 + tα / 2, ν −1σˆ (θˆ 1 − θˆ 2 ) La stima diretta è anche nota come tecnica di – campionamento correlato 0 • altrimenti si può ritenere statisticamente significativo intervallo confidenza θ1 − θ2 θ1 > θ2, θ2 > θ1 se θˆ 1 > θˆ 2 + tα / 2,ν −1σˆ (θˆ 1 − θˆ 2 ) θˆ 2 > θˆ 1 + t α / 2,ν −1 σˆ (θˆ 1 − θˆ 2 ) – riduzione della varianza – numeri casuali comuni 0 0 Raffaele Pesenti 9 Raffaele Pesenti Stima diretta di θ1 - θ2 Stima diretta di θ1 - θ2 Concetto base: • date osservazioni accoppiate Yr1 e Yr2 dello stesso parametro nei due sistemi diversi (e.g., il tempo di permanenza nel sistema dello stesso cliente) • si deducono delle stime per D e la sua varianza (vedi, e.g., norma UNI 6807 -72) confrontare due sistemi sottoponendoli agli stessi input. Giustificazione matematica: Sia D = θ1 - θ2, se le osservazioni sui due sistemi sono correlate Dr = Yr1 − Yr 2 σ 2 ( Dˆ ) = σ 2 (θˆ 1 ) + σ 2 (θˆ 2 ) − 2σ(θˆ 1 )σ(θˆ 2 )ρ12 2 SD = Se la correlazione è positiva la varianza può essere ridotta rispetto al caso precedente Raffaele Pesenti 10 11 Raffaele Pesenti 1 R ∑ ( Dr − D) 2 R − 1 r =1 1 R Dˆ = ∑ Dr R r =1 S σˆ ( Dˆ ) = D R 12 Stima diretta di θ1 - θ2 Stima diretta di θ1 - θ2 • non si può rifiutare H0 se, la stima non è significativamente distante da 0 se Dˆ − tα / 2, R −1σˆ ( Dˆ ) ≤ 0 ≤ Dˆ + tα / 2, R −1σˆ ( Dˆ ) • altrimenti si può ritenere statisticamente significativo θ1 > θ2, θ2 > θ1 se Dˆ > tα / 2, R −1σˆ ( Dˆ ) Dˆ < −tα / 2, R −1σˆ ( Dˆ ) Raffaele Pesenti 13 • vantaggi – può ridurre significativamente la varianza e quindi permettere di concludere, dove nel caso precedente non era possibile • difficoltà – può essere complesso recuperare i valori da accoppiare (e.g., si consideri la possibilità che i clienti abbandonino i sistemi in sequenze diverse) – non vi è garanzia matematica che vi sia correlazione positiva Raffaele Pesenti 14 Confronti multipli Perché: • per determinare i parametri caratteristici di sistemi Tre o più alternative alternativi • per confrontare alternative rispetto ad un sistema di riferimento • per confrontare tutte le coppie di alternative Raffaele Pesenti 15 Raffaele Pesenti 16 Confronti multipli Confronti multipli E.g., (affermazioni indipendenti) Problema: • P(affermazione i-ma corretta) = 1-αi Se ogni affermazione è corretta con un certo grado di • P(tutte le affermazioni corrette)=Πi(1-αi) probabilità. Quando si compiono tante affermazioni la • se αi=5% e n=10 • P(tutte le affermazioni corrette)<60% probabilità che siano tutte corrette diminuisce significativamente. Soluzione: • si devono fissare coefficienti di confidenza 1-αi più grandi, ma di quanto? Raffaele Pesenti 17 Raffaele Pesenti Bonferroni 18 Bonferroni n P(n affermazioni corrette) ≥ 1 − ∑ αi Dovendosi fare n affermazioni con errore complessivo non i =1 • Condizione vera per affermazioni indipendenti o dipendenti. • Se affermazioni indipendenti, si prova per induzione superiore ad α, bisogna imporre per ogni affermazione un coefficiente di confidenza 1-αi, tale che n ∑ 1) P (1 affermazione corretta) ≥ 1 − α1 n) P (n affermazioni corrette) = (1 − α n ) P (n − 1 affermazioni corrette) ≥ n −1 n n −1 n i =1 i =1 i =1 i =1 tipicamente αi= α/n. ≥ (1 − α n )(1 − ∑ α i ) = 1 − ∑ α i + α n ∑ α i ≥ 1 − ∑ α i Raffaele Pesenti i =1 αi ≤ α 19 Raffaele Pesenti 20 Esempio 1 Esempio 1 (cont.) Si vogliono confrontare 3 alternative con una di riferimento (altenativa 1) per verificare che quest’ultima è ottima, con un coefficiente di confidenza del 95%: – 3 test – se α=5% allora αi=1.66% – si determinano gli intervalli di confidenza θˆ 1 − θˆ i − t1.66 / 2, ν −1σˆ (θˆ 1 − θˆ i ) ≤ θ1 − θi ≤ θˆ 1 − θˆ i + t1.66 / 2, ν −1σˆ (θˆ 1 − θˆ i ) NB: Bonferroni vale anche per campionamento correlato Raffaele Pesenti 21 Esempio 2 Problema Si vuole verificare se, tra 100 monete, ci sono delle monete false al 95% di confidenza. Metodo scorretto si eseguono test al 95% su tutte le monete e quindi si considera solo uno per cui, per puro effetto del caso, l’ipotesi nulla (moneta buona) è rifiutata. Metodo corretto si calcolano con Bonferroni i coefficienti di confidenza per tutti i test (αi=0.05%). Si eseguono test al 99.95% su tutte le monete. Raffaele Pesenti 23 si ottenga -1.2 ≤ θ1- θ2 ≤ 1.2 0.3 ≤ θ1- θ3 ≤ 2.0 0.6 ≤ θ1- θ4 ≤ 0.9 l’alternativa 1 non è ottima, le alternative 3 e 4 sono migliori di quella di riferimento. Si desidererebbe quindi confrontare 3 e 4 fra loro, ma … ATTENZIONE Non usare gli stessi dati. Si deve fare un test ad hoc. Non è corretto prima osservare i risultati e poi decidere le affermazioni da verificare, altrimenti si prova qualunque cosa. Raffaele Pesenti 22 Prerequisiti Si riportino alla mente i seguenti concetti: Statistica • relazione tra varianza della popolazione e varianza delle medie campionarie della popolazione • determinazione di uno stimatore non deviato della varianza Progetto degli esperimenti: metodo Anova • determinazione del numero di gradi di libertà di una stima della varianza Raffaele Pesenti 1 Raffaele Pesenti Problema Sistema, fattori, livelli Problema • Un sistema è caratterizzato da – fattori determinare se le prestazioni di un sistema dipendono dai livelli assunti da uno o più fattori. • qualitativi(e.g., politica di servizio FIFO, LIFO,..) • quantitativi (e.g., numero di servitori) Test statistico si usa la metodologia detta ANOVA • i fattori possono essere – variabili decisionali o politiche – fattori non decisionali (e.g., tasso arrivo clienti) • i valori assunti dai fattori si dicono livelli. • l’insieme dei livelli assunti dai fattori di un sistema è detto trattamento. Raffaele Pesenti 2 Commenti • per due livelli ANOVA equivale ad un test con t-student; • si suppongono repliche indipendenti, non correlate; • il numero di prove che si compiono è minore che nel caso di confronto diretto di tutte le coppie di trattamenti 3 Raffaele Pesenti 4 Analisi di un fattore Analisi di un fattore Assunzione il valore Yrj osservato nella replica r-ma a livello j-mo è Yrj= µ + Nj+ εrj dove – µ: prestazione media del sistema mediata su tutti i possibili livelli – Nj: variazione media rispetto a µ dovuta al livello j – εrj: disturbo casuale associato a replica r e livello j Scindibilità delle variazioni la variazione totale di Yrj dalla media campionaria generale è esprimibile come dalla variazione fra i campioni ovvero del valore medio osservato in repliche con lo stesso livello dalla la media campionaria generale più la variazione nei campioni o residua ovvero variazione del campione dalla media del suo livello. • εrj è i.i.d. • εrj ~ n(0,σ)), σ comune per ogni livello e fattore. Raffaele Pesenti Yrj − Y .. = (Y . j − Y .. ) + (Yrj − Y . j ) 5 Raffaele Pesenti Analisi di un fattore Scarti quadratici lo scarto quadratico totale SSTOTAL risulta essere la somma dello scarto quadratico fra i campioni SSTREAT e lo scarto quadratico residuo SSE. I prodotti incrociati si annullano nelle sommatorie. SSTOTAL = = N R ∑∑ j =1r =1 (Yrj − Y .. ) 2 = 6 Analisi di un fattore Ipotesi nulla H0: Nj= 0, ∀j quindi – Yrj dovrebbero disporsi intorno a µ con varianza σ2; N N R – Y .. e Y . j sono stime di µ; j =1 j =1r =1 – SSTOTAL, SSTREAT e SSE sono legate a σ2. ∑ R(Y . j − Y .. ) 2 + ∑ ∑ (Yrj − Y . j ) 2 = SSTREAT + SS E NB: si assume che per tutti gli N livelli si facciano lo stesso numero di repliche R, ma ciò non è indispensabile Raffaele Pesenti 7 Raffaele Pesenti 8 Analisi di un fattore Analisi di un fattore • E{SSTOTAL}=(NR-1)σ2, gdl=NR-1 SSTOTAL/(NR-1) è la varianza campionaria non deviata Scarti quadratici medi: • MSTOTAL = SSTOTAL/ NR-1 • E{SSTREAT}=(N-1)σ2 , gdl=N-1 SSTREAT/R(N-1) è la varianza campionaria non deviata delle medie campionarie, E{SSTREAT/R(N-1)}= σ2/R • MSTREAT = SSTOTAL/ N-1 • MSE = SSE/ NR-N • E{SSE}=(NR-N)σ2 , gdl=NR-N SSE/(NR-N) è la varianza campionaria non deviata, quando calcolata rispetto a N diverse stime della media. Raffaele Pesenti 9 Se vale l’ipotesi nulla, a meno dei disturbi casuali MSTREAT/ MSE ≈1 Raffaele Pesenti Analisi di un fattore 10 Esempio Test F di significatività Problema si vuole determinare se la scelta di una tra tre macchine influenza significativamente le prestazioni di un sistema. la variabile casuale FN-1,NR-N FN-1,NR-N= MSTREAT/ MSE è distribuita come la distribuzione F con gradi di libertà Tempi di permanenza dei pezzi osservati in tre replicazioni per ogni livello N-1 e NR-N. Se FN-1,NR-N≤Fα,N-1,NR-N si accetta H0, altrimenti la si respinge Macchina A Macchina B Macchina C 23.71 18.54 9.78 32.14 10.86 13.54 26.87 11.23 4.32 NB: le tavole di F sono sempre date assumendo maggiore la varianza al numeratore.Vale però la proprietà Fa,b=1/Fb,a. Raffaele Pesenti 11 Raffaele Pesenti 12 Esempio (cont.) Esempio (cont.) Risultati: da Excel (aggiunta Strumenti Analisi, Analisi Varianza: ad un fattore) Commenti Analisi varianza: ad un fattore RIEPILOGO Gruppi Macchina A Macchina B Macchina C Conteggio Somma 3 82.72 3 40.63 3 27.64 Si può rigettare l’ipotesi nulla. Media Varianza 27.57 18.14 13.54 18.76 9.21 21.49 Il fattore macchina da usare è significativo. ANALISI VARIANZA Attenzione Origine della variazione SQ gdl Tra gruppi 552.68 In gruppi 116.78 2 6 Totale 8 669.46 MQ F 276.34 19.46 Valore di significatività F crit 14.20 0.01 5.14 Raffaele Pesenti Non usare gli stessi dati per scegliere la macchina. Fare test ad hoc oppure usare statistiche avanzate. 13 Raffaele Pesenti Analisi di due fattori Analisi di due fattori Assunzione il valore Yrj della replica r-ma a livello i-mo per il primo fattore e j-mo per il secondo fattore è dato da Scindibilità delle variazioni la variazione totale di Yrj è data dalle due variazioni fra i campioni, dalla variazione per l’interazione (depurata dall’influenza dei singoli livelli) e dalla variazione nei campioni o residua. Yrij= µ + Qi + Nj + NQij + εrij dove – Nj, Qi : variazioni medie rispetto a µ dovuta al livello i/ livello j – NQij: variazione media rispetto a µ dovuta all’interazione due fattori Raffaele Pesenti 14 15 Yrij − Y .. = (Y .i. − Y ... ) + (Y .. j − Y ... ) + + [Y .ij − (Y .i. − Y ... ) − (Y .. j − Y ... ) − Y ... ] + + (Yrij − Y .ij ) Raffaele Pesenti 16 Analisi di due fattori Scarti quadratici Analisi di due fattori Q N R SSTOTAL = ∑ ∑ ∑ (Yrij − Y ... ) 2 Ipotesi nulle i =1 j =1r =1 Q SSQ = ∑ NR (Y .i. − Y ... ) SS N = i =1 N ∑ H0: Qi=0, ∀i 2 H0: Nj=0, ∀j H0: NQij=0, ∀ij QR (Y .. j − Y ... ) 2 quindi – Yrij dovrebbero disporsi intorno a µ con varianza σ2; – Y ... , Y .i. , Y .. j e Y .ij sono stime di µ; – SSTOTAL, SSQ , SSN , SSNQ e SSE sono legate a σ2. j =1 Q SS NQ = ∑ N ∑ i =1 j =1 R(Y.ij − Y .i. − Y .. j + Y ... ) 2 SS E = SSTOTAL − SSQ − SS N − SS NQ Raffaele Pesenti 17 Raffaele Pesenti Analisi di due fattori 18 Analisi di due fattori Scarti quadratici medi: • MSTOTAL = SSTOTAL/ NQR-1 gdl: NQR-1 • MSQ = SSQ/ Q-1 gdl: Q-1 • MSN = SSN/ N-1 gdl: N-1 • MSNQ = SSNQ/ (N-1)(Q-1) gdl: (N-1)(Q-1) • MSE = SSE/ NQ(R-1) gdl: NQ(R-1) Test F di significatività la variabile casuale Fν1,ν2 Fν1,ν2 = MSTREAT/ MSE è distribuita come la distribuzione F con gradi di libertà Se vale l’ipotesi nulla, a meno del disturbo casuale opportuni ν1, ν2 MSTREAT/ MSE ≈1 dove TREAT vale Q, N o NQ, a seconda delle ipotesi da verificare Se Fν1,ν2 ≤ Fα,ν1,ν2 si accetta H0, altrimenti la si respinge. Raffaele Pesenti 19 Raffaele Pesenti 20 Esempio Esempio Problema Tempi di permanenza dei pezzi osservati in tre replicazioni per ogni fattore, per ogni livello si vuole determinare se la scelta di una tra tre macchine e l’uso di uno o due operatori influenza significativamente le Macchina A Macchina B Macchina C un operatore 23.71 18.54 9.78 32.14 10.86 13.54 26.87 11.23 4.32 due operatori 21.17 13.24 5.95 19.31 7.91 9.95 22.34 10.10 3.88 prestazioni di un sistema. Raffaele Pesenti 21 Raffaele Pesenti 22 Esempio (cont.) Esempio (cont.) Ana lisi va ria nz a : a d ue fa ttori con re plica RIEP IL O G O M a cchin a A M a cchin a B M a cchin a C To ta le uno Conte gg io 3 3 3 9 S om m a 82.72 40.63 27.64 150.99 M e dia 27.57 13.54 9.21 16.78 V a ria n z a 18.14 18.76 21.49 83.68 ANALIS I V ARIANZA Origine della variazione SQ Ca m pione Colonne Inte ra zione In due Conte gg io S om m a M e dia V a ria n z a Tota le Conte gg io S om m a M e dia V a ria n z a Raffaele Pesenti 3 62.81 20.94 2.33 3 31.25 10.42 7.18 3 19.78 6.59 9.54 6 145.53 24.26 21.40 6 71.88 11.98 13.31 6 47.42 7.90 14.47 9 113.84 12.65 46.14 Tota le 23 Raffaele Pesenti gdl MQ 76.68 869.35 14.35 154.90 1 2 2 12 1115.29 17 F 76.68 434.68 7.18 12.91 V alore di significatività F crit 5.94 0.03 33.67 0.00 0.56 0.59 4.75 3.89 3.89 24 Esempio (cont.) Più di due fattori Commenti L’analisi con due fattori può essere generalizzata a k fattori. Cresce però in numero esponenziale il numero di esperimenti da condurre se si vogliono esaminare tutte le possibili combinazioni di livelli di fattori (full factorial experiment). Per questo si ricorre spesso a fractional factorial experiment, dove alcune interazioni sono escluse a priori o dedotte. Nel caso di due fattori se è esclusa l’interazione si usa l’analisi di varianza senza replica. Si possono rigettare due ipotesi nulle su tre: – il fattore macchina da usare è significativo; – il fattore operatori è significativo; – non si può ritenere significativa l’interazione tra i fattori. Raffaele Pesenti 25 Raffaele Pesenti 26