Intervallo di confidenza della media nota la varianza(3)
by user
Comments
Transcript
Intervallo di confidenza della media nota la varianza(3)
Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12 Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 5 21 Ottobre 2011 Esempio(Contenuto di cloro nell’acqua) • Qual è la probabilità che, da un pozzo con un contenuto medio di cloro pari a 1 meq (milli-equivalente ) l-1, eseguendo l’analisi con uno strumento caratterizzato da un coefficiente di variabilità pari al 4%, si ottenga una misura pari o superiore a 1.1 meq l-1? • E’ possibile che questa misura sia stata ottenuta casualmente, oppure è successo qualcosa di strano (errore nell’analisi o inquinamento del pozzo)? • Questo problema può essere risolto immaginando che se è vero che il pozzo ha un contenuto medio di 1 meq l-1 i contenuti di cloro dei campioni estratti da questo pozzo dovrebbero essere distribuiti normalmente, con media pari ad 1 e deviazione standard pari a 0.04 (si ricordi la definizione di coefficiente di variabilità). Qual è la probabilità di estrarre da questa popolazione una misura pari superiore a 1.1 meq l-1? X N ( 1, 0.04) P( X 1.1) 1 P( X 1.1) 0.006209 Esempio(Distribuzione Normale) Pr( X x) 0.90 x 1.051262 (0.90) Pr( X x) 0.70 x 0.979024 (0.30) • Nello stesso strumento dell’esercizio precedente e considerando lo stesso x1 X x2 ) 0.95 tipo di analisi,Pr( calcolare: 1 - la probabilità inferiore a 0.75 x1di ottenere (0.025)una misura 0.9216014 2 - la probabilità di ottenere una misura superiore a 1.5 x 2 (0.975) 1.078399 3 - la probabilità di ottenere una misura compresa tra 0.95 e 1.05 • Stabilire inoltre: – 1 - la misura che è superiore al 90% di quelle possibili – 2 - la misura che è inferiore al 70% di quelle possibili – 3 - le misure entro le quali si trova il 95% delle misure possibili Pr( X 0.75) 2.05 * e - 10 Pr( X 1.5) 3.73 * e - 36 Pr(0.95 X 1.05) 0.788 Esempio : Indagine su neonati(Distribuzione Normale) • • • Da un’indagine svolta su un campione di neonati ,il peso alla nascita è risultato avere media pari a 3.2 kg con σ di 0.6 kg. Ciò significa che nella popolazione il 68% circa dei neonati ha un peso tra 2.6 e 3.8 kg ,il 95% ha un peso tra 2 e 4.4 kg e meno dell’1% ha peso maggiore di 5 o minore di 1.4 kg. Ci si chiede: – In un campione di 1000 nati ,quanti sono attesi avere un peso compreso tra 3.5 e 3.7 kg? – Considerando i pesi medi rilevati su 20 nati in 1000 ospedali ,in quanti casi è attesa una media compresa tra 3.5 e 3.7? P(3x.5 3.2 X 3.7) 0.6 X x3.5 0.1342 3. 7 P n 20 P (3.5 X 3.7) x 3.7 3x .7 3.2 33..55 3x .2 X X P P x x 0.6 0x.6 3.7 3.2 3.5 3.2 P Z P0 .05.1342 Z 0.820.1342 P(Z 0.82) P( Z 0.5) 0 .P3085 0.1053 2.23610Z.2032 3.7268 P( Z 3. .7268) P ( Z 2.2361) 0.0128 0.0001 0.0127 1000 * 0.1053 105.3 Altre distribuzioni collegate alla normale 2 • 2Le distribuzione dei quadrati di variabili casuali Normali Standard è detta distribuzione χ2 (chi-quadrato) con 1 grado di libertà. • z2~χ21 2 2 di n VC normali standard indipendenti è distribuita • La somma dei quadrati come2una χ2 con n 1gradi di libertà. (x ) 1 ~ 1 ( x ) 2 2 è continua2e può assumere valori E ( distribuzione soltanto 1 positivi: se il Questa 1 ) E 2 è piccolo la distribuzione numero dei gradi di libertà è molto asimmetrica mentre tende alla simmetria in modo proporzionale all’aumento dei gradi 2 di χ sono rispettivamente 2 di libertà. La media e la varianza della VC pari ( x ) ( x ) 2numero 2dei gradi 2di libertà 1ν e al doppio dello stesso 2 numero 2 ν. al 1 1 2 2 2 2 2 z 2 n 2 2 2 ( x1 ) ( x2 ) 2 1 1 2 E ( 2 ) E 2 2 Distribuzione χ2 con v gdl • Per un campione di v osservazioni : 2 v (x i ) 2 2 1 2 dove xi ~ N( , ) 2 ( xi ) 2 zi ~ 1 . 2 2 ( x ) i Distribuzione χ2 con v gdl(2) • Allora : n n n E ( zi z ) 2 E ( zi z ) 2 E ( z i2 2 z z i z 2 ) i 1 i 1 i 1 dove 2 zi 2 n 1 1 n 2 2 i 1 z 2 zi 2 zi 2 zi z j n n i 1 n i 1 n • Essendo E(zizj)=0 per l’indipendenza degli xi,segue che : E(z ) E( 2 2 z i n 2 n 1 ) 2 n n Distribuzione χ2 con v gdl(3) • Per lo stesso motivo : z 1 E zz i E z i Quindi i n n 1 2 E ( zi z ) (1 ) n 1 n n 2 2 ( x x ) SS ( x ) ( n 1 ) s i 2 2 ( z z ) i n 1 2 2 2 2 Distribuzione χ2 0.10 0.05 0.00 Frequenza 0.15 0.20 0.25 Distribuzione chi-quadrato gradi di libertà=c(3,10,20) 0 5 10 Variabile 15 20 Distribuzione di Fisher • Rapporto di 2 funzioni determinate su campioni indipendenti v21 2 v21 2 2 v1 v1 v 2 F (v1, v 2) 2 2 2 2 2 v 2 v1 v 2 v1 v 2 v2 v2 • La funzione è asimmetrica ,al tendere di v2 all’infinito la distribuzione converge a v21 2 v1 Inoltre s n2 1 Fn1 1,n2 1 2 s n1 1 n2 1 2 1 2 2 2 n1 1 Distribuzione Fisher gdl=(3,4) red line gdl=(10,20) blue line 0.6 0.4 0.2 0.0 Frequenza 0.8 1.0 Distribuzione Fisher 0.0 0.2 0.4 0.6 Variabile 0.8 1.0 Distribuzione t di student (Fisher con v1=1) v21 2 1 2 v2 2 12 2 1 12 v 2 2 F ( 1 , v 2 ) t v v22 2 1 v22 v2 2 v2 Indipenden za : 2 ( x x ) i 2 n21 e n( x ) 2 2 12 allora n( x ) 2 1 n 1 n( x ) 2 2 F t 1, n 1 n 1 2 2 s ( xi x ) t-student (gdl 2(red),10(blue),40(green)) 0.3 0.2 0.1 0.0 Frequenza 0.4 0.5 Distribuzione t-student -10 -5 0 Variabile 5 10 Distribuzione degli scarti standardizzati z (x ) N (0,1) n (x ) t n 1 s n Intervalli di confidenza • Introduzione • Intervalli di confidenza di una media nota la varianza di popolazione • Intervallo di confidenza di una media con varianza di popolazione incognita • Intervallo di confidenza di una proporzione • Intervalli di confidenza della varianza ,nel caso in cui si assume che la popolazione è distribuita normalmente • Intervalli di confidenza ed ampiezza campionaria Introduzione • La media campionaria è una stima puntuale di μ(la media campionaria è inoltre uno stimatore corretto della media di popolazione );essa è funzione dei dati campionari ed è quindi una variabile casuale e può quindi variare a seconda del campione estratto ,ovvero è affetta da errore x e • La stima puntuale(es:media campionaria ) non dà una valutazione probabilistica su quanto il valore stimato sia più o meno vicino al vero valore del parametro incognito (es:media di popolazione ) • La stima intervallare ci informa non solo sul valore numerico del parametro incognito (media campionaria) ,ma anche sulla sua attendibilità ,in termini di probabilità. Intervallo di confidenza della media nota la varianza(1) • Si assume nota la varianza di popolazione σ2 . • Si fissa il grado di fiducia (o di confidenza ) (1-α) con 0<α<1 da dare all’intervallo di comprendere il valore vero μ.(Esempio : (1- α)=0.95 ; α=0.05 vuol dire che su un gran numero di prove ci si attende che la stima risulti corretta il 95% delle volte; dove per corretta si intende che l’intervallo contenga davvero il parametro μ. • Si considera un campione estratto da una popolazione Normale di cui si conosce la varianza ma non la media e si calcola la media campionaria . • La media campionaria si distribuisce come una Normale di media pari a μ e varianza σ2 /n. Intervallo di confidenza della media nota la varianza(2) 0.15 Distr. media camp. e Int. Conf. 95% 0.10 0.05 (1-α)=0.95 α/2=0.025 α/2=0.025 0.00 f(media campionaria) E(media camp)=μ Limite Inferiore 80 85 90 l1 1.96 * x 95 Limite Superiore 100 x 105 110 115 l2 1.96 * x Intervallo di confidenza della media nota la varianza(3) 2 X 2 X N ( , ) X N , N (0,1) 2 n n X Pr zlow zup (1 ) 0.95 2 n zlow 1.96 zup 1.96 P x z / 2 x z / 2 0.95 n n z / 2 1.96 Intervalli di confidenza di una media con varianza incognita • Se σ è incognita ,oltre a stimare μ tramite la media campionaria , è necessario stimare σ2 tramite s2(la varianza campionaria corretta) n s2 2 ) x x ( i i 1 (n 1) x t sx con x t sx 2 , n 1 sx s2 n • In questo caso si adotta come distribuzione di riferimento la t-Student con (n-1) gradi di libertà. Esempio:Int. Conf. 95% per la media con varianza incognita Altezze in centimetri di 5 piantine di mais:24,26,30,28,32. x 26 s 40 / 4 10 2 s 3.16 s x 1.41 x t 2 , n 1 s x 26 2.776 *1.41 IC95% ( ) [22.07 29.92] Esempio:IC per media di variabili di conteggio(Poisson) • Una sospensione batterica viene trattata con un mutageno ;un ugual volume di sospensione viene poi seminato su 10 piastre contenenti un terreno selettivo adatto ad evidenziare la presenza di mutanti;si procede al conteggio del numero di colonie mutanti presenti su ogni piastra. Numero Piastre Numero Mutanti 1 2 3 4 5 6 7 8 9 10 5 3 7 8 3 2 2 0 1 1 Esempio:IC per media di variabili di conteggio(Poisson)(2) • Il numero medio di mutanti è 32/10=3.2. • I livelli di confidenza della media di un conteggio possono essere calcolati tramite la distribuzione di Poisson. • Si approssima la distribuzione di Poisson a quella Normale ricordando che per la Poisson media = varianza : X N ( X , X ) N (3.2;3.2 / 10) 2 x z X 3.2 1.96 *1.11 2 X x n llow 2.09 lup 4.31 Intervalli di confidenza di una proporzione • Si estrae un campione per conoscere il vero valore della proporzione di una popolazione dicotomica. • Se si assume la normalità della distribuzione (anche se il processo è di tipo binomiale e la distribuzione potrebbe essere asimmetrica ) si può sostituire alla varianza la stima binomiale della varianza ~ np(1 p) • Se n è grande l’asimmetria e la discontinuità dovuta al processo binomiale discreto di fondo sono trascurabili. Caso 1 :Int. Conf. Proporzione • La numerosità campionaria n è grande,con proporzione di popolazione π=0.5. • Si può assumere la normalità e ottenere gli intervalli di confidenza per il numero di successi e la proporzione degli stessi rispettivamente dalle formule seguenti: n np z np(1 p) 2 p z 2 p(1 p) n Esempio(Caso 1) • In un campione di 100 piantine,20 hanno il fiore bianco. • n=100 ; p=0.2 ; (1-p)=0.8 ; α=0.05 . • L’intervallo di confidenza per il numero di piantine con fiore bianco e per la sua proporzione può essere così ottenuto: n np z np(1 p) 20 1.96 16 20 7.84 2 l1 12.16 l2 27.84 p z 2 p(1 p) 0.16 0.2 1.96 0.2 0.0764 n 100 l1 0.1216 l2 0.2784 Caso 2 :Int. Conf. Proporzione • La numerosità campionaria n non è grande,con proporzione di popolazione π≠0.5.Non si può assumere la normalità ,ma resta vero il processo binomiale di fondo. • Il problema si risolve considerando π come incognita dell’equazione da risolvere:gli intervalli non sono simmetrici. n np z np (1 p ) 2 ( p ) (1 ) z 1.96 z ( p ) n (1 ) n 1, 2 1 z2 z 2 np z np (1 p ) 2 n z 2 4 Esempio:Grandi Magazzini • Su 20 persone a caso in un grande magazzino ,4 dichiarano di preferire una certa marca di prodotti rispetto alle altre.La precisione della stima puntuale della proporzione 4/20=0.20 può essere valutata mediante l’intervallo di confidenza( 95%) ;poiché n non è grande e p≠0.5 ,la procedura adatta è la seguente: ( p ) (0.2 ) z 1.96 (1 ) (1 ) n 20 1, 2 2 2 1 ( 1 . 96 ) ( 1 . 96 ) 0.2 (1.96) 20(0.16) 2 10 (1.96) 2 4 1 0.081 2 0.416 Caso 3: n piccolo e π≠0.5 (IC 95% proporzione ) • Esempi in biologia : incidenza di una malattia rara,la frequenza di mutazione indotta ,la mortalità dopo un certo tipo di intervento chirurgico. • Bisogna adottare la distribuzione esatta ed applicare direttamente il criterio di stima dell’intervallo di confidenza :un valore di π è accettabile se la proporzione osservata fa parte dei valori che possono essere ottenuti con un scostamento casuale pari al livelli di significatività scelto. Procedura 1) si considera una proporzione teorica π 2) si calcola la distribuzione binomiale definita da n e π teorico 3) si isolano le code della stessa distribuzione che comprendono il livello di significatività scelto(es. alfa=0.05) 4)si verifica se la combinazione osservata cade nelle code oppure nella regione centrale Intervallo di confidenza di una varianza(per popolazione distribuita normalmente) • Esempio:precisione di uno strumento di misura,la variabilità di una caratteristica nella popolazione . • Se la popolazione è distribuita normalmente il calcolo dell’intervallo di confidenza per la varianza avviene tramite la distribuzione χ2. s 2 (n 1) 2 (2n 1) 2 s 2 (n 1) 2 (1 ) 0.95 Pr 2 ,( n 1) 2 1 2 ,( n 1) 2 s 2 (n 1) s (n 1) 2 2 2 2 ,( n 1) s 2 (n 1) 2 2 ,( n 1) 1 ,( n 1) 2 s 2 (n 1) 2 1 ,( n 1) 2 Esempio(IC per la varianza ) • Si desidera conoscere l’IC della varianza relativo al livello di amilasi serica,disponendo delle determinazioni effettuate su 15 pazienti. s 1225 2 s 35 2 0.025,14 26.119 2 0.925,14 5.629 (1225)(14) (1225)(14) 2 26.119 5.629 IC e dimensione campionaria • In un campione di 10 individui sani è stata misurata la glicemia .La media è risultata pari a 80 mg di glucosio/100 ml di sangue. • Essendo s=15 15 80 t9 80 10.9 10 l1 69.1 l2 90.2 • Volendo ottenere un grdo di precisione maggiore,ad esempio la metà di quello ottenuto in precedenza ,quante osservazioni si rendono necessarie? (escursione=5 invece di 10.9; t=2) 2 15 15 * 2 t e t 2 n 36 n 5 Grazie per l’attenzione