Comments
Description
Transcript
Matteo Vidali
Uso proprio e improprio delle tecniche statistiche di base Dr Matteo Vidali ([email protected]) Coordinatore GdS SIBioC “Statistica per il Laboratorio” Laboratorio Ricerche Chimico-Cliniche Azienda Ospedaliero-Universitaria “Maggiore della Carità” Roma, 6 nov 2012 Titoli alternativi per la colazione… • Come posso fregarmi con le mie stesse mani? • Come posso farmi fregare? • Come possono fregarmi? • Come posso fregare? Agenda • Introduzione • Uso proprio e improprio della statistica descrittiva • Uso proprio e improprio dei grafici • Uso proprio e improprio di correlazione e regressione Publication bias pubblicazione NO pubblicazione statisticamente significativo E metodologicamente corretto statisticamente significativo MA metodologicamente NON corretto statisticamente NON significativo E metodologicamente corretto statisticamente NON significativo MA metodologicamente NON corretto Ruolo della Statistica in uno studio (dove si possono commettere errori) • • • • • Disegno dello studio Raccolta dei dati Analisi dei dati Presentazione dei dati Interpretazione dei risultati Ruolo della Statistica in uno studio (dove si possono commettere errori) Disegno dello studio: errori comuni Strasak et al. 2007 Ruolo della Statistica in uno studio (dove si possono commettere errori) Analisi dei dati: errori comuni Strasak et al. 2007 Ruolo della Statistica in uno studio (dove si possono commettere errori) Materiali e Metodi: errori comuni Strasak et al. 2007 Ruolo della Statistica in uno studio (dove si possono commettere errori) Presentazione dei dati: errori comuni Strasak et al. 2007 Ruolo della Statistica in uno studio (dove si possono commettere errori) Interpretazione dei dati: errori comuni Strasak et al. 2007 Una questione di interpretazione? Primo Ospedale Deceduti Sopravvissuti totale A 160 40 200 B 170 30 200 330 70 400 Trattamento totale A: 40/200=20% B: 30/200=15% A>B Secondo Ospedale Deceduti Sopravvissuti totale A 15 85 100 B 100 300 400 115 385 500 Trattamento totale A: 85/100=85% B: 300/400=75% A>B Primo + Secondo Ospedale Deceduti Sopravvissuti totale A 175 125 300 B 270 330 600 445 455 900 Trattamento totale A: 125/300=42% B: 330/600=55% B>A Iacus, masarotto Una questione di interpretazione? Maschi Domande Ammessi % Ammessi Economia (900) 950 814 86% Lettere (100) 50 5 10% 1000 819 81.9% Domande Ammessi % Ammessi Economia (900) 100 86 86% Lettere (100) 900 95 11% 1000 181 18.1% Facoltà (posti) Femmine Facoltà (posti) Iacus, masarotto • “There are three kinds of lies: Lies, damned lies, and statistics” • “Statistics is a systematic method for getting the wrong conclusion with 95% confidence.” • “Statistics are like a bikini. What they reveal is suggestive, but what they conceal is vital.” Cosa fare? • Introduzione di regole più severe per gli autori • Introduzione di “lineeguida” per i revisori • Utilizzo di Editor con competenze statistiche • Il singolo deve acquisire (riacquisire) competenze statistiche di base Statistica descrittiva descrivere i dati numericamente Tendenza centrale Quartili Variabilità Media aritmetica Range Mediana Range Interquartile Moda Varianza Media geometrica Media armonica ... Deviazone Standard Forma Simmetria Coefficiente di Variazione Dati categorici e numerici Dati Categorici Dati Numerici Tabelle Tabelle Grafici Grafici a torta a barre Pareto … Istogrammi Poligoni di frequenza ogive Kernel density plot Boxplot Scatter plot … Dati categorici e numerici - Grafici 20 600 18 480 16 14 400 Frequenza numero parti 500 300 200 100 12 10 8 6 66 54 Forcipe Cesareo 4 0 Normale 2 0 8 9 10 11 12 13 14 15 16 Cumulative Percent Frequency Emoglobina (g/dl) Normale (480) Cesareo (54) Forcipe (66) 100 80 60 40 20 50 500 482 100 100% 97 92 300 80% 76 100 34 90 100 110 4 3,75 60% 60 226 200 80 Parts Cost ($) 40% 150 3,5 GPA 354 70 4,25 87 400 60 3,25 3 75 68 45 20% 2,75 2,5 0 0% prezzo più consegna a possibilità di comodità e acquisto 24 spedizione ampia scelta basso domicilio confronto velocità ore su 24 gratuita 400 450 500 550 SAT Math 600 650 700 Media, Mediana e Moda Da CSE 3 – Fluency with Information Technology (Rick Ord) Da CSE 3 – Fluency with Information Technology (Rick Ord) Distribuzione normale 0.0214 0.00135 m-3ds 0.0214 0.1359 m-2ds 0.3413 m-1ds 0.3413 m 0.1359 m+1ds m±1ds = 68.2% m±2ds = 95.4% m±3ds = 99.7% m+2ds 0.00135 m+3ds Left-Skewed Symmetric Right-Skewed Mean < Median Mean = Median Median < Mean distribuzioni Histogram of b 80 100 120 140 a media±2DS=95,4% 2,3% nella coda di sx 2,3% nella coda di dx 40 30 10 0 0 60 20 Frequency 100 50 40 60 80 Frequency 150 Histogram of c 20 0 Frequency 120 Histogram of a 0 1 2 3 4 5 6 7 b media±2DS=96,2% 0% nella coda di sx 3,8% nella coda di dx 70 80 90 100 110 120 130 c media±2DS=100% 0% nella coda di sx 0% nella coda di dx Range interquartile e Boxplot Q1 Mediana (Q2) 25% 25% • Q3 * 25% Range Interquartile 25% Spesso si utilizza un boxplot modificato dove i baffi si estendono fino: – all’osservazione più piccola ma comunque entro 1.5 volte IQR da Q1 – all’osservazione più grande ma comunque entro 1.5 volte IQR da Q3 • Se sono presenti alcuni valori che oltrepassano questi limiti, essi sono indicati con un asterisco, ad indicare la presenza di dati estremi (outliers) 0 0e+00 1e+06 50000 2e+06 100000 3e+06 150000 4e+06 200000 Boxplot e quartili (nell’esempio precedente) Min 10000 Q1 10000 mediana 35000 media 150000 Q3 50000 max 4465000 Uso improprio dei grafici • • • • • Fattore di scala Assenza di scala Manipolazione assi Effetto 3D vari Uso improprio dei grafici Fatturato di 5 Società 1,3 Fattore di scala asse y! 1,25 1,2 1,15 1,1 Soc. 1 Soc. 2 Soc. 3 Soc. 4 Soc. 5 Fatturato di 5 Società 1,4 entrate (milioni di €) entrate (milioni di €) 1,35 1,2 1 0,8 0,6 0,4 0,2 0 Soc. 1 Soc. 2 Soc. 3 Soc. 4 Soc. 5 Uso improprio dei grafici • Assenza di scala Uso improprio dei grafici • cambiamenti di asse Uso improprio dei grafici • cambiamenti di asse (log) 600 500 300 1000 200 100 0 A B C E D F G u.a. (log) u.a. 400 100 10 1 A B C E D F G Omissione di dati Scatter plot with missing categories Regular scatter plot Uso improprio dei grafici • Effetto 3D Uso improprio dei grafici • Effetto 3D Uso improprio dei grafici Un errore per studenti… Martin Bland. Medical Statistics dynamite plunger plot • It is a mistake to use a bar chart to display a summary statistic such as a mean, particularly when it is accompanied by some measure of variation to produce a "dynamite plunger plot". It is better to use a box-whisker plot. dynamite plunger plot How spread are the data? Are there outliers? What are the sample sizes? What might we conclude from this dynamite plot? Groups A & B are identical. Groups C & D are identical. Groups A & B are more spread than C & D. Correlazione e regressione • Un grafico a punti (scatter plot) può essere utilizzato per valutare la relazione tra due variabili • L’analisi di correlazione è utilizzata per misurare la forza dell’associazione (relazione lineare) tra due variabili • L’analisi di regressione è utilizzata per predire il valore di una variabile dipendente dal valore di una variabile indipendente – Variabile indipendente (X): la variabile usata per predire o spiegare la variabile dipendente – Variabile dipendente (Y): la variabile che si vuole predire o spiegare – La relazione tra X e Y è descritta da una relazione lineare – Le variazioni della Y sono causate da variazioni della X Covarianza e Correlazione • La covarianza misura la forza dell’associazione (relazione lineare) tra due variabili – NOTA: non si assume nessun nesso causa-effetto! • • • cov(X,Y) > 0 cov(X,Y) < 0 cov(X,Y) = 0 X e Y tendono a muoversi nella stessa direzione X e Y si muovono in direzioni opposte X e Y sono indipendenti n cov ( X , Y ) ( X X)( Y Y) i1 i i n 1 Covarianza e Correlazione • Il coefficiente di correlazione misura la forza relativa della relazione lineare tra due variabili – adimensionale – varia tra –1 and 1 – Più r è vicino a -1, maggiore è l’associazione tra le due variabili (relazione lineare negativa: all’aumentare di una variabile, l’altra diminuisce) – Più r è vicino a 1, maggiore è l’associazione tra le due variabili (relazione lineare positiva: all’aumentare di una variabile, l’altra aumenta) – Più r è prossimo a 0, più debole è l’associazione cov (X , Y) r SX SY n cov (X , Y) (X X)(Y Y) i1 i n i n 1 SX (X X) i1 i n 1 n 2 SY (Y Y ) i1 i n 1 2 Correlazione Y Y Y X X r = -1 r = -.6 Y r=0 Y Y r = +1 X X X r = +.3 X r=0 Modello di Regressione lineare Population Y intercept Dependent Variable Population Slope Coefficient Independent Variable Random Error term Yi β0 β1Xi ε i Linear component Random Error component Modello di Regressione lineare Y Yi β0 β1Xi ε i Observed Value of Y for Xi εi Predicted Value of Y for Xi Slope = β1 Random Error for this Xi value Intercept = β0 Xi X Regressione lineare - stima Estimated (or predicted) Y value for observation i Estimate of the regression intercept Estimate of the regression slope Ŷi b0 b1Xi Value of X for observation i min (Yi Ŷi ) min (Yi (b0 b1Xi )) 2 • 2 b0 and b1 are obtained by finding the values of b0 and b1 that minimize the sum of the squared differences between Y and Ŷ Regressione – metodo minimi quadrati Y Y Data Three errors from the least squares regression line X X e Y Errors from the least squares regression line are minimized Three errors from a fitted line X X Regressione lineare Ŷi b0 b1Xi • b0 is the estimated average value of Y when the value of X is zero • b1 is the estimated change in the average value of Y as a result of a one-unit change in X Inferenza sul coefficiente angolare • t test for a population slope – Is there a linear relationship between X and Y? • Null and alternative hypotheses – – H0: β1 = 0 H1: β1 ≠ 0 (no linear relationship) (linear relationship does exist) Correlazione e regressione • Total variation is made up of two parts: SST Total Sum of Squares SSR Regression Sum of Squares SST ( Yi Y)2 SSR ( Ŷi Y)2 SSE Error Sum of Squares SSE ( Yi Ŷi )2 where: Y = Average value of the dependent variable Yi = Observed values of the dependent variable Ŷi = Predicted value of Y for the given Xi value Y Yi _ Measures the variation of the Yi values around their mean Y _ Y _ Y SSE = (Yi - Yi )2 SST = (Yi - Y)2 _ SSR = (Yi - Y)2 Variation attributable to factors other than the relationship between X and Y Y _ Y Explained variation attributable to the relationship between X and Y X Coefficiente di determinazione - r2 • The coefficient of determination is the portion of the total variation in the dependent variable that is explained by variation in the independent variable • The coefficient of determination is also called rsquared and is denoted as r2 SSR regressionsum of squares r SST total sum of squares 2 con 0 r 1 2 Assunzioni della regressione • Use the acronym LINE: • Linearity – The underlying relationship between X and Y is linear • Independence of Errors – Error values are statistically independent • Normality of Error – Error values (ε) are normally distributed for any given value of X • Equal Variance (Homoscedasticity) – The probability distribution of the errors has constant variance Analisi dei residui ei Yi Ŷi • • • The residual for observation i, ei, is the difference between its observed and predicted value Check the assumptions of regression by examining the residuals – Examine for linearity assumption – Evaluate independence assumption – Evaluate normal distribution assumption – Examine for constant variance for all levels of X (homoscedasticity) Graphical Analysis of Residuals – Can plot residuals vs. X Linearità Y Y x x Not Linear residuals residuals x x Linear Indipendenza Not Independent X residuals residuals X residuals Independent X Normalità A normal probability plot of the residuals can be used to check for normality: Omeschedasticità Y Y x x Non-constant variance residuals residuals x x Constant variance Uso improprio della correlazione errori & cautele • Correlazione tra variabili dove una delle due è una parte e l’altra il totale (altezza all’età di 10 anni VS altezza in età adulta) • Correlazione tra due variabili dove una è la misurazione iniziale mentre l’altra il cambiamento della variabile nel tempo (peso prima della dieta VS calo) • Correlazione tra A e B non significa che A causa B. Pensare ad altre variabili associate • La correlazione è sensibile agli outliers • Possibili coefficienti di correlazione falsamente elevati per la presenza di cluster di punti (sottogruppi) • La presenza di un’associazione NON lineare può essere sottostimata o perfino non evidenziata dall’analisi di correlazione • Cautela nell’interpretare un coefficiente di correlazione quando in un lavoro ne sono calcolati molti • Piccoli coefficienti di correlazione possono risultare significativi con campioni molto numerosi • La correlazione misura un’associazione non un accordo (errato utilizzo nel confronto tra metodi analitici) Uso proprio e improprio della correlazione Uso improprio della correlazione: effetto della numerosità del campione Uso improprio della correlazione • Scenario: – Un prodotto dimagrante viene testato su 50 soggetti – Ipotesi: il prodotto fa dimagrire in misura tanto maggiore quanto maggiore è il peso iniziale – Metodo: si misura il peso iniziale (Pi), il peso finale (Pf) e il calo (calo=Pi-Pf) e si esegue un’analisi di correlazione tra Pi e il calo 80 60 Correlazione ottenuta generando pesi iniziale e finali CASUALI compresi tra 80 e 150 kg! r=0,79 calo (kg) 40 20 0 -20 0 50 100 -40 -60 -80 Peso iniziale (kg) 150 200 Uso improprio della regressione • Predizione fuori dall’intervallo • Violazione delle assunzioni • Effetto degli outliers Relazione lineare tra X e Y 2500 y = 1,9954x + 0,0611 R2 = 1 2000 1500 1000 500 0 0 200 400 1 2 600 800 1000 1200 4 5 6 10 9 8 7 6 5 4 3 2 1 0 0 3 Metodi di regressione: alternative • Lineare – errore solo (o maggiore) nelle y – Sd costante nel range delle x • Lineare pesata – errore solo (o maggiore) nelle y – Sd non costante nel range delle x • Deming – errore in entrambi gli assi – Rapporto tra le ds è noto • Passing-Bablok Regressione pesata Regressione di Deming La regressione di Deming è fondata sul principio che quando si confrontano i risultati delle determinazioni quantitative di due metodi differenti, gli errori di misura sono uguali, sia per la variabile indicata con X , sia per quella con Y, e non limitati alla sola variabile Y. A differenza della retta della regressione lineare (OLR) che rende minima la somma dei quadrati delle distanze verticali, la retta di Deming è quella che rende minima la somma dei quadrati delle distanze perpendicolari tra i punti e la retta L’analisi della regressione di Deming è appropriata quando l’errore analitico è costante (DS è indipendente dalle dimensioni delle misure). Regressione di Passing-Bablok • Passing & Bablok (1983) have described a linear regression procedure with no special assumptions regarding the distribution of the samples and the measurement errors. • The result does not depend on the assignment of the methods (or instruments) to X and Y. • Since it is a non-parametric procedure, PassingBablok regression is not influenced by the presence of one or relative few outliers Grazie per l’attenzione Uso proprio e improprio delle tecniche statistiche di base Dr Matteo Vidali ([email protected]) Coordinatore GdS SIBioC “Statistica per il Laboratorio” Laboratorio Ricerche Chimico-Cliniche Azienda Ospedaliero-Universitaria “Maggiore della Carità” Roma, 6 nov 2012