...

Matteo Vidali

by user

on
Category: Documents
15

views

Report

Comments

Transcript

Matteo Vidali
Uso proprio e improprio delle
tecniche statistiche di base
Dr Matteo Vidali ([email protected])
Coordinatore GdS SIBioC “Statistica per il Laboratorio”
Laboratorio Ricerche Chimico-Cliniche
Azienda Ospedaliero-Universitaria “Maggiore della Carità”
Roma, 6 nov 2012
Titoli alternativi per la colazione…
• Come posso fregarmi con le mie stesse
mani?
• Come posso farmi fregare?
• Come possono fregarmi?
• Come posso fregare?
Agenda
• Introduzione
• Uso proprio e improprio della statistica
descrittiva
• Uso proprio e improprio dei grafici
• Uso proprio e improprio di correlazione e
regressione
Publication bias
pubblicazione
NO pubblicazione
statisticamente significativo E metodologicamente corretto
statisticamente significativo MA metodologicamente NON corretto
statisticamente NON significativo E metodologicamente corretto
statisticamente NON significativo MA metodologicamente NON corretto
Ruolo della Statistica in uno studio
(dove si possono commettere errori)
•
•
•
•
•
Disegno dello studio
Raccolta dei dati
Analisi dei dati
Presentazione dei dati
Interpretazione dei risultati
Ruolo della Statistica in uno studio
(dove si possono commettere errori)
Disegno dello studio: errori comuni
Strasak et al. 2007
Ruolo della Statistica in uno studio
(dove si possono commettere errori)
Analisi dei dati: errori comuni
Strasak et al. 2007
Ruolo della Statistica in uno studio
(dove si possono commettere errori)
Materiali e Metodi: errori comuni
Strasak et al. 2007
Ruolo della Statistica in uno studio
(dove si possono commettere errori)
Presentazione dei dati: errori comuni
Strasak et al. 2007
Ruolo della Statistica in uno studio
(dove si possono commettere errori)
Interpretazione dei dati: errori comuni
Strasak et al. 2007
Una questione di interpretazione?
Primo Ospedale
Deceduti
Sopravvissuti
totale
A
160
40
200
B
170
30
200
330
70
400
Trattamento
totale
A: 40/200=20%
B: 30/200=15%
A>B
Secondo Ospedale
Deceduti
Sopravvissuti
totale
A
15
85
100
B
100
300
400
115
385
500
Trattamento
totale
A: 85/100=85%
B: 300/400=75%
A>B
Primo + Secondo Ospedale
Deceduti
Sopravvissuti
totale
A
175
125
300
B
270
330
600
445
455
900
Trattamento
totale
A: 125/300=42%
B: 330/600=55%
B>A
Iacus, masarotto
Una questione di interpretazione?
Maschi
Domande
Ammessi
% Ammessi
Economia (900)
950
814
86%
Lettere (100)
50
5
10%
1000
819
81.9%
Domande
Ammessi
% Ammessi
Economia (900)
100
86
86%
Lettere (100)
900
95
11%
1000
181
18.1%
Facoltà (posti)
Femmine
Facoltà (posti)
Iacus, masarotto
• “There are three kinds of lies: Lies, damned lies,
and statistics”
• “Statistics is a systematic method for getting the
wrong conclusion with 95% confidence.”
• “Statistics are like a bikini. What they reveal is
suggestive, but what they conceal is vital.”
Cosa fare?
• Introduzione di regole più severe per gli
autori
• Introduzione di “lineeguida” per i revisori
• Utilizzo di Editor con competenze
statistiche
• Il singolo deve acquisire (riacquisire)
competenze statistiche di base
Statistica descrittiva
descrivere i dati numericamente
Tendenza centrale
Quartili
Variabilità
Media aritmetica
Range
Mediana
Range Interquartile
Moda
Varianza
Media geometrica
Media armonica
...
Deviazone Standard
Forma
Simmetria
Coefficiente di Variazione
Dati categorici e numerici
Dati Categorici
Dati Numerici
Tabelle
Tabelle
Grafici
Grafici
a torta
a barre
Pareto
…
Istogrammi
Poligoni di frequenza
ogive
Kernel density plot
Boxplot
Scatter plot
…
Dati categorici e numerici - Grafici
20
600
18
480
16
14
400
Frequenza
numero parti
500
300
200
100
12
10
8
6
66
54
Forcipe
Cesareo
4
0
Normale
2
0
8
9
10
11
12
13
14
15
16
Cumulative Percent Frequency
Emoglobina (g/dl)
Normale (480)
Cesareo (54)
Forcipe (66)
100
80
60
40
20
50
500
482
100 100%
97
92
300
80%
76
100
34
90
100
110
4
3,75
60%
60
226
200
80
Parts Cost ($)
40%
150
3,5
GPA
354
70
4,25
87
400
60
3,25
3
75
68
45
20%
2,75
2,5
0
0%
prezzo più consegna a possibilità di comodità e acquisto 24 spedizione ampia scelta
basso
domicilio
confronto
velocità
ore su 24
gratuita
400
450
500
550
SAT Math
600
650
700
Media, Mediana e Moda
Da CSE 3 – Fluency with Information Technology (Rick Ord)
Da CSE 3 – Fluency with Information Technology (Rick Ord)
Distribuzione normale
0.0214
0.00135
m-3ds
0.0214
0.1359
m-2ds
0.3413
m-1ds
0.3413
m
0.1359
m+1ds
m±1ds = 68.2%
m±2ds = 95.4%
m±3ds = 99.7%
m+2ds
0.00135
m+3ds
Left-Skewed
Symmetric
Right-Skewed
Mean < Median
Mean = Median
Median < Mean
distribuzioni
Histogram of b
80
100
120
140
a
media±2DS=95,4%
2,3% nella coda di sx
2,3% nella coda di dx
40
30
10
0
0
60
20
Frequency
100
50
40
60
80
Frequency
150
Histogram of c
20
0
Frequency
120
Histogram of a
0
1
2
3
4
5
6
7
b
media±2DS=96,2%
0% nella coda di sx
3,8% nella coda di dx
70
80
90
100
110
120
130
c
media±2DS=100%
0% nella coda di sx
0% nella coda di dx
Range interquartile e Boxplot
Q1
Mediana
(Q2)
25%
25%
•
Q3
*
25%
Range Interquartile
25%
Spesso si utilizza un boxplot modificato dove i baffi si estendono
fino:
– all’osservazione più piccola ma comunque entro 1.5 volte IQR da Q1
– all’osservazione più grande ma comunque entro 1.5 volte IQR da Q3
•
Se sono presenti alcuni valori che oltrepassano questi limiti, essi
sono indicati con un asterisco, ad indicare la presenza di dati
estremi (outliers)
0
0e+00
1e+06
50000
2e+06
100000
3e+06
150000
4e+06
200000
Boxplot e quartili
(nell’esempio precedente)
Min
10000
Q1
10000
mediana
35000
media
150000
Q3
50000
max
4465000
Uso improprio dei grafici
•
•
•
•
•
Fattore di scala
Assenza di scala
Manipolazione assi
Effetto 3D
vari
Uso improprio dei grafici
Fatturato di 5 Società
1,3
Fattore di scala asse y!
1,25
1,2
1,15
1,1
Soc. 1
Soc. 2
Soc. 3
Soc. 4
Soc. 5
Fatturato di 5 Società
1,4
entrate (milioni di €)
entrate (milioni di €)
1,35
1,2
1
0,8
0,6
0,4
0,2
0
Soc. 1
Soc. 2
Soc. 3
Soc. 4
Soc. 5
Uso improprio dei grafici
• Assenza di scala
Uso improprio dei grafici
• cambiamenti di asse
Uso improprio dei grafici
• cambiamenti di asse (log)
600
500
300
1000
200
100
0
A
B
C
E
D
F
G
u.a. (log)
u.a.
400
100
10
1
A
B
C
E
D
F
G
Omissione di dati
Scatter plot with missing categories
Regular scatter plot
Uso improprio dei grafici
• Effetto 3D
Uso improprio dei grafici
• Effetto 3D
Uso improprio dei grafici
Un errore per studenti…
Martin Bland. Medical Statistics
dynamite plunger plot
• It is a mistake to use a bar chart to display a
summary statistic such as a mean, particularly
when it is accompanied by some measure of
variation to produce a "dynamite plunger plot". It
is better to use a box-whisker plot.
dynamite plunger plot
How spread are the data? Are there outliers? What are the sample sizes?
What might we conclude from this dynamite plot?
Groups A & B are identical.
Groups C & D are identical.
Groups A & B are more spread than C & D.
Correlazione e regressione
• Un grafico a punti (scatter plot) può essere utilizzato per
valutare la relazione tra due variabili
• L’analisi di correlazione è utilizzata per misurare la forza
dell’associazione (relazione lineare) tra due variabili
• L’analisi di regressione è utilizzata per predire il valore di
una variabile dipendente dal valore di una variabile
indipendente
– Variabile indipendente (X): la variabile usata per predire o
spiegare la variabile dipendente
– Variabile dipendente (Y): la variabile che si vuole predire o
spiegare
– La relazione tra X e Y è descritta da una relazione lineare
– Le variazioni della Y sono causate da variazioni della X
Covarianza e Correlazione
•
La covarianza misura la forza dell’associazione (relazione lineare) tra
due variabili
– NOTA: non si assume nessun nesso causa-effetto!
•
•
•
cov(X,Y) > 0
cov(X,Y) < 0
cov(X,Y) = 0
X e Y tendono a muoversi nella stessa direzione
X e Y si muovono in direzioni opposte
X e Y sono indipendenti
n
cov ( X , Y ) 
 ( X  X)( Y  Y)
i1
i
i
n 1
Covarianza e Correlazione
•
Il coefficiente di correlazione misura la forza relativa della relazione lineare tra
due variabili
– adimensionale
– varia tra –1 and 1
– Più r è vicino a -1, maggiore è l’associazione tra le due variabili (relazione lineare
negativa: all’aumentare di una variabile, l’altra diminuisce)
– Più r è vicino a 1, maggiore è l’associazione tra le due variabili (relazione lineare
positiva: all’aumentare di una variabile, l’altra aumenta)
– Più r è prossimo a 0, più debole è l’associazione
cov (X , Y)
r
SX SY
n
cov (X , Y) 
 (X  X)(Y  Y)
i1
i
n
i
n 1
SX 
 (X  X)
i1
i
n 1
n
2
SY 
 (Y  Y )
i1
i
n 1
2
Correlazione
Y
Y
Y
X
X
r = -1
r = -.6
Y
r=0
Y
Y
r = +1
X
X
X
r = +.3
X
r=0
Modello di Regressione lineare
Population
Y intercept
Dependent
Variable
Population
Slope
Coefficient
Independent
Variable
Random
Error
term
Yi  β0  β1Xi  ε i
Linear component
Random Error
component
Modello di Regressione lineare
Y
Yi  β0  β1Xi  ε i
Observed Value
of Y for Xi
εi
Predicted Value
of Y for Xi
Slope = β1
Random Error
for this Xi value
Intercept = β0
Xi
X
Regressione lineare - stima
Estimated (or
predicted) Y
value for
observation i
Estimate of the
regression
intercept
Estimate of the
regression slope
Ŷi  b0  b1Xi
Value of X for
observation i
min (Yi Ŷi )  min (Yi  (b0  b1Xi ))
2
•
2
b0 and b1 are obtained by finding the values of b0 and b1 that
minimize the sum of the squared differences between Y and Ŷ
Regressione – metodo minimi quadrati
Y
Y
Data
Three errors from the
least squares regression
line
X
X
e
Y
Errors from the least
squares regression
line are minimized
Three errors
from a fitted line
X
X
Regressione lineare
Ŷi  b0  b1Xi
• b0 is the estimated average value of Y when the
value of X is zero
• b1 is the estimated change in the average value of
Y as a result of a one-unit change in X
Inferenza sul coefficiente angolare
•
t test for a population slope
– Is there a linear relationship between X and Y?
•
Null and alternative hypotheses
–
–
H0: β1 = 0
H1: β1 ≠ 0
(no linear relationship)
(linear relationship does exist)
Correlazione e regressione
• Total variation is made up of two parts:
SST 
Total Sum
of Squares
SSR 
Regression Sum
of Squares
SST   ( Yi  Y)2
SSR   ( Ŷi  Y)2
SSE
Error Sum of
Squares
SSE   ( Yi  Ŷi )2
where:
Y
= Average value of the dependent variable
Yi = Observed values of the dependent variable
Ŷi = Predicted value of Y for the given Xi value
Y
Yi
_
Measures the variation of the Yi values around their mean Y
_

Y
_

Y

SSE = (Yi - Yi )2
SST = (Yi - Y)2
 _
SSR = (Yi - Y)2
Variation attributable to
factors other than the
relationship between X
and Y
Y
_
Y
Explained variation attributable
to the relationship between X
and Y
X
Coefficiente di determinazione - r2
• The coefficient of determination is the portion of the
total variation in the dependent variable that is
explained by variation in the independent variable
• The coefficient of determination is also called rsquared and is denoted as r2
SSR regressionsum of squares
r 

SST
total sum of squares
2
con
0  r 1
2
Assunzioni della regressione
• Use the acronym LINE:
• Linearity
– The underlying relationship between X and Y is
linear
• Independence of Errors
– Error values are statistically independent
• Normality of Error
– Error values (ε) are normally distributed for any given
value of X
• Equal Variance (Homoscedasticity)
– The probability distribution of the errors has constant
variance
Analisi dei residui
ei  Yi  Ŷi
•
•
•
The residual for observation i, ei, is the difference between its
observed and predicted value
Check the assumptions of regression by examining the residuals
– Examine for linearity assumption
– Evaluate independence assumption
– Evaluate normal distribution assumption
– Examine for constant variance for all levels of X
(homoscedasticity)
Graphical Analysis of Residuals
– Can plot residuals vs. X
Linearità
Y
Y
x
x
Not Linear
residuals
residuals
x
x

Linear
Indipendenza
Not Independent
X
residuals
residuals
X
residuals

Independent
X
Normalità
 A normal probability plot of the residuals can
be used to check for normality:
Omeschedasticità
Y
Y
x
x
Non-constant variance
residuals
residuals
x
x

Constant variance
Uso improprio della correlazione
errori & cautele
•
Correlazione tra variabili dove una delle due è una parte e l’altra il totale (altezza all’età di 10 anni
VS altezza in età adulta)
•
Correlazione tra due variabili dove una è la misurazione iniziale mentre l’altra il cambiamento
della variabile nel tempo (peso prima della dieta VS calo)
•
Correlazione tra A e B non significa che A causa B. Pensare ad altre variabili associate
•
La correlazione è sensibile agli outliers
•
Possibili coefficienti di correlazione falsamente elevati per la presenza di cluster di punti
(sottogruppi)
•
La presenza di un’associazione NON lineare può essere sottostimata o perfino non evidenziata
dall’analisi di correlazione
•
Cautela nell’interpretare un coefficiente di correlazione quando in un lavoro ne sono calcolati molti
•
Piccoli coefficienti di correlazione possono risultare significativi con campioni molto numerosi
•
La correlazione misura un’associazione non un accordo (errato utilizzo nel confronto tra metodi
analitici)
Uso proprio e improprio della correlazione
Uso improprio della correlazione: effetto
della numerosità del campione
Uso improprio della correlazione
• Scenario:
– Un prodotto dimagrante viene testato su 50 soggetti
– Ipotesi: il prodotto fa dimagrire in misura tanto maggiore quanto
maggiore è il peso iniziale
– Metodo: si misura il peso iniziale (Pi), il peso finale (Pf) e il calo
(calo=Pi-Pf) e si esegue un’analisi di correlazione tra Pi e il calo
80
60
Correlazione ottenuta generando
pesi iniziale e finali CASUALI
compresi tra 80 e 150 kg!
r=0,79
calo (kg)
40
20
0
-20 0
50
100
-40
-60
-80
Peso iniziale (kg)
150
200
Uso improprio della regressione
• Predizione fuori dall’intervallo
• Violazione delle assunzioni
• Effetto degli outliers
Relazione lineare tra X e Y
2500
y = 1,9954x + 0,0611
R2 = 1
2000
1500
1000
500
0
0
200
400
1
2
600
800
1000
1200
4
5
6
10
9
8
7
6
5
4
3
2
1
0
0
3
Metodi di regressione: alternative
• Lineare
– errore solo (o maggiore) nelle y
– Sd costante nel range delle x
• Lineare pesata
– errore solo (o maggiore) nelle y
– Sd non costante nel range delle x
• Deming
– errore in entrambi gli assi
– Rapporto tra le ds è noto
• Passing-Bablok
Regressione pesata
Regressione di Deming
La regressione di Deming è fondata sul principio che quando si confrontano i risultati delle determinazioni
quantitative di due metodi differenti, gli errori di misura sono uguali, sia per la variabile indicata con X , sia
per quella con Y, e non limitati alla sola variabile Y.
A differenza della retta della regressione lineare (OLR) che rende minima la somma dei quadrati delle
distanze verticali, la retta di Deming è quella che rende minima la somma dei quadrati delle distanze
perpendicolari tra i punti e la retta
L’analisi della regressione di Deming è appropriata quando l’errore analitico è costante (DS è indipendente
dalle dimensioni delle misure).
Regressione di Passing-Bablok
• Passing & Bablok (1983) have described a
linear regression procedure with no special
assumptions regarding the distribution of the
samples and the measurement errors.
• The result does not depend on the assignment
of the methods (or instruments) to X and Y.
• Since it is a non-parametric procedure, PassingBablok regression is not influenced by the
presence of one or relative few outliers
Grazie per l’attenzione
Uso proprio e improprio delle
tecniche statistiche di base
Dr Matteo Vidali ([email protected])
Coordinatore GdS SIBioC “Statistica per il Laboratorio”
Laboratorio Ricerche Chimico-Cliniche
Azienda Ospedaliero-Universitaria “Maggiore della Carità”
Roma, 6 nov 2012
Fly UP