3 • Diagnosi e screening

by user

on 06 июля 2016

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download 3 • Diagnosi e screening

Transcript

3 • Diagnosi e screening

3•
DIAGNOSI E SCREENING
La categoria “terapia” comprende più pubblicazioni di qualsiasi altra categoria di ricerca in campo sanitario. La seconda categoria più frequentemente
oggetto di ricerche è quella della diagnosi. I medici sono sempre alla ricerca
di modi migliori per determinare se una patologia o una certa condizione siano presenti in pazienti sintomatici (diagnosi) o asintomatici (screening). I clinici ed i ricercatori definiscono migliori quei test diagnostici o di screening
che forniscono un risultato più accurato in modo più veloce e ad un costo minore in termini di sicurezza, comodità e spesa.
ESEMPIO CLINICO: DIAGNOSI RAPIDA ED ACCURATA
DELL’INFEZIONE DA VIRUS DELL’IMMUNODEFICIENZA
UMANA (HIV)
Come abbiamo già fatto nel capitolo precedente, cominceremo con l’esempio di un problema e delle ricerche necessarie per risolverlo. Il problema era
rappresentato dal fatto che il test per HIV/AIDS richiede da una a due settimane prima che sia possibile fornire un risultato al paziente. Il Montefiore Hospital del Bronx, a New York, ha una delle incidenze più elevate di infezione da
HIV del Nordamerica.1 Ha inoltre un’ampia popolazione di pazienti in transito.
Così, anche se i pazienti avessero acconsentito ad eseguire il test, sarebbero poi
ritornati dopo qualche settimana per avere il risultato? Lo staff dell’ospedale
aveva bisogno di un test per HIV più rapido del Western blot. Fu identificato un
test enzimatico ELISA che impiegava dieci minuti per fornire un risultato. Il
passo successivo era di confrontarlo con il test standard, il Western blot.
Ottocentotrentasette pazienti con stato sierologico per HIV non noto furono sottoposti al test. Per ogni paziente furono eseguiti sia l’ELISA che il Western blot. I tecnici o i clinici che interpretavano il risultato del test ELISA
80
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
non erano a conoscenza del risultato del test Western blot, e i laboratoristi che
eseguivano il Western blot non conoscevano il risultato del test ELISA. I due
gruppi di risultati vennero confrontati per verificare la concordanza: risultati
entrambi positivi o entrambi negativi. Quarantacinque pazienti (5%) avevano l’infezione da HIV e solo nove coppie di campioni mostravano risultati
differenti coi due test (coppie positivo/negativo o negativo/positivo). Data
l’elevata concordanza tra i due test e la rapidità nell’ottenere i risultati con i
kit ELISA, il test ELISA è ora il test di scelta per l’infezione da HIV presso
il Montefiore Hospital.
COME VIENE ESEGUITO UNO STUDIO DI DIAGNOSI
La procedura migliore per valutare un nuovo test diagnostico o di screening
è quella di riunire un gruppo di persone e di somministrare loro i test che sono
oggetto della valutazione. Questo gruppo dovrebbe includere persone con diversa gravità di malattia (cioè, alcune senza malattia, alcune con malattia moderata ed altre con malattia grave). Ogni soggetto deve essere sottoposto sia alla procedura correntemente in uso che costituisce il gold standard (spesso definita come standard diagnostico o criterio standard) che al nuovo test, che
si spera sia migliore. Spesso il test standard è invasivo (per esempio, un intervento chirurgico o un’autopsia per identificare la presenza di un cancro dello
stomaco), costoso (per esempio, una notte in un centro per la cura del sonno
per valutare la presenza di apnea durante il sonno), o richiede tempi troppo
lunghi (per esempio, una settimana per coltivare il liquido di lavaggio bronchiale per determinare se un paziente in terapia intensiva ha la tubercolosi).
L’interpretazione, o la lettura, del test standard dovrebbe essere fatta senza conoscere i risultati del nuovo test e viceversa.
I test diagnostici vengono utilizzati per soggetti con segni e sintomi che
suggeriscono al clinico la presenza di una malattia specifica o di diverse malattie possibili (per esempio, la tosse può essere suggestiva di raffreddore, cancro polmonare, pertosse o di un effetto indesiderato di alcuni farmaci antipertensivi). I test di screening vengono eseguiti su soggetti che non hanno segni
o sintomi della malattia in esame (per esempio, la mammografia per identificare il cancro della mammella in tutte le donne di età superiore ai 50 anni). Sia
i test diagnostici che i test di screening vengono valutati con la stessa metodologia e i risultati vengono presentati utilizzando la stessa terminologia e le
stesse statistiche. I “buoni” test sono quelli che danno un risultato positivo
quando la malattia o condizione è presente e danno un risultato negativo quando la malattia o condizione è assente. Le misure del “positivo quando deve essere positivo” e “negativo quando deve essere negativo” vengono definite caratteristiche del test e sono descritte di seguito. In breve, queste sono: sensi-
81
Diagnosi e screening
bilità e specificità; valore predittivo positivo e negativo; rapporto di verosimiglianza positivo e negativo; proporzione di falsi positivi e di falsi negativi.
TABELLA 2 X 2
Spesso, i dati della valutazione di un test diagnostico o di screening vengono presentati in una tabella 2 x 2. La “verità”, o risultato del test standard, si trova in cima alla tabella ed i risultati del nuovo test si trovano sul
lato sinistro. Dal punto di vista rappresentativo ha la seguente struttura, con i
riquadri, o celle dei dati, etichettati a, b, c e d. Ad esempio, nella tabella 2 x
2 sottostante, il numero di soggetti riportati nel riquadro o cella a corrisponde al numero di soggetti che hanno un risultato positivo utilizzando il test
diagnostico standard e un risultato positivo utilizzando il nuovo test oggetto
della valutazione. La cella a viene anche chiamata numero dei veri positivi.
La cella d è il numero dei veri negativi, la cella b è il numero dei falsi positivi e la cella c è il numero dei falsi negativi. I dati nelle celle da a a d vengono impiegati per calcolare le caratteristiche del test.
Malattia/condizione (standard diagnostico)
Positivo
Negativo
+
–
Risultati positivi +
al nuovo test
a
b
a+b
Risultati negativi –
al nuovo test
c
d
c+d
b+d
a+b+c+d
a+c
Sensibilità = a/(a + c)
Specificità = d/(b + d)
Rapporto di verosimiglianza positivo = sensibilità/(100 - specificità)
Rapporto di verosimiglianza negativo = (100 - sensibilità)/ specificità
Valore predittivo positivo = a/(a + b)
Valore predittivo negativo = d/(c + d)
Proporzione di falsi positivi = 100 - specificità o b/(b + d)
Proporzione di falsi negativi = 100 - sensibilità o c/(a + c)
82
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
DEFINIZIONI
La verifica delle procedure diagnostiche inizialmente appare sufficientemente chiara. È comunque la metodologia della ricerca clinica che si avvale
maggiormente del gergo. I ricercatori confrontano i risultati del vecchio test
o standard diagnostico (positivi e negativi) con i risultati del nuovo test (positivi e negativi). Vogliono infatti assicurarsi che i risultati del nuovo test siano corretti il più spesso possibile: positivi quando devono essere positivi e
negativi quando devono essere negativi.
Sensibilità e specificità
Le due misure di questa correttezza più frequentemente utilizzate sono la
sensibilità e la specificità del test. La sensibilità misura la proporzione di pazienti affetti dalla patologia o condizione in esame che hanno un risultato positivo. Il test standard di gravidanza basato sull’analisi biochimica dei livelli ormonali ha un’alta sensibilità (tabella 3.1). Esso identifica correttamente un’ampia proporzione delle pazienti che sono in gravidanza. Utilizzando i dati della
tabella, il nuovo test ha una sensibilità del 92% (calcolata impiegando la formula a/(a + c) o 23/25).
La specificità del test misura la proporzione di pazienti non affetti dalla
patologia o condizione in esame che hanno un risultato negativo al test. Il test biochimico standard di gravidanza ha una specificità molto elevata. Esso
esclude la gravidanza se la donna non è incinta - in altre parole, il risultato del
test non sarebbe positivo se la donna non fosse incinta. La specificità del test di gravidanza è del 100% (calcolata impiegando la formula d/(b + d) o
75/75).
TABELLA 3.1 - ESEMPIO DI UTILIZZO DEI DATI NEL CONFRONTO DEI TEST
DI GRAVIDANZA DI 100 DONNE
GRAVIDANZA (TEST RIPETUTO NEL TEMPO)
POSITIVO
+
NEGATIVO
–
Risultati positivi +
al nuovo test
23
a
b
0
a+b
23
Risultati negativi –
al nuovo test
2
c
d
75
c+d
77
a+c
b+d
75
a + b + c + d 100
25
Diagnosi e screening
83
Sia la sensibilità che la specificità devono essere elevate perché un test diagnostico sia di vera utilità in ambito clinico. Nella pratica, entrambe dovrebbero superare l’80% perché il test sia clinicamente utile. Per i test di screening,
come il test dell’antigene prostatico specifico (PSA) per l’identificazione del
cancro della prostata in uomini asintomatici, la performance dovrebbe essere
prossima alla perfezione (100%) per evitare di diagnosticare erroneamente
soggetti non affetti dalla patologia in esame; i test diagnostici invece possono
funzionare bene con una sensibilità ed una specificità minori. Nessun test ha
una sensibilità ed una specificità del 100%. Spesso, se il livello di risultato del
test viene aggiustato per massimizzare la sensibilità, la specificità diminuisce,
mentre se il livello di risultato del test viene aggiustato per massimizzare la
specificità, diminuirà la sensibilità.
POTERE PREDITTIVO POSITIVO E POTERE PREDITTIVO
NEGATIVO
Altre misure del “valore” o della prestazione di un test diagnostico o di
screening sono il potere (o valore) predittivo positivo ed il potere predittivo negativo. Questi rappresentano la misura di quanto un risultato positivo o negativo al test ci dica circa la probabilità di essere affetti dalla malattia o condizione in esame nello specifico ambito in cui lo stesso test è stato valutato. Il
potere predittivo positivo è la proporzione di pazienti risultati positivi al test
che hanno la malattia o condizione in esame. Il potere predittivo negativo è
la proporzione di pazienti risultati negativi al test che non hanno la malattia o
condizione in esame. Il potere predittivo positivo del test di gravidanza nelle
100 donne del nostro campione è molto alto, pari al 100% – calcolato usando
la formula a/(a + b) o 23/23; se il test è risultato positivo, la donna è quasi certamente incinta. Il test ha un potere predittivo negativo minore, pari al 98% –
calcolato usando la formula d/(d + c) o 75/77. Un test negativo può essere negativo in quanto la donna veramente non è incinta, o semplicemente in quanto
il suo sistema riproduttivo non ha avuto abbastanza tempo per produrre livelli
di ormone sufficienti da dare un risultato positivo al test.
I valori predittivi vengono influenzati dalla prevalenza della condizione in
esame nella popolazione oggetto di studio. Per la valutazione di un test diagnostico, la prevalenza è la proporzione di pazienti affetti da una data condizione su
tutti i pazienti testati. La prevalenza viene anche talvolta definita probabilità
pre-test o verosimiglianza pre-test di una data malattia o condizione.
Un esempio riguardante l’embolia polmonare illustra l’effetto della prevalenza sui valori predittivi in due diverse popolazioni di pazienti con differenti
probabilità pre-test di embolia polmonare. Un gruppo include pazienti anzia-
84
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
ni che hanno sviluppato dolore toracico di tipo pleurico dopo una intervento
di protesi d’anca, e che non sono stati sottoposti a trattamento di profilassi con
anticoagulanti per prevenire la formazione di coaguli ematici. Questi coaguli
possono condurre ad embolia polmonare o a trombosi venosa profonda, che
possono essere fatali. Il secondo gruppo include uomini giovani che hanno
sviluppato dolore toracico dello stesso tipo mentre giocavano a baseball. Sebbene i test cui questi soggetti verranno sottoposti abbiano identici valori di
sensibilità e di specificità, il potere predittivo positivo e negativo saranno diversi, in quanto la probabilità pre-test (prevalenza) di embolia polmonare sarà
molto più elevata in pazienti anziani sottoposti ad intervento chirurgico che
non in uomini giovani dopo il baseball.
RAPPORTO DI VEROSIMIGLIANZA (LIKELIHOOD RATIO)
I rapporti di verosimiglianza (likelihood ratio, LR), sia di tipo positivo che
negativo (+LR e -LR), sono altre misure del valore o della prestazione di un
test. Indicano quanto la probabilità di malattia o condizione cambia rispetto al valore di base quando il risultato del test è positivo (+LR) o negativo
(-LR). I rapporti di verosimiglianza positivi vanno presi in considerazione
quando sono nel range di 2 o più, e sono utili dal punto di vista clinico quando sono maggiori di 5. Per i rapporti di verosimiglianza negativi, i valori da
tenere in considerazione sono quelli minori di 0.1. Una più completa spiegazione sull’utilità dei rapporti di verosimiglianza è illustrata in un editoriale di
Sackett e Straus.2
Un test con un +LR di 24 significa che un risultato positivo del test è 24
volte più probabile che provenga da un soggetto affetto dalla condizione in
esame piuttosto che da un soggetto non affetto. Nell’interpretare i risultati del
test per uno specifico paziente, il clinico deve tenere conto della verosimiglianza che il paziente inviatogli per essere sottoposto al test sia affetto da
quella condizione prima del test, e quindi applicare questa verosimiglianza
pre-test ai risultati finali del test ed alle tavole pubblicate dei rapporti di verosimiglianza per il test usando un nomogramma standard.
Il nuovo test di gravidanza che stiamo esaminando ha un +LR pari ad infinito – calcolato come sensibilità/(100 - specificità) o 98/(100 - 100): una donna che abbia un risultato positivo al test è infinitamente più verosimile che sia
incinta che se avesse un risultato negativo. Il -LR di 0.02 – calcolato come
(100 - sensibilità)/specificità o (100 - 98)/100) significa che una donna con un
test negativo ha una probabilità su 50 (o 2 su 100) di essere incinta (o 49 probabilità su 50 di non essere incinta), e questo -LR deve essere quindi fattorizzato contro la specifica probabilità pre-test della donna di essere in gravidanza.
Diagnosi e screening
85
PROPORZIONE DI FALSI POSITIVI E DI FALSI NEGATIVI
Altre due definizioni dei test impiegate meno spesso sono la proporzione
di falsi positivi e la proporzione di falsi negativi. Per il test di gravidanza la
proporzione di falsi positivi è dello 0% (calcolata come (100 - specificità
[100 - 100]). Questa è la proporzione di donne che hanno avuto un risultato
positivo al test quando non erano veramente incinte.
La proporzione di falsi negativi è la proporzione di donne che hanno avuto
un risultato negativo al test quando erano veramente incinte. Per il test di gravidanza la proporzione di falsi negativi è del 2% (calcolata come 100 - sensibilità
o 100 - 98 = 2).
Sia i risultati falsamente positivi che quelli falsamente negativi influenzano
la vita delle persone. In base ad un risultato falsamente positivo del test, la persona si convincerà erroneamente di essere affetta dalla malattia o condizione
in esame e verrà “etichettata”. I soggetti che pensano di essere malati possono
veramente cominciare a non sentirsi bene anche se sono in buona salute. Possono assentarsi dal lavoro o rifiutare una promozione e la loro qualità generale di vita può deteriorarsi. Questo si è verificato in soggetti che lavoravano in
un’acciaieria dopo che fu loro diagnosticata erroneamente una condizione di
ipertensione arteriosa.3 I risultati falsamente negativi influiscono in quanto il
soggetto può non richiedere un trattamento quando questo invece sarebbe opportuno. Per esempio, si perde tempo utile dal punto di vista terapeutico se ad
una donna affetta da cancro della mammella viene detto che non si tratta di un
tumore maligno quando invece è così.
Un altro modo di descrivere questo gruppo di valori è il numero di pazienti
falsi positivi e di pazienti falsi negativi nel gruppo. Il numero di falsi positivi è quello che appare nella cella b della tabella 2 x 2 e il numero di falsi negativi è quello che appare nella cella c; nel nostro esempio, questi sono 0 e 2,
rispettivamente.
CURVE OPERATIVE CARATTERISTICHE
(RECEIVER OPERATING CHARACTERISTIC CURVES)
Le curve operative caratteristiche (Receiver Operating Characteristic
Curves, ROC) sono rappresentazioni grafiche di confronti di un test diagnostico quando i risultati del test possono assumere diversi valori in un intervallo o range. Utilizzare i livelli di enzimi cardiaci per diagnosticare un infarto miocardico, o diversi valori di glicemia a digiuno per i pazienti con un
sospetto di diabete mellito, sono esempi della possibile utilità delle curve
ROC. Se il test ha più di un cut point (valore soglia di laboratorio) o ha un
86
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
range di due o più risposte al test (per esempio, negativo, debolmente positivo e fortemente positivo), si può creare una curva ROC ponendo sensibilità e
specificità su di un grafico. Ogni punto del grafico avrà quindi il suo valore
di sensibilità e specificità. Un “buon” test avrà un valore ROC (area sotto la
curva) maggiore dell’80%. Vengono spesso eseguiti calcoli per trovare quale
punto o posizione sotto la curva (valore di laboratorio) abbia la miglior combinazione di sensibilità e specificità.
Per i clinici che devono prendere decisioni utilizzando le caratteristiche
del test sopra riportate è essenziale ricordare ed utilizzare le nove definizioni
già citate. Per gli altri, soprattutto i bibliotecari che utilizzano i termini per
costruire delle strategie di ricerca, non è altrettanto essenziale imparare le definizioni precise dei termini. La maggior parte dei testi standard, inclusi quelli elencati in appendice, hanno le definizioni, se ne avete bisogno. Ricordate
che gli aspetti più importanti nel riportare i risultati dei test diagnostici sono
la sensibilità e la specificità del test, quindi vengono i rapporti di verosimiglianza dei risultati positivi e negativi, la proporzione di falsi positivi e di falsi negativi, e i valori predittivi. I valori predittivi, data la loro variabilità in
popolazioni diverse, sono attualmente meno frequentemente utilizzati di un
tempo. I rapporti di verosimiglianza sono divenuti più importanti e il loro valore aumenta nel tempo.
COMPRENDERE LE STATISTICHE DEI TEST DIAGNOSTICI
La maggior parte dei clinici non esegue generalmente i calcoli riguardanti i test diagnostici, ma molti troveranno più facile comprendere i concetti attraverso un esempio di calcolo. Procederemo utilizzando uno scenario clinico: una donna di 35 anni con possibile pancreatite acuta. Il sospetto diagnostico è elevato. I suoi sintomi includono dolore epigastrico, anoressia, vomito, nausea e febbre, e ha un’anamnesi positiva per abuso di alcool.
Utilizzando i dati di un testo sulle strategie diagnostiche di Panzer et al4
per studiare una popolazione di 200 soggetti con sospetta pancreatite, verrà
eseguito a tutti un nuovo test, una misurazione della lipasi sierica. Per valutare se la misurazione della lipasi sierica sia un test valido (sensibilità e
specificità maggiori dell’80%), i risultati del test della lipasi sono stati confrontati con lo standard diagnostico. Un efficace standard diagnostico per
molte malattie, inclusa questa, è l’attenta osservazione dei pazienti nel
tempo, per determinare l’eventuale sviluppo della malattia. Le cartelle cliniche dei pazienti sono state controllate nei tre mesi successivi e tutti i soggetti sono stati contattati telefonicamente per sapere se avevano avuto la
Diagnosi e screening
87
pancreatite. Sia i revisori delle cartelle che gli intervistatori telefonici non
erano a conoscenza del risultato del test della lipasi per un dato paziente
(cieco).
Nei 200 soggetti testati, la revisione della cartelle e le interviste telefoniche mostrarono che 53 avevano avuto la pancreatite e 147 no. Dei 53
con la pancreatite, il test della lipasi sierica era positivo in 50 casi. Sette
pazienti senza pancreatite avevano un test della lipasi positivo. Riempite
la tabella che segue (tabella 3.2) e calcolate sensibilità e specificità, rapporti di verosimiglianza positivo e negativo, potere predittivo positivo e
negativo, e proporzione di falsi positivi e negativi per il test della lipasi
sierica.
RIASSUNTO
Riassumendo, la valutazione dei test diagnostici e di screening viene fatta utilizzando una metodologia che incorpora le caratteristiche che seguono. Queste caratteristiche sono riportate nell’ordine di importanza che l’Evidence-Based Medicine Working Group ha indicato nella serie User’s
Guide (Guida per l’utente):5
• il personale di laboratorio che somministra e valuta o interpreta i test dovrebbe essere “in cieco” cioè non a conoscenza dei risultati degli altri test
a confronto;
• il gruppo di pazienti dovrebbe includere soggetti con diversa gravità di
malattia, cioè alcuni senza malattia, alcuni con malattia moderata ed altri
con malattia grave (spesso è un gruppo ampio di soggetti, alcuni dei quali
possono non essere affetti dalla malattia);
• esiste già uno standard diagnostico o gold standard (per esempio, la biopsia o una notte in un centro per lo studio del sonno).;
• ogni soggetto coinvolto nella valutazione viene sottoposto a tutti i test che
devono essere valutati. L’ordine in cui i test vengono ricevuti può essere
casuale (random), prefissato o secondo la convenienza del personale che
esegue i test o dei pazienti;
• i gruppi di risultati dei test vengono confrontati in base all’assunto che siano positivi quando devono essere positivi e negativi quando devono essere
negativi;
• queste concordanze (cioè, positivo con positivo e negativo con negativo)
vengono misurate secondo parametri appaiati di sensibilità e specificità,
rapporti di verosimiglianza positivi e negativi, proporzione di falsi positivi e falsi negativi, valori predittivi positivi e negativi.
88
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
TABELLA 3.2 - TABELLA 2 X 2 PER LA DIAGNOSI DI PANCREATITE
Tabella 2 X 2 per la pancreatite – foglio di lavoro
Malattia/condizione: _______________ (standard diagnostico)________________
POSITIVO
+
NEGATIVO
–
Nuovo test
Risultati positivi +
a
b
a+b
Nuovo test
Risultati negativi –
c
d
c+d
a+c
b+d
a+b+c+d
Sensibilità
= a/(a + c)
= __/(__+__)
= __/__
= _____
Specificità
= d/(b + d)
= __/(__+__)
= __/__
= _____
Rapporto di verosimiglianza positivo
= sensibilità/(100 – specificità)
= _______/(100 – _______ )
= _______/_____
= _______
Rapporto di verosimiglianza negativo
= (100 – sensibilità)/specificità
= (100 – ____)/ _______
= _______/_____
= _______
Valore predittivo positivo
= a/(a + b)
= __/(__+__)
= __/__
= _____
Valore predittivo negativo
= d/(c + d)
= __/(__+__)
= __/__
= _____
Proporzione di falsi positivi
= 100 – specificità o b/(b + d)
= 100 – (___)
= _______
Proporzione di falsi negativi
= 100 – sensibilità o c/(a + c)
= 100 – (___)
= _______
(segue)
89
Diagnosi e screening
(segue) TABELLA 3.2
Tabella 2 X 2 per la pancreatite – risposte
Malattia/condizione: pancreatite (standard diagnostico) attenta osservazione
POSITIVO
+
NEGATIVO
–
Nuovo test: test della lipasi sierica
Risultati positivi +
50 a
b
7
a+b
57
Nuovo test: test della lipasi sierica
Risultati negativi –
3c
d
140
c+d
143
53 a + c
Sensibilità
= a/(a + c)
= 50/(50 + 3)
= 50/53
= 94% o 0.94
b + d 147
Specificità
a + b + c + d 200
= d/(b + d)
= 140/(7 + 140)
=140/147
= 95% o 0.95
Rapporto di
= sens./(100 – spec.)
verosimiglianza = 94/(100 – 95)
positivo
= 94/5
= 18.8
Rapporto di
= (100 – sens.)/spec.
verosimiglianza = (100 – 94)/95
negativo
= 6/95
= 0.06
Valore
predittivo
positivo
= a/(a + b)
= 50/(50 + 7)
= 50/57
= 88%
Valore
predittivo
negativo
= d/(c + d)
= 140/(3 + 140)
= 140/143
= 98%
Proporzione
di falsi
positivi
= 100 – spec. o b/(b + d)
= 100 – 95
= 5%
Proporzione
di falsi
negativi
= 100 – sens. o c/(a + c)
= 100 – 94
= 6%
Gli indicizzatori alla NLM identificano la maggior parte delle misure di risultato ma non indicizzano quasi mai tenendo conto del fatto che la procedura sia stata condotta in cieco o che i test siano stati condotti in ordine random.
Comparative study (studio comparativo) non è un termine usato in modo costante dagli indicizzatori. Il CINAHL usa questi termini in modo parsimonioso, dato che gli infermieri spesso considerano che la diagnosi sia un concetto più ampio e raggruppano la terminologia più specificamente “medica”
sotto termini quali assessment (valutazione).
90
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
MEDLINE
MeSH, subheadings, publication types e textwords per gli studi
diagnostici
MeSH
Sensitivity and specificity*
Predictive value of tests*
ROC curves
Diagnostic errors
False negative reactions
False positive reactions
Observer variation
Likelihood functions*
Diagnosis, differential*
Reproducibility of results
Area under curve
Probability
Subheadings
Diagnosis (per la diagnosi di malattie e disturbi)
Radiography
Radionuclide imaging
Ultrasonography
Diagnostic use (per le sostanze utilizzate nella diagnosi)
Publication types
None
Textwords
Sensitivit:*
Specificit:*
Predictive value:
False positive
False negative
False rate:
Likelihood ratio:
Receiver operat: curve:
Diagnosi e screening
91
Pre test likelihood
Pretest likelihood
Post test likelihood
Posttest likehood
Post test probability
Posttest probability
ROC
Diagnostic standard:
Accurac: (combinazione di sensibilità e specificità)
Diagnosis, differential
Il termine MeSH “diagnosis, differential” non è un vero termine di ricerca di
test diagnostici. Viene invece impiegato per indicizzare un articolo che tratta
di due o più procedure già stabilite per differenziare patologie simili. Dovrete utilizzare “diagnosis, differential” se volete identificare quelle citazioni
che forniscono una guida al clinico per distinguere il morbo di Alzheimer
dalla depressione in un paziente anziano, o il croup dalla pertosse in un bambino.
* Indica un termine preferenziale
DATABASE CINAHL DI SCIENZE INFERMIERISTICHE
E LETTERATURA PARAMEDICA
Index terms e documentation types per gli studi di diagnosi
in CINAHL
CINAHL Index Terms
Diagnosis
Clinical assessment tools
Diagnosis, differential
Diagnosis, laboratory
False negative reactions
False positive reactions
Diagnostic errors
Failure to diagnose
False negative reactions
False positive reactions
Sensitivity and specificity
92
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
Validity
Construct validity
Sensitivity and specificity
Predictive value of tests
Measurement issues and assessments
Reliability and validity
Validity
Construct validity
Predictive value of tests
Sensitivity and specificity
Observer bias
Assimilator bias
Central tendency bias
Enhancement of contrast effect
Error of leniency
Error of severity
Halo effect
Reproducibility of results
Nursing assessment
CINAHL Subheadings
Diagnosis
Radiography
Ultrasonography
Diagnostic use
Nursing
Symptoms
CINAHL Document types
Nursing diagnoses
Practice guidelines
Systematic review
Research
I termini CINAHL sono stati selezionati dall’elenco da Katy Nesbit
Tutti gli estratti sono ricavati da CINAHL ® Thesaurus Copyright © 1999, Cinahl Information Systems; riproduzione autorizzata.
Diagnosi e screening
PsycINFO
Descriptors, publication types e textwords per gli studi diagnostici
Descriptors
Diagnosis
Computer Assisted Diagnosis
Differential Diagnosis
Educational Diagnosis
Galvanic Skin Response
Medical Diagnosis+
Biopsy
Cardiography+
Electrocardiography
Dexamethasone Suppression Test
Echoencephalography
Electro Oculography
Electroencephalography +
Alpha Rhythm
Delta Rhythm
Theta Rhythm
Electromyography
Electrostagmography
Electroplethysmography
Electroretinography
Encephalography+
Echoencephalography
Electroencephalography
Alpha Rhythm
Delta Rhythm
Theta Rhythm
Pneumoencephalography
Rheoencephalography
93
94
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
Galvanic Skin Response
Ophthalmologic Examination +
Electro Oculography
Electroretinography
Plethysmography+
Electroplethysmography
Pneumoencephalography
Prenatal Diagnosis
Rheoencephalography
Roentgenography+
Angiography
Mammography
Pneumoencephalography
Tomography+
Magnetic Resonance Imaging
Urinalysis
Psychodiagnosis+
Psychodiagnostic Interview +
Diagnostic Interview Schedule
Differential Diagnosis
Screening
Ultrasound
Measurement+ (definizione: termine concettualmente ampio che si riferisce
al processo ed agli strumenti utilizzati nella valutazione psicologica degli esseri umani. Se possibile utilizzate nomi di test e procedure specifici)
Testing+ (definizione: somministrazione di test ed analisi ed interpretazione
dei punteggi dei test in modo da misurare differenze fra individui o fra comportamenti nei test dello stesso individuo in occasioni differenti)
Diagnosi e screening
Testing Methods+
Methodology Descriptors
Predictive Validity+
Test Validity+
Statistical Validity+
Statistical Reliability +
Prediction Errors+
Maximum Likelihood
Predictability
Experimental Replication
Publication Type or Form/Content Type
Experimental Replication
Textwords
Sensitiv:*
Specific:*
ROC Curve:*
Diagnostic Error:*
False Positive:*
False Negative:*
Likelihood Ratio*
Accuracy
+ Indica altri termini che possono essere esplosi
* Indica un termine preferenziale
I termini di PsycINFO sono stati selezionati da Jean Sullivant
EMBASE/EXCERPTA MEDICA
Index terms, links ed EMTAGS per gli studi di diagnosi e screening
Index terms
Diagnostic accuracy
Diagnostic error
Diagnostic value
Receiver operating characteristics
Differential diagnosis
Area under the curve
95
96
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
Links (subheadings)
Diagnosis
EMTAGS (publication types)
Diagnosis
FILTRI MEDLINE
I filtri descritti nel capitolo della terapia sono stati sviluppati e valutati come strategie di ricerca MEDLINE che identifichino solo gli studi “pronti per
l’uso clinico” dei quali stiamo discutendo6. Tali strategie sono state valutate
utilizzando il processo di valutazione dei test diagnostici e sono state sviluppate in modo da identificare tutte le possibili citazioni rilevanti basate sulla
metodologia della ricerca (per esempio, studi randomizzati controllati per
quanto riguarda terapia o prevenzione), ed allo stesso tempo per non identificare, o identificare in misura minima, citazioni di articoli di minor qualità.
In altre parole, noi volevamo una ricerca che fosse positiva quando doveva
essere positiva e negativa quando doveva essere negativa; volevamo che le
nostre strategie di ricerca identificassero le citazioni rilevanti (elevata sensibilità) e non identificassero le citazioni meno rilevanti (elevata specificità) il
più spesso possibile.
Per i Progetti di filtri, come li abbiamo definiti, la “malattia” o “condizione” che abbiamo studiato era un insieme di citazioni metodologicamente coerenti. L’ambito era il database MEDLINE. Il gold standard che abbiamo utilizzato nel processo di ricerca è stato definito con cura. Tre lettori, sotto la supervisione del ricercatore principale dello studio, hanno letto e classificato gli
articoli in categorie di ricerca e quindi secondo il fatto che per ogni articolo
fossero verificati i criteri metodologici. La lettura è stata condotta tre volte fino a che i lettori sono stati in grado di completare la valutazione per il 90% in
perfetto accordo. Una volta completato questo controllo di attendibilità intervalutatore, ogni lettore ha proseguito la lettura finché tutte le dieci riviste sono state lette per il 1986 ed il 1991.
Il nuovo test era rappresentato da una serie di strategie di ricerca suggerite da bibliotecari, ricercatori clinici e personale della NLM. Questi termini,
frasi e termini di indicizzazione sono stati usati per identificare delle citazioni che sono state quindi impiegate per valutare l’efficacia dell’indicizzazione
fatta dalla NLM. Le misure di sensibilità (quale proporzione degli articoli rilevanti presenti nelle 10 riviste è stata identificata) e di specificità (quale proporzione di articoli irrilevanti presenti nelle 10 riviste la strategia di ricerca
non ha identificato) sono state calcolate per ciascuno dei termini individual-
Diagnosi e screening
97
mente ed in combinazione con altri termini. Nella terminologia di ricerca
standard, sono state determinate tutte le otto misure delle caratteristiche di
valutazione dei test diagnostici per ogni voce di ricerca. Per identificare la
maggior parte delle (il più elevato numero di) citazioni rilevanti, il miglior
termine singolo in MEDLINE è sensitivity (textword). La strategia diagnostica con la più elevata sensibilità (la maggior parte degli articoli rilevanti
con la più piccola quota di [il minor numero di] articoli irrilevanti) è:
explode sensitivity a#d specificity (MeSH)
OR all sensitivity (textword)
OR diagnosis (pre-exploded subheading)
OR diagnostic use (subheading)
OR specificity (textword)
La strategia diagnostica con la più elevata specificità (la maggior quota
possibile di articoli rilevanti) è:
explode sensitivity a#d specificity (MeSH)
OR predictive value: (textword)
Esempio 3-1
Baxt WG, Skora J. Prospective validation of artificial neural network trained
to identify acute myocardial infarction. Lancet 1996; 347: 12-5.
Questo studio ha valutato 1070 pazienti con dolore toracico che si erano
presentati al pronto soccorso di un ospedale della California. Lo studio confrontava le prestazioni degli interni e del personale strutturato nel discernere
quali pazienti avessero un infarto miocardico con le prestazioni di un sistema
computerizzato che aveva a disposizione i dati raccolti dagli stessi medici. I
dati includevano informazioni anamnestiche, l’esame obiettivo e l’elettrocardiogramma. Lo standard diagnostico era rappresentato dall’attenta osservazione dei pazienti nel tempo, combinata con una revisione della cartella ed
un’intervista al paziente. Sensibilità, specificità e rapporti di verosimiglianza
sono stati calcolati per i medici e per il programma computerizzato che utilizzava i dati raccolti dai medici.
I risultati dello studio sono stati che 818 pazienti avevano un dolore toracico
non cardiaco, 102 un’angina, 75 un’angina instabile e 75 un infarto miocardico. La valutazione dei medici nella determinazione dell’infarto miocardico aveva una sensibilità del 73% ed una specificità dell’81%, ed un rapporto di verosimiglianza positivo e negativo di 3.9 e 0.3, rispettivamente. Il programma
computerizzato, dopo che aveva “imparato” su una serie di pazienti, aveva una
sensibilità ed una specificità del 96%, ed un rapporto di verosimiglianza positi-
98
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
Riproduzione autorizzata The Lancet © 1996.
99
Diagnosi e screening
vo e negativo di 24 e 0.04, rispettivamente. I risultati di questo studio suggeriscono che i computer possono svolgere un ruolo importante nell’aiutare i medici a fare diagnosi migliori in certe situazioni ed in determinati ambiti.
Per la ricerca potete utilizzare ciascuno dei seguenti termini:
MeSH indexing
Comparative study
Reproducibility of results
Sensitivity and specificity
Textwords
Diagnostic accuracy (abstract)
Sensitivity (abstract)
Specificity (abstract)
Esempio 3-2
Cutler AF, Havstad S, Ma CK, Blaser MJ, Perez-Perez GI, Schubert TT. Accuracy of invasive and noninvasive tests to diagnose Helicobacter pylori infection. Gastroenterology 1995;109:136-41.
Questo studio ha valutato i vari test diagnostici e di screening per l’infezione da Helicobacter pylori. Sei test diagnostici (sette insiemi di risultati di test)
sono stati messi a confronto. Tre erano invasivi, con endoscopie, e tre erano test non invasivi sul sangue o sull’aria espirata. Non esiste uno standard diagnostico per l’identificazione dell’infezione da H. pylori e pertanto è stato approntato dai ricercatori un protocollo diagnostico basato sulla concordanza di quattro dei sette risultati ai test – se quattro risultati concordano si parla di “verità”.
Duecentosessantotto pazienti sono stati sottoposti a tutti e sei i test. Ottantadue avevano ulcere duodenali, 49 ulcere gastriche, 8 delle ulcere del tratto
pilorico e 55 una dispepsia non ulcerosa. Usando la regola della concordanza
di quattro o più risultati dei test, il 65% è stato considerato affetto da un’infezione da H. pylori. Tutti i test hanno mostrato una buona prestazione, con un
test su sangue ed uno sull’aria espirata che hanno avuto una prestazione analoga a quella di un test che utilizzava tecniche di biopsia endoscopica. Attualmente molti centri clinici utilizzano test sull’aria espirata per determinare lo
stato di infezione per H. pylori.
Per la ricerca potete utilizzare ciascuno dei seguenti termini:
MeSH indexing
Predictive value of tests
Sensitivity and specificity
Comparative study
100
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
Riproduzione autorizzata dalla rivista e dall’Autore.
101
Diagnosi e screening
Textwords
Diagnose (title and abstract)
Sensitivity (abstract)
Specificity (abstract)
Negative and positive predictive value (abstract)
Accurat: (abstract)
Esempio 3-3
Offenbacher H, Fazekas F, Schmidt R, et al. Assessment of MRI criteria for
a diagnosis of MS. Neurology 1993; 43: 905-9.
La sclerosi multipla (MS) è una patologia tradizionalmente difficile da
diagnosticare. Questo studio è stato condotto per valutare diversi criteri di
lettura della risonanza magnetica nucleare (RMN) in modo da bilanciare al
meglio i risultati di sensibilità e specificità nel diagnosticare la sclerosi multipla. Lo studio prevedeva la lettura delle scansioni RMN in 1528 pazienti
consecutivi. La revisione delle cartelle in cieco costituiva lo standard diagnostico. Sensibilità e specificità variavano, essendo spesso più elevate le
prime. Elevate sensibilità sono utili per “escludere” ed elevate specificità per
“includere” una patologia. Dal momento che in questo studio le sensibilità
sono elevate, gli studi delle RMN sono utili per dire ai pazienti sintomatici
che non sono affetti da sclerosi multipla se l’esame risulta negativo.
Per la ricerca potete utilizzare ciascuno dei seguenti termini:
MeSH indexing
Comparative study
Predictive value of tests
Sensitivity and specificity
Textwords
Diagnosis (title and abstract)
Sensitivity (abstract)
Specificity (abstract)
Positive predictive value (abstract)
Unaware of patients (abstract)
ESERCITAZIONE
Ricordate che i medici e gli operatori nel campo della salute mentale sono
più interessati degli infermieri alle questioni riguardanti lo screening e la diagnosi. Provate queste ricerche su MEDLINE e, se lo ritenete appropriato, su
PsycINFO.
102
GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA
Riproduzione autorizzata dal Permissions Department, Lippincott, Williams and Wilkins, 227 E.
Washington Square, Philadelphia, PA, USA.
Diagnosi e screening
103
1. La biopsia del tenue è una procedura invasiva, specialmente nei bambini.
La ricerca degli anticorpi anti-gliadina è un test su sangue. Quanto è accurata (combinando sensibilità e specificità) nella diagnosi di malattia celiaca? È mai stata usata per scopi di screening?
2. I livelli di D-dimero (ancora un test su sangue) sembrano promettenti per
la diagnosi di trombosi venosa profonda (TVP) nei pazienti con ictus che
a volte non sono in grado di verbalizzare la comparsa di dolore agli arti inferiori. Dolori agli arti inferiori nei pazienti immobilizzati di recente rappresentano spesso un buon indicatore della possibile presenza di TVP.
Qual è la sensibilità e la specificità del test del D-dimero? Per tutte le
TVP? Per le TVP prossimali (tra il ginocchio e l’anca)?
3. La sclerosi multipla è una malattia neurologica progressiva a lungo termine
che si è tradizionalmente dimostrata difficile da diagnosticare. Viene affermata la presenza della sclerosi multipla quando molte altre patologie, quali
i tumori cerebrali e l’anemia perniciosa, sono state escluse. Quali esami sono oggi di routine per i pazienti con segni e sintomi di sclerosi multipla?
Qual è lo standard diagnostico usuale nella diagnosi di sclerosi multipla?
4. Se scivolate e cadete sul ghiaccio nell’Est Ontario, potreste non ottenere
un esame radiologico al pronto soccorso per accertare se un osso della caviglia è rotto o richiede ulteriori valutazioni. Esiste un buon test clinico
(manuale) per valutare la possibilità di una frattura nei pazienti con dolore della caviglia, che possa essere eseguito da operatori sanitari di base?
5. Possono essere usati dei brevi questionari per uno screening della depressione nell’assistenza di routine o negli ambulatori di base?
BIBLIOGRAFIA
1. Irwin K, Olivo N, Schable CA, et al. and the CDC-Bronx-Lebanon HIV Serosurvey
Team. Performance characteristics of a rapid HIV antibody assay in a hospital with a
high prevalence of HIV infection. Ann Intern Med 1996; 125: 471-5.
2. Sackett DL, Straus S. On some clinically useful measures of the accuracy of diagnostic testing. ACP J Club 1998; 129 (Sep/Oct): A17-9.
3. Johnston ME, Gibson ES, Terry CW, et al. Effects of labelling on income, work and
social function among hypertensive employees. J Chronic Dis 1984; 37: 417-23.
4. Panzer RJ, Black ER, Griner PF, eds. Diagnostic strategies for common medical problems. Philadelphia (PA): American College of Physicians, 1991; 160.
5. Jaeschke R, Guyatt GH, Sackett DL for the Evidence-Based Medicine Working
Group. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? JAMA 1994; 271: 389-91.
6. Haynes RB, Wilczynski NL, McKibbon KA, et al. Developing optimal search strategies for detecting clinically sound studies in MEDLINE. J Am Med Inform Assoc
1994; 1: 447-58.