Comments
Description
Transcript
3 • Diagnosi e screening
3• DIAGNOSI E SCREENING La categoria “terapia” comprende più pubblicazioni di qualsiasi altra categoria di ricerca in campo sanitario. La seconda categoria più frequentemente oggetto di ricerche è quella della diagnosi. I medici sono sempre alla ricerca di modi migliori per determinare se una patologia o una certa condizione siano presenti in pazienti sintomatici (diagnosi) o asintomatici (screening). I clinici ed i ricercatori definiscono migliori quei test diagnostici o di screening che forniscono un risultato più accurato in modo più veloce e ad un costo minore in termini di sicurezza, comodità e spesa. ESEMPIO CLINICO: DIAGNOSI RAPIDA ED ACCURATA DELL’INFEZIONE DA VIRUS DELL’IMMUNODEFICIENZA UMANA (HIV) Come abbiamo già fatto nel capitolo precedente, cominceremo con l’esempio di un problema e delle ricerche necessarie per risolverlo. Il problema era rappresentato dal fatto che il test per HIV/AIDS richiede da una a due settimane prima che sia possibile fornire un risultato al paziente. Il Montefiore Hospital del Bronx, a New York, ha una delle incidenze più elevate di infezione da HIV del Nordamerica.1 Ha inoltre un’ampia popolazione di pazienti in transito. Così, anche se i pazienti avessero acconsentito ad eseguire il test, sarebbero poi ritornati dopo qualche settimana per avere il risultato? Lo staff dell’ospedale aveva bisogno di un test per HIV più rapido del Western blot. Fu identificato un test enzimatico ELISA che impiegava dieci minuti per fornire un risultato. Il passo successivo era di confrontarlo con il test standard, il Western blot. Ottocentotrentasette pazienti con stato sierologico per HIV non noto furono sottoposti al test. Per ogni paziente furono eseguiti sia l’ELISA che il Western blot. I tecnici o i clinici che interpretavano il risultato del test ELISA 80 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA non erano a conoscenza del risultato del test Western blot, e i laboratoristi che eseguivano il Western blot non conoscevano il risultato del test ELISA. I due gruppi di risultati vennero confrontati per verificare la concordanza: risultati entrambi positivi o entrambi negativi. Quarantacinque pazienti (5%) avevano l’infezione da HIV e solo nove coppie di campioni mostravano risultati differenti coi due test (coppie positivo/negativo o negativo/positivo). Data l’elevata concordanza tra i due test e la rapidità nell’ottenere i risultati con i kit ELISA, il test ELISA è ora il test di scelta per l’infezione da HIV presso il Montefiore Hospital. COME VIENE ESEGUITO UNO STUDIO DI DIAGNOSI La procedura migliore per valutare un nuovo test diagnostico o di screening è quella di riunire un gruppo di persone e di somministrare loro i test che sono oggetto della valutazione. Questo gruppo dovrebbe includere persone con diversa gravità di malattia (cioè, alcune senza malattia, alcune con malattia moderata ed altre con malattia grave). Ogni soggetto deve essere sottoposto sia alla procedura correntemente in uso che costituisce il gold standard (spesso definita come standard diagnostico o criterio standard) che al nuovo test, che si spera sia migliore. Spesso il test standard è invasivo (per esempio, un intervento chirurgico o un’autopsia per identificare la presenza di un cancro dello stomaco), costoso (per esempio, una notte in un centro per la cura del sonno per valutare la presenza di apnea durante il sonno), o richiede tempi troppo lunghi (per esempio, una settimana per coltivare il liquido di lavaggio bronchiale per determinare se un paziente in terapia intensiva ha la tubercolosi). L’interpretazione, o la lettura, del test standard dovrebbe essere fatta senza conoscere i risultati del nuovo test e viceversa. I test diagnostici vengono utilizzati per soggetti con segni e sintomi che suggeriscono al clinico la presenza di una malattia specifica o di diverse malattie possibili (per esempio, la tosse può essere suggestiva di raffreddore, cancro polmonare, pertosse o di un effetto indesiderato di alcuni farmaci antipertensivi). I test di screening vengono eseguiti su soggetti che non hanno segni o sintomi della malattia in esame (per esempio, la mammografia per identificare il cancro della mammella in tutte le donne di età superiore ai 50 anni). Sia i test diagnostici che i test di screening vengono valutati con la stessa metodologia e i risultati vengono presentati utilizzando la stessa terminologia e le stesse statistiche. I “buoni” test sono quelli che danno un risultato positivo quando la malattia o condizione è presente e danno un risultato negativo quando la malattia o condizione è assente. Le misure del “positivo quando deve essere positivo” e “negativo quando deve essere negativo” vengono definite caratteristiche del test e sono descritte di seguito. In breve, queste sono: sensi- 81 Diagnosi e screening bilità e specificità; valore predittivo positivo e negativo; rapporto di verosimiglianza positivo e negativo; proporzione di falsi positivi e di falsi negativi. TABELLA 2 X 2 Spesso, i dati della valutazione di un test diagnostico o di screening vengono presentati in una tabella 2 x 2. La “verità”, o risultato del test standard, si trova in cima alla tabella ed i risultati del nuovo test si trovano sul lato sinistro. Dal punto di vista rappresentativo ha la seguente struttura, con i riquadri, o celle dei dati, etichettati a, b, c e d. Ad esempio, nella tabella 2 x 2 sottostante, il numero di soggetti riportati nel riquadro o cella a corrisponde al numero di soggetti che hanno un risultato positivo utilizzando il test diagnostico standard e un risultato positivo utilizzando il nuovo test oggetto della valutazione. La cella a viene anche chiamata numero dei veri positivi. La cella d è il numero dei veri negativi, la cella b è il numero dei falsi positivi e la cella c è il numero dei falsi negativi. I dati nelle celle da a a d vengono impiegati per calcolare le caratteristiche del test. Malattia/condizione (standard diagnostico) Positivo Negativo + – Risultati positivi + al nuovo test a b a+b Risultati negativi – al nuovo test c d c+d b+d a+b+c+d a+c Sensibilità = a/(a + c) Specificità = d/(b + d) Rapporto di verosimiglianza positivo = sensibilità/(100 - specificità) Rapporto di verosimiglianza negativo = (100 - sensibilità)/ specificità Valore predittivo positivo = a/(a + b) Valore predittivo negativo = d/(c + d) Proporzione di falsi positivi = 100 - specificità o b/(b + d) Proporzione di falsi negativi = 100 - sensibilità o c/(a + c) 82 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA DEFINIZIONI La verifica delle procedure diagnostiche inizialmente appare sufficientemente chiara. È comunque la metodologia della ricerca clinica che si avvale maggiormente del gergo. I ricercatori confrontano i risultati del vecchio test o standard diagnostico (positivi e negativi) con i risultati del nuovo test (positivi e negativi). Vogliono infatti assicurarsi che i risultati del nuovo test siano corretti il più spesso possibile: positivi quando devono essere positivi e negativi quando devono essere negativi. Sensibilità e specificità Le due misure di questa correttezza più frequentemente utilizzate sono la sensibilità e la specificità del test. La sensibilità misura la proporzione di pazienti affetti dalla patologia o condizione in esame che hanno un risultato positivo. Il test standard di gravidanza basato sull’analisi biochimica dei livelli ormonali ha un’alta sensibilità (tabella 3.1). Esso identifica correttamente un’ampia proporzione delle pazienti che sono in gravidanza. Utilizzando i dati della tabella, il nuovo test ha una sensibilità del 92% (calcolata impiegando la formula a/(a + c) o 23/25). La specificità del test misura la proporzione di pazienti non affetti dalla patologia o condizione in esame che hanno un risultato negativo al test. Il test biochimico standard di gravidanza ha una specificità molto elevata. Esso esclude la gravidanza se la donna non è incinta - in altre parole, il risultato del test non sarebbe positivo se la donna non fosse incinta. La specificità del test di gravidanza è del 100% (calcolata impiegando la formula d/(b + d) o 75/75). TABELLA 3.1 - ESEMPIO DI UTILIZZO DEI DATI NEL CONFRONTO DEI TEST DI GRAVIDANZA DI 100 DONNE GRAVIDANZA (TEST RIPETUTO NEL TEMPO) POSITIVO + NEGATIVO – Risultati positivi + al nuovo test 23 a b 0 a+b 23 Risultati negativi – al nuovo test 2 c d 75 c+d 77 a+c b+d 75 a + b + c + d 100 25 Diagnosi e screening 83 Sia la sensibilità che la specificità devono essere elevate perché un test diagnostico sia di vera utilità in ambito clinico. Nella pratica, entrambe dovrebbero superare l’80% perché il test sia clinicamente utile. Per i test di screening, come il test dell’antigene prostatico specifico (PSA) per l’identificazione del cancro della prostata in uomini asintomatici, la performance dovrebbe essere prossima alla perfezione (100%) per evitare di diagnosticare erroneamente soggetti non affetti dalla patologia in esame; i test diagnostici invece possono funzionare bene con una sensibilità ed una specificità minori. Nessun test ha una sensibilità ed una specificità del 100%. Spesso, se il livello di risultato del test viene aggiustato per massimizzare la sensibilità, la specificità diminuisce, mentre se il livello di risultato del test viene aggiustato per massimizzare la specificità, diminuirà la sensibilità. POTERE PREDITTIVO POSITIVO E POTERE PREDITTIVO NEGATIVO Altre misure del “valore” o della prestazione di un test diagnostico o di screening sono il potere (o valore) predittivo positivo ed il potere predittivo negativo. Questi rappresentano la misura di quanto un risultato positivo o negativo al test ci dica circa la probabilità di essere affetti dalla malattia o condizione in esame nello specifico ambito in cui lo stesso test è stato valutato. Il potere predittivo positivo è la proporzione di pazienti risultati positivi al test che hanno la malattia o condizione in esame. Il potere predittivo negativo è la proporzione di pazienti risultati negativi al test che non hanno la malattia o condizione in esame. Il potere predittivo positivo del test di gravidanza nelle 100 donne del nostro campione è molto alto, pari al 100% – calcolato usando la formula a/(a + b) o 23/23; se il test è risultato positivo, la donna è quasi certamente incinta. Il test ha un potere predittivo negativo minore, pari al 98% – calcolato usando la formula d/(d + c) o 75/77. Un test negativo può essere negativo in quanto la donna veramente non è incinta, o semplicemente in quanto il suo sistema riproduttivo non ha avuto abbastanza tempo per produrre livelli di ormone sufficienti da dare un risultato positivo al test. I valori predittivi vengono influenzati dalla prevalenza della condizione in esame nella popolazione oggetto di studio. Per la valutazione di un test diagnostico, la prevalenza è la proporzione di pazienti affetti da una data condizione su tutti i pazienti testati. La prevalenza viene anche talvolta definita probabilità pre-test o verosimiglianza pre-test di una data malattia o condizione. Un esempio riguardante l’embolia polmonare illustra l’effetto della prevalenza sui valori predittivi in due diverse popolazioni di pazienti con differenti probabilità pre-test di embolia polmonare. Un gruppo include pazienti anzia- 84 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA ni che hanno sviluppato dolore toracico di tipo pleurico dopo una intervento di protesi d’anca, e che non sono stati sottoposti a trattamento di profilassi con anticoagulanti per prevenire la formazione di coaguli ematici. Questi coaguli possono condurre ad embolia polmonare o a trombosi venosa profonda, che possono essere fatali. Il secondo gruppo include uomini giovani che hanno sviluppato dolore toracico dello stesso tipo mentre giocavano a baseball. Sebbene i test cui questi soggetti verranno sottoposti abbiano identici valori di sensibilità e di specificità, il potere predittivo positivo e negativo saranno diversi, in quanto la probabilità pre-test (prevalenza) di embolia polmonare sarà molto più elevata in pazienti anziani sottoposti ad intervento chirurgico che non in uomini giovani dopo il baseball. RAPPORTO DI VEROSIMIGLIANZA (LIKELIHOOD RATIO) I rapporti di verosimiglianza (likelihood ratio, LR), sia di tipo positivo che negativo (+LR e -LR), sono altre misure del valore o della prestazione di un test. Indicano quanto la probabilità di malattia o condizione cambia rispetto al valore di base quando il risultato del test è positivo (+LR) o negativo (-LR). I rapporti di verosimiglianza positivi vanno presi in considerazione quando sono nel range di 2 o più, e sono utili dal punto di vista clinico quando sono maggiori di 5. Per i rapporti di verosimiglianza negativi, i valori da tenere in considerazione sono quelli minori di 0.1. Una più completa spiegazione sull’utilità dei rapporti di verosimiglianza è illustrata in un editoriale di Sackett e Straus.2 Un test con un +LR di 24 significa che un risultato positivo del test è 24 volte più probabile che provenga da un soggetto affetto dalla condizione in esame piuttosto che da un soggetto non affetto. Nell’interpretare i risultati del test per uno specifico paziente, il clinico deve tenere conto della verosimiglianza che il paziente inviatogli per essere sottoposto al test sia affetto da quella condizione prima del test, e quindi applicare questa verosimiglianza pre-test ai risultati finali del test ed alle tavole pubblicate dei rapporti di verosimiglianza per il test usando un nomogramma standard. Il nuovo test di gravidanza che stiamo esaminando ha un +LR pari ad infinito – calcolato come sensibilità/(100 - specificità) o 98/(100 - 100): una donna che abbia un risultato positivo al test è infinitamente più verosimile che sia incinta che se avesse un risultato negativo. Il -LR di 0.02 – calcolato come (100 - sensibilità)/specificità o (100 - 98)/100) significa che una donna con un test negativo ha una probabilità su 50 (o 2 su 100) di essere incinta (o 49 probabilità su 50 di non essere incinta), e questo -LR deve essere quindi fattorizzato contro la specifica probabilità pre-test della donna di essere in gravidanza. Diagnosi e screening 85 PROPORZIONE DI FALSI POSITIVI E DI FALSI NEGATIVI Altre due definizioni dei test impiegate meno spesso sono la proporzione di falsi positivi e la proporzione di falsi negativi. Per il test di gravidanza la proporzione di falsi positivi è dello 0% (calcolata come (100 - specificità [100 - 100]). Questa è la proporzione di donne che hanno avuto un risultato positivo al test quando non erano veramente incinte. La proporzione di falsi negativi è la proporzione di donne che hanno avuto un risultato negativo al test quando erano veramente incinte. Per il test di gravidanza la proporzione di falsi negativi è del 2% (calcolata come 100 - sensibilità o 100 - 98 = 2). Sia i risultati falsamente positivi che quelli falsamente negativi influenzano la vita delle persone. In base ad un risultato falsamente positivo del test, la persona si convincerà erroneamente di essere affetta dalla malattia o condizione in esame e verrà “etichettata”. I soggetti che pensano di essere malati possono veramente cominciare a non sentirsi bene anche se sono in buona salute. Possono assentarsi dal lavoro o rifiutare una promozione e la loro qualità generale di vita può deteriorarsi. Questo si è verificato in soggetti che lavoravano in un’acciaieria dopo che fu loro diagnosticata erroneamente una condizione di ipertensione arteriosa.3 I risultati falsamente negativi influiscono in quanto il soggetto può non richiedere un trattamento quando questo invece sarebbe opportuno. Per esempio, si perde tempo utile dal punto di vista terapeutico se ad una donna affetta da cancro della mammella viene detto che non si tratta di un tumore maligno quando invece è così. Un altro modo di descrivere questo gruppo di valori è il numero di pazienti falsi positivi e di pazienti falsi negativi nel gruppo. Il numero di falsi positivi è quello che appare nella cella b della tabella 2 x 2 e il numero di falsi negativi è quello che appare nella cella c; nel nostro esempio, questi sono 0 e 2, rispettivamente. CURVE OPERATIVE CARATTERISTICHE (RECEIVER OPERATING CHARACTERISTIC CURVES) Le curve operative caratteristiche (Receiver Operating Characteristic Curves, ROC) sono rappresentazioni grafiche di confronti di un test diagnostico quando i risultati del test possono assumere diversi valori in un intervallo o range. Utilizzare i livelli di enzimi cardiaci per diagnosticare un infarto miocardico, o diversi valori di glicemia a digiuno per i pazienti con un sospetto di diabete mellito, sono esempi della possibile utilità delle curve ROC. Se il test ha più di un cut point (valore soglia di laboratorio) o ha un 86 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA range di due o più risposte al test (per esempio, negativo, debolmente positivo e fortemente positivo), si può creare una curva ROC ponendo sensibilità e specificità su di un grafico. Ogni punto del grafico avrà quindi il suo valore di sensibilità e specificità. Un “buon” test avrà un valore ROC (area sotto la curva) maggiore dell’80%. Vengono spesso eseguiti calcoli per trovare quale punto o posizione sotto la curva (valore di laboratorio) abbia la miglior combinazione di sensibilità e specificità. Per i clinici che devono prendere decisioni utilizzando le caratteristiche del test sopra riportate è essenziale ricordare ed utilizzare le nove definizioni già citate. Per gli altri, soprattutto i bibliotecari che utilizzano i termini per costruire delle strategie di ricerca, non è altrettanto essenziale imparare le definizioni precise dei termini. La maggior parte dei testi standard, inclusi quelli elencati in appendice, hanno le definizioni, se ne avete bisogno. Ricordate che gli aspetti più importanti nel riportare i risultati dei test diagnostici sono la sensibilità e la specificità del test, quindi vengono i rapporti di verosimiglianza dei risultati positivi e negativi, la proporzione di falsi positivi e di falsi negativi, e i valori predittivi. I valori predittivi, data la loro variabilità in popolazioni diverse, sono attualmente meno frequentemente utilizzati di un tempo. I rapporti di verosimiglianza sono divenuti più importanti e il loro valore aumenta nel tempo. COMPRENDERE LE STATISTICHE DEI TEST DIAGNOSTICI La maggior parte dei clinici non esegue generalmente i calcoli riguardanti i test diagnostici, ma molti troveranno più facile comprendere i concetti attraverso un esempio di calcolo. Procederemo utilizzando uno scenario clinico: una donna di 35 anni con possibile pancreatite acuta. Il sospetto diagnostico è elevato. I suoi sintomi includono dolore epigastrico, anoressia, vomito, nausea e febbre, e ha un’anamnesi positiva per abuso di alcool. Utilizzando i dati di un testo sulle strategie diagnostiche di Panzer et al4 per studiare una popolazione di 200 soggetti con sospetta pancreatite, verrà eseguito a tutti un nuovo test, una misurazione della lipasi sierica. Per valutare se la misurazione della lipasi sierica sia un test valido (sensibilità e specificità maggiori dell’80%), i risultati del test della lipasi sono stati confrontati con lo standard diagnostico. Un efficace standard diagnostico per molte malattie, inclusa questa, è l’attenta osservazione dei pazienti nel tempo, per determinare l’eventuale sviluppo della malattia. Le cartelle cliniche dei pazienti sono state controllate nei tre mesi successivi e tutti i soggetti sono stati contattati telefonicamente per sapere se avevano avuto la Diagnosi e screening 87 pancreatite. Sia i revisori delle cartelle che gli intervistatori telefonici non erano a conoscenza del risultato del test della lipasi per un dato paziente (cieco). Nei 200 soggetti testati, la revisione della cartelle e le interviste telefoniche mostrarono che 53 avevano avuto la pancreatite e 147 no. Dei 53 con la pancreatite, il test della lipasi sierica era positivo in 50 casi. Sette pazienti senza pancreatite avevano un test della lipasi positivo. Riempite la tabella che segue (tabella 3.2) e calcolate sensibilità e specificità, rapporti di verosimiglianza positivo e negativo, potere predittivo positivo e negativo, e proporzione di falsi positivi e negativi per il test della lipasi sierica. RIASSUNTO Riassumendo, la valutazione dei test diagnostici e di screening viene fatta utilizzando una metodologia che incorpora le caratteristiche che seguono. Queste caratteristiche sono riportate nell’ordine di importanza che l’Evidence-Based Medicine Working Group ha indicato nella serie User’s Guide (Guida per l’utente):5 • il personale di laboratorio che somministra e valuta o interpreta i test dovrebbe essere “in cieco” cioè non a conoscenza dei risultati degli altri test a confronto; • il gruppo di pazienti dovrebbe includere soggetti con diversa gravità di malattia, cioè alcuni senza malattia, alcuni con malattia moderata ed altri con malattia grave (spesso è un gruppo ampio di soggetti, alcuni dei quali possono non essere affetti dalla malattia); • esiste già uno standard diagnostico o gold standard (per esempio, la biopsia o una notte in un centro per lo studio del sonno).; • ogni soggetto coinvolto nella valutazione viene sottoposto a tutti i test che devono essere valutati. L’ordine in cui i test vengono ricevuti può essere casuale (random), prefissato o secondo la convenienza del personale che esegue i test o dei pazienti; • i gruppi di risultati dei test vengono confrontati in base all’assunto che siano positivi quando devono essere positivi e negativi quando devono essere negativi; • queste concordanze (cioè, positivo con positivo e negativo con negativo) vengono misurate secondo parametri appaiati di sensibilità e specificità, rapporti di verosimiglianza positivi e negativi, proporzione di falsi positivi e falsi negativi, valori predittivi positivi e negativi. 88 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA TABELLA 3.2 - TABELLA 2 X 2 PER LA DIAGNOSI DI PANCREATITE Tabella 2 X 2 per la pancreatite – foglio di lavoro Malattia/condizione: _______________ (standard diagnostico)________________ POSITIVO + NEGATIVO – Nuovo test Risultati positivi + a b a+b Nuovo test Risultati negativi – c d c+d a+c b+d a+b+c+d Sensibilità = a/(a + c) = __/(__+__) = __/__ = _____ Specificità = d/(b + d) = __/(__+__) = __/__ = _____ Rapporto di verosimiglianza positivo = sensibilità/(100 – specificità) = _______/(100 – _______ ) = _______/_____ = _______ Rapporto di verosimiglianza negativo = (100 – sensibilità)/specificità = (100 – ____)/ _______ = _______/_____ = _______ Valore predittivo positivo = a/(a + b) = __/(__+__) = __/__ = _____ Valore predittivo negativo = d/(c + d) = __/(__+__) = __/__ = _____ Proporzione di falsi positivi = 100 – specificità o b/(b + d) = 100 – (___) = _______ Proporzione di falsi negativi = 100 – sensibilità o c/(a + c) = 100 – (___) = _______ (segue) 89 Diagnosi e screening (segue) TABELLA 3.2 Tabella 2 X 2 per la pancreatite – risposte Malattia/condizione: pancreatite (standard diagnostico) attenta osservazione POSITIVO + NEGATIVO – Nuovo test: test della lipasi sierica Risultati positivi + 50 a b 7 a+b 57 Nuovo test: test della lipasi sierica Risultati negativi – 3c d 140 c+d 143 53 a + c Sensibilità = a/(a + c) = 50/(50 + 3) = 50/53 = 94% o 0.94 b + d 147 Specificità a + b + c + d 200 = d/(b + d) = 140/(7 + 140) =140/147 = 95% o 0.95 Rapporto di = sens./(100 – spec.) verosimiglianza = 94/(100 – 95) positivo = 94/5 = 18.8 Rapporto di = (100 – sens.)/spec. verosimiglianza = (100 – 94)/95 negativo = 6/95 = 0.06 Valore predittivo positivo = a/(a + b) = 50/(50 + 7) = 50/57 = 88% Valore predittivo negativo = d/(c + d) = 140/(3 + 140) = 140/143 = 98% Proporzione di falsi positivi = 100 – spec. o b/(b + d) = 100 – 95 = 5% Proporzione di falsi negativi = 100 – sens. o c/(a + c) = 100 – 94 = 6% Gli indicizzatori alla NLM identificano la maggior parte delle misure di risultato ma non indicizzano quasi mai tenendo conto del fatto che la procedura sia stata condotta in cieco o che i test siano stati condotti in ordine random. Comparative study (studio comparativo) non è un termine usato in modo costante dagli indicizzatori. Il CINAHL usa questi termini in modo parsimonioso, dato che gli infermieri spesso considerano che la diagnosi sia un concetto più ampio e raggruppano la terminologia più specificamente “medica” sotto termini quali assessment (valutazione). 90 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA MEDLINE MeSH, subheadings, publication types e textwords per gli studi diagnostici MeSH Sensitivity and specificity* Predictive value of tests* ROC curves Diagnostic errors False negative reactions False positive reactions Observer variation Likelihood functions* Diagnosis, differential* Reproducibility of results Area under curve Probability Subheadings Diagnosis (per la diagnosi di malattie e disturbi) Radiography Radionuclide imaging Ultrasonography Diagnostic use (per le sostanze utilizzate nella diagnosi) Publication types None Textwords Sensitivit:* Specificit:* Predictive value: False positive False negative False rate: Likelihood ratio: Receiver operat: curve: Diagnosi e screening 91 Pre test likelihood Pretest likelihood Post test likelihood Posttest likehood Post test probability Posttest probability ROC Diagnostic standard: Accurac: (combinazione di sensibilità e specificità) Diagnosis, differential Il termine MeSH “diagnosis, differential” non è un vero termine di ricerca di test diagnostici. Viene invece impiegato per indicizzare un articolo che tratta di due o più procedure già stabilite per differenziare patologie simili. Dovrete utilizzare “diagnosis, differential” se volete identificare quelle citazioni che forniscono una guida al clinico per distinguere il morbo di Alzheimer dalla depressione in un paziente anziano, o il croup dalla pertosse in un bambino. * Indica un termine preferenziale DATABASE CINAHL DI SCIENZE INFERMIERISTICHE E LETTERATURA PARAMEDICA Index terms e documentation types per gli studi di diagnosi in CINAHL CINAHL Index Terms Diagnosis Clinical assessment tools Diagnosis, differential Diagnosis, laboratory False negative reactions False positive reactions Diagnostic errors Failure to diagnose False negative reactions False positive reactions Sensitivity and specificity 92 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA Validity Construct validity Sensitivity and specificity Predictive value of tests Measurement issues and assessments Reliability and validity Validity Construct validity Predictive value of tests Sensitivity and specificity Observer bias Assimilator bias Central tendency bias Enhancement of contrast effect Error of leniency Error of severity Halo effect Reproducibility of results Nursing assessment CINAHL Subheadings Diagnosis Radiography Ultrasonography Diagnostic use Nursing Symptoms CINAHL Document types Nursing diagnoses Practice guidelines Systematic review Research I termini CINAHL sono stati selezionati dall’elenco da Katy Nesbit Tutti gli estratti sono ricavati da CINAHL ® Thesaurus Copyright © 1999, Cinahl Information Systems; riproduzione autorizzata. Diagnosi e screening PsycINFO Descriptors, publication types e textwords per gli studi diagnostici Descriptors Diagnosis Computer Assisted Diagnosis Differential Diagnosis Educational Diagnosis Galvanic Skin Response Medical Diagnosis+ Biopsy Cardiography+ Electrocardiography Dexamethasone Suppression Test Echoencephalography Electro Oculography Electroencephalography + Alpha Rhythm Delta Rhythm Theta Rhythm Electromyography Electrostagmography Electroplethysmography Electroretinography Encephalography+ Echoencephalography Electroencephalography Alpha Rhythm Delta Rhythm Theta Rhythm Pneumoencephalography Rheoencephalography 93 94 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA Galvanic Skin Response Ophthalmologic Examination + Electro Oculography Electroretinography Plethysmography+ Electroplethysmography Pneumoencephalography Prenatal Diagnosis Rheoencephalography Roentgenography+ Angiography Mammography Pneumoencephalography Tomography+ Magnetic Resonance Imaging Urinalysis Psychodiagnosis+ Psychodiagnostic Interview + Diagnostic Interview Schedule Differential Diagnosis Screening Ultrasound Measurement+ (definizione: termine concettualmente ampio che si riferisce al processo ed agli strumenti utilizzati nella valutazione psicologica degli esseri umani. Se possibile utilizzate nomi di test e procedure specifici) Testing+ (definizione: somministrazione di test ed analisi ed interpretazione dei punteggi dei test in modo da misurare differenze fra individui o fra comportamenti nei test dello stesso individuo in occasioni differenti) Diagnosi e screening Testing Methods+ Methodology Descriptors Predictive Validity+ Test Validity+ Statistical Validity+ Statistical Reliability + Prediction Errors+ Maximum Likelihood Predictability Experimental Replication Publication Type or Form/Content Type Experimental Replication Textwords Sensitiv:* Specific:* ROC Curve:* Diagnostic Error:* False Positive:* False Negative:* Likelihood Ratio* Accuracy + Indica altri termini che possono essere esplosi * Indica un termine preferenziale I termini di PsycINFO sono stati selezionati da Jean Sullivant EMBASE/EXCERPTA MEDICA Index terms, links ed EMTAGS per gli studi di diagnosi e screening Index terms Diagnostic accuracy Diagnostic error Diagnostic value Receiver operating characteristics Differential diagnosis Area under the curve 95 96 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA Links (subheadings) Diagnosis EMTAGS (publication types) Diagnosis FILTRI MEDLINE I filtri descritti nel capitolo della terapia sono stati sviluppati e valutati come strategie di ricerca MEDLINE che identifichino solo gli studi “pronti per l’uso clinico” dei quali stiamo discutendo6. Tali strategie sono state valutate utilizzando il processo di valutazione dei test diagnostici e sono state sviluppate in modo da identificare tutte le possibili citazioni rilevanti basate sulla metodologia della ricerca (per esempio, studi randomizzati controllati per quanto riguarda terapia o prevenzione), ed allo stesso tempo per non identificare, o identificare in misura minima, citazioni di articoli di minor qualità. In altre parole, noi volevamo una ricerca che fosse positiva quando doveva essere positiva e negativa quando doveva essere negativa; volevamo che le nostre strategie di ricerca identificassero le citazioni rilevanti (elevata sensibilità) e non identificassero le citazioni meno rilevanti (elevata specificità) il più spesso possibile. Per i Progetti di filtri, come li abbiamo definiti, la “malattia” o “condizione” che abbiamo studiato era un insieme di citazioni metodologicamente coerenti. L’ambito era il database MEDLINE. Il gold standard che abbiamo utilizzato nel processo di ricerca è stato definito con cura. Tre lettori, sotto la supervisione del ricercatore principale dello studio, hanno letto e classificato gli articoli in categorie di ricerca e quindi secondo il fatto che per ogni articolo fossero verificati i criteri metodologici. La lettura è stata condotta tre volte fino a che i lettori sono stati in grado di completare la valutazione per il 90% in perfetto accordo. Una volta completato questo controllo di attendibilità intervalutatore, ogni lettore ha proseguito la lettura finché tutte le dieci riviste sono state lette per il 1986 ed il 1991. Il nuovo test era rappresentato da una serie di strategie di ricerca suggerite da bibliotecari, ricercatori clinici e personale della NLM. Questi termini, frasi e termini di indicizzazione sono stati usati per identificare delle citazioni che sono state quindi impiegate per valutare l’efficacia dell’indicizzazione fatta dalla NLM. Le misure di sensibilità (quale proporzione degli articoli rilevanti presenti nelle 10 riviste è stata identificata) e di specificità (quale proporzione di articoli irrilevanti presenti nelle 10 riviste la strategia di ricerca non ha identificato) sono state calcolate per ciascuno dei termini individual- Diagnosi e screening 97 mente ed in combinazione con altri termini. Nella terminologia di ricerca standard, sono state determinate tutte le otto misure delle caratteristiche di valutazione dei test diagnostici per ogni voce di ricerca. Per identificare la maggior parte delle (il più elevato numero di) citazioni rilevanti, il miglior termine singolo in MEDLINE è sensitivity (textword). La strategia diagnostica con la più elevata sensibilità (la maggior parte degli articoli rilevanti con la più piccola quota di [il minor numero di] articoli irrilevanti) è: explode sensitivity a#d specificity (MeSH) OR all sensitivity (textword) OR diagnosis (pre-exploded subheading) OR diagnostic use (subheading) OR specificity (textword) La strategia diagnostica con la più elevata specificità (la maggior quota possibile di articoli rilevanti) è: explode sensitivity a#d specificity (MeSH) OR predictive value: (textword) Esempio 3-1 Baxt WG, Skora J. Prospective validation of artificial neural network trained to identify acute myocardial infarction. Lancet 1996; 347: 12-5. Questo studio ha valutato 1070 pazienti con dolore toracico che si erano presentati al pronto soccorso di un ospedale della California. Lo studio confrontava le prestazioni degli interni e del personale strutturato nel discernere quali pazienti avessero un infarto miocardico con le prestazioni di un sistema computerizzato che aveva a disposizione i dati raccolti dagli stessi medici. I dati includevano informazioni anamnestiche, l’esame obiettivo e l’elettrocardiogramma. Lo standard diagnostico era rappresentato dall’attenta osservazione dei pazienti nel tempo, combinata con una revisione della cartella ed un’intervista al paziente. Sensibilità, specificità e rapporti di verosimiglianza sono stati calcolati per i medici e per il programma computerizzato che utilizzava i dati raccolti dai medici. I risultati dello studio sono stati che 818 pazienti avevano un dolore toracico non cardiaco, 102 un’angina, 75 un’angina instabile e 75 un infarto miocardico. La valutazione dei medici nella determinazione dell’infarto miocardico aveva una sensibilità del 73% ed una specificità dell’81%, ed un rapporto di verosimiglianza positivo e negativo di 3.9 e 0.3, rispettivamente. Il programma computerizzato, dopo che aveva “imparato” su una serie di pazienti, aveva una sensibilità ed una specificità del 96%, ed un rapporto di verosimiglianza positi- 98 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA Riproduzione autorizzata The Lancet © 1996. 99 Diagnosi e screening vo e negativo di 24 e 0.04, rispettivamente. I risultati di questo studio suggeriscono che i computer possono svolgere un ruolo importante nell’aiutare i medici a fare diagnosi migliori in certe situazioni ed in determinati ambiti. Per la ricerca potete utilizzare ciascuno dei seguenti termini: MeSH indexing Comparative study Reproducibility of results Sensitivity and specificity Textwords Diagnostic accuracy (abstract) Sensitivity (abstract) Specificity (abstract) Esempio 3-2 Cutler AF, Havstad S, Ma CK, Blaser MJ, Perez-Perez GI, Schubert TT. Accuracy of invasive and noninvasive tests to diagnose Helicobacter pylori infection. Gastroenterology 1995;109:136-41. Questo studio ha valutato i vari test diagnostici e di screening per l’infezione da Helicobacter pylori. Sei test diagnostici (sette insiemi di risultati di test) sono stati messi a confronto. Tre erano invasivi, con endoscopie, e tre erano test non invasivi sul sangue o sull’aria espirata. Non esiste uno standard diagnostico per l’identificazione dell’infezione da H. pylori e pertanto è stato approntato dai ricercatori un protocollo diagnostico basato sulla concordanza di quattro dei sette risultati ai test – se quattro risultati concordano si parla di “verità”. Duecentosessantotto pazienti sono stati sottoposti a tutti e sei i test. Ottantadue avevano ulcere duodenali, 49 ulcere gastriche, 8 delle ulcere del tratto pilorico e 55 una dispepsia non ulcerosa. Usando la regola della concordanza di quattro o più risultati dei test, il 65% è stato considerato affetto da un’infezione da H. pylori. Tutti i test hanno mostrato una buona prestazione, con un test su sangue ed uno sull’aria espirata che hanno avuto una prestazione analoga a quella di un test che utilizzava tecniche di biopsia endoscopica. Attualmente molti centri clinici utilizzano test sull’aria espirata per determinare lo stato di infezione per H. pylori. Per la ricerca potete utilizzare ciascuno dei seguenti termini: MeSH indexing Predictive value of tests Sensitivity and specificity Comparative study 100 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA Riproduzione autorizzata dalla rivista e dall’Autore. 101 Diagnosi e screening Textwords Diagnose (title and abstract) Sensitivity (abstract) Specificity (abstract) Negative and positive predictive value (abstract) Accurat: (abstract) Esempio 3-3 Offenbacher H, Fazekas F, Schmidt R, et al. Assessment of MRI criteria for a diagnosis of MS. Neurology 1993; 43: 905-9. La sclerosi multipla (MS) è una patologia tradizionalmente difficile da diagnosticare. Questo studio è stato condotto per valutare diversi criteri di lettura della risonanza magnetica nucleare (RMN) in modo da bilanciare al meglio i risultati di sensibilità e specificità nel diagnosticare la sclerosi multipla. Lo studio prevedeva la lettura delle scansioni RMN in 1528 pazienti consecutivi. La revisione delle cartelle in cieco costituiva lo standard diagnostico. Sensibilità e specificità variavano, essendo spesso più elevate le prime. Elevate sensibilità sono utili per “escludere” ed elevate specificità per “includere” una patologia. Dal momento che in questo studio le sensibilità sono elevate, gli studi delle RMN sono utili per dire ai pazienti sintomatici che non sono affetti da sclerosi multipla se l’esame risulta negativo. Per la ricerca potete utilizzare ciascuno dei seguenti termini: MeSH indexing Comparative study Predictive value of tests Sensitivity and specificity Textwords Diagnosis (title and abstract) Sensitivity (abstract) Specificity (abstract) Positive predictive value (abstract) Unaware of patients (abstract) ESERCITAZIONE Ricordate che i medici e gli operatori nel campo della salute mentale sono più interessati degli infermieri alle questioni riguardanti lo screening e la diagnosi. Provate queste ricerche su MEDLINE e, se lo ritenete appropriato, su PsycINFO. 102 GUIDA ALLA RICERCA DELLE INFORMAZIONI IN MEDICINA Riproduzione autorizzata dal Permissions Department, Lippincott, Williams and Wilkins, 227 E. Washington Square, Philadelphia, PA, USA. Diagnosi e screening 103 1. La biopsia del tenue è una procedura invasiva, specialmente nei bambini. La ricerca degli anticorpi anti-gliadina è un test su sangue. Quanto è accurata (combinando sensibilità e specificità) nella diagnosi di malattia celiaca? È mai stata usata per scopi di screening? 2. I livelli di D-dimero (ancora un test su sangue) sembrano promettenti per la diagnosi di trombosi venosa profonda (TVP) nei pazienti con ictus che a volte non sono in grado di verbalizzare la comparsa di dolore agli arti inferiori. Dolori agli arti inferiori nei pazienti immobilizzati di recente rappresentano spesso un buon indicatore della possibile presenza di TVP. Qual è la sensibilità e la specificità del test del D-dimero? Per tutte le TVP? Per le TVP prossimali (tra il ginocchio e l’anca)? 3. La sclerosi multipla è una malattia neurologica progressiva a lungo termine che si è tradizionalmente dimostrata difficile da diagnosticare. Viene affermata la presenza della sclerosi multipla quando molte altre patologie, quali i tumori cerebrali e l’anemia perniciosa, sono state escluse. Quali esami sono oggi di routine per i pazienti con segni e sintomi di sclerosi multipla? Qual è lo standard diagnostico usuale nella diagnosi di sclerosi multipla? 4. Se scivolate e cadete sul ghiaccio nell’Est Ontario, potreste non ottenere un esame radiologico al pronto soccorso per accertare se un osso della caviglia è rotto o richiede ulteriori valutazioni. Esiste un buon test clinico (manuale) per valutare la possibilità di una frattura nei pazienti con dolore della caviglia, che possa essere eseguito da operatori sanitari di base? 5. Possono essere usati dei brevi questionari per uno screening della depressione nell’assistenza di routine o negli ambulatori di base? BIBLIOGRAFIA 1. Irwin K, Olivo N, Schable CA, et al. and the CDC-Bronx-Lebanon HIV Serosurvey Team. Performance characteristics of a rapid HIV antibody assay in a hospital with a high prevalence of HIV infection. Ann Intern Med 1996; 125: 471-5. 2. Sackett DL, Straus S. On some clinically useful measures of the accuracy of diagnostic testing. ACP J Club 1998; 129 (Sep/Oct): A17-9. 3. Johnston ME, Gibson ES, Terry CW, et al. Effects of labelling on income, work and social function among hypertensive employees. J Chronic Dis 1984; 37: 417-23. 4. Panzer RJ, Black ER, Griner PF, eds. Diagnostic strategies for common medical problems. Philadelphia (PA): American College of Physicians, 1991; 160. 5. Jaeschke R, Guyatt GH, Sackett DL for the Evidence-Based Medicine Working Group. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? JAMA 1994; 271: 389-91. 6. Haynes RB, Wilczynski NL, McKibbon KA, et al. Developing optimal search strategies for detecting clinically sound studies in MEDLINE. J Am Med Inform Assoc 1994; 1: 447-58.