Capitolo 5 Studi sulla diagnosi
Lo scopo degli studi di diagnosi è valutare la validità e l’accuratezza diagnostica degli strumenti di diagnosi utilizzati nella pratica infermieristica. Per rispondere ad un quesito diagnostico vengono utilizzati lo studio trasversale e lo studio di corte prospettico (più raramente caso- controllo).
(www.quadernodiepidemiologia.it)
Test diagnostici. La diagnosi infermieristica è un giudizio clinico-assistenziale sulle risposte del pz, della famiglia o della comunità ai problemi di salute anche potenziali. Per giungere ad una diagnosi infermieristica, il professionista utilizza i risultati di opportune scale o test diagnostici. Ricordiamo che la diagnostica o diagnosi medica è il processo per determinare quale malattia o condizione spiega sintomi o le condizioni di una persona. Non esistono test capaci di accertare il reale stato (malato/sano) di un individuo in tutte le situazioni e nel 100% dei casi. Questo vuol dire che non esistono test «infallibili». L’esito del test sia esso positivo, cioè deponga a favore dell’esistenza della malattia, o negativo deve essere visto come una indicazione di probabilità. È opportuno distinguere i test di screening dai test diagnostici.
Test di screening. Sono dei test che non conducono alla diagnosi definitiva come i test diagnostici ma che sono utili ad identificare precocemente possibili casi di malattia o alterazioni strutturali o fisiologiche che sono precursori di malattia. Gli individui positivi ad un test di screening vengono poi sottoposti ad approfondimenti diagnostici. Esistono due principali tipologie:
Test per diagnosi precoce della malattia in fase pre-clinica (es. caricinoma in situ)
Test per diagnosi di condizioni a rischio per la malattia (precancerosi, displasia grave, ipertensione…)
Sono comuni test di screening il Pap-test, la mammografia, la misurazione pressione arteriosa o della glicemia, gli esami audiometrici o delle lesioni cutanee (nevi), gli screening pediatrici per fenilchetonuria, displasia congenita dell’anca, galattosemia.
Programma di screening o screening di popolazione. Alcuni test di screening sono utilizzati all’interno di veri e propri programmi di sanità pubblica, i programmi di screening o screening di popolazione. Uno screening di popolazione è un programma di sanità pubblica organizzato in tutte le sue parti, che consiste nell’invito attivo a sottoporsi ad un test (test di screening) rivolto a tutti i componenti di una popolazione. I soggetti positivi a questo test di screening saranno poi sottoposti ad ulteriori esami diagnostici (anche mediante lo utilizzo di uno o più test diagnostici). Lo scopo è individuare gli individui con segni diagnosticabili di una data malattia che non si è ancora manifestata clinicamente, al fine di avviali precocemente ad un trattamento. Quindi la diagnosi della malattia avviene durante la fase pre-clinica della sua storia naturale (è quindi un intervento di prevenzione secondaria) e la precocità del trattamento modifica favorevolmente la prognosi. Un esempio sono i programmi nazionali di screening oncologico attualmente attivi in Italia che riguardano lo screening del tumore alla mammella ed al collo dell’utero nelle donne ed il tumore al colon-retto in uomini e donne.
5.1 Risultati di uno studio di diagnosi
In EBN, gli studi diagnosi hanno quasi sempre lo scopo di verificare la validità di un test diagnostico di verificarne la superiorità rispetto ad un altro. La validità di un test viene misurata mediante la sua capacità di fornire risultati conformi al vero. Si usano i seguenti indici:
Sensibilità e specificità (dette anche probabilità pre-test)
Valore predittivo positivo e negativo (probabilità post-test)
Rapporto di verosimiglianza positivo e negativo
In tutti gli studi di diagnosi la validità di un test diagnostico è valutata rispetto ad un gold standard che rappresenta lo standard di riferimento. I risultati di validità del test in studio sono sempre relativi al test di riferimento utilizzato.
La tabella di contigenza prevede
Test | Positivi al gold standard | Negativi al gold standard | Tot |
---|---|---|---|
Positivi al test | a | b | a+b |
Negativi al test | c | d | c+d |
Tot | a+c | b+d | a+b+c+d |
Dove:
a = veri positivi
b = falsi positivi
c = falsi negativi
d = veri negativi
Sensibilità. La sensibilità risponde alla domanda: «quanti, degli individui malati sottoposti al test, sono risultati positivi?». Un test molto sensibile identifica correttamente tutti gli ammalati.
\(Se = \frac{a}{a+c}\)
La sensibilità massima (100%) si ha quando l’applicazione del test a individui sicuramente malati non produce falsi negativi (c = 0).
Specificità. La specificità risponde alla domanda: «quanti, degli individui sani sottoposti al test, sono risultati negativi?» Un test molto specifico identifica correttamente tutti gli individui sani.
\(Sp = \frac{d}{b+d}\)
La specificità massima (100%) si ha quando l’applicazione del test a individui sicuramente sani non produce falsi positivi (b = 0).
Sensibilità e specificità sono proprietà intrinseche del test e sono dette anche probabilità pre-test. Devono essere valutate in sede di pianificazione in base al problema specifico.
Influenza del valore di soglia (cut-off). I test possono anche essere di tipo quantitativo, fornendo risultati numerici misurabili su una scala numerica (come per es. il titolo anticorpale, glicemia, piastrine ecc). Per i test quantitativi occorre stabilire un valore critico (soglia o cut-off), che rappresenta il limite di separazione tra «positività» e «negatività» del test. La scelta del valore di cutoff influenza la sensibilità e la specificità del test: se diminuisco il livello di cutoff, aumento la sensibilità del test (a discapito della specificità); se lo aumento, aumento anche la specificità del test (a discapito della sensibilità).
Curva ROC La curva ROC (Receiver Operating Characteristic curve) permette di visualizzare sensibilità e specificità per differenti valori di cutoff. Nella curva ROC la sensibilità (proporzione veri positivi) e la proporzione di falsi positivi (1- specificità) sono calcolati per differenti cut off del test. La curva “migliore” è quella che si avvicina all’angolo in alto a sinistra dove abbiamo il massimo del rapporto tra sensibilità e di specificità , riducendo il rischio di falsi positivi e negativi. Le ROC possono essere confrontate tra i diversi test utilizzati per la diagnosi della stessa patologia. Il test migliore sarà quello che per ogni valore di cutoff da i valori migliori di sensibilità e specificità. Si noti che la bisettrice è la curva su cui Se = 1-Sp, il test ha la stessa probabilità di dare veri e falsi positivi (test non informativo, cioè inutile. {figura roc}
Valore predittivo. Sensibilità e specificità sono probabilità pre test e predeterminate da studi effettuati in condizioni controllate. Nella pratica clinica, una volta eseguito il test, sensibilità e specificità perdono importanza. Infatti nell’attività diagnostica ambulatoriale o di reparto, diventano più importanti due probabilità post-test: il valore predittivo positivo (VPP) ed il valore predittivo negativo(VPN).
Valore predittivo positivo VPP. Il valore predittivo positivo è la proporzione di veri malati rispetto a tutti i positivi al test. Risponde alla domanda: «quanti, degli individui risultati positivi al test, sono veri malati?».
\(VPP = \frac{a}{a+b}\)
Un VPP massimo (100%) si ottiene quando l’applicazione del test non produce falsi positivi (b = 0).
Valore predittivo negativo VPN. Il valore predittivo negativo è la proporzione di veri sani rispetto a tutti i negativi al test. Risponde alla domanda: «quanti, degli individui risultati negativi al test, sono veri sani?».
\(VPN = \frac{d}{c+d}\)
Un VPN massimo (100%) si ottiene quando l’applicazione del test non produce falsi negativi (c = 0).
5.2 Valutazione degli studi diagnostici
Sensibilità e specificità sono inversamente relazionate: al crescere dell’una diminuisce l’altra. In fase di pianificazione il professionista deve valutare se utilizzare un test molto sensibile (e quindi poco specifico) o un test molto specifico (e quindi poco sensibile),
In generale, test sensibili (pochi falsi negativi) si usano quando la mancata diagnosi di un malato ha un alto costo per il paziente (morte, grave decorso ecc.). Per es. nei test di screening è preferibile usare test sensibili anche a discapito della specificità, perchè tutti gli individui positivi (compresi i falsi positivi) sono poi sottoposti ad indagini confirmatorie. Anche nel processo di diagnosi differenziale vengono applicati test sensibili che, quando negativi, escludono una o più malattie.
Un test specifico (pochi falsi positivi) è particolarmente utile per confermare una diagnosi già effettuata con altri mezzi (es. test screening). Infatti, un test specifico raramente è positivo in assenza della malattia. Per es. per un test diagnostico (confirmatorio) uso test specifico (pochi falsi positivi). I test altamente specifici sono anche utili quando un risultato falso positivo risulta particolarmente dannoso (per es. invio in chirurgia in base al risultato dei test).
I valori predittivi invece vanno valutati in base alla prevalenza della condizione che si vuole diagnosticare con il test. La loro performance non dipende infatti solo dalle caratteristiche intrinseche del test (sensibilità e specificità) ma anche con la diffusione della malattia che si vuole diagnosticare in una specifica popolazione.
La prevalenza di una malattia in una popolazione è calcolabile da una tabella di contingenza:
\(Prevalenza = \frac {a+c}{a+b+c+d}\)
In generale, il VPP aumenta con l’aumentare della prevalenza della malattia nella popolazione (cioè dei veri positivi) perchè diminuisce la probabilità che il test restituisca un falso positivo. Per avere un accettabile VPP anche quando la prevalenza è relativamente bassa (quindi nella popolazione ci sono pochi malati) è consigliabile usare un test molto specifico che assicura pochi falsi positivi.
Al contrario, il VPN diminuisce con l’aumentare della prevalenza perchè aumenta la probabilità che il test restituisca un falso negativo. Per avere un accettabile VPN quando la prevalenza è relativamente alta è consigliabile utilizzare un test molto sensibile che assicura pochi falsi negativi.
Rapporto di verosimiglianza del test. I valori predittivi sono la misura più utile per giudicare la validità del test ma dipendono dalle condizioni nelle quali è stata effettuata la misura (ovvero sono specifiche dello studio). Il rapporto di verosimiglianza (RV) è un rapporto di odds che non dipende dalla prevalenza della condizione che si vuole diagnosticare ed è quindi la misura più utile per giudicare la validità clinica del test dai dati di uno studio.
Rapporto di verosimiglianza di un risultato positivo: esprime quante volte è più probabile che il test risulti positivo in un soggetto malato rispetto ad un soggetto sano. Tanto maggiore sarà RVP, tanto più utile sarà il test nell’individuare i veri positivi \((RVP > 5)\).
\(RVP = \frac{\frac {a}{a+c}}{\frac {b}{b+d}}\)
dove:
\(\frac {a}{a+c}\) = % veri positivi
\(\frac {b}{b+d}\) = % falsi positivi
Questa formula è equivalente a:
\(RVP = \frac {sensibilità}{1-specificità}\)
Rapporto di verosimiglianza di un risultato negativo: esprime quante volte è più probabile che il test risulti negativo in un soggetto sano rispetto ad un soggetto malato. Tanto minore sarà RVN \((RVN < 0.2)\), più utile sarà il test nell’individuare i veri negativi.
\(RVN = \frac{\frac {c}{a+c}}{\frac {d}{b+d}}\)
dove:
\(\frac {c}{a+c}\) = % falsi negativi
\(\frac {d}{b+d}\) = % veri negativi
Questa formula è equivalente a:
\(RVP = \frac {1-sensibilità}{specificità}\)
5.3 Principali bias studi diagnostici
Scorretta selezione dei pazienti o del gold standard
Applicazione in contesti dove la prevalenza è diversa da quella presente negli studi dove il test diagnostico è stato verificato
5.4 Esempio
Valutazione nuovo test dolore in pazienti operati spalla. Gold standard positivi negativi Nuovo test positivo Veri + 83 Falsi + 8 Valore pred + 83/91= 91.2% negativo Falsi - 19 Veri – 65 Valore pred – 65/84=77.4% TOT 102 73 175 Sensibilità 83/102=81.3% Specificità 65/73=89.4% Prevalenza reale= 102 / 175 = 58.3 Rapporto di verosimiglianza RV+ = 0.813 / (1 – 0.894) = 7.6 Angelo Solimini - Epidemiologia, statistica 08/02/21 43
Analisi con Openepi
Analisi con Openepi
interpretazione Il dolore ha una prevalenza reale di 102/175= 58% nella popolazione di pazienti operati alla spalla Il nuovo test ha una buona specificità ma non ha una grande sensibilità I valori predittivi ci danno la probabilità di sbagliarci quando abbiamo un risultato di un test. In questo caso un individuo con nuovo test positivo ha una probabilità VP+=91.2% di avere la dolore post operatorio (ci sbagliamo in 8.8 casi su 100). Più spesso ci sbagliamo nel definire un soggetto senza dolore quando il nuovo test è negativo (VP-=77.4%). Il rapporto di verosimiglianza esprime una misura di quanto il test è utile per individuare la condizione in esame, ovvero se conviene o no utilizzarlo. Il valore RV+ di 7.6 indica un test moderatamente utile nella corretta diagnosi di un soggetto veramente malato
Esercizio test diagnostico Come infermiere di comunità stai valutando l’implementazione sul territorio di programmi di prevenzione secondaria. Effettui la ricerca e trovi un articolo dove viene valutata l’efficacia di un test di screening FOVB (ricerca sangue occulto nelle feci) per l’individuazione in fase precoce di individui malati di tumore al colon nella ASL Lazio Sud. Il test FOVB viene confrontato con i gold standard (istologico dopo colonscopia). Dallo studio deduci i seguenti risultati: 150 pazienti sono risultati positivi ad entrambi i test, 840 positivi solo al gold standard, 10 negativi solo al gold standard ma positivi al nuovo test, 1000 negativi ad entrambi i test. Se la prevalenza reale della patologia diminuisse del 50%, quale parametro del test dovreste migliorare per mantenere un alto valore predittivo positivo (>90%) del test di screening?
Analisi con Openepi
interpretazione La scelta del test diagnostico è basata su considerazioni di costo, sul significato in termini sanitari dei falsi positivi e falsi negativi, e sulla prevalenza della condizione che si vuole diagnosticare nella popolazione da cui proviene il paziente in esame. Il kcolon ha una prevalenza reale di 9.8 ogni 100 individui Il FOVB ha una buona specificità. La mancata diagnosi ha un costo elevato (si manca una diagnosi di tumore!). Viceversa non ha una grande sensibilità. Però i falsi positivi soffrono “solo” di ansia ingiustificata ma non avranno altre conseguenze ( a parte l’endoscopia…). Inoltre il FOVB ha altri vantaggi (economico, non invasivo, accettato dalla popolazione) I valori predittivi ci danno la probabilità di non sbagliarci quando abbiamo un risultato di un test. In questo caso un individuo con FOVB positivo ha una probabilità VP+=67.7% di avere la Kcolon (ci sbagliamo in 42 casi su 100). Molto raramente ci sbagliamo quando il FOVB è negativo (VP-=99.5%), il che è una caratteristica desiderabile vista la gravità della malattia e l’importanza della diagnosi precoce nel miglioramento della prognosi. Il rapporto di verosimiglianza esprime una misura di quanto il test è utile per individuare la condizione in esame, ovvero se conviene o no utilizzarlo. In questo caso i valori sono accetabili per diagnosticare la malattia (LR+=18.3) ma meno per diagnosticare l’assenza di malattia, (LR- =0.9). Se la prevalenza diminuisce bisogna scegliere un test con maggiore sensibilità per mantenere un alto VP+