Test di screening e diagnostici: alcune considerazioni

06/02/2018

Articolo correlato: Test multipli nel contesto clinico

Si è portati a pensare ai test come ad uno strumento che fornisce una risposta netta, definitiva, inequivocabile ma non è precisamente così. In sintesi:

test di screening e test diagnostici hanno obiettivi e caratteristiche diversi
i test non sono “perfetti”: cosa indicano i dati di sensibilità e specificità
i test vengono a volte usati in modo improprio

Se ne parla in questo articolo, ma è importante ricordare che il risultato di un test non si dovrebbe considerare una sorta di “verità rivelata” ma uno strumento, seppure utilissimo e spesso indispensabile per arrivare ad una diagnosi. Si arriva ad una diagnosi certa solo mettendo assieme elementi diversi: innanzitutto l’anamnesi, poi l’esame obiettivo e la sintomatologia, i dati strumentali (esami, diagnosi per immagini, ecc.) e i test, l’osservazione dell’evoluzione della malattia.
I test sono uno strumento dell’epidemiologia, della prevenzione e del processo diagnostico, non una risposta semplice a comande complesse.

Screening e diagnostica

Un primo elemento da tenere in considerazione è la distinzione tra test di screening e test diagnostici o confermativi. Quando si deve fare una analisi epidemiologica per individuare la prevalenza di una malattia in una popolazione si usano dei test minimamente invasivi, economici e veloci.

In epidemiologia⁽¹⁾ si definisce prevalenza la misura di un determinato evento (malattia, stato infettivo, ecc.) in una popolazione; si calcola come il rapporto tra i soggetti che esprimono l’evento in esame e la somma di quelli che esprimono o meno l’evento (normalmente la totalità della popolazione). Il valore percentuale (o un numero tra 0 e 1 oppure in percentuale) che si ottiene è quindi un dato statico, la fotografia di una situazione che dà la misura del fenomeno ma nulla dice riguardo alla sua dinamica.
Dinamica che si valuta invece con il dato di incidenza che misura l’insorgenza di nuovi eventi in un certo periodo di tempo (un primo screening al “tempo zero” e un secondo screening a distanza di tempo); si calcola come il rapporto tra il numero di nuovi casi e la somma dei nuovi casi più i soggetti a rischio (non tutta la popolazione ma solo i soggetti che risultavano sani alla prima indagine). L’incidenza fornisce quindi una misura di quando velocemente si diffonde un patogeno.

L’obiettivo è quello di individuare se la malattia è presente o meno e in che misura in quella popolazione e per questo si privilegiano test con buona sensibilità, accettando la possibilità di falsi positivi. Al contrario, un test diagnostico o confermativo si usa normalmente su un individuo sintomatico o che è risultato positivo al test di screening e si è quindi disposti ad usare anche procedure più complesse e costose ponendo particolare attenzione al dato di specificità in quando è fondamentale evitare i falsi positivi.
A volte, test sviluppati come test di screening con buone performance vengono usati anche come test diagnostici.

In medicina umana lo screening è anche uno strumento importante di prevenzione in quanto permette di evidenziare malattie nella fase asintomatica/preclinica: si pensi alla mammografia e ad altri test il cui obiettivo non è tanto quello di una diagnosi definitiva ma di avviare i soggetti positivi al test ad eseguire ulteriori accertamenti volti a confermare od escludere la patologia in esame.

Quando si fa un'analisi epidemiologica cambia poco se uno o due test su centinaia risultano errati: si privilegia la facilità di esecuzione e l'economicità del test rispetto alla sua accuratezza in quanto l'obiettivo è un dato statistico; oppure, come succede in umana, un risultato positivo nel quadro di una campagna di screenig è un campanello d'allarme per ulteriori approfondimenti. Un test diagnostico, al contrario, deve essere il più accurato possibile.

La sensibilità indica la capacità di un test di individuare correttamente i malati (pochi falsi negativi) mentre la specificità indica la capacità di individuare correttamente i sani (pochi falsi positivi). Questo è un dato che viene fornito dai produttori e da studi indipendenti⁽²⁾.

I dati ottenuti sulla base del campione devono poi essere corretti per rappresentare la popolazione e questo si ottiene con un calcolo statistico: la dicitura “95% CI” (intervallo di confidenza) sta ad indicare che quel dato è da considerare vero con una probabilità del 95%.

Il dato di Se/Sp è una caratteristica propria del test ma, una volta noto che un soggetto risulta positivo viene spontaneo chiedersi: “quel soggetto positivo è davvero malato?”, o analogamente: “quel soggetto negativo è davvero sano?”. È abbastanza intuitivo, che la probabilità di una risposta affermativa a queste domande dipenda, oltre che dalla “bontà” del test, anche dalla prevalenza. Se un gatto che proviene da un gattile con molti FeLV positivi risulta positivo al test siamo portati a credere che quel risultato sia corretto e, allo stesso tempo, dubiteremmo di un risultato negativo in quanto forse eseguito precocemente (sieroconversione) o perché si sospetta un caso di regressione non rilevabile dal nostro test.
La statistica ci offre ulteriori parametri per valutare l’attendibilità di un test in relazione alla prevalenza: sono il valore predittivo positivo e negativo. Il valore predittivo positivo (VPP o PPV in inglese) indica la probabilità che un soggetto positivo sia effettivamente malato mentre il valore predittivo negativo (VPN o PNV in inglese) indica la probabilità che un soggetto negativo al test sia effettivamente sano.

VPP e VPN si ottengono applicando dei criteri statistici, sono sì dipendenti da Se/Sp ma, come accennato anche dalla prevalenza⁽³⁾. Il VPP diminuisce col diminuire della prevalenza (cioè minore è la prevalenza maggiore sono i falsi positivi) mentre il VPN aumenta col diminuire della prevalenza (maggiore è la prevalenza maggiore sono i falsi negativi). Ovviamente la prevalenza reale non la sappiamo ma esistono criteri statistici per determinarla.

Ci si aspetta sempre che un test fornisca un risultato positivo o negativo (“sono ammalato o no?”) ma non bisogna dimenticare che anche dietro un dato binario c’è sempre un dato analogico e su questo si stabilisce un valore di cut-off (discrimine) che indica un valore (o un intervallo - range) sotto o sopra il quale il risultato del test si considera positivo o negativo. Senza entrare nei dettagli (e in altri parametri) è chiaro come modificando il valore di cut-off si varia la proporzione rilevata tra sani e malati.

L'accuratezza di un test si misura rapportandone i risultati a quelli ad un test campione (gold standard): in particolare si calcolano sensibilità (Se) e specificità (Sp). La sensibilità indica la capacità di un test di individuare correttamente i soggetti malati (pochi falsi negativi) mentre la specificità indica la capacità di individuare correttamente i sani (pochi falsi positivi). Questi dati dicono molto sull'attendibilità di un test ma non tengono conto del contesto, cioè della prevalenza della malattia nella popolazione di riferimento; cosa che può aiutare a stabilire la probabilità che quel risultato positivo o negativo sia effettivamente tale: i dati che tengono conto della diffusione di una data malattia all'interno di una popolazione sono detti valore predittivo positivo (VPP) e valore predittivo negativo (VPN).

Uso improprio dei test

I test possono essere usati o meglio interpretati in modo improprio:

Test usati in modo palesemente errato
Il caso forse più eclatante è quello dei test per rilevare la presenza del coronavirus (FCoV) che vengono utilizzati per la diagnosi di FIP. Si tratta di un errore palese in quanto, da decenni, tutta la letteratura distingue chiaramente tra infezione da FCoV e FIP. La FIP è provocata da particolari mutazioni del coronavirus (esiste un test Idexx⁽⁴⁾ che rileva due di queste mutazioni patogene con buona specificità) e non dal comunissimo FCoV che è estremamente diffuso tra i gatti e causa solo una diarrea autolimitante spesso nemmeno rilevata dai proprietari. In altri termini un gatto negativo al FCoV non può avere la FIP ma solo una piccolissima parte dei gatti positivi sviluppano la FIP: trattandosi di una malattia letale si possono immaginare le conseguenze derivanti dall’uso improprio di questi test.

Possibilità “intrinseca” di falsi negativi
In questa categoria includiamo “di diritto” i test parassitologici sulle feci (compresi quelli automatizzati che non risentono dell’errore umano nella lettura) in quanto l’escrezione di parassiti non è costante: si può infatti avere un risultato negativo in quanto il parassita in esame non è presente nel campione ma l’animale è comunque affetto da una parassitosi. Sebbene con minore probabilità ciò vale anche per test effettuati su più campioni. In sintesi si possono avere dei falsi negativi “fisiologici” che vanno interpretati dal clinico.
Anche nella citologia si può “non trovare” ciò che si cerca e questo anche quando il campione risulta “diagnostico” (nella citologia non è raro che un campione possa risultare “non diagnostico”, ad esempio quando presenta un contenuto cellulare insufficiente).
Un altro elemento che può indurre falsi negativi è il cosiddetto “periodo finestra” ovvero il periodo intercorrente dal momento dell’infezione a quando si sviluppa un sufficiente livello di anticorpi (sieroconversione) o si ha una replicazione virale di entità tale da poter essere rilevata. Se un animale si è infettato “ieri” e viene testato “oggi” risulterà correttamente negativo al test ma fra un mese sarà positivo.

Test che rilevano parametri non del tutto coerenti con l’obiettivo
I test misurano o rilevano la presenza di un “qualcosa” (un anticorpo o un antigene, il livello di una proteina sierica, ecc.) ma non è detto che questo qualcosa sia coerente con l’obiettivo del test.
Ad esempio i test ELISA per FeLV che ricercano l’antigene p27 (i comuni test ambulatoriali per questa malattia) sono in grado di rilevare solo la forma “progressiva” della malattia e non quella “regressiva”. Se l’obiettivo è quello di sapere se il gatto in questione può o potrà contagiare altri gatti il solo test ELISA (per quanto validissimo nella grande maggioranza dei casi) non è esaustivo in quanto anche i soggetti “regressor” possono ritornare viremici e diventare contagiosi⁽⁵⁾ e in ogni caso non dovrebbero essere utilizzati come donatori per trasfusioni.

Test "sballati" per i motivi più diversi
Sono casi decisamente rari, specie nei laboratori più moderni dove il trattamento dei campioni è automatizzato, ma a volte capita lo stesso: lo scambio di un campione, l'etichetta sbagliata messa da medico, un errore della macchina. Altre volte la causa è da ricercarsi nel prelievo-conservazione-spedizione del campione: alcuni tipi di esami richiedono accortezze particolari e tempi ristretti di analisi. C'è poi sempre l'incognita della spedizione, specie quando avviene su lunghe distanze e si tratta di campioni refrigerati.

Dovrebbe essere ovvio, ma il risultato di un esame strumentale deve sempre essere letto in relazione alla valutazione clinica.

I test sono estremamente importanti non solo in epidemiologia ma, ovviamente, anche nella clinica: nell'interpretare un risultato bisogna tenere presente, oltre i sopracitati parametri caratteristici di una metodologia, alcuni dati di fatto: a volte, purtroppo, i test sono usati impropriamente (es. classico il test FCoV erroneamente usato per la FIP); altre tipologie di test possono dare facilmente dei falsi negativi o risultare non diagnostici; altri ancora non danno un risultato sempre coerente con l'obiettivo (es. sapere se un gatto può essere contagioso). Il risultato di un test diagnostico va quindi sempre letto in relazione allo stato clinico dell'animale e al suo ambiente di provenienza.