Há muitas checklists disponíveis para avaliação e avaliação crítica de estudos de testes diagnósticos, já que o relato é, com frequência, inadequado.[1] [2] No entanto, todos eles incluem alguma variação de três perguntas críticas; [2] [3] que são:
- Este estudo é válido?
- O teste diagnóstico em avaliação distingue com precisão as pessoas que têm e não têm a alteração específica?
- Posso aplicar este teste diagnóstico preciso e válido a um paciente específico?
Avaliação
Como avaliamos se um estudo de teste diagnóstico é válido?
Podemos avaliar se o nosso estudo é válido considerando estas perguntas:
1. Houve uma comparação independente e em caráter cego com um padrão de referência (ouro) de diagnóstico? O que isso significa?
- Que os pacientes no estudo deveriam ter sido submetidos tanto ao teste diagnóstico índice quanto ao padrão de referência (ouro). Por quê? Para confirmar ou refutar os achados do teste índice. A precisão do teste pode ser superestimada se você realizar o teste índice inicialmente em pessoas que você sabe terem a doença e depois separadamente em pessoas saudáveis (estudos caso-controle fazem isso) em vez de realizar os testes índice e de referência no mesmo grupo de pessoas sem saber se elas têm ou não a doença que se está tentando diagnosticar.[4]
- Que as pessoas que avaliam os resultados do teste índice estão em caráter cego para os resultados do padrão de referência. Por quê? Para evitar a polarização dos resultados do teste índice ou do padrão de referência. A interpretação dos resultados do teste de referência, embora já se conheça os resultados do teste índice, pode levar a uma superestimação da precisão do teste índice, especialmente se o teste de referência estiver aberto à interpretação subjetiva.[4] O caráter cego é menos importante se os resultados do teste forem objetivos (por exemplo, testes sorodiagnósticos para tuberculose nos quais os resultados da cultura de escarro são analisados) do que se os resultados exigirem interpretação clínica (por exemplo, imagens de RNM para o diagnóstico de lesão do manguito rotador).
2. O teste diagnóstico foi avaliado em um espectro apropriado de pacientes (como aqueles que um clínico veria na prática)? O que isso significa?
- O estudo incluiu pessoas com todas as apresentações comuns do distúrbio alvo, com sintomas de manifestações precoces, bem como sintomas mais graves, e/ou pessoas com outras alterações que são comumente confundidas com a alteração alvo ao diagnosticar? Por quê? Estudos que incluem apenas pessoas com sintomas óbvios versus pessoas sem sintomas não são muito úteis! Se você puder diagnosticar algo a olho, por que precisaria de um teste diagnóstico?
3. O padrão de referência foi aplicado independentemente do resultado do teste diagnóstico índice? O que isso significa?
- Se o paciente tiver um resultado de teste índice negativo, os pesquisadores às vezes não realizam o teste padrão de referência para confirmar o resultado negativo, especialmente se o teste é invasivo ou arriscado, pois isso pode ser antiético. Para superar isso, os pesquisadores empregam um padrão de referência alternativo para provar que o paciente não tem a alteração alvo, que é o acompanhamento de longo prazo para avaliar que não há efeitos adversos associados à alteração alvo presente sem qualquer tratamento. Por quê? Para confirmar a precisão do teste índice: em outras palavras, que o resultado negativo do teste índice é de fato o resultado correto para o paciente e ele definitivamente não tem a doença.
4. O teste foi validado em um segundo grupo independente de pacientes? O que isso significa?
- Quando um novo teste diagnóstico é avaliado, há o risco de que os resultados da avaliação inicial sejam causados por outros fatores: por exemplo, algo sobre esse grupo específico de pacientes incluídos no estudo (por exemplo, eles representam apenas pacientes com sintomas avançados da doença). Assim, para provar que os resultados são confiáveis e replicáveis, o novo teste diagnóstico deve ser avaliado em um segundo grupo de pacientes independentes (ou teste). Por quê? Se os resultados desse segundo grupo de pacientes forem semelhantes aos resultados do primeiro grupo de pacientes, poderemos ter certeza sobre a precisão do teste. Se nenhum estudo de conjunto de testes tiver sido realizado, talvez seja necessário reservar um julgamento.
Em conclusão: se o estudo que estamos avaliando falhar em algum desses 4 critérios, precisamos considerar se as falhas do estudo invalidam os resultados.
Como avaliamos os resultados do teste?
Existem dois tipos de resultados comumente relatados em estudos de teste diagnóstico. Um diz respeito à precisão do teste e reflete-se na sensibilidade e especificidade, com frequência definida como a capacidade do teste de encontrar verdadeiros positivos para a alteração (sensibilidade) ou negativos verdadeiros para a alteração (especificidade). Um teste diagnóstico ideal não encontra falsos positivos, mas ao mesmo tempo não deixa escapar ninguém com a doença (não encontra falsos negativos) — muito mais fácil dizer do que fazer!
A outra diz respeito ao desempenho do teste na população que está sendo testada e se reflete em valores preditivos (também chamados de probabilidades pós-teste) e razões de probabilidade. Para dar breves definições desses termos, considere este exemplo (baseado na referência[5]):
1000 idosos com suspeita de demência são submetidos a um teste índice e um padrão de referência. A prevalência de demência neste grupo é de 25%. 240 pessoas testaram positivo tanto no teste índice quanto no padrão de referência e 600 pessoas testaram negativo em ambos os testes. As 160 pessoas restantes tiveram resultados imprecisos nos testes.
O primeiro passo é desenhar uma tabela 2x2 como mostrado abaixo. Dizem-nos que a prevalência de demência é de 25%; portanto, podemos preencher a última linha de totais — 25% de 1000 pessoas são 250 — então 250 pessoas terão demência e 750 estarão livres de demência. Nós também sabemos o número de pessoas testando positivo e negativo nos dois testes e assim podemos preencher mais duas células da tabela.
Por subtração, podemos facilmente completar a tabela:
Agora estamos prontos para calcular as várias medidas.
Termo | Definição | Exemplo |
Probabilidade pré-teste = (positivo verdadeiro + falso positivo)/número total de pessoas | Esta medida nos diz a probabilidade de ter uma condição alvo antes de um teste diagnóstico | Neste exemplo: 390/1000 = 0.39 O que isso significa? A probabilidade de um paciente neste estudo ter demência antes dos testes serem realizados |
Sensibilidade (Sn) = a proporção de pessoas com a condição com um resultado de teste positivo | A sensibilidade nos diz o quão bem o teste identifica as pessoas com a condição. Um teste altamente sensível não vai deixar passar muitas pessoas | Em nosso exemplo, a Sn = 240/250 = 0.96 O que significa isso? 10 (4%) pessoas com demência foram falsamente identificadas como não a tendo, ao contrário das 240 (96%) pessoas que foram corretamente identificadas como tendo demência. Isso significa que o teste é muito bom em identificar pessoas com a condição |
Especificidade (Sp) = a proporção de pessoas sem a condição que têm um resultado negativo | A especificidade nos diz o quão bem o teste identifica as pessoas sem a condição. Um teste altamente específico não identificará falsamente muitas pessoas como tendo a condição | No nosso exemplo, a Sp = 600/750 = 0.80 O que significa isso? 150 (20%) pessoas sem demência foram falsamente identificadas como a tendo. Isso significa que o teste é apenas moderadamente bom em identificar pessoas sem a condição |
Valor preditivo positivo (VPP) = proporção de pessoas com teste positivo que apresentam a condição | Essa medida nos informa quão bom é o desempenho do teste nessa população. Depende da precisão do teste (primariamente especificidade) e da prevalência da condição | No nosso exemplo, o VPP = 240/390 = 0.62 O que isso significa? Das 390 pessoas que tiveram um resultado de teste positivo, 62% terão demência |
Valor preditivo negativo (VPN) = proporção de pessoas com teste negativo que não têm a condição | Essa medida nos informa quão bom é o desempenho do teste nessa população. Depende da precisão do teste e da prevalência da condição | No nosso exemplo, o VPN = 600/610 = 0.98 O que isso significa? Das 610 pessoas com teste negativo, 98% não terão demência |
Razão de probabilidade para resultados positivos (RP+) = sensibilidade/% de pessoas falsamente identificadas como portadoras do transtorno | Essa medida nos informa quão bom é o desempenho do teste nessa população. Depende da precisão do teste para resultados positivos (sensibilidade) e da proporção de pessoas falsamente identificadas como tendo a condição alvo A razão de probabilidade de >1 indica que o resultado do teste está associado à doença | Neste exemplo, a RP+ = 96/20 = 4.8 O que isso significa? As pessoas com demência têm 4.8 vezes maior probabilidade de ter um resultado positivo do que alguém sem demência |
Razão de probabilidade para resultados negativos (RP–) = % de pessoas com a condição identificada como não a tendo/% de especificidade | Essa medida nos informa quão bom é o desempenho do teste nessa população. Depende da precisão do teste para resultados negativos (especificidade) e da proporção de pessoas com a condição alvo falsamente identificada como não tendo a condição alvo A razão de probabilidade <1 indica que o resultado está associado à ausência da doença | Neste exemplo RP– = 4/80 = 0.05 O que isso significa? Há 0.05% de chance de alguém com demência ter um teste negativo |
Como aplicar o teste diagnóstico a um paciente específico:
tendo encontrado um estudo de teste diagnóstico válido e decidido que sua precisão é suficientemente alta para torná-lo uma ferramenta útil, aqui estão alguns pontos úteis a serem considerados ao aplicar o teste a um paciente específico:
- O teste está disponível, acessível e preciso em nosso cenário?
- Uma estimativa clinicamente sensata das probabilidades pré-teste do paciente pode ser feita a partir de experiência pessoal, estatísticas de prevalência, bancos de dados de prática ou estudos primários?
- Os pacientes do estudo são semelhantes ao paciente em questão?
- Quão atual é o estudo que estamos analisando — as evidências mudaram desde a publicação do estudo?
A probabilidade pós-teste afetará o manejo do paciente específico?
- O resultado poderia levar o médico a um limiar de tratamento- teste: por exemplo, os resultados do teste poderiam interromper todos os testes adicionais? Ou seja, descarte a condição alvo para que o médico pare de perseguir essa possibilidade, ou faça um diagnóstico firme da condição alvo e passe a escolher as opções de tratamento adequadas.
- O paciente estará disposto a fazer o teste?
- Os resultados do teste ajudarão o paciente a alcançar seus objetivos?
Avaliação crítica
Com base nas informações fornecidas na seção de Avaliação acima, a tabela abaixo fornece alguns pontos de verificação básicos a serem observados ao avaliar criticamente um estudo de teste diagnóstico. Esta lista não é abrangente, mas deve cobrir todos os principais problemas. O foco principal da lista são as duas primeiras questões baseadas na validade e na importância dos resultados.
Referências
- Bossuyt PM, Reitsma JB, Bruns DE, et al. Towards a complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Clin Chem 2003;49:1–6. https://www.ncbi.nlm.nih.gov/pubmed/12507953
- CASP UK. Critical Appraisal Skills Programme (CASP) https://www.casp-uk.net (last accessed 9 March 2017)
- Sackett DL, Straus SE, Richardson ES, et al. Evidence-based medicine; how to practice and teach EBM. 2nd ed. Edinburgh: Churchill Livingstone, 2000.
- Lijmer JG, Mol BW, Heisterkamp S, et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999;282:1061–1066. https://www.ncbi.nlm.nih.gov/pubmed/10493205
- Centre for Evidence Based Medicine. https://www.cebm.net/likelihood-ratios/ (last accessed 9 March 2017).