SciELO - Scientific Electronic Library Online

 
vol.42 issue6Methods for estimating prevalence ratios in cross-sectional studiesUse of geographic information systems in rabies vaccination campaigns author indexsubject indexarticles search
Home Page  

Services on Demand

Article

Indicators

Related links

Share


Revista de Saúde Pública

Print version ISSN 0034-8910

Rev. Saúde Pública vol.42 n.6 São Paulo Dec. 2008

 

ARTIGOS ORIGINAIS

 

Modelagem Bayesiana do risco de infecção tuberculosa para estudos com perdas de seguimento

 

Bayesian model for the risk of tuberculosis infection for studies with individuals lost to follow-up

 

Modelaje Bayesiano del riesgo de infección tuberculosa para estudios con pérdidas de seguimiento

 

 

Edson Zangiacomi MartinezI; Antonio Ruffino-NettoI; Jorge Alberto AchcarI; Davi Casale AragonII

IDepartamento de Medicina Social. Faculdade de Medicina de Ribeirão Preto (FMRP). Universidade de São Paulo. Ribeirão Preto, SP, Brasil
IIPrograma de Pós-Graduação em Saúde na Comunidade. FMRP. Ribeirão Preto, SP, Brasil

Correspondência | Correspondence

 

 


RESUMO

OBJETIVO: Desenvolver um modelo estatístico baseado em métodos Bayesianos para estimar o risco de infecção tuberculosa em estudos com perdas de seguimento, comparando-o com um modelo clássico determinístico.
MÉTODOS: O modelo estocástico proposto é baseado em um algoritmo de amostradores de Gibbs, utilizando as informações de perdas de seguimento ao final de um estudo longitudinal. Para simular o número desconhecido de indivíduos reatores ao final do estudo e perdas de seguimento, mas não reatores no tempo inicial, uma variável latente foi introduzida no novo modelo. Apresenta-se um exercício de aplicação de ambos os modelos para comparação das estimativas geradas.
RESULTADOS: As estimativas pontuais fornecidas por ambos os modelos são próximas, mas o modelo Bayesiano apresentou a vantagem de trazer os intervalos de credibilidade como medidas da variabilidade amostral dos parâmetros estimados.
CONCLUSÕES: O modelo Bayesiano pode ser útil em estudos longitudinais com baixa adesão ao seguimento.

Descritores: Tuberculose, epidemiologia. Fatores de Risco. Técnicas de Estimativa. Teorema de Bayes. Modelos Matemáticos.


ABSTRACT

OBJECTIVE: To develop a statistical model based on Bayesian methods to estimate the risk of tuberculosis infection in studies including individuals lost to follow-up, and to compare it with a classic deterministic model.
METHODS: The proposed stochastic model is based on a Gibbs sampling algorithm that uses information of lost to follow-up at the end of a longitudinal study. For simulating the unknown number of reactors at the end of the study and lost to follow-up, but not reactors at time 0, a latent variable was introduced in the new model. An exercise of application of both models in the comparison of the estimates of interest was presented.
RESULTS: The point estimates obtained from both models are near identical; however, the Bayesian model allowed the estimation of credible intervals as measures of precision of the estimated parameters.
CONCLUSIONS: The Bayesian model can be valuable in longitudinal studies with low adherence to follow-up.

Descriptors: Tuberculosis. Epidemiology. Risk factors. Estimation techniques. Bayes' theorem. Mathematical models.


RESUMEN

OBJETIVO: Desarrollar un modelo estadístico en basado en métodos Bayesianos para estimar el riesgo de infección tuberculosa en estudios con pérdidas de seguimiento, comparándolo con un modelo clásico deterministico.
MÉTODOS: El modelo estocástico propuesto se basa en un algoritmo de muestreadotes de Gibbs, utilizando las informaciones de pérdidas de seguimiento al final de un estudio longitudinal. Para simular el número desconocido de individuos reactores al final del estudio y pérdidas de seguimiento, pero no reactores en el tiempo inicial, una variable latente fue introducida en el nuevo modelo. Se presenta un ejercicio de aplicación de ambos modelos para comparación de las estimaciones generadas.
RESULTADOS: Las estimaciones puntuales suministradas por ambos modelos son próximas, pero el modelo Bayesiano presentó la ventaja de traer los intervalos de credibilidad como medidas de variabilidad muestral de los parámetros estimados.
CONCLUSIONES: El modelo Bayesiano puede ser útil en estudios longitudinales con baja adhesión al seguimiento.

Descriptores: Tuberculosis, epidemiología. Factores de Riesgo. Técnicas de Estimación. Teorema de Bayes. Modelos Matemáticos.


 

 

INTRODUÇÃO

A tuberculose é um importante problema de saúde pública, com cerca de nove milhões anuais de novos casos e responsável por dois milhões de óbitos a cada ano.10 A magnitude da doença está associada à desigualdade social (e portanto a pobreza, má distribuição de renda, más condições de alimentação, transporte e de trabalho), à urbanização acelerada, bem como ao envelhecimento da população, movimentos migratórios e ao advento da Aids. No Brasil, o coeficiente de incidência foi de 42 por 100.000 em 2005. O País ocupa a 16.ª posição em um ranking de 22 países onde se estima que ocorram 80% dos casos de tuberculose do mundo todo.21 Em um país de alta prevalência de tuberculose como o Brasil, as ações para o diagnóstico precoce e seu efetivo tratamento são de grande importância.

Os modelos epidemiométricos são ferramentas úteis para compreensão da dinâmica da tuberculose, podendo nortear políticas públicas de rastreamento e explicar o impacto de outras infecções, por exemplo, pelo HIV. Estes modelos utilizam conhecimento da biologia da propagação das doenças, buscando quantificar elementos da dinâmica da transmissão do agente infeccioso, para evidenciar efeitos de fatores demográficos e epidemiológicos sobre o comportamento da transmissão. Na literatura médica, vários autores têm proposto modelos determinísticos para descrever a dinâmica da tuberculose pulmonar.3,5,8,12,19 Em especial, tratando-se da estimação do risco anual da infecção tuberculosa (è), Ruffino-Netto & Arantes13 propuseram o uso da expressão è = (1/t) ln (A0/At), onde A0 é o número inicial de indivíduos não infectados no início da contagem de tempo (tempo t=0) e At é o número de indivíduos não infectados ou que permanecem virgens de infecção, decorrido certo tempo t (em anos). Este modelo é ainda bastante utilizado em estudos da epidemiologia da tuberculose, como no trabalho de Kusano et al11 sobre o risco anual da infecção tuberculosa na população escolar e residente no Distrito Federal, em 1997.

Para obter uma estimativa do risco da infecção tuberculosa em um intervalo de tempo, Ruffino-Netto14 propôs um modelo baseado em equações diferenciais, capaz de operar na situação onde há perdas de seguimento. O presente artigo teve por objetivo desenvolver um modelo baseado em um método Bayesiano6,7,17 de inferência estatística, comparando-o ao modelo de Ruffino-Netto.14 Para simular o número desconhecido de indivíduos reatores ao final do estudo e perdas de seguimento, mas não reatores no tempo inicial, uma variável latente foi introduzida no novo modelo.18 O modelo proposto tem a vantagem de apresentar medidas para a variabilidade amostral (na forma de intervalos de credibilidade) para os parâmetros de interesse.

 

MÉTODOS

Estimação pelo modelo determinístico

Suponhamos que em um dado momento, efetuamos a prova tuberculínica em K indivíduos e encontramos que R0 são reatores e N0 são não reatores à prova. Portanto, K = R0 + N0. Posteriormente, no tempo t, repetimos o mesmo levantamento e encontramos dentre os N0 não reatores iniciais N indivíduos que permanecem na categoria de não reator, I indivíduos que apresentam conversão tuberculínica, e Pn indivíduos são perdidos de seguimento. Notar que N + I + Pn = N0. Dentre os R0 reatores iniciais, R continuam reatores e Pr são perdidas de seguimento. Temos por objetivo encontrar è, o risco de infecção tuberculosa entre estes indivíduos, levando em consideração que uma parcela foi perdida de seguimento.

Considerando ainda as taxas de transferência λ1, λ2 e λ3, de um estado a outro,15 sendo λ1 a taxa de transferência do estado N ao estado Pn, λ2 a taxa de transferência de I a Pi, e λ3 a taxa de transferência de R a Pr. Aqui, Pi é o número (desconhecido) de indivíduos infectados e perdidos no tempo t. Vamos considerar que estas taxas permanecem constantes dentro do intervalo de tempo entre os dois levantamentos. Para encontrar θ, Ruffino-Netto 14 utiliza dois pressupostos. O primeiro tem por base o conhecimento que a reversão tuberculínica é um fato cuja ocorrência, além de pouco freqüente, envolve alguns anos após o organismo previamente infectado conseguir esterilizar o bacilo de Koch nele existente. O segundo considera que a infecção primária (sem complicações) não constitui, por si só, um fator que aumente a mortalidade e/ou leve ao maior "desaparecimento" das pessoas durante um estudo longitudinal. Portanto, assumimos que as taxas de transferência entre os estados de Pn a I, de I a N, de Pn a N, de Pi a I e de Pr a R são iguais a zero. Assumimos ainda que λ2 é igual a λ3, e, por simplicidade, denotaremos estas duas taxas de transferência por λ2. Notar que o risco de infecção è é a taxa de transferência do estado N ao I.

Utilizando equações diferenciais lineares, Ruffino-Netto14 apresentou o seguinte sistema de três equações:

Considerar, por exemplo, que efetuamos a prova tuberculínica em 1.100 indivíduos, sendo N0 = 1000 não reatores à prova e R0 = 100 reatores. Digamos que, no tempo t, N = 880 indivíduos são não reatores (ou seja, continuem virgens de infecção e não perdidos de seguimento), I = 10 apresentam conversão tuberculínica e Pn = 110 são perdidos de seguimento. Sabemos ainda que, dentre os 100 reatores iniciais, R = 90 permanecem reatores e Pr = 10 são perdidos de seguimento no tempo t. Considerando t = 1 ano, das equações apresentadas, temos λ1 = 0,1166, λ2 = 0,1054 e θ= 0,0112. Portanto, temos um risco de infecção igual a 1,12% ao ano, entre estes indivíduos.

Proposta de um modelo Bayesiano

Considerando T0 uma variável aleatória associada ao resultado da prova tuberculínica no tempo inicial, assumindo 0 (zero) se não reator e 1 se reator, e T1 uma variável aleatória associado ao resultado da prova tuberculínica no tempo t, novamente assumindo 0 se não reagente e 1 se reagente. Para uma abordagem estocástica do problema, consideramos o risco de infecção è como a probabilidade condicional P(T1 = 1 | T0 = 0) de um indivíduo ser infectado antes do tempo t, dado que era livre da infecção no tempo inicial. Por outro lado, assumimos que a probabilidade condicional P(T1 = 1 | T0 = 1) de um indivíduo ser reator ao tempo t, dado que já era reator no tempo inicial é igual a 1. Assim, P(T1 = 0 | T0 = 0) = 1 - θ e P(T1 = 0 | T0 = 1) = 0. Consideramos ainda a probabilidade P(T0 = 1) = β. Para discriminar os indivíduos perdidos de seguimento dos presentes ao final do estudo, consideramos ainda a variável S, que assume 0 para os indivíduos perdidos de seguimento e 1 caso contrário. Assim, nesta abordagem, temos que ë1 = P( S = 0 | T1 = 0, T0 = 0) e λ2 = P( S = 0 | T1 = 1), ou seja, λ1 é a probabilidade de perda de seguimento, dado que o indivíduo é não reator no início e no final do estudo, e λ2 é a probabilidade de perda de seguimento, dado que o indivíduo é reator ao final do estudo.

A Tabela 1 apresenta as freqüências absolutas encontradas no cruzamento de S, T0 e T1, considerando a notação introduzida na Seção anterior. Assumindo a não ocorrência da reversão tuberculínica dentro do seguimento, notar que a freqüência associada à situação onde S = 1, T1 = 0 e T0 = 1 é necessariamente igual a zero. Com base em regras de probabilidade condicional, encontramos que a chance de termos um indivíduo simultaneamente presente ao final do estudo (S=1), reator ao final do estudo (T1 = 1), mas não reator no início (T0 = 0) é

 

As probabilidades associadas às demais combinações entre S, T0 e T1 são exibidas na Tabela 2.

Seja o vetor de parâmetros de interesse ξ = (θ, λ1, λ2, β)´. Utilizaremos então uma abordagem Bayesiana para a estimação destas quantidades. Para isto, considere no modelo a variável Pi, o número de indivíduos reatores ao final do estudo e perdidos de seguimento, mas não reatores no tempo inicial. Esta variável não pode ser observada diretamente da amostra, mas podemos atribuir a ela uma distribuição de probabilidade binomial, assim definida:

A função de verossimilhança para ξ é dada pelo produto entre cada uma das probabilidades exibidas na Tabela 2 (exceto as probabilidades da última coluna, associadas aos totais), elevadas às contagens apresentadas na Tabela 1, ou seja,

Esta função tem por objetivo a caracterização da distribuição conjunta dos dados amostrais. Dois tipos de informação são considerados pelo método Bayesiano: a proveniente do conhecimento do pesquisador e aquela contida nos dados observados, aqui representa por L(î). Se, por um lado, o método tradicional de inferência estatística baseia-se somente nos dados amostrais, os modelos Bayesianos representam o conhecimento do pesquisador por uma distribuição de probabilidades que será calibrada pela observação dos dados. A informação vinda do conhecimento do pesquisador é chamada de a priori, enquanto aquela já calibrada pela observação dos dados é chamada a posteriori. Dado que as quantidades θ, λ1, λ2 eβ são interpretadas como probabilidades, é conveniente atribuir a estes parâmetros uma distribuição de probabilidade beta, dada a capacidade desta distribuição assumir valores dentro do intervalo de zero a um. Desta forma, assumindo as distribuições a priori independentes θ ~ Beta(aθ,bθ ),β ~ Beta(aβ ,bβ ), λ1 ~ Beta(a1,b1 ) e λ2 ~ Beta(a2,b2 ), a distribuição a posteriori é dada pelo produto entre L(ξ) e a distribuição conjunta a priori de θ, λ1, λ2 e β. As distribuições condicionais a posteriori são

A estimação Bayesiana de β independe da variável latente Pi. Considerando a estimativa Bayesiana de cada parâmetro dada pela média da sua respectiva distribuição condicional a posteriori, temos que β é estimado por R0 + aβ dividido por K + aβ + bβ. Os demais parâmetros, θ, λ1 e λ2, não podem ser assim diretamente estimados, dado que as suas distribuições condicionais a posteriori dependem de Pi. Por outro lado, podemos simular as distribuições destes parâmetros por meio do algoritmo de amostradores de Gibbs (Casella & George),2 facilmente implementado em programas computacionais como o WinBugs.16

 

RESULTADOS

Seja o exemplo apresentado da prova tuberculínica em Métodos, de aplicação da prova tuberculínica em 1.100 indivíduos, sendo N0 = 1000, R0 = 100, N = 880, I = 10, Pn = 110, R = 90, Pr = 10 e t = 1. Para o modelo Bayesiano proposto, buscamos especificar distribuições a priori não-informativas, ou seja, distribuições de probabilidade que têm por intenção trazer pouco poder explanatório ao parâmetro desconhecido de interesse. Assim, consideramos aθ, = bθ = aβ = bβ = a1 = b1 = a2 = b2 = 0,5 (ver motivação em Box & Tiao1). Usando o programa de computador WinBugs,16 inicialmente foram geradas 10 mil amostras utilizando o algoritmo proposto, que foram descartadas para eliminar o efeito dos valores iniciais (burn-in samples). A seguir, 500 mil amostras foram geradas e selecionamos valores em saltos tamanho 10 para a obtenção de observações independentes. A convergência do algoritmo foi verificada graficamente e usando métodos usuais, como o critério de Gelman & Rubin.9

A Tabela 3 compara as estimativas Bayesianas com as fornecidas pelo modelo determinístico. Os intervalos de credibilidade 95% são versões Bayesianas dos intervalos de confiança gerados pelos métodos tradicionais de inferência estatística. As estimativas pontuais fornecidas por ambos os modelos são próximas, mas o modelo Bayesiano tem a vantagem de trazer os intervalos de credibilidade como medidas da variabilidade amostral dos parâmetros estimados.

 

 

Para analisar os efeitos da especificação das distribuições a priori sobre os nossos resultados, conduzimos uma análise de sensibilidade, onde estimativas Bayesianas foram obtidas para várias possibilidades de aθ, bβ, aβ, bβ, a1, b1, a2 e b2. Observamos que as médias das distribuições a posteriori não foram muito diferentes daquelas apresentadas na Tabela 3, quando as médias das distribuições a priori foram próximas àquelas encontradas pelo modelo determinístico. No entanto, as estimativas dos parâmetros sofrem efeitos mais expressivos quando as médias das distribuições a priori são maiores que 50%.

Para verificar o desempenho do modelo Bayesiano em uma situação onde o número de perda de seguimento é maior, simulamos um conjunto de dados onde λ1 = 25%, λ2 = 30% e θ = 1,12%. Considerando K = 1.100, temos N = 742, I = 8, Pn = 250, R = 70 e Pr = 30. As soluções para o modelo determinístico são λ1 = 28,7%, λ2 = 35,7% e θ = 1,11%. Estimativas Bayesianas para λ1, λ2 e θ são, respectivamente, 24,9% (intervalo de credibilidade 95% [IC 95%] 7,4% a 10,9%), 30,2% (IC 95% 21,7% a 39,6%) e 1,18% (IC 95% 0,54% a 2,2%).

 

DISCUSSÃO

O uso de modelos matemáticos no campo das doenças infecciosas está inserido em uma das mais antigas linhas epidemiológicas de investigação, sendo seus primórdios brevemente revisados por Werneck,20 que menciona os trabalhos pioneiros de Bernoulli e Farr, publicados nos séculos XVIII e XIX, respectivamente. No âmbito da tuberculose, o trabalho de Ruffino-Netto15 conceituou os "estados" na história natural da doença - "virgem de infecção", "infectados" e "doentes" - propondo um modelo matemático para a descrição dos seus inter-relacionamentos e o cálculo do risco de infecção. Em um estudo anterior, Ruffino-Netto14 já discutia a possibilidade de calcular o risco de infecção tuberculosa considerando perdas de seguimento. No presente artigo, apresentamos uma releitura desta proposta, agora sob uma perspectiva estocástica, onde um algoritmo Bayesiano permite estimativas intervalares do risco de infecção.

A obtenção de estimativas de máxima verossimilhança para os parâmetros do modelo a partir da expressão apresentada para L(ξ) não é simples, dada a presença da variável latente Pi. Considerando que as perdas de seguimento trazem uma estrutura de dados incompletos, uma maneira de obter estimativas de máxima verossimilhança é por meio do algoritmo EM (Expectation-Maximization algorithm).4 No entanto, sua implementação traz algumas complexidades algébricas, cuja discussão extrapolaria os objetivos do presente estudo.

Ainda que o modelo Bayesiano necessite de um algoritmo Monte Carlo para a simulação das distribuições a posteriori dos parâmetros de interesse, procedimento este portador de alguma complexidade matemática, acreditamos que a proposta aqui apresentada não seja desprovida de parcimônia, quanto à sua formulação. Os procedimentos Bayesianos vêm tornado-se cada vez mais freqüentes nas publicações da área da saúde,7,17 e suas aplicações são facilitadas por programas computacionais como o WinBugs,16 que não requer amplos conhecimentos de programação para a implementação do modelo.

Em conclusão, o modelo Bayesiano proposto é uma alternativa eficiente na estimação do risco de infecção tuberculosa considerando perdas de seguimento, sendo especialmente útil em estudos longitudinais com baixa adesão ao seguimento. Dado que o método Bayesiano permite a incorporação do conhecimento prévio de especialistas, há ainda a possibilidade de obter estimativas de risco mais precisas especificando distribuições a priori para os parâmetros de interesse de acordo com estas informações.

 

REFERÊNCIAS

1. Box GEP, Tiao GC. Bayesian inference in statistical analysis. Boston: Addison Wesley; 1973.         [ Links ]

2. Casella G, George EL. Explaining the Gibbs sampler. Am Statistician. 1992;46(3):167-74. DOI: 10.2307/2685208        [ Links ]

3. de la Pava E, Salguero B, Alzate A. A mathematical model of the annual risk of tuberculosis infection in Cali, Colombia. Rev Panam Salud Publica. 2002;11(3):166-71. DOI: 10.1590/S1020-49892002000300005        [ Links ]

4. Dempster AP, Laird NM, Rubin DB. Maximum likelihood from incomplete data vie the EM Algorithm. J R Statist Soc B. 1977;39:1-38.         [ Links ]

5. Diekmann O, Heesterbeek JAP. Mathematical epidemiology of infectious diseases: Model building, analysis and interpretation. New York: Wiley; 2000.         [ Links ]

6. Etzioni RD, Kadane JB. Bayesian statistical methods in public health and medicine. Annu Rev Public Health. 1995;16:23-41. DOI: 10.1146/annurev.pu.16.050195.000323        [ Links ]

7. Freedman L. Bayesian statistical methods. BMJ. 1996;313(7057):569-70.         [ Links ]

8. Garcia A, Maccario J, Richardson S. Modelling the annual risk of tuberculosis infection. Int J Epidemiol. 1997;26(1):190-203. DOI: 10.1093/ije/26.1.190        [ Links ]

9. Gelman A, Rubin DB. Inference from iterative simulation using multiple sequences. Statist Scien. 1992;7(4):457-511. DOI: 10.1214/ss/1177011136        [ Links ]

10. Harries AD, Dye C. Tuberculosis. Ann Trop Med Parasitol. 2006;100(5-6):415-31. DOI: 10.1179/136485906X91477        [ Links ]

11. Kusano MSE, Mendes IJM, Alves ED, Assis MCM. Risco anual da infecção tuberculosa no Distrito Federal (Brasil). Rev Bras Epidemiol. 2005;8(3):262-71. DOI: 10.1590/S1415-790X2005000300008        [ Links ]

12. Montesinos-López OA, Hernández-Suárez CM. Modelos matemáticos para enfermedades infecciosas. Salud Publica Mexico. 2007;49(3):218-26. DOI: 10.1590/S0036-36342007000300007        [ Links ]

13. Ruffino-Netto A, Arantes GR. Risco de infecção em município do interior do Estado de São Paulo e suas aplicações. Rev Saude Publica. 1976;10(2):143-9. DOI: 10.1590/S0034-89101976000200002        [ Links ]

14. Ruffino-Netto A. Cálculo do risco de infecção tuberculosa levando em consideração pessoas perdidas de seguimento. Rev Divisão Nac Tuberculose. 1976;20(80):383-90.         [ Links ]

15. Ruffino-Netto A. Modelos epidemiométricos em tuberculose: definição de "estados" e risco de infecção. Rev Saude Publica. 1977;11(2):188-98. DOI: 10.1590/S0034-89101977000200004        [ Links ]

16. Spiegelhalter DJ, Thomas A, Best N, Lunn D. WinBUGS user manual: version 1.4. Cambridge: MRC Biostatistics Unit; 2001.         [ Links ]

17. Spiegelhalter DJ, Myles JP, Jones DR, Abrams KR. An introduction to Bayesian methods in health technology assessment. BMJ. 1999;319(7208):508-12.         [ Links ]

18. Tanner M, Wong W. The calculation of posterior distributions by data augmentation. J Amer Statist Assoc. 1987;82(398):528-50. DOI: 10.2307/2289457        [ Links ]

19. Waaler H, Geser A, Andersen S. The use of mathematical models in the study of the epidemiology of tuberculosis. Am J Public Health. 1962;52:1002-13.         [ Links ]

20. Werneck GL. Comentário: primórdios da investigação sobre a dinâmica de transmissão da tuberculose no Brasil. Rev Saude Publica. 2006;40(2):218-9. DOI: 10.1590/S0034-89102006000200005        [ Links ]

21. World Health Organization. Global tuberculosis control: surveillance, planning, financing. Genebra; 2004.         [ Links ]

 

 

Correspondência | Correspondence:
Edson Zangiacomi Martinez
Faculdade de Medicina de Ribeirão Preto
Departamento de Medicina Social
Universidade de São Paulo - USP
Av. Bandeirantes, 3900
14049-900 Ribeirão Preto, SP, Brasil
E-mail: edson@fmrp.usp.br

Recebido: 20/8/2007
Revisado: 9/5/2008
Aprovado: 2/6/2008