Correção de medidas de associação pela variação do dia a dia no consumo alimentar: avaliação do desempenho por meio de simulação

Corrección de las medidas de asociación por la variación diaria en la ingesta de dietética: evaluación del desempeño por simulación

Eliseu Verly-Jr Rosely Sichieri Valéria Troncoso Baltar Sobre os autores

Resumos

O uso de um ou poucos recordatórios de 24 horas (R24h) como medida da exposição dietética em modelos para estimar o efeito do alimento sobre um desfecho leva à atenuação da medida de associação e redução do poder do teste. Isso ocorre em função da variação dia a dia no consumo. A medida de associação pode ser corrigida por meio de calibração, e requer pelo menos uma repetição do R24 horas em uma subamostra da população de estudo. No entanto, seu desempenho e precisão dos coeficientes corrigidos podem variar de acordo com as características do estudo em que é aplicada. O objetivo deste trabalho é avaliar o desempenho da correção em diferentes cenários de pesquisa em relação à estimativa da medida de associação e sua precisão. Foi simulada população (n = 1.000) com informação sobre consumo de um alimento referente a 200 dias, e um desfecho com uma associação definida com o consumo usual (média dos 200 dias de consumo). Os cenários avaliados foram: (a) 100%, 60%, 40% e 20% da amostra com 2 dias de consumo; (b) indivíduos com 2, 3, 4 e 5 R24h; e (c) população com 1.000, 600 e 300 indivíduos. Os coeficientes foram estimados para 300 combinações aleatórias de dias de consumo; coeficientes corrigidos médios foram semelhantes ao verdadeiro coeficiente. A precisão foi menor em todos os cenários: a probabilidade de encontrar uma associação significativa (sendo ela verdadeira) variou de 0,47 a 0,29 (100% a 20% com repetição, respectivamente); 0,47 a 0,78 (2 a 5 dias); e 0,47 a 0,15 (1.000 a 300 indivíduos).

Inquéritos sobre Dietas; Consumo de Alimentos; Análise de Regressão; Nutrição em Saúde Pública


El uso de uno o varios recuerdos de 24 horas (24hR) para medir la exposición dietética en modelos para estimar el efecto del alimento en un resultado conduce a la atenuación de la medida de asociación y una disminución en la potencia de la prueba. Esto se debe a la variación diaria en la ingesta de alimentos. La medida de asociación puede ser corregida por medio de calibración y requiere al menos una repetición del 24hR en una submuestra de la población de estudio. Sin embargo, el rendimiento de la calibración y la precisión de los coeficientes corregidos pueden variar de acuerdo con las características del estudio al que se aplica. El objetivo de este estudio es evaluar el desempeño de la corrección en diferentes escenarios de investigación en relación con la medida estimada de asociación y su precisión. Se simuló una población (n = 1.000) con información sobre la ingesta de alimentos durante 200 días y un resultado con una asociación definida con la ingesta habitual (media para los 200 días de ingesta). Los escenarios evaluados fueron: (a) 100%, 60%, 40% y 20% de la muestra con 2 días de ingesta; (b) individuos con 2, 3, 4 y 5 24hR; y (c) poblaciones con 1,000, 600 y 300 individuos. Los coeficientes se estimaron para 300 combinaciones aleatorias de días de ingesta; la media de los coeficientes corregidos fueron similares al verdadero coeficiente. La precisión fue menor en todos los escenarios: la probabilidad de encontrar una asociación significativa (cuando verdadera) varió de 0,47 a 0,29 (100% a 20% con repetición, respectivamente); 0,47 a 0,78 (2 a 5 días); y 0,47 a 0,15 (1.000 a 300 individuos).

Encuestas sobre Dietas; Consumo de Alimentos; Análisis de Regresión; Nutrición en Salud Pública


Introdução

Estudos em epidemiologia nutricional frequentemente têm por objetivo descrever a associação entre a ingestão dietética e um desfecho de saúde de interesse. Para estimar a medida de associação que descreve a relação entre dieta/desfecho é necessário o conhecimento do status da doença e a ingestão dietética usual em cada indivíduo. Tradicionalmente, a ingestão usual em grandes coortes tem sido coletada utilizando-se o questionário de frequência alimentar 11. Willett WC. Nutritional epidemiology. New York: Oxford University Press; 2012.. Entretanto, alguns autores têm demonstrado elevado erro de medida inerente a esse instrumento 22. Kipnis V, Subar A, Midthune D. Structure of dietary measurement error: results of the OPEN Biomarker Study. Am J Epidemiol 2003; 158:14-21., sendo inclusive apontado como uma das razões de não se encontrar associações, seja de proteção ou risco, entre dieta e desfechos de saúde 33. Schatzkin A, Kipnis V. Could exposure assessment problems give us wrong answers to nutrition and cancer questions? J Natl Cancer Inst 2004; 96:1564-5.,44. Kristal AR, Peters U, Potter JD. Is it time to abandon the food frequency questionnaire? Cancer Epidemiol Biomarkers Prev 2005; 14:2826-8.. Esse fato tem levado pesquisadores a investir na coleta do consumo dietético utilizando instrumentos de curto prazo, como os recordatórios de 24 horas (R24h) 55. Arab L, Wesseling-Perry K, Jardack P, Henry J, Winter A. Eight self-administered 24-hour dietary recalls using the Internet are feasible in African Americans and whites: the energetic study. J Am Diet Assoc 2010; 110:857-64.,66. Freedman LS, Schatzkin A, Thiebaut ACM, Potischman N, Subar AF, Thompson FE, et al. Abandon neither the food frequency questionnaire nor the dietary fat-breast cancer hypothesis. Cancer Epidemiol Biomarkers Prev 2007; 16;1321-2.. Porém, em função de restrições operacionais e de custo, a coleta de mais de um R24h em grandes estudos epidemiológicos é dificilmente praticada, o que torna a informação referente ao consumo individual (referente a um ou média de poucos dias de R24h) enviesada em relação à ingestão usual (média de uma grande quantidade de R24h), em função da variação do dia a dia no consumo, que é descrita pela variância intrapessoal 77. Beaton GH. Approaches to analysis of dietary data: relationship between planned analyses and choice of methodology. Am J Clin Nutr 1994; 59(1 Suppl):253S-61S.,88. Tooze JA, Midthune D, Dodd KW, Freedman LS, Krebs-Smith SM, Subar AF, et al. A new statistical method for estimating the usual intake of episodically consumed foods with application to their distribution. J Am Diet Assoc 2006; 106:1575-87.. Como as pessoas consomem quantidades maiores ou menores que seu usual ao longo dos dias, as diferenças entre o consumo de um dado dia com o usual é considerada um erro do tipo aleatório, já que se distribui aleatoriamente em torno do verdadeiro consumo 99. Nusser SM, Carriquiry AL, Dodd KW, Fuller WA. A semiparametric transformation approach to estimating usual daily intake distributions. J Am Stat Assoc 1996; 91:1440-9.. Os efeitos do erro aleatório ao descrever a relação entre dieta/desfecho são a atenuação da medida de associação e a redução do poder do teste para detectar esta associação, o que pode comprometer a validade do estudo 1010. Freedman LS, Schatskin A, Midthune D, Kipnis V. Dealing with dietary measurement error in nutritional cohort studies. J Natl Cancer Inst 2011; 103:1086-92..

Uma forma de lidar com esse erro é a aplicação da calibração da regressão, que estima a medida de associação utilizando como variável de exposição dietética a ingestão predita para cada indivíduo 1111. Carroll RJ, Ruppert D, Stefanski LA, Crainiceanu CM. Measurement error in nonlinear models: a modern perspective. 2nd Ed. Boca Raton: Chapman and Hall/CRC Press; 2006.. Kipnis et al. 1212. Kipnis V, Midthune D, Buckman DW, Dodd KW, Guenther PM, Krebs-Smith SM, et al. Modeling data with excess zeros and measurement error: application to evaluating relationships between episodically consumed foods and health outcomes. Biometrics 2009; 65:1003-10. propuseram uma extensão do método da calibração para corrigir os dados pela variação do dia a dia no consumo, além de acomodar distribuição assimétrica e inflacionada de zeros, como é o caso dos alimentos que não são consumidos todos os dias. Sua aplicação requer a repetição da coleta do R24h em dias não consecutivos em pelo menos uma subamostra da população de estudo. Como se trata, em parte, de um modelo de predição de valores individuais de consumo, é importante conhecer o quanto é possível aproximar a medida estimada da real, aquela isenta de erro aleatório. Outro aspecto importante a se considerar no desempenho da calibração é a precisão dos coeficientes, que pode variar segundo características do estudo, como tamanho da amostra, números de repetições do R24h 1313. Carroll RJ, Midthune D, Subar AF, Shumkovich M, Freedman LS, Thompson FE, et al. Taking advantages of the strengths of 2 different dietary assessment instruments to improve estimates for nutritional epidemiology. Am J Epidemiol 2012; 175:340-7., porcentual da população de estudo no qual será repetido o R24h 1414. Verly-Jr E, Castro MA, Fisberg RM, Marchioni DM. Precision of usual food intake estimates according to the percentage of individuals with a second dietary measurement. J Acad Nutr Diet 2012; 112:1015-20., bem como as variáveis que compõem o modelo preditivo 1212. Kipnis V, Midthune D, Buckman DW, Dodd KW, Guenther PM, Krebs-Smith SM, et al. Modeling data with excess zeros and measurement error: application to evaluating relationships between episodically consumed foods and health outcomes. Biometrics 2009; 65:1003-10..

O presente trabalho tem como objetivo avaliar o desempenho da calibração da regressão na correção de medidas de associação, em diferentes cenários, por meio de estudo de simulação. A simulação terá por base estudo prévio conduzido pelos autores, que coletou 20 dias de R24h em uma amostra de 302 pessoas. O estudo fornece parâmetros necessários para a simulação, permitindo gerar populações com tamanho e dias de coleta desejados.

Métodos

Calibração da regressão

As seguintes notações foram utilizadas para serem compatíveis com notações encontradas na literatura internacional: para um indivíduo i no dia j, i = 1,...,n; j = 1, k; Rij representa o consumo em um R24h (R: reported intake); Ti representa o consumo usual do indivíduo i (T: true intake; consumo não enviesado medido por um longo período de tempo); e Yi um desfecho associado com Ti . Uma hipotética associação entre Yi e Ti pode ser descrita pelo seguinte modelo de regressão linear:

em que Zi = (Zi 1,…,Zip ) e é um vetor com as covariáveis, medidas sem erros, para cada indivíduo i, e m -1 a função de ligação (neste estudo, a identidade). Como geralmente não se conhece a ingestão usual (Ti ), utiliza-se no modelo como variável de exposição dietética a média de poucos R24h para cada indivíduo i (Ri ), para a obtenção da medida de associação entre o alimento e o desfecho Yi , o que leva a uma estimativa enviesada (atenuada) de βT . A calibração consiste na predição da ingestão habitual individual, com base em um modelo de efeito misto de duas partes que utiliza como variável dependente o consumo obtido pelos R24hs e como variáveis independentes o mesmo conjunto de variáveis a serem utilizadas como ajuste no modelo dieta/desfecho [modelo (1)]. A ingestão individual predita é utilizada no lugar de Ri para obter uma estimativa da medida de associação entre o alimento e o desfecho Yi deatenuada. A descrição completa do método pode ser encontrada em Kipnis et al. 1212. Kipnis V, Midthune D, Buckman DW, Dodd KW, Guenther PM, Krebs-Smith SM, et al. Modeling data with excess zeros and measurement error: application to evaluating relationships between episodically consumed foods and health outcomes. Biometrics 2009; 65:1003-10..

Neste trabalho é aplicada a calibração da regressão para estimar coeficientes de regressão linear corrigidos para a relação entre Ri (com informação de consumo de dois ou mais R24h para cada indivíduo) e Yi obtidos pelo modelo (1). Os coeficientes corrigidos serão comparados com os coeficientes reais (βT , com informação de consumo de 200 R24h para cada indivíduo) para cada cenário estudado (descritos adiante).

Considerando que a predição do consumo é função da quantidade de alimento relatada nos dias de coleta, isto é, a predição utilizando-se o primeiro e o segundo dias será diferente da predição usando-se o primeiro e o terceiro dias, e assim por diante; foram sorteadas 300 combinações de dois ou mais R24h por indivíduo. Para cada combinação foi realizada a calibração da medida de associação e seu intervalo de confiança; estes foram comparados ao βT (fixado em 1,0 na simulação).

A regressão de calibração foi realizada usando-se macros mixtran e indivint disponíveis para pacote estatístico SAS (SAS Inst., Cary, Estados Unidos).

Simulação dos dados

Consumo individual

Foi simulada uma população de 1.000 indivíduos com informação de consumo referente a 200 dias para cada indivíduo. Para a simulação, assumiu-se que Ti (ingestão usual do indivíduo i) é o produto da quantidade média consumida nos dias de consumo (Ai ) pela probabilidade do individuo consumir o alimento (Pi ). A quantidade ingerida para cada dia de consumo foi gerada conforme equação:

em que Ai ~ Normal (µ,), Pi ~ Bernoulli (pi ), Rij representa o consumo do indivíduo i no dia j, e εij ~ Normal (0,); e são as variâncias inter e intrapessoal, respectivamente. Foram geradas as variáveis aleatórias (Ai , pi ) com distribuição bivariada com correlação entre elas. Como Ai na escala original é geralmente assimétrica para direita, os parâmetros µ e da distribuição normal foram gerados na escala Box-Cox, escolhida por ser a mais usada em estudo de consumo alimentar com dados assimétricos, e posteriormente convertida para escala original. Para definição de dias de consumo e não consumo, uma variável aleatória com distribuição de Bernoulli foi gerada com probabilidade de consumo definida para cada indivíduo (pi ), uma vez que a probabilidade de consumir o alimento varia entre as pessoas segundo distribuição de probabilidades observada na população. Foi considerada distribuição assimétrica à direita por ser a mais frequentemente observada em dados reais. A correlação entre quantidade consumida e probabilidade de consumo foi considerada na simulação. Os parâmetros (µ, , , Pi e ) bem como as distribuições e lambda da transformação Box-Cox foram obtidos de dados coletados no estudo de base. A média dos 200 dias de consumo foi calculada para cada indivíduo, sendo considerada sua ingestão habitual (Ti).

Covariáveis

Para esta população foram gerados valores de idade (anos) assumindo distribuição normal com média = 25 e desvio padrão - DP = 5, com correlação de 0,3 com o consumo usual. Foi definido um percentual de 50% entre os sexos, com diferença média de 20 gramas de consumo usual e 2 anos de idade a mais para o sexo masculino (assumiu-se sexo e idade como sendo livres de erros).

Desfecho

A seguir foi simulado o desfecho (Yi), cuja verdadeira relação com o consumo usual (Ti) foi especificada conforme o seguinte modelo de regressão linear:

sendo: Yi o desfecho simulado, com distribuição normal com média e desvio padrão, respectivamente, 25 e 3, arbitrariamente escolhidos; β0 é o intercepto; o coeficiente βT foi fixado em 1 para a relação com o consumo usual na escala original com poder de amostra fixado em 80% para detectar βT ≠ 0; βZ o vetor com os efeitos das covariáveis em Zi: 1 e 5 para sexo e idade, respectivamente; εi Normal (0, 1). Os dados foram simulados no pacote estatístico Stata v.13 (StataCorp LP, College Station, Estados Unidos).

Cenários avaliados

Foram avaliados os seguintes cenários:

a) Diferentes percentuais da população de estudo com a aplicação do segundo R24h: 100%, 60%, 40%, e 20%. Em cada uma das 300 combinações de dias de consumo, foi sorteado um dia de consumo para toda população, e um segundo dia de consumo somente para um dos porcentuais definidos anteriormente.

b) Diferentes quantidades de R24h para cada indivíduo da população de estudo: j = 2, 3, 4 e 5. Em cada uma das 300 combinações de dias de consumo, foram sorteadas quantidades definidas de R24h para cada indivíduo. Adicionalmente, foi avaliado um cenário em que diferentes porcentuais da população respondessem a diferentes quantidades de R24h: 40% com 4 R24h, 30% com 3 R24h e 20% com 2 R24h.

c) Diferentes tamanhos de população: 1.000, 600, 300. Este item também incluiu cenário com tamanho de amostra calculado necessário para obter coeficientes estatisticamente diferentes de zero: n = 2.400. Esse tamanho foi obtido por simulação, sendo o menor valor que garantisse que pelo menos 2,5% dos coeficientes fossem diferentes de zero.

Por fim, foi feita a comparação entre coeficientes corrigidos e não corrigidos e seus intervalos de confiança para o cenário: n = 1.000 e 100% da amostra com o segundo R24h.

Parâmetros para simulação

Todos os parâmetros utilizados na simulação do consumo alimentar foram extraídos de um estudo longitudinal com 302 participantes da cidade do Rio de Janeiro, em que cada um respondeu ao R24h referente a 20 dias não consecutivos. A estratégia de amostragem utilizada foi snowball, em que foram selecionados os entrevistadores (23 graduandos de nutrição), e estes escolhiam os entrevistados. Para garantir a adesão à coleta, esses deveriam preferencialmente pertencer ao mesmo ciclo social ou ter proximidade geográfica aos entrevistadores, além de manifestarem disposição em permanecer no estudo fornecendo informações detalhadas sobre o consumo por 20 ocasiões. Embora a amostra não tenha sido aleatória, os participantes eram bem dispersos por toda a cidade. A coleta de dados ocorreu de março de 2013 a abril de 2014, com tempo médio de seguimento para cada indivíduo de 3 meses. O método de múltiplos passos foi utilizado na coleta das informações de consumo pelo R24h 1515. Conway JM, Ingwersen LA, Vinyard BT, Moshfegh A. Effectiveness of the US Department of Agriculture 5-step multiple-pass method in assessing food intake in obese and non obese women. Am J Clin Nutr 2003; 77:1171-8.. Ao longo do trabalho de campo, os entrevistadores levavam os primeiros recordatórios aplicados a cada participante para a checagem inicial da coleta. Os alimentos relatados foram digitados no programa Brasil Nutri, que tem como base de dados os alimentos, bem como suas porções, modo de preparo e composição nutricional, relatados em inquérito nacional de aquisição de alimentos.

A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa do Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro.

Resultados

Na população simulada, a média do consumo usual foi igual à média do consumo em um dia (78g). Os DP foram 75 e 136 para o consumo usual e para um dia, respectivamente. A distribuição do consumo usual foi assimétrica para direita (skewness = 1,39; kurtosis = 5,35) com 9,4% da população sendo não consumidores usuais (consumo igual a zero na média dos 200 dias de consumo) (Figura 1). A distribuição do consumo referente a um dia apresentou, em média, 60% de não consumidores, e mais assimétrica que a distribuição do consumo usual (skewness = 2,64; kurtosis = 13,9). A correlação entre o desfecho e o consumo usual foi de 0,30. A média de idade foi 20,2 (DP = 4,9) e 51% da população são do sexo masculino. O desfecho simulado apresentou distribuição normal com média 25 (DP = 4,1). O coeficiente de regressão linear ajustado para o consumo usual foi 0,99 (intervalo de 95% de confiança - IC95%: 0,32-1,66); para sexo foi 0,69 (IC95%: 0,30-1,07); e para idade foi 0,52 (IC95%: 0,48-0,56). O coeficiente de determinação do modelo completo foi 0,47.

Figura 1
Distribuição do consumo usual simulado.

As Figuras 2, 3 e 4 mostram os coeficientes, corrigidos pela variância intrapessoal, da associação entre consumo alimentar e desfecho, ajustados por sexo e idade. A linha sólida representa os coeficientes corrigidos, ordenados do menor ao maior valor, para 300 combinações aleatórias de dois ou mais de R24h para cada indivíduo, e a área sombreada representa os respectivos intervalos de confiança. A média dos coeficientes corrigidos em cada cenário variou de 0,98 a 1,01. A Figura 2 apresenta as análises para diferentes percentuais da amostra com o segundo recordatório. Houve aumento na dispersão dos coeficientes, refletindo em intervalos de confiança mais amplos à proporção que o percentual da amostra com replicação do R24h reduz de 100% para 20%. Dentre as 300 combinações de dois dias de coleta, o limite inferior do IC95% foi maior que zero em 47%, 37%, 37% e 29% para 100%, 60%, 40, e 20% de replicação, respectivamente. Da mesma forma, a precisão aumentou com o crescimento do número de repetições por indivíduos. Para esses cenários, o porcentual de coeficientes cujo limite inferior do IC95% foi maior que zero, dentre as combinações sorteadas, foi de 47%, 53%, 67% e 78% para 2, 3, 4 e 5 dias de R24h para cada indivíduo, respectivamente (Figura 3). Quando avaliado o cenário com 40% com quatro dias de R24h, 40% com três e 20% com dois, o percentual de coeficientes significantes foi de 61% (dados não apresentados).

Figura 2
Coeficientes de regressão linear e intervalos de 95% de confiança (IC95%) corrigidos para a população de estudo com 100%, 60%, 40% e 20% com a repetição do recordatório de 24h (R24h).

Figura 3
Coeficientes de regressão linear e intervalos de 95% de confiança (IC95%) corrigidos para a população de estudo com 2, 3, 4 e 5 recordatório de 24h (R24h) para cada indivíduo.

Na Figura 4, são apresentados os coeficientes para diferentes tamanhos de amostra. A precisão dos coeficientes reduziu de forma importante com a redução do tamanho da amostra. Com a amostra de 2.400 todos os coeficientes foram estatisticamente diferentes de zero; para os cenários com tamanho amostral de 600 e 300, o percentual de coeficientes cujo limite inferior do IC95% foi maior que zero, dentre as combinações sorteadas, foi de 25% e15%, respectivamente.

Figura 4
Coeficientes de regressão linear e intervalos de 95% de confiança (IC95%) corrigidos para as populações com 2.400, 1.000, 600 e 300 indivíduos.

A Figura 5 compara coeficientes corrigidos e não corrigidos. A média dos coeficientes não corrigidos foi 0,42. O percentual de coeficientes cujo intervalo de confiança inferior foi maior que zero foi similar aos coeficientes corrigidos (47%).

Figura 5
Coeficientes de regressão linear e intervalos de 95% de confiança (IC95%) corrigidos e não corrigidos para a população com 1.000 indivíduos com 2 recordatórios de 24h (R24h) para todos os indivíduos.

Discussão

O propósito da calibração é corrigir medidas de associação atenuadas em função do erro aleatório, fato que ocorre quando se utilizam poucos dias de coleta de R24h para cada indivíduo da população de estudo 1212. Kipnis V, Midthune D, Buckman DW, Dodd KW, Guenther PM, Krebs-Smith SM, et al. Modeling data with excess zeros and measurement error: application to evaluating relationships between episodically consumed foods and health outcomes. Biometrics 2009; 65:1003-10.. Espera-se, portanto, que a medida de associação corrigida seja a mais próxima possível da verdadeira medida de associação, isto é, aquela que seria obtida caso fosse conhecida a ingestão habitual de cada indivíduo. No entanto, como diferentes combinações de dias de inquérito podem gerar medidas de associação diferentes, e consequentemente diferentes coeficientes corrigidos, a comparação entre a medida de associação corrigida e a verdadeira deve levar em consideração, portanto, um grande número de possibilidades de combinações entre dias de inquéritos.

Nesse sentido, a média dos coeficientes obtidos com base nas combinações de dois dias de inquérito deverá ser próxima ao real coeficiente; médias acima ou abaixo indicam tendência de sub ou superestimação dos coeficientes corrigidos. A dispersão desses coeficientes, por outro lado, indica a sua precisão. Os coeficientes médios foram muito semelhantes para todos os cenários estudados, com variação muito estreita em relação ao real coeficiente. A precisão, no entanto, variou de acordo com o cenário estudado, de forma que o poder da amostra se torna insuficiente para detectar associação, ainda que ela realmente exista, e que o tamanho amostral tenha sido calculado para poder detectá-la. Uma consequência do erro aleatório é a redução do poder da amostra; esta perda de poder não foi restaurada após a correção, dado que o porcentual de coeficientes significantes foi similar na análise corrigida e não corrigida. Para alguns cenários, a precisão se torna ainda menor. Quando são utilizados até 2 R24h para cada indivíduo, a precisão reduz de forma importante quando o porcentual de indivíduos com o segundo R24h é menor que 40%. Um estudo prévio já havia sugerido que entre 60% e 40% de repetição seria suficiente para manter a precisão na estimativa de percentis da ingestão habitual de alimentos 1414. Verly-Jr E, Castro MA, Fisberg RM, Marchioni DM. Precision of usual food intake estimates according to the percentage of individuals with a second dietary measurement. J Acad Nutr Diet 2012; 112:1015-20..

Uma questão importante diz respeito ao tamanho da amostra. Neste estudo foi simulado desfecho cuja associação com o consumo usual (média de 200 dias de consumo) pudesse ser estatisticamente significante a um poder de 80% e tamanho amostral igual a 1.000. Mesmo utilizando n = 1.000, a associação não foi significante em 53% das 300 combinações de dias de R24h sorteadas. Usando-se o mesmo desfecho em amostras menores, especialmente abaixo de 300, a probabilidade de encontrar uma associação, ainda que ela realmente exista, reduz substancialmente. Quanto a redução do tamanho da amostra irá aumentar a probabilidade do erro tipo 2 (não rejeitar a hipótese nula quando ela é falsa) irá depender do tamanho do efeito e da precisão do coeficiente verdadeiro 1616. Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statist Med 1998; 17:1623-34.. Em um cenário real, em que os efeitos da dieta em desfechos de saúde são usualmente pequenos 1717. Nissenshon M, Román-Viñas B, Sánchez-Villegas A, Piscopo S, Serra-Majem L. The effect of the mediterranean diet on hypertension: a systematic review and meta-analysis. J Nutr Educ Behav 2016; 48:42-53.e1.,1818. Zong G, Gao A, Hu FB, Sun Q. Whole grain intake and mortality from all causes, cardiovascular disease, and cancer. A meta-analysis of prospective cohort studies. Circulation 2016; 133:2370-80., qualquer perda na precisão pode diminuir a probabilidade de rejeição da hipótese nula, mesmo esta sendo falsa. Nessa simulação, ao passo que n = 1.000 seria suficiente para encontrar associação com o consumo usual, valendo-se da correção a partir de dois dias de consumo, o tamanho necessário estimado foi de 2.400.

A outra forma de aumentar a precisão dos coeficientes é aumentar o número de repetições do R24h em cada indivíduo, o que foi observado neste estudo ao aumentar de dois para cindo dias de R24h. Carroll et al. 1313. Carroll RJ, Midthune D, Subar AF, Shumkovich M, Freedman LS, Thompson FE, et al. Taking advantages of the strengths of 2 different dietary assessment instruments to improve estimates for nutritional epidemiology. Am J Epidemiol 2012; 175:340-7. usando dados reais e simulados, observaram que entre quatro e seis dias de R24h para cada indivíduo seria suficiente para a maioria dos itens dietéticos. Logo, a correção pelo erro aleatório requer ou tamanho de amostra ou quantidade de repetições suficientes para a obtenção de medidas de associação que representem a real associação. Considerando-se a dificuldade em se coletar vários dias de R24h em grandes estudos epidemiológicos, uma possibilidade é coletar um número maior de repetições em uma subamostra. Nessa simulação, foi observado resultado semelhante nos cenários em que todos os indivíduos respondiam a quatro R24h e em que uma subamostra respondeu a quatro, três e dois R24h.

Cabe ressaltar que esses resultados são referentes a uma amostra de 1.000 indivíduos com um poder de 80% para detectar associação (β = 1) entre consumo usual e desfecho em um modelo múltiplo. Logo, não se trata de uma recomendação geral para o planejamento de novos estudos; o dimensionamento adequado da amostra irá depender dos objetivos de cada pesquisa, que inclui a variância do alimento e do desfecho a ser estudado, o tamanho do efeito esperado, bem como as variáveis de ajuste 1919. Cohen J. Statistical power analysis for the behavioral sciences. 2nd Ed. Mahwah: Lawrence Erlbaum Associates; 1988.. Além disso, a decisão entre aumentar o tamanho da amostra ou aumentar o número de repetições deve ser pautada nos custos envolvidos em cada procedimento. O pesquisador deve avaliar se o aumento no custo e no tempo de trabalho de campo compensa o ganho na precisão. Um estudo de simulação pode auxiliar no planejamento de novos trabalhos fazendo uma estimativa da melhor combinação de tamanho amostral e repetições do R24h, de modo a ter a melhor eficiência na análise dos dados.

Ambos os estudos de Carroll et al. 1313. Carroll RJ, Midthune D, Subar AF, Shumkovich M, Freedman LS, Thompson FE, et al. Taking advantages of the strengths of 2 different dietary assessment instruments to improve estimates for nutritional epidemiology. Am J Epidemiol 2012; 175:340-7. e Kipnis et al. 1212. Kipnis V, Midthune D, Buckman DW, Dodd KW, Guenther PM, Krebs-Smith SM, et al. Modeling data with excess zeros and measurement error: application to evaluating relationships between episodically consumed foods and health outcomes. Biometrics 2009; 65:1003-10. encontraram substancial melhora na predição para alguns itens ao incluir a frequência de consumo como variável no modelo de predição; outras variáveis relacionadas ao consumo alimentar como variáveis socioeconômicas, índice de massa corporal, entre outras, mesmo que não estejam no modelo dieta/desfecho (equação 3 da seção de métodos) podem ser incluídas no modelo preditivo do consumo usual e potencialmente aumentar a precisão dos coeficientes corrigidos.

Cabe ressaltar que o método propõe a correção somente do erro aleatório; o efeito de outros tipos de erros, como sub-relato e erro diferencial não são reduzidos. Esse último é particularmente importante em estudos transversais e alguns tipos de caso-controle em que o status da doença pode interferir no relato do consumo e modificar a direção da medida de associação (causalidade reversa) 2020. Szklo M, Javier Nieto F. Epidemiology: beyond the basics. Gaithersburg: Aspen; 2000., o que não é revertido com a calibração da regressão. Por fim, neste estudo foi testada a função de ligação identidade por fornecer uma interpretação direta da relação entre a ingestão dietética e o desfecho. Um exemplo de aplicação é quando se deseja estimar o quanto a pressão arterial aumenta, em mmHg, para cada 1.000mg de sódio ingeridos. No entanto, o método pode ser aplicado para outras funções de ligação, como a função log ou logit 1212. Kipnis V, Midthune D, Buckman DW, Dodd KW, Guenther PM, Krebs-Smith SM, et al. Modeling data with excess zeros and measurement error: application to evaluating relationships between episodically consumed foods and health outcomes. Biometrics 2009; 65:1003-10..

Concluindo, a correção pelo erro aleatório irá produzir coeficientes próximos ao coeficiente verdadeiro, desde que o tamanho amostral ou o número de repetições por indivíduo seja em quantidade suficiente para garantir precisão na estimativa. Caso contrário, os coeficientes poderão estar sub ou superestimados, além da maior probabilidade de não encontrar associação mesmo que ela realmente exista. Assim, deve-se ter cautela sobre interpretação de resultados em que o coeficiente não tem significância estatística, o que provavelmente não permite concluir falta de associação. Aumentar o número de coletas do R24h em pelo menos uma parcela da população de estudo tem impacto positivo na precisão do coeficiente estimado.

Agradecimentos

Fundação Carlos Chagas de Amparo à Pesquisa do Estado do Rio de Janeiro (Faperj; nº E-26/201.488/2014) e Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq; nº 481434/2013-5).

Referências

  • 1
    Willett WC. Nutritional epidemiology. New York: Oxford University Press; 2012.
  • 2
    Kipnis V, Subar A, Midthune D. Structure of dietary measurement error: results of the OPEN Biomarker Study. Am J Epidemiol 2003; 158:14-21.
  • 3
    Schatzkin A, Kipnis V. Could exposure assessment problems give us wrong answers to nutrition and cancer questions? J Natl Cancer Inst 2004; 96:1564-5.
  • 4
    Kristal AR, Peters U, Potter JD. Is it time to abandon the food frequency questionnaire? Cancer Epidemiol Biomarkers Prev 2005; 14:2826-8.
  • 5
    Arab L, Wesseling-Perry K, Jardack P, Henry J, Winter A. Eight self-administered 24-hour dietary recalls using the Internet are feasible in African Americans and whites: the energetic study. J Am Diet Assoc 2010; 110:857-64.
  • 6
    Freedman LS, Schatzkin A, Thiebaut ACM, Potischman N, Subar AF, Thompson FE, et al. Abandon neither the food frequency questionnaire nor the dietary fat-breast cancer hypothesis. Cancer Epidemiol Biomarkers Prev 2007; 16;1321-2.
  • 7
    Beaton GH. Approaches to analysis of dietary data: relationship between planned analyses and choice of methodology. Am J Clin Nutr 1994; 59(1 Suppl):253S-61S.
  • 8
    Tooze JA, Midthune D, Dodd KW, Freedman LS, Krebs-Smith SM, Subar AF, et al. A new statistical method for estimating the usual intake of episodically consumed foods with application to their distribution. J Am Diet Assoc 2006; 106:1575-87.
  • 9
    Nusser SM, Carriquiry AL, Dodd KW, Fuller WA. A semiparametric transformation approach to estimating usual daily intake distributions. J Am Stat Assoc 1996; 91:1440-9.
  • 10
    Freedman LS, Schatskin A, Midthune D, Kipnis V. Dealing with dietary measurement error in nutritional cohort studies. J Natl Cancer Inst 2011; 103:1086-92.
  • 11
    Carroll RJ, Ruppert D, Stefanski LA, Crainiceanu CM. Measurement error in nonlinear models: a modern perspective. 2nd Ed. Boca Raton: Chapman and Hall/CRC Press; 2006.
  • 12
    Kipnis V, Midthune D, Buckman DW, Dodd KW, Guenther PM, Krebs-Smith SM, et al. Modeling data with excess zeros and measurement error: application to evaluating relationships between episodically consumed foods and health outcomes. Biometrics 2009; 65:1003-10.
  • 13
    Carroll RJ, Midthune D, Subar AF, Shumkovich M, Freedman LS, Thompson FE, et al. Taking advantages of the strengths of 2 different dietary assessment instruments to improve estimates for nutritional epidemiology. Am J Epidemiol 2012; 175:340-7.
  • 14
    Verly-Jr E, Castro MA, Fisberg RM, Marchioni DM. Precision of usual food intake estimates according to the percentage of individuals with a second dietary measurement. J Acad Nutr Diet 2012; 112:1015-20.
  • 15
    Conway JM, Ingwersen LA, Vinyard BT, Moshfegh A. Effectiveness of the US Department of Agriculture 5-step multiple-pass method in assessing food intake in obese and non obese women. Am J Clin Nutr 2003; 77:1171-8.
  • 16
    Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statist Med 1998; 17:1623-34.
  • 17
    Nissenshon M, Román-Viñas B, Sánchez-Villegas A, Piscopo S, Serra-Majem L. The effect of the mediterranean diet on hypertension: a systematic review and meta-analysis. J Nutr Educ Behav 2016; 48:42-53.e1.
  • 18
    Zong G, Gao A, Hu FB, Sun Q. Whole grain intake and mortality from all causes, cardiovascular disease, and cancer. A meta-analysis of prospective cohort studies. Circulation 2016; 133:2370-80.
  • 19
    Cohen J. Statistical power analysis for the behavioral sciences. 2nd Ed. Mahwah: Lawrence Erlbaum Associates; 1988.
  • 20
    Szklo M, Javier Nieto F. Epidemiology: beyond the basics. Gaithersburg: Aspen; 2000.

Datas de Publicação

  • Publicação nesta coleção
    03 Jul 2017

Histórico

  • Recebido
    07 Out 2016
  • Revisado
    05 Mar 2017
  • Aceito
    22 Mar 2017
Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz Rio de Janeiro - RJ - Brazil
E-mail: cadernos@ensp.fiocruz.br