Como incluir características dos distritos do município de São Paulo em estudos epidemiológicos? Análise da desigualdade de renda pelo uso do propensity score matching1

 

 

Alexandre Dias Porto Chiavegatto FilhoI; Sabina Léa Davidson GotliebII; Samuel Luna de AlmeidaIII; Ichiro KawachiIV

IDoutor em Saúde Pública. Professor Doutor da Faculdade de Saúde Publica, Universidade de São Paulo. Endereço: Av. Dr. Arnaldo, 715, CEP 01246-904, São Paulo, SP, Brasil. E-mail: alexdiasporto@usp.br
IIDoutora em Saúde Pública. Professora Associada Aposentada da Faculdade de Saúde Publica, Universidade de São Paulo. Endereço: Av. Dr. Arnaldo, 715, CEP 01246-904, São Paulo, SP, Brasil. E-mail: sgotlieb@usp.br
IIIMestre em Saúde Pública. Pesquisador do Departamento de Saúde Ambiental da Faculdade de Saúde Publica, Universidade de São Paulo. Endereço: Av. Dr. Arnaldo, 715, CEP 01246-904, São Paulo, SP, Brasil. E-mail: samuelunalmeida@gmail.com
IVDoutor em Saúde Pública. Professor da Harvard School of Public Health, Harvard University. Endereço: Huntington Avenue, 677, 02115, Boston, MA, Estados Unidos. E-mail: ikawachi@hsph.harvard.edu

 

 


RESUMO

OBJETIVO: o padrão espacial de distribuição de renda do município de São Paulo, frequentemente generalizado como sendo "radial", tem sido muito questionado pela literatura recente. São Paulo tem uma complexa distribuição de características sociais e demográficas entre seus distritos, o que dificulta a análise por meio de modelos estatísticos que permitam a inclusão somente de algumas variáveis de cada vez, como as regressões lineares. O presente estudo objetiva identificar os distritos do município que possam ser considerados como "comparáveis" pelo uso da metodologia estatística conhecida como propensity score matching.
METODOLOGIA: os 96 distritos do município de São Paulo foram analisados separadamente; foram incluídas 16 variáveis no modelo, sendo o índice de Gini a variável que permitiu a separação de distritos entre expostos (alta desigualdade) ou não expostos (baixa desigualdade). Do total de distritos, 27 foram considerados comparáveis com algum outro, isto é, possuíram valores de propensity score com uma distância menor de 0,1 de outro com tipo de exposição diferente.
RESULTADOS: das 16 variáveis incluídas, 9 apresentaram diferenças estatisticamente significativas entre os distritos incluídos e excluídos, o que é esperado pela metodologia. Dos 17 pares de distritos formados, apenas 3 foram compostos por distritos de uma mesma região administrativa e apenas 1 por distritos que faziam fronteira entre si.
CONCLUSÃO: a análise da diferença no padrão de distribuição das variáveis, permitida pelo uso do propensity score matching, indica a dificuldade de dividir a cidade segundo regiões. Para entender São Paulo é preciso considerar suas particularidades e suas complexas distribuições espaciais.

Palavras-chave: Saúde urbana; Epidemiologia; Bioestatística; Medicina social; Fatores socioeconômicos; Ambiente social.


 

 

Introdução

A Região Metropolitana de São Paulo abriga um número maior de famílias vivendo com menos de um quarto de salário mínimo per capita do que a população total de Porto Alegre (Marques e Torres, 2004). E, apesar de contar com 47% da população paulista, apresenta 55% do total de pobres do Estado, contrariando a tendência nacional de maior concentração da pobreza em regiões rurais (Marques e Torres, 2004).

Uma das mais estabelecidas características de São Paulo é o seu alto nível de segregação, mesmo quando comparada a outras cidades brasileiras, como o Rio de Janeiro (Scalon e Oliveira, 2007). Embora a população de baixa renda tenha diminuído proporcionalmente desde a década de 90 do último século, a sua concentração aumentou nas áreas mais pobres da cidade, o que explica o crescimento da segregação (Torres, 2004). Para Caldeira (2000), São Paulo é a cidade que melhor representa a modernidade brasileira com todos os seus paradoxos: indústrias, favelas, metrôs sofisticados, altas taxas de mortalidade infantil e arranha-céus.

O padrão histórico da distribuição de renda na cidade de São Paulo é o radial, com os mais ricos ocupando as regiões centrais e um aumento da pobreza em direção à periferia (Singer, 1977). Mas estudos recentes apontam a existência de uma forte heterogeneidade mesmo dentro dos diferentes estratos de renda (Marques e Torres, 2004; Torres e col., 2003). Marques e Torres (2004) dividiram as áreas mais ricas em três tipos, as de classe média em quatro e as pobres em três, verificando "a existência de espaços periféricos bastante complexos, nos levando a destacar a existência de periferias, ao invés de periferia" (p. 7).

Ao contrário da periferia, a região central de São Paulo abriga favelas de pequeno porte, localizadas em beiras de córregos e pequenas faixas remanescentes de obras públicas (Saraiva e Marques, 2004). Mesmo assim, morar perto do centro significa estar mais próximo do mercado de trabalho e ter maior acesso a informações sobre empregos e cursos (Gomes e Amitrano, 2004). Na região de classe média alta do Morumbi está situada Paraisópolis, favela com mais de 80.000 habitantes cuja proximidade física com o entorno rico significa maior presença de organizações não governamentais e mercado de trabalho (Almeida e D'Andrea, 2004). O estigma da presença espacial de uma favela é importante para a saúde, não só em relação à sensação de inferioridade apresentada por seus moradores, mas, também, pelos efeitos adversos (possivelmente estressores) em seu entorno mais rico. Em uma pesquisa qualitativa feita por Caldeira (2000) foi verificado que muitos paulistanos de classe média consideram a favela sinônimo de criminalidade e de falta de caráter, principalmente se situada próxima de uma região rica.

As variáveis que definem exclusão social nos distritos do município de São Paulo variam conforme tempo de ocupação, presença do poder público e características do entorno físico. A metodologia mais utilizada na área de saúde pública, a de regressões multivariadas, corre o risco de não detectar evidências de significância estatística devido ao grande número de variáveis que necessitariam ser inseridas no modelo. Uma sugestão apresentada, e com crescente uso na área de epidemiologia social, é o propensity score matching, uma análise estatística aplicada inicialmente em estudos cardiológicos, que começou recentemente a ganhar exposição por toda a área epidemiológica (Oakes e Johnson, 2006).

 

Metodologia

Propensity Score

O conceito de propensity score (PS) foi apresentado pela primeira vez na literatura por Rosenbaum e Rubin (1983), sendo definido como a probabilidade condicional de exposição levando em conta um grupo de variáveis.

O PS tem como objetivo identificar as regiões mais semelhantes entre si, levando-se em consideração um conjunto de variáveis e um fator de exposição (Austin, 2008a). Ele é calculado por meio de uma regressão logística cujos valores variam no intervalo entre 0 e 1. Assim, como o resultado final é a probabilidade de exposição, a não obtenção de significância estatística por excesso de variáveis não se torna um problema para esse modelo.

As variáveis sociais e demográficas incluídas no PS e a identificação das regiões como expostas ou não expostas permitem o cálculo da probabilidade de exposição (Rosenbaum e Rubin, 1983). Por resumir um conjunto de variáveis em uma função escalar, o modelo possibilita identificar se os dois grupos (expostos e não expostos) se intercalam o suficiente para permitir uma comparação com menor variabilidade entre eles. Um mesmo valor de PS significa igual probabilidade de exposição, de acordo com as variáveis selecionadas. Entre indivíduos ou locais com PS semelhantes, alguns serão expostos e outros não expostos, o que permitirá que seja feita a comparação. Essa análise pode ser definida como uma randomização depois da exposição (Yue, 2007). Uma técnica bastante utilizada para testar se os propensity scores encontrados pelo modelo têm alto poder preditivo é a curva ROC (Receiver Operating Characteristic), cuja área representa a probabilidade de as regiões apresentarem um valor de propensity score condizente com a sua exposição (nesse caso, de regiões expostas apresentarem propensity scores mais altos e vice-versa) (Hanley e McNeil, 1982).

Após o cálculo do PS a sequência mais comum é o matching, no qual cada local ou indivíduo é pareado com outro de mesmo valor de PS, mas com diferente exposição (Austin, 2010). O processo de matching inicia-se com a identificação do exposto com menor valor de PS, que será pareado com um não exposto, desde que se situem dentro de uma diferença de valor máxima (caliper width). O caliper width mais utilizado na literatura é igual a 0,01 (Austin, 2008b). Assim, por exemplo, um local ou indivíduo exposto que tenha PS de 0,670 poderá ser agrupado com não expostos que tenham valor de PS entre 0,660 e 0,680. Na presente análise foi utilizado o propensity score matching with replacement (com reposição), o que significa que cada indivíduo ou local exposto pode ser pareado com mais do que um não exposto, desde que dentro do caliper width. Indivíduos ou locais que não agrupados são excluídos das análises subsequentes.

 

São Paulo

O Município de São Paulo, atualmente, é composto por 96 distritos administrativos, agrupados em 31 subprefeituras. Esses distritos representam a menor área para a qual dados de saúde estão disponíveis, por meio do Sistema TabNET do Programa de Aprimoramento das Informações de Mortalidade (PRO-AIM).

Para a presente análise foi utilizada a desigualdade relativa de renda local como o fator de exposição. Ou seja, pretende-se identificar distritos administrativos com características semelhantes, mas que possuam uma distribuição de renda diferente. A mesma análise pode ser feita para outros fatores de exposição, como renda absoluta, tabagismo, vacinação e uso de medicamentos, entre outros (Shah e col., 2005).

Os dados de desigualdade de renda foram provenientes dos setores censitários do município de São Paulo (13.278 no total) (IBGE, 2003). Utilizou-se para o cálculo a renda per capita de todos os residentes (incluindo domicílios cujo responsável apresentou renda igual a zero), mantendo os setores censitários como unidade de análise. A medida de desigualdade de renda utilizada foi o índice de Gini, que é calculado a partir da curva de Lorentz, por meio da área formada pela distância entre a distribuição real e a perfeitamente igualitária das rendas (Sen, 1973).

Os valores do índice de Gini dos distritos variaram de 0,12 (Jaguará) a 0,55 (Vila Andrade). No presente estudo um distrito foi considerado exposto se apresentasse índice de Gini maior ou igual a 0,25 (alta desigualdade) e não exposto, quando o indicador fosse menor do que 0,25 (baixa desigualdade). Como não existe consenso na literatura sobre qual o valor de Gini que pode ser considerado como alto, optou-se por definir o limite em 0,25, por estar próximo ao valor mediano dos índices Gini dos distritos paulistanos.

As variáveis escolhidas para o propensity score matching foram referentes às características absolutas dos distritos. Elas foram selecionadas pelos autores por abordarem algumas importantes características sociais, demográficas e educacionais que podem ter efeito na saúde, além da desigualdade de renda.

As 16 variáveis selecionadas para o cálculo do PS para cada distrito foram: média de anos de estudo dos responsáveis pelo domicílio; densidade residencial; pobreza (proporção de pessoas vivendo com menos de um salário mínimo); renda mediana; proporção de pessoas vivendo em favelas; proporção de residências com abastecimento de água; proporção de residências com coleta de lixo; proporção de residências sem banheiro; proporção de responsáveis por domicílio com menos de 21 anos; proporção de responsáveis não alfabetizados; proporção de crianças de 8 a 12 anos de idade não alfabetizadas; número de professores por aluno da 5ª à 8ª série; incidência de aids; proporção de menores de 1 ano de idade; proporção de idosos (≥ 65 anos de idade); e proporção de mulheres. A maioria dos dados foi retirada do Censo de 2000 (IBGE, 2003). A quantidade de professores para cada aluno foi obtida no Censo Educacional de 2001 e a incidência de aids no Boletim Epidemiológico Municipal (CEM, 2002; SMSP, 2003). Os coeficientes gerais de mortalidade foram padronizados por idade e são referentes ao período de 1998 a 2002 (calculados para valores anuais utilizando-se os dados de população do censo de 2000).

 

Resultados

Os valores de PS variaram de 0 (distrito de Marsilac) a 1 (distrito de Vila Andrade), com valor mediano igual a 0,63. A área abaixo da curva ROC, ou c-statistic, foi de 0,907, o que indica alto poder preditivo (alta sensibilidade). Ou seja, distritos expostos apresentaram valores de PS consistentemente mais elevados, o que é o esperado pela metodologia (Stürmer e col., 2006).

Do total de 96 distritos, somente 27 apresentaram um PS que satisfazia o limite do caliper width de 0.01 de outro distrito com exposição diferente, incluídos na análise. As diferenças observadas entre os distritos incluídos e os excluídos são apresentadas na Tabela 1. O esperado nesse caso é que haja diferenças significativas entre eles, já que a metodologia foi aplicada para excluir os distritos que não apresentavam pelo menos um outro distrito com características semelhantes, ou seja, possíveis outliers. Das 16 variáveis selecionadas, 9 apresentaram diferenças estatisticamente significativas entre os incluídos e os excluídos (p ≤ 0,05).

A análise da relação entre coeficiente de mortalidade anual ajustado por idade e índice de Gini nos 96 distritos mostra que as regiões da periferia paulistana possuem, em geral, maior coeficiente de mortalidade, com a exceção dos distritos do centro (Mapa 1). A zona Leste e o extremo Sul da cidade apresentam índice de Gini mais baixos (ou seja, são mais igualitários); mas, por outro lado, são mais pobres que os demais. Todos os 14 distritos com menor renda mediana têm índice de Gini abaixo do valor mediano do município (0,25).

 

 

Regiões mais centrais da cidade de São Paulo apresentam valores de propensity score mais altos, em consequência da distribuição das variáveis e da maior presença de desigualdade de renda (Mapa 2). É possível verificar, porém, a presença de alguns distritos com PS altos e mais igualitários nas regiões centrais do município, o que aumenta a possibilidade de pareamento.

 

 

O Mapa 3 apresenta os resultados espaciais do pareamento (matching) feito pela metodologia do propensity score. Do total de 96 distritos que foram incluídos na análise após o pareamento, 27 foram considerados "comparáveis" segundo as 16 variáveis selecionadas, formando um total de 17 pares. Dois distritos foram pareados quatro vezes (Vila Mariana e Saúde) e o distrito de Santana, pareado duas vezes. Levando em consideração os nove zoneamentos administrativos oficiais do município de São Paulo (noroeste, nordeste, oeste, centro-sul, centro, sudeste, sul, leste 1, leste 2), apenas 3 dos 17 pares pertencem a uma mesma zona administrativa (Santana-Casa Verde, Santo Amaro-Vila Mariana e Campo Limpo-Cidade Ademar). E do total de pares, apenas um é de fronteira: Santana-Casa Verde.

 

Discussão

O presente estudo permitiu analisar a complexidade das diferenças entre os distritos do município de São Paulo, utilizando como base a distribuição de renda representada pelo índice de Gini. Dos 96 distritos da cidade, apenas 27 foram considerados comparáveis com algum outro, levando-se em consideração as 16 variáveis selecionadas. Em apenas um dos 17 pares foi detectada a presença de distritos que fazem fronteira entre si. A dificuldade de apontar um padrão de distribuição espacial de características demográficas e residenciais indica a necessidade de uma abordagem nova para analisar a saúde dos paulistanos.

Como identificaram Marques e Torres (2004, p. 7), em São Paulo, o padrão histórico mencionado na literatura de distribuição dos grupos sociais em uma estrutura radial concêntrica é, na melhor das hipóteses, "uma aproximação genérica". Antes do uso do propensity score para controle das diferenças absolutas entre distritos, não foi encontrada associação estatisticamente significativa entre os coeficientes de mortalidade ajustados por idade e pobreza (medida pela proporção de indivíduos com renda abaixo de um salário mínimo), proporção de favelas ou índice de Gini.

Comparar padrões de mortalidade dos distritos paulistanos baseando-se apenas em uma das inúmeras possíveis variáveis com influência na saúde é um erro que prejudica a validade dos resultados. Não se pode falar em comparar regiões pobres com regiões ricas sem se considerar a complexidade da distribuição social da cidade. Alguns distritos de São Paulo têm alta proporção de pobres e a renda mediana é alta. Um exemplo dessa situação é o Morumbi, que tem a terceira renda mediana mais alta entre os 96 distritos, mas, ao mesmo tempo, 10% dos residentes vivem com menos de um salário mínimo por mês. Por outro lado, existem distritos extremamente igualitários, mas que têm alta proporção de favelas. O distrito de Pedreira apresenta valor do índice de Gini abaixo do valor mediano do município, apesar de ter a segunda maior proporção de residentes morando em favelas (38%).

A presença de diferença estatisticamente significativa em 9 das 16 variáveis verificadas para distritos incluídos e excluídos da análise é um forte indício da importância da utilização do propensity score matching para a identificação e seleção dos distritos comparáveis.

A metodologia estatística do propensity score permitiu também a inclusão de um elevado número de variáveis, analisadas segundo um fator de exposição (no caso, distribuição de renda medida pelo índice de Gini). O uso dessa metodologia tem sido bastante incentivado para trabalhos epidemiológicos que lidam com indivíduos ou locais com alta heterogeneidade (Oakes e Johnson, 2006).

A metodologia, porém, tem como limitação o fato de não conseguir controlar as variáveis não incluídas no modelo, ao contrário do que acontece com estudos randomizados tradicionais (Luellen e col., 2005). Além disso, a sua aplicação em cidades menores pode ser mais difícil, devido à necessidade de uma amostra inicial grande (no presente estudo, apenas 27 dos 96 distritos foram incluídos na análise final).

São Paulo continua a ser a cidade dos contrastes. Analisá-la por meio de uma comparação direta entre distritos ou segundo zonas administrativas é assumir uma uniformidade de características, além da variável de interesse, que não existe. O presente estudo indica a necessidade de introdução de metodologias que possibilitem a inclusão um grande número de variáveis.

 

Referências

ALMEIDA, R.; D'ANDREA, T. Pobreza e redes sociais em uma favela paulistana. Novos Estudos, São Paulo, v. 68, n. 1, p. 94-106, 2004.         

AUSTIN, P. C. A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003. Statistics in Medicine, Malden, v. 27, n. 12, p. 2037-2049, 2008a.         

AUSTIN, P. C. Primer on statistical interpretation or methods report card on propensity-score matching in the cardiology literature from 2004 to 2006. Circulation: Cardiovascular Quality and Outcomes, Boston, v. 1, n. 1, p. 62-67, 2008b.         

AUSTIN, P. C. Statistical criteria for selecting the optimal number of untreated subjects matched to each treated subject when using many-to-one matching on the propensity score. American Journal of Epidemiology, Baltimore, v. 172, n. 9, p. 1092-1097, 2010.         

CALDEIRA, T. P. R. Cidade de muros: crime, segregação e cidadania em São Paulo. São Paulo: EdUSP, 2000.         

CEM - CENTRO DE ESTUDOS DA METRÓPOLE. Bases de dados georreferenciadas da região metropolitana de São Paulo, a partir do censo escolar de 2001. São Paulo, 2002. Disponível em: <http://www.centrodametropole.org.br/cd/escolas/ESC2001.rar>. Acesso em: 25 abr. 2012.         

GOMES, S.; AMITRANO, C. Local de moradia na metrópole e vulnerabilidade ao (emprego e) desemprego. In: MARQUES, E.; TORRES, H. São Paulo: segregação, pobreza e desigualdades sociais. São Paulo: Senac, 2004. p. 169-194.         

HANLEY J. A.; MCNEIL, B. J. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, Boston, v. 143, n. 1, p. 29-36, 1982.         

IBGE - INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Censo demográfico 2000: resultados do universo: agregados de setores censitários: São Paulo, Região Metropolitana. Brasília, DF, 2003. 1 CD-ROM.         

LUELLEN J. K.; SHADISH, W. R.; CLARK, M. H. Propensity scores: an introduction and experimental test. Evaluation Review, Thousand Oaks, v. 29, n. 6, p. 530-558, 2005.         

MARQUES, E. C.; TORRES, H. G. Pobreza e distribuição espacial de grupos sociais na metrópole de São Paulo. São Paulo: CEM, 2004. Disponível em: <http://www.fflch.usp.br/centrodametropole/antigo/v1/pdf/Adenauer%20ed%20har.pdf>. Acesso em: 19 set. 2013.         

OAKES, J. M.; JOHNSON, P. J. Propensity score matching for social epidemiology. In: OAKES, J. M.; KAUFMAN, J. S. Methods in social epidemiology. San Francisco: Jossey-Bass; 2006. p. 370-392.         

ROSENBAUM, P. R.; RUBIN, D. B. The central role of the propensity score in observational studies for causal effects. Biometrika, Oxford, v. 70, n. 1, p. 41-55, 1983.         

SARAIVA, C.; MARQUES, E. A dinâmica social das favelas da região metropolitana de São Paulo. In: MARQUES, E.; TORRES, H. São Paulo: segregação, pobreza e desigualdades sociais. São Paulo: Senac, 2004. p. 143-168.         

SCALON, C.; OLIVEIRA, M. A. Desigualdades de classe e desigualdades espaciais. In: XIII CONGRESSO DA SOCIEDADE BRASILEIRA DE SOCIOLOGIA, 13, 2007, Recife. Livro de resumo. Recife: SBS, 2007. p. 11.         

SEN, A. K. On economic inequality. Oxford: Clarendon, 1973.         

SHAH, B. R. et al. Propensity score methods gave similar results to traditional regression modeling in observational studies: a systematic review. Journal of Clinical Epidemiology, Amsterdam, v. 58, n. 6, p. 550-559, 2005.         

SINGER, P. Desenvolvimento econômico e evolução urbana. São Paulo: Companhia Editora Nacional, 1977.         

SMSP - SECRETARIA MUNICIPAL DA SAÚDE DE SÃO PAULO. DST/Aids na cidade de São Paulo. Boletim Epidemiológico de Aids do Município de São Paulo, São Paulo, v.7, p. 28-31, dez. 2003.         

STÜRMER, T. et al. A review of the application of propensity score methods yielded increasing use, advantages in specific settings, but not substantially different estimates compared with conventional multivariable methods. Journal of Clinical Epidemiology, Amsterdam, v. 59, n. 5, p. 437-447, 2006.         

TORRES, H. Medindo a segregação. In: MARQUES, E.; TORRES, H. São Paulo: segregação, pobreza e desigualdades sociais. São Paulo: Senac, 2004. p. 81-100.         

TORRES, H. G. et al. Pobreza e espaço: padrões de segregação em São Paulo. Estudos Avançados, São Paulo, v. 17, n. 47, p. 97-128, 2003.         

YUE, L. Q. Statistical and regulatory issues with the application of propensity score analysis to nonrandomized medical device clinical studies. Journal of Biopharmaceutical Statistics, New York, v. 17, n. 1, p. 1-13, 2007.         

 

 

Recebido em: 25/04/2012
Aprovado em: 25/10/2012

 

 

1 Financiamento: CAPES (processo 1276-09-3)

Faculdade de Saúde Pública, Universidade de São Paulo. Associação Paulista de Saúde Pública. SP - Brazil
E-mail: saudesoc@usp.br