SciELO - Scientific Electronic Library Online

 
vol.2 issue1Plano de amostragem utilizado no estudo de reprodução humana no distrito de São Paulo author indexsubject indexarticles search
Home Page  

Revista de Saúde Pública

Print version ISSN 0034-8910

Rev. Saúde Pública vol.2 n.1 São Paulo Jun. 1968

http://dx.doi.org/10.1590/S0034-89101968000100001 

ARTIGO

 

Regressão linear com duplo truncamento na distribuição da variável dependente1

 

 

José Maria Pacheco de Souza

 

 


RESUMO

Do problema do ajuste de uma regressão linear, quando a distribuição da variável dependente tem duplo truncamento, utilizando a função de máxima verossimilhança e um processo iterativo.


SUMMARY

A solution to the problem of fitting a linear regression with double truncation in the distribution of the dependent variable is obtained, using the maximum likelihood function and an iterative process.


 

 

1 – INTRODUÇÃO

Motivados pela necessidade de estudar o comportamento da idade da mulher casada na época do primeiro abôrto em função da sua idade ao casar (MILANESI3, 1968), ou seja, estabelecer a regressão entre estas variáveis, nos defrontamos com um problema envolvendo uma variável que, pela sua própria natureza, possui um campo de variação restrito a um sub-conjunto do total. Estamos nos referindo à variável – idade da mulher casada na época do primeiro abôrto – que tem seu campo de variação limitado, de um lado, pela idade ao casar, e de outro, pela idade na menopausa, ou seja, tem o que se denomina um duplo truncamento.

A solução do problema proposto se enquadra, portanto, no capítulo de regressão com duplo truncamento na distribuição da variável dependente. HOLGATE2 (1965) já considerou o caso de regressão com truncamento simples; o presente trabalho representa uma extensão dos resultados daquele autor, para o caso mais geral de duplo truncamento.

 

2 – A FUNÇÃO DENSIDADE DE PROBABILIDADES

No que segue faremos abstração da motivação já apresentada, a fim de tratarmos do problema com maior generalidade.

Sejam c a variável independente e g a variável aleatória dependente distribuída normalmente, com média a + bc e variância s2, ou, abreviadamente:

 

 

Havendo duplo truncamento, a função densidade de probabilidde de g, para cada c é:

 

 

onde

 

 

ou seja, w e z são os pontos inferior e superior de truncamento na distribuição de g.

 

3 – ESTIMAÇÃO DOS PARÂMETROS a E b DA RETA DE REGRESSÃO E DA VARIÂNCIA s2

A estimação será feita pelo método da máxima verossimilhança. Para tanto, suponhamos que, em correspondência a cada ci (i = 1, 2, .... m) fôsse tomada uma amostra de tamanho ni, isto é, de valores de gij (j = 1, 2, ...., ni). Sejam:

 

 

A função de verossimilhança da amostra é:

 

 

Tomando-se logaritmos naturais, temos:

 

Figura

 

Calculando-se as derivadas parciais para cada parâmetro, obtemos:

 

(1)

(2)

(3)

 

onde e(wi), e(zi) são as ordenadas obtidas na curva normal, nos pontos de truncamento wi e zi.

Derivando-se uma segunda vez, obtemos:

 

(4 a 8)

 

(9)

 

onde:

 

 

Em virtude da dificuldade de resolver estas equações de forma explícita, os estimadores , , , serão obtidos a partir dos resultados numéricos das equações 1 a 9, por processo iterativo, utilizando-se então o método de Newton-Raphson (WHITTAKER & ROBINSON 7, 1926).

Como primeiro passo, calculam-se valores , e , pelo processo clássico de regressão e análise de variância, e, com êstes valores, resolve-se o seguinte sistema de 3 equações a 3 incógnitas:

 

 

onde as derivadas são tomadas nos pontos x = ; k = e s = , obtendo-se valores de p1, q1, r1, respectivamente, os acréscimos de , e na 1.a iteração. Assim, passamos a ter os seguintes novos estimadores de x, k e s:

 

 

Os resultados de 11, 12, 13 é que serão utilizados agora num 2.° ciclo interativo para solução do sistema 10 (onde as derivadas serão tomadas nos pontos x= ; k = ; s = ) e obtenção de novos acréscimos e, portanto, novos estimadores. O processo se encerra quando os acréscimos (pn, qn, rn) se tornarem desprezíveis, e então:

 

 

Nestas condições, os estimadores de a, b e s serão:

 

 

4 – CONSIDERAÇÕES SOBRE OS RESULTADOS

Nossos resultados (equações 1 a 9) diferem dos de HOLGATE (equações 3 e 4) devido ao têrmo v (c), que é o quociente da ordenada no ponto de truncamento pela área à sua direita; no caso em aprêço temos duplo truncamento, e êste fato nos conduz a um quociente em que temos, no numerador, a diferença entre as ordenadas dos pontos de truncamento, e no denominador, a área entre os 2 pontos de truncamento.

Como conseqüência, temos também as divergências devidas ao termo l(c) = v'(c), para nós substituído por equações mais complexas.

Essas diferenças não são de todo eliminadas, mesmo quando um dos pontos de truncamento está muito afastado da média, determinando uma ordenada praticamente igual a zero.

Assim sendo, ainda nestes casos mais favoráveis, não podemos nos utilizar das tabelas devidas a SAMPFORD 6 (1952), que nos dão valores de v (c) e l(c), e devemos recorrer às tabelas da curva normal para áreas e ordenadas (PEARSON & hartley5, 1958 e Boll1, 1947).

 

5 – EXEMPLO

Retomemos o problema que motivou a generalização aqui apresentada, isto é, estabelecer a reta de regressão entre a "idade da mulher na época do primeiro aborto" (g) e a "idade da mulher ao casar" (c); MILANESI 3 (1968), obteve, pelo método dos mínimos quadrados, observando 306 mulheres casadas que tinham tido abôrto.

Como a distribuição da primeira variável pode ser considerada duplamente truncada, foi utilizado, a seguir, o método aqui descrito para a devida correção, encontrando-se os seguintes valores para as equações 1 a 9:

 

 

com a nova equação sendo:

 

 

Êstes resultados são muito semelhantes aos anteriores, indicando que não se fazia necessário um novo ciclo iterativo.

Usando o método de estimação da máxima verossimilhança, a matriz de variância-covariância dos estimadores de x, k e s será dada por (MOOD & GRAYBILL4, 1963):

 

 

Denotando por a matriz de variância-covariância dos estimadores de a, b e s, e por J a matriz de transformação:

 

 

tem-se:

 

 

que no exemplo considerado assumem os seguites valores:

 

 

onde vemos que a variância de = 0,24403 e a de = 0,00029, enquanto que a de = 0,00657.

 

REFERÊNCIAS BIBLIOGRÁFICAS

1. BOLL, M. – Tables numériques universelles: des laboratories et bureaux d'etude. Paris, Dunod, 1947.        [ Links ]

2. HOLGATE, P. – Fitting a straight line to data from a truncated population. Biometrics 21 (3):715-720, Sept. 1965.        [ Links ]

3. MILANESI, M. L. – Abôrto provocado. São Paulo, 1968. (Tese de doutoramento – Fac. Hig. Saúde Públ. Univ. S. Paulo).        [ Links ]

4. MOOD, A. M. .& GRAYBILL, F. A. – Introduction to the theory of statistics. 2nd ed. New York, Mc-Graw-Hill, 1963. p. 236-237.        [ Links ]

5. PEARSON, E. S. & HARTLEY, H. O., ed. – Biometrika tables for statisticians. 2nd ed. Cambridge, University Press, 1958. v. 1.        [ Links ]

6. SAMPFORD, M. R. – The estimation of response-time distributions. II. Multi-stimulus distributions. Biometrics, 8(4) :307-369, Dec. 1952.        [ Links ]

7. WHITTAKER, F. T. & ROBINSON, G. – The calculus of observations: a treatese on numerical mathematics. 2nd ed. London, Blackie, 1926.        [ Links ]

 

 

Recebido para publicação em 16-12-1968

 

 

O arquivo disponível sofreu correções conforme ERRATA publicada no Volume 2 Número 2 da revista.
1 Da Cadeira de Estatística Aplicada à Saúde Pública da Faculdade de Higiene e Saúde Pública da USP