Está en la página 1de 4

Centro de Investigaciones en Matemáticas

Programa de Educación a Distancia (PRED)

MODELOS DE REGRESIÓN PARA DATOS CATEGÓRICOS


Docente: M.en M. Laura Letipichia

Unidad 5
Actividad 1

César A. Berlanga Robles

Mazatlán, Sinaloa
Ch{ataigne, Tridi, 3 Vendémiare, An CCXXVIII
(25-09-2019)
Descripción de los datos
De un total de 1 387 159 habitantes en las ciudades de Minesota y Dalas, Estados Unidos se
encontraron 1765 casos de cáncer de piel, el 0.12%. Los datos se presentaron con las edades
agrupadas en 10 intervalos de clase con una amplitud de 10 años (la amplitud real fue de 9
años), con excepción del último grupo que considera a las personas de 85 años o más. El
límite inferior del primer intervalo fue 15 años.

Con base en el tamaño poblacional de cada intervalo de clase (de edad) por ciudad se
estimó la tasa de incidencia de cáncer de piel por cada de 10 000 habitantes (variable t10), y
con base en ésta, se pudo observar que la incidencia de cáncer aumenta conforme aumenta la
edad y que en la ciudad de Dallas hubo mayor incidencia que en Minesota (Fig. 1).

Fig. 1. Distribución de la incidencia de cáncer de piel, por cada 10 0000 habitantes, por grupo de edad en las
ciudades de Minesota y Dallas, Estados Unidos

Hipótesis
A partir de lo anterior, se proponen dos hipótesis de investigación:

1) La incidencia de cáncer de piel aumenta conforme aumenta la edad


2) La incidencia de cáncer de piel es mayor en Dallas que en Minesota
Análisis
Para probar de manera simultánea ambas hipótesis se propuso un modelo de regresión
logísticas de Poisson, en el cual la incidencia de cáncer (la tasa por cada 10 000 habitantes)
depende de la edad y la ciudad (Dallas y Minesota),

t10~edad+ciudad

La edad fue ingresada al modelo como variable cualitativa, usando la marca de clase de los
intervalos, con excepción de la última clase, ingresando su límite inferior (85). Por su parte
las ciudades se ingresaron como variable dummy.

El modelo con los coeficientes estimados fue:

0 𝑝𝑎𝑟𝑎 𝑀𝑖𝑛𝑒𝑠𝑜𝑡𝑎
𝑡10 = 𝑒 −0.62+0.053(𝑒𝑑𝑎𝑑)+0.711(𝑐𝑖𝑢𝑑𝑎𝑑) , 𝑐𝑖𝑢𝑑𝑎𝑑 {
1 𝑝𝑎𝑟𝑎 𝐷𝑎𝑙𝑙𝑎𝑠

0 𝑝𝑎𝑟𝑎 𝑀𝑖𝑛𝑒𝑠𝑜𝑡𝑎
𝑡10 = 𝑒 −0.62 . 𝑒 0.053(𝑒𝑑𝑎𝑑) . 𝑒 0.711(𝑐𝑖𝑢𝑑𝑎𝑑) , 𝑐𝑖𝑢𝑑𝑎𝑑 {
1 𝑝𝑎𝑟𝑎 𝐷𝑎𝑙𝑙𝑎𝑠

Ambas pendientes fueron significativas (p < 0.00001). Por otro lado, tanto la media como la
varianza de la incidencia de cáncer para 10 000 habitantes fue de 12.7, por lo que los datos
no presentaron sobredimensión, entonces se considera el modelo de Poisson adecuado para
modelar los datos.

La tasa relativa de incidencia de cáncer con respecto a la edad fue de 1.054 y con respecto a
la ciudad (Dallas) de 2.03. Los datos apoyan ambas hipótesis de investigación, es decir la
incidencia de cáncer en la piel aumenta conforme aumenta la edad y la razón de casos de
Dallas con respecto a Minesota es de 2:1.
Fig. 2. Efectos de la edad y la ciudad (Minesota y Dallas) sobre la incidencia de cáncer de piel

Referencias
Dobson, A.J., Barnett, A.G., 2008. An introduction to Generalized Linear Models.
CRC Press, Boca Raton.

Faraway, J. J., 2009. Linear Models with R. Chapman & Hall/CRC, Boca Raton.