Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
En muchas áreas de interés, como la salud pública, la epidemiología, la sociología, la psicología,
la ingeniería y la agricultura, entre otras, el análisis de datos de recuento es de interés
primordial. Normalmente, se asume un modelo de Poisson p( X =x)=Po (x , μ) para
modelar la distribución de la observación de recuento X o, al menos, para aproximar su
distribución. Sin embargo, se ha observado en varias aplicaciones que la dispersión del modelo
de Poisson subestima la dispersión observada. Este fenómeno, también llamado
sobredispersión, se produce porque un único parámetro de Poisson μ suele ser insuficiente
para describir la población. De hecho, en muchos casos se puede sospechar que la
heterogeneidad de la población que no se ha tenido en cuenta está causando esta
sobredispersión. Esta heterogeneidad de la población no se observa, es decir, la población está
formada por varias subpoblaciones, en este caso del tipo Poisson, pero la pertenencia a la
subpoblación no se observa en la muestra. Una posibilidad para hacer frente al problema es
suponer que la heterogeneidad implicada en los datos puede describirse adecuadamente
mediante alguna densidad Π ( μ) definida sobre la población de posibles parámetros de
Poisson μ. Dado que esta heterogeneidad no puede observarse directamente, también se
denomina latente. Sólo podemos observar los recuentos procedentes de la densidad marginal
o de mezcla
∞
∫ ❑Po ( x , μ) Π (μ)(d μ)
0
Se pueden distinguir dos enfoques. Uno, el enfoque tradicional, consiste en seguir un modelo
totalmente paramétrico para la densidad de mezcla П. Un ejemplo de esta naturaleza es la
distribución Gamma para Π para la que la densidad marginal se convierte en la binomial
negativa. El segundo enfoque, no paramétrico, no especifica ninguna densidad paramétrica
para Π . En este caso, el estimador de máxima verosimilitud no paramétrico (NPMLE) es
siempre finito y da pesos π j a las clases o subpoblaciones latentes μ g , g=1, … , G (Simar,
1974; Böhning 1982, 1995; Lindsay, 1983). Este enfoque no paramétrico es atractivo, ya que
no sólo es fácil de interpretar, sino que además no requiere especificar el número de clases
latentes G . Ambos enfoques están relacionados con la metodología empírica de Bayes (Maritz
y Lwin, 1989), ya que una estimación de la distribución Π (μ) puede verse como un estimador
empírico de Bayes, como un estimador de la distribución a priori en el teorema de Bayes. Así,
los modelos de mezcla proporcionan la herramienta para clasificar las observaciones mediante
la máxima probabilidad posterior en los componentes o clases del modelo de mezcla.
Dado que éstas pueden estimarse mediante la media y la varianza muestrales, es natural
2
{ 2 2
}
comparar s = ( x 1−x́ ) +…+ ( x R−x́ ) /(n−1) y x́ lo que lleva a la prueba de sobredispersión
O=
√ n−1 2
2
( s − x ) /x
que toma el valor 21.06 ( s 2=6.639 , x=3.23 , P - valor ¿ 0.0001 ). Aquí se utiliza el hecho de
que O es aproximadamente normal, pero también equivalente a (n−1) s2 / x que es χ 2 con
(n−1) grados de libertad (Böhning, 1994).
Volviendo al estudio de prevención de la caries, es interesante una segunda medida que
describe el efecto de la medida de prevención. Al cabo de dos años, se midió a los niños por
segunda vez y se evaluó su estado dental, incluido el cálculo del índice DMFT. Esto conduce a
la medida del efecto △ DMFT =DMFT 1-DMFT2, donde DMFT1 denota el estado dental al
inicio del estudio y DMFT2 el estado dental dos años después. Sólo si △ DMFT > 0 se ha
producido una mejora del estado dental del niño, de lo contrario no ha cambiado o ha
empeorado. En el estudio BELCAP, típico sólo para unos pocos niños, el estado dental cambió
negativamente. Esto podría ser completamente diferente en otros estudios o en estudios
sobre poblaciones de mayor edad en los que sólo se puede esperar una evolución negativa que
entonces justificaría una definición de Δ ' DMFT =DMFT 2 -DMFT1.
La figura 2 muestra la situación para △ DMFT que un simple Poisson no daría un ajuste
adecuado a los datos. Esto también puede verse en la prueba de sobredispersión mencionada
anteriormente o=21.65 ( s 2=3.42 , x=1.64 , P - valor ¿ 0.0001 )que indica una fuerte
sobredispersión, que, como veremos en la sección siguiente, se explica por un modelo
bastante simple.
Como hemos visto en la sección 2, el modelo (3) no se ajusta a los datos del DMFT. En cambio,
los datos muestran una fuerte sobredispersión s2 > x debido a que se ha producido una gran
frecuencia de extrazeros en la distribución. Una forma sencilla de modelar esta dispersión nula
es incluir una proporción (1−π ) de extra-ceros y una proporción π × e−μ procedente de la
distribución de Poisson (Johnson, Kotz y Kemp, 1992, p. 314; Lambert, 1992). Podemos escribir
esta densidad de Poisson con inflación cero f como
{ }
−μ
(1−π )+ π e , if x=0
f ( x ; π , μ)=
π Po (x , μ) , if x> 0
ya que una de las buenas propiedades de la distribución de Poisson es que Po (x , 0)=0 para
todo x >0y Po (0,0)=1. Por lo tanto Po ( x , 0) es la única distribución puntual que pone toda
su masa en cero. Como nota al margen, observamos que esta propiedad no es compartida por
muchas distribuciones. Por ejemplo, la normal no tiene esta propiedad, mientras que la
binomial sí.
4 Otros ejemplos de
investigación de accidentes de tráfico. Kuan et al. (1991) analizan datos procedentes
del archivo maestro de licencias de conducir del Departamento de Vehículos
Motorizados de California. Aquí la variable de interés es el número de accidentes por
conductor. Una posible motivación es la posibilidad de encontrar factores de riesgo
implicados en los accidentes.
( s2− x ) /x =8.5319 ¿ valor ¿ 0.0001 ¿que indica una fuerte sobredispersión. La figura 3
√ n−1
2
muestra la distribución, la figura 4 los residuos de Pearson para el modelo simple y el modelo
ZI-Poisson. Como se puede observar, el modelo ZIP conduce a un ajuste adecuado.
Figura 3: Distribución del número de accidentes
(1−π )Po ( x i , 0 ) + π Po ( x i , μ N i )
Observed
SMR= =x / E :
Expected
(1−π )Po ( x i , 0 ) + π Po ( x i , μ × Ei ) ,
La visualización gráfica es útil para comparar los distintos parámetros entre grupos. Por
ejemplo, se podría definir que el grupo A es fuertemente mejor que el grupo B si y sólo si
π A ≥ π B y μ A ≥ μB (con al menos una desigualdad estricta). Gráficamente, esto significa que el
rectángulo del grupo A contiene al del grupo B. Se podría definir que el grupo A es débilmente
mejor que el grupo B si E ( X A ) > E ( X B )siendo este último el criterio de comparación más
tradicional. De nuevo, gráficamente esto significa que el área del rectángulo asociado al grupo
A es mayor que la asociada al grupo B. Obsérvese que "fuertemente mejor" implica
"débilmente mejor". Volvamos a los datos del estudio BELCAP de la sección 2 . El objetivo era
la evaluación de varias medidas de intervención para la reducción de la prevalencia de caries,
medida en la variable .DMFT. Había seis escuelas diferentes, cada una de las cuales
representaba una estrategia de prevención específica. La escuela 3 sirvió como escuela de
control. Como puede verse en la figura 8, la escuela 1 es ligeramente mejor (en la media
de .DMFT) que todas las demás escuelas. También es fuertemente (tanto en ! como en ') mejor
que las otras escuelas, excepto la Escuela 2, para la cual la media del segundo componente es
mayor. Esto implica que en esta escuela hay un porcentaje menor de niños que muestran
alguna mejora, pero para los que sí la muestran, es mayor que para la Escuela 1.
6 Inclusión de covariables
Con frecuencia, en un estudio se tienen en cuenta diversas variables adicionales, ya
sea como factores explicativos o como factores de confusión, como el sexo, la edad y
las covariables de exposición. Los datos pueden organizarse para formar estratos y
estratos específicos μ y π como se describe en la sección 4. Sin embargo, el enfoque
estratificado tiene sus limitaciones cuando el número de covariables aumenta. Como
alternativa, se podría intentar combinar la estructura de error específica del modelo
ZIP con el marco de los modelos lineales generalizados, en particular con la regresión
de Poisson. El modelo log-lineal convencional
E( X)=exp ( α + β y ) ,
T
condicional a los valores de las covariables. De hecho, tenemos un modelo que puede situarse
en una clase de modelos lineales generalizados para la heterogeneidad, considerados por Dietz
(1992) recientemente.
En la contribución de Dietz (1992), se discuten los métodos para encontrar las estimaciones de
máxima verosimilitud mediante el algoritmo EM.
Volvamos a los datos del estudio BELCAP de la sección 2. El objetivo era la evaluación de varias
medidas de intervención para la reducción de la prevalencia de caries, medida en la
variable .DMFT. Había siete escuelas diferentes, cada una de las cuales representaba una
estrategia de prevención específica. Como factores de confusión potenciales adicionales se
consideraron las siguientes variables SEXO (covariable binaria), y COLOR (grupo
étnico:covariable con 3 categorías). En la Tabla 1 se ofrecen los resultados no sólo de la
regresión de Poisson convencional y su generalización con inflación cero, sino que también se
considera el modelo de mezcla más general que permite la mezcla en el intercepto. En la Tabla
1 queda claro que la mayor ganancia en el aumento de la probabilidad se produce al pasar del
modelo no inflado al modelo ZIP.
Tabla 1: Regresión de Poisson y ZIP sobre el índice .DMFT para las covariables ESCUELA, SEXO,
COLOR
La tabla 2 proporciona las estimaciones del efecto con los errores estándar y los valores Z
asociados (valor Z = estimación del efecto dividido por su error estándar). Como puede verse,
ni el SEXO ni el COLOR desempeñan un papel relevante en ninguno de los tres modelos,
mientras que la Escuela 1 es la más relevante en los tres modelos de distribución. Hay que
señalar un punto. Los efectos de la Escuela 2 y la Escuela 5 no son significativos en el modelo
logarítmico-lineal de mal ajuste, mientras que ambos efectos son significativos en el modelo
ZIP. Esto subraya el potencial del sesgo del efecto si se elige un modelo de distribución
incorrecto.
Tabla 2: Estimaciones del efecto con errores estándar para la regresión Poisson y ZIP sobre el
índice .DMFT para las covariables ESCUELA, SEXO, COLOR
Tabla 3: Log-likelihood para los tres modelos de distribución y las distintas covariables
7. Discusión
Hemos visto que los modelos ZIP son modelos de mezcla o de clase latente muy especiales que
pueden utilizarse en diversas aplicaciones. Se ha demostrado que existen formas que
proporcionan estimadores de máxima verosimilitud de forma fiable. Dado que los modelos ZIP
son mezclas (de Poisson) especiales, el software para la modelización de mezclas como
C.A.MAN (Böhning, Schlattmann y Lindsay 1992, Böhning 1995) podría utilizarse para ajustar
los modelos ZIP. Además, se han discutido formas de incluir covariables. Suponemos que la
mayor parte del trabajo futuro se dedicará a esta área de inclusión de covariables en los
modelos de inflación cero.
m
L(π , μ)=n0 log [(1−π )+ π e −μ
] +∑ ❑n x log [π Po ( x , μ)]
x=1
y el vector de puntuación
( )
−μ −μ T
e −1 −π e
−μ (
n0 + n−n0 ) / π , n0 −μ
−( n−n 0 ) +n x /μ
1−π + π e 1−π + π e
1−n 0 /n
π= −μ
1−e
μ= x́ /π ,
x /1−n 0 /n
que se puede escribir en una ecuación μ= =:G(μ)ver figura 9. Como
1−e−μ
d x −μ
G( μ)= e >0 , μ j+1=G ( μ j ) converge para cualquier valor inicial μ0 al MLE μ́ MLE
dμ 1−n0 / n
que satisface la ecuación del punto fijo μ=G(μ) . μ0= μ́ MO puede elegirse como valor inicial
para la iteración. La convergencia de este algoritmo suele ser lineal y existen formas de
aceleración (Böhning, 1993).
Referencias
Böhning, D., Schlattmann, P. y Lindsay, B.G. (1992). Análisis de mezclas asistido por ordenador
(C.A.MAN): Statistical Algorithms. Biometrics 48, 283-303.
Böhning, D. (1993). Técnicas de aceleración en métodos de punto fijo para encontrar puntos
porcentuales. Statistics and Computing 3, 1-5. Böhning, D. (1994). A note on test for Poisson
overdispersion. Biometrika 81, 418-419.
Dietz, E. (1992). Estimación de la heterogeneidad ) Un enfoque GLM. En: Fahrmeir, L., Francis
F., Gilchrist, R., Tutz, G. (Eds.), "Advances in GLIM and Statistical Modelling", Lecture Notes in
Statistics, Springer Verlag Berlin, p. 66-72.
Johnson, N., Kotz, S. y Kemp, A.W. (1992). Univariate Discrete Distributions, 2nd Edition, Wiley:
Nueva York. Kuan, J., Peck, R.C. y Janke, M.K. (1991). Statistical Methods for Traffic Accident
Research, en: Proceedings of the 1990 Taipei Symposium in Statistics, June 28-30, 1990, ed.
por Min-Te Chao y Philip E. Cheng. Taipei, Institute of Statistical Science. Lindsay, B.G. (1983).
The geometry of mixture likelihoods: a general theory, Ann. Statist. 11, 86-94.
Maritz, J.S. y Lwin, T. (1989). Empirical Bayes Methods, 2ª edición. Chapman & Hall: Londres.
Mendonça, L. (1995). Longitudinalstudie zu kariespräventiven Methoden, durchgeführt bei 7-
bis 10- jährigen urbanen Kindern in Belo Horizonte (Brasilien). Inaugural-Disseration zur
Erlangung der zahnmedizinischen Doktorwürde am Fachbereich Zahn-, Mund- und
Kieferheilkunde der Freien Universität Berlin.