p (X =x) =Po ⁡ (x ,μ) X μ

Capítulo 32
Modelos de recuento cero y sus aplicaciones en salud pública y ciencias sociales

Dankmar Böhning, Ekkehart Dietz y Peter Schlattmann
Departamento de Epidemiología, Instituto de Medicina Social, Universidad Libre de Berlín
Introducción
En muchas áreas de interés, como la salud pública, la epidemiología, la sociología, la psicología,
la ingeniería y la agricultura, entre otras, el análisis de datos de recuento es de interés
primordial. Normalmente, se asume un modelo de Poisson p( X =x)=Po ⁡(x , μ) para
modelar la distribución de la observación de recuento X o, al menos, para aproximar su
distribución. Sin embargo, se ha observado en varias aplicaciones que la dispersión del modelo
de Poisson subestima la dispersión observada. Este fenómeno, también llamado
sobredispersión, se produce porque un único parámetro de Poisson μ suele ser insuficiente
para describir la población. De hecho, en muchos casos se puede sospechar que la
heterogeneidad de la población que no se ha tenido en cuenta está causando esta
sobredispersión. Esta heterogeneidad de la población no se observa, es decir, la población está
formada por varias subpoblaciones, en este caso del tipo Poisson, pero la pertenencia a la
subpoblación no se observa en la muestra. Una posibilidad para hacer frente al problema es
suponer que la heterogeneidad implicada en los datos puede describirse adecuadamente
mediante alguna densidad Π ( μ) definida sobre la población de posibles parámetros de
Poisson μ. Dado que esta heterogeneidad no puede observarse directamente, también se
denomina latente. Sólo podemos observar los recuentos procedentes de la densidad marginal
o de mezcla
∞
∫ ❑Po ⁡( x , μ) Π (μ)(d μ)
0
Se pueden distinguir dos enfoques. Uno, el enfoque tradicional, consiste en seguir un modelo
totalmente paramétrico para la densidad de mezcla П. Un ejemplo de esta naturaleza es la
distribución Gamma para Π para la que la densidad marginal se convierte en la binomial
negativa. El segundo enfoque, no paramétrico, no especifica ninguna densidad paramétrica
para Π . En este caso, el estimador de máxima verosimilitud no paramétrico (NPMLE) es
siempre finito y da pesos π j a las clases o subpoblaciones latentes μ g , g=1, … , G (Simar,
1974; Böhning 1982, 1995; Lindsay, 1983). Este enfoque no paramétrico es atractivo, ya que
no sólo es fácil de interpretar, sino que además no requiere especificar el número de clases
latentes G . Ambos enfoques están relacionados con la metodología empírica de Bayes (Maritz
y Lwin, 1989), ya que una estimación de la distribución Π (μ) puede verse como un estimador
empírico de Bayes, como un estimador de la distribución a priori en el teorema de Bayes. Así,
los modelos de mezcla proporcionan la herramienta para clasificar las observaciones mediante
la máxima probabilidad posterior en los componentes o clases del modelo de mezcla.
En esta contribución estudiamos una forma especial de densidad de heterogeneidad no

paramétrica Π es decir, una distribución de dos masas que da masa (1−π ) a la cuenta 0 y
masa π a la segunda clase con media μ . En otras palabras, consideramos una situación de
datos en la que se produce un número de extra-ceros. Hay una gran variedad de aplicaciones
en las que se producen extra-ceros. Mencionaremos algunas de ellas en la siguiente sección.
2. El DMF - Índice en Epidemiología Dental
En la epidemiología dental, el índice DMF es un importante y conocido indicador y medida

global del estado dental de una persona. Se trata de un número de recuento que representa el
número de dientes cariados, ausentes y obturados (en cuyo caso se denomina índice DMFT) o
de superficies dentales (en cuyo caso se denomina índice DMFS). Como aplicación,
consideramos aquí los datos procedentes de un estudio prospectivo de escolares de una zona
urbana de Belo Horizonte (Brasil). El lector interesado puede consultar Mendonça y Böhning
(1994) y Mendonça (1995). La figura 1 muestra la distribución de la DMFT al principio del
estudio. Hay un claro pico de ceros adicionales que representan a los niños sin caries. Si se
considera la distribución en general, el gran número de niños con índice DMFT de valor cero es
notable y parece un fenómeno no atípico para las distribuciones DMFT. No obstante, la línea
de argumentación seguida en epidemiología dental utiliza el hecho de que el índice DMFT es
una variable de recuento, y argumenta que normalmente se utilizan distribuciones de Poisson
para los datos de recuento, lo que finalmente conduce a la modelización loglineal para incluir
covariables. Sin embargo, la distribución de Poisson no se ajusta en absoluto, en este caso. Si el
supuesto de Poisson fuera cierto, el valor esperado y la varianza deberían coincidir.
Figura 1: Distribución de la DMFT al inicio del estudio
Dado que éstas pueden estimarse mediante la media y la varianza muestrales, es natural
2
{ 2 2
}
comparar s = ( x 1−x́ ) +…+ ( x R−x́ ) /(n−1) y x́ lo que lleva a la prueba de sobredispersión
O=
√ n−1 2
2
( s − x ) /x
que toma el valor 21.06 ( s 2=6.639 , x=3.23 , P - valor ¿ 0.0001 ). Aquí se utiliza el hecho de
que O es aproximadamente normal, pero también equivalente a (n−1) s2 / x que es χ 2 con
(n−1) grados de libertad (Böhning, 1994).
Volviendo al estudio de prevención de la caries, es interesante una segunda medida que
describe el efecto de la medida de prevención. Al cabo de dos años, se midió a los niños por
segunda vez y se evaluó su estado dental, incluido el cálculo del índice DMFT. Esto conduce a
la medida del efecto △ DMFT =DMFT 1-DMFT2, donde DMFT1 denota el estado dental al
inicio del estudio y DMFT2 el estado dental dos años después. Sólo si △ DMFT > 0 se ha
producido una mejora del estado dental del niño, de lo contrario no ha cambiado o ha
empeorado. En el estudio BELCAP, típico sólo para unos pocos niños, el estado dental cambió
negativamente. Esto podría ser completamente diferente en otros estudios o en estudios
sobre poblaciones de mayor edad en los que sólo se puede esperar una evolución negativa que
entonces justificaría una definición de Δ ' DMFT =DMFT 2 -DMFT1.
La figura 2 muestra la situación para △ DMFT que un simple Poisson no daría un ajuste
adecuado a los datos. Esto también puede verse en la prueba de sobredispersión mencionada
anteriormente o=21.65 ( s 2=3.42 , x=1.64 , P - valor ¿ 0.0001 )que indica una fuerte
sobredispersión, que, como veremos en la sección siguiente, se explica por un modelo
bastante simple.
Figura 2: Distribución del .DMFT
3 El Cero-Inflado Poisson Model

Un modelo estadístico sencillo y frecuentemente aplicado para una distribución de
recuento es el modelo de Poisson en el que suponemos que X sigue una densidad de
Poisson
−μ x
p(X =x)=e μ / x !=Po ⁡( x , μ).
Como hemos visto en la sección 2, el modelo (3) no se ajusta a los datos del DMFT. En cambio,
los datos muestran una fuerte sobredispersión s2 > x debido a que se ha producido una gran
frecuencia de extrazeros en la distribución. Una forma sencilla de modelar esta dispersión nula
es incluir una proporción (1−π ) de extra-ceros y una proporción π × e−μ procedente de la
distribución de Poisson (Johnson, Kotz y Kemp, 1992, p. 314; Lambert, 1992). Podemos escribir
esta densidad de Poisson con inflación cero f como
{ }
−μ
(1−π )+ π e , if x=0
f ( x ; π , μ)=
π Po ⁡(x , μ) , if x> 0
f ( x ; π , μ)=(1−π )Po ⁡( x , 0)+ π Po ⁡( x , μ)
ya que una de las buenas propiedades de la distribución de Poisson es que Po ⁡(x , 0)=0 para
todo x >0y Po ⁡(0,0)=1. Por lo tanto Po ⁡( x , 0) es la única distribución puntual que pone toda
su masa en cero. Como nota al margen, observamos que esta propiedad no es compartida por
muchas distribuciones. Por ejemplo, la normal no tiene esta propiedad, mientras que la
binomial sí.
Interpretación. La representación (5) señala que el modelo ZIP es un modelo de mezcla

especial que tiene dos clases, donde la primera clase tiene un valor fijo en 0 . Esta clase puede
interpretarse según el tipo de aplicación, y normalmente existen interpretaciones bastante
simples. En el caso del índice DMFT, esta clase está formada por los niños sin caries. En el caso
del △ DMFT esta clase cero corresponde a los niños que no muestran ninguna mejora.
Para el modelo ZIP con inflación cero encontramos
Var ⁡( X)=E( X )+ E( X )(μ−E( X )) y E( X)=πμ
Para demostrar estas afirmaciones, volvemos a la aplicación biométrica descrita en la sección
2. Para los △ DMFT -datos de la figura 2 encontramos una sobredispersión s2−x =1.77. Los
estimadores de máxima verosimilitud para el modelo ZIP resultan ser π́=0.67 y μ́=2.48que
conducen a una sobredispersión ajustada (según (6)) E X́ ( μ́−E X́ )=1.36 lo que lleva a una
sobredispersión explicada de E X́ ( μ́−E X́ )/ ( s 2− x́ )=0.77con E X́ = μ́ π́ . Así pues, 77 % de la
sobredispersión sería explicada por el modelo ZIP. En el Apéndice se discuten los estimadores
de momento y de máxima verosimilitud para el modelo ZIP. En lo sucesivo, dejemos que μ́ y π́
denotan las estimaciones de máxima verosimilitud de μ y π respectivamente.
4 Otros ejemplos de
investigación de accidentes de tráfico. Kuan et al. (1991) analizan datos procedentes
del archivo maestro de licencias de conducir del Departamento de Vehículos
Motorizados de California. Aquí la variable de interés es el número de accidentes por
conductor. Una posible motivación es la posibilidad de encontrar factores de riesgo
implicados en los accidentes.
Algunas estadísticas: x=0.2032 , s2=0.2365La prueba de sobredispersión ofrece O=
( s2− x ) /x =8.5319 ¿ valor ¿ 0.0001 ¿que indica una fuerte sobredispersión. La figura 3
√ n−1
2
muestra la distribución, la figura 4 los residuos de Pearson para el modelo simple y el modelo
ZI-Poisson. Como se puede observar, el modelo ZIP conduce a un ajuste adecuado.
Figura 3: Distribución del número de accidentes
Figura 4: Residuos de Pearson de los dos modelos
Sociología del crimen. En un estudio sobre el comportamiento desviado, Dieckmann (1981)

ofrece un análisis de un conjunto de datos sobre 4.039 personas con comportamiento
delictivo. La variable de interés es aquí el número de actos delictivos por persona. La
motivación de este estudio podría ser encontrar los factores que conducen a la conducta
desviada. La figura 5 muestra la distribución correspondiente. Los estadísticos asociados son
x=0.0776 , s =0.1209 con una prueba de sobredispersión muy significativa ( P -valor
2
¿ 0.0001 ¿. De nuevo, el modelo ZIP proporciona un ajuste aceptable en este caso.
Epidemiología geográfica (cartografía de enfermedades) La cartografía de enfermedades es un

método habitual para mostrar la presencia geográfica (espacial) de las enfermedades. En la
epidemiología infecciosa, su principal valor no es sólo la identificación de las áreas de la
enfermedad, sino también el modo y la transmisión. En la epidemiología no infecciosa, los
mapas de enfermedades se utilizan para detectar zonas de alto riesgo, que a su vez pueden
utilizarse para detectar factores de riesgo desconocidos considerando sus mapas espaciales
asociados. Como ejemplo, se estudia la distribución del Sudden Infant Death Síndrome -
Tasa para Carolina del Norte (EE.UU.). Symons et al. (1983) proporcionan un análisis de este
conjunto de datos que demuestra un fuerte gradiente espacial en la ocurrencia del SMSL. La
motivación de estos estudios es encontrar factores de riesgo (aún desconocidos) implicados en
el SMSL, que pueden ser investigados en estudios ecológicos (Schlattmann y Böhning, 1993). El
análisis se afina aún más en Böhning et al. (1992), mostrando un claro pico en aquellos
condados con cero casos de muerte. Mencionamos este ejemplo aquí porque en algunos casos
el modelo ZIP necesita una forma especial, cuando los datos se dan como tasas: x i muertes
infantiles repentinas en el condado i con N i en riesgo:
Figura 6: Distribución geográfica de la tasa de SMS en Carolina del Norte
(1−π )Po ⁡( x i , 0 ) + π Po ⁡( x i , μ N i )
donde μ es la tasa de población, o como ratios, como la Mortalidad Estandarizada Ratio:
Observed
SMR= =x / E :
Expected
(1−π )Po ⁡( x i , 0 ) + π Po ⁡( x i , μ × Ei ) ,
donde μ es la TME de la población. Obsérvese que Ei denota aquí el número esperado de

casos de muerte en el i-ésimo condado que se calcula a partir de una población de referencia
externa (a menudo la población estándar nacional o la población mundial).
5. Representación gráfica del modelo ZIP
En esta sección ofrecemos una representación gráfica que presenta un resumen de las
distintas partes del modelo ZIP. Recordemos que el modelo ZIP es un modelo de mezcla con
dos componentes, uno fijado en cero con peso (1−π )y el otro con un peso π en la media del
segundo componente μ. La figura 7 contiene un rectángulo con una línea de base de longitud
μde modo que los dos puntos extremos de esta línea de base representan las dos medias de
los componentes del modelo de mezcla. La altura del rectángulo es π , mostrando así la
distribución de la distribución de la mezcla. Ahora el área del rectángulo es π × μ=E (X ) ¡!
Obsérvese que para las sustituciones de la muestra esta ecuación se convierte en X́ = μ́ × π́
debido a las ecuaciones de estimación que figuran en el apéndice.
Figura 7: Un dispositivo gráfico para el modelo ZIP
La visualización gráfica es útil para comparar los distintos parámetros entre grupos. Por
ejemplo, se podría definir que el grupo A es fuertemente mejor que el grupo B si y sólo si
π A ≥ π B y μ A ≥ μB (con al menos una desigualdad estricta). Gráficamente, esto significa que el
rectángulo del grupo A contiene al del grupo B. Se podría definir que el grupo A es débilmente
mejor que el grupo B si E ( X A ) > E ( X B )siendo este último el criterio de comparación más
tradicional. De nuevo, gráficamente esto significa que el área del rectángulo asociado al grupo
A es mayor que la asociada al grupo B. Obsérvese que "fuertemente mejor" implica
"débilmente mejor". Volvamos a los datos del estudio BELCAP de la sección 2 . El objetivo era
la evaluación de varias medidas de intervención para la reducción de la prevalencia de caries,
medida en la variable .DMFT. Había seis escuelas diferentes, cada una de las cuales
representaba una estrategia de prevención específica. La escuela 3 sirvió como escuela de
control. Como puede verse en la figura 8, la escuela 1 es ligeramente mejor (en la media
de .DMFT) que todas las demás escuelas. También es fuertemente (tanto en ! como en ') mejor
que las otras escuelas, excepto la Escuela 2, para la cual la media del segundo componente es
mayor. Esto implica que en esta escuela hay un porcentaje menor de niños que muestran
alguna mejora, pero para los que sí la muestran, es mayor que para la Escuela 1.
6 Inclusión de covariables
Con frecuencia, en un estudio se tienen en cuenta diversas variables adicionales, ya
sea como factores explicativos o como factores de confusión, como el sexo, la edad y
las covariables de exposición. Los datos pueden organizarse para formar estratos y
estratos específicos μ y π como se describe en la sección 4. Sin embargo, el enfoque
estratificado tiene sus limitaciones cuando el número de covariables aumenta. Como
alternativa, se podría intentar combinar la estructura de error específica del modelo
ZIP con el marco de los modelos lineales generalizados, en particular con la regresión
de Poisson. El modelo log-lineal convencional
E( X)=exp ⁡( α + β y ) ,
T
donde y es el vector de covariables, α es un parámetro de intercepción desconocido y β un

vector desconocido de coeficientes de regresión, puede generalizarse fácilmente a la regresión
ZIP, en la que la distribución de nuestra variable de recuento X se supone que es
(1−π ) Po ⁡(x , 0)+ π Po ⁡(x , μ)=(1−π) Po ⁡( x , 0)+ π Po ⁡( x ,exp ⁡( α + β y ) )

T
condicional a los valores de las covariables. De hecho, tenemos un modelo que puede situarse
en una clase de modelos lineales generalizados para la heterogeneidad, considerados por Dietz
(1992) recientemente.
En la contribución de Dietz (1992), se discuten los métodos para encontrar las estimaciones de
máxima verosimilitud mediante el algoritmo EM.
Volvamos a los datos del estudio BELCAP de la sección 2. El objetivo era la evaluación de varias
medidas de intervención para la reducción de la prevalencia de caries, medida en la
variable .DMFT. Había siete escuelas diferentes, cada una de las cuales representaba una
estrategia de prevención específica. Como factores de confusión potenciales adicionales se
consideraron las siguientes variables SEXO (covariable binaria), y COLOR (grupo
étnico:covariable con 3 categorías). En la Tabla 1 se ofrecen los resultados no sólo de la
regresión de Poisson convencional y su generalización con inflación cero, sino que también se
considera el modelo de mezcla más general que permite la mezcla en el intercepto. En la Tabla
1 queda claro que la mayor ganancia en el aumento de la probabilidad se produce al pasar del
modelo no inflado al modelo ZIP.
Tabla 1: Regresión de Poisson y ZIP sobre el índice .DMFT para las covariables ESCUELA, SEXO,
COLOR
La tabla 2 proporciona las estimaciones del efecto con los errores estándar y los valores Z
asociados (valor Z = estimación del efecto dividido por su error estándar). Como puede verse,
ni el SEXO ni el COLOR desempeñan un papel relevante en ninguno de los tres modelos,
mientras que la Escuela 1 es la más relevante en los tres modelos de distribución. Hay que
señalar un punto. Los efectos de la Escuela 2 y la Escuela 5 no son significativos en el modelo
logarítmico-lineal de mal ajuste, mientras que ambos efectos son significativos en el modelo
ZIP. Esto subraya el potencial del sesgo del efecto si se elige un modelo de distribución
incorrecto.
Tabla 2: Estimaciones del efecto con errores estándar para la regresión Poisson y ZIP sobre el
índice .DMFT para las covariables ESCUELA, SEXO, COLOR
La tabla 3 compara la ganancia en la log-verosimilitud para los tres modelos de distribución.

Nótese que el modelo log-lineal es un caso especial del modelo ZIP, que es un caso especial del
modelo de mezcla de 2 componentes. Esto hace que las verosimilitudes logarítmicas sean
comparables verticalmente. Horizontalmente, las covariables se han incluido de forma aditiva.
Tabla 3: Log-likelihood para los tres modelos de distribución y las distintas covariables
El punto de la Tabla 3 es el siguiente. Se podría argumentar que el modelo log-lineal simple

sigue siendo un enfoque válido, ya que la heterogeneidad de la distribución se explica por las
covariables. Sin embargo, este no es el caso, ya que la ganancia en la log-verosimilitud en la
primera fila es de -1546,58 a -1528,78, mientras que en la primera columna es de -1546,58 a -
1391,94. Esto implica que la heterogeneidad explicada a través de las covariables es
drásticamente menor que a través del modelo ZIP de distribución. Obsérvese que el mismo
argumento ya no es válido cuando se compara el modelo ZIP con la mezcla de 2 componentes.
Si en el modelo ZIP se incluyen las covariables, se observa una ganancia de -1391,94 a -
1380,79, valor este último que se compara favorablemente con -1379,90, que es el valor de la
mezcla de 2 componentes sin covariables incluidas. Por lo tanto, podría afirmarse que la
heterogeneidad residual en el modelo ZIP se explica a través de las covariables.
7. Discusión
Hemos visto que los modelos ZIP son modelos de mezcla o de clase latente muy especiales que
pueden utilizarse en diversas aplicaciones. Se ha demostrado que existen formas que
proporcionan estimadores de máxima verosimilitud de forma fiable. Dado que los modelos ZIP
son mezclas (de Poisson) especiales, el software para la modelización de mezclas como
C.A.MAN (Böhning, Schlattmann y Lindsay 1992, Böhning 1995) podría utilizarse para ajustar
los modelos ZIP. Además, se han discutido formas de incluir covariables. Suponemos que la
mayor parte del trabajo futuro se dedicará a esta área de inclusión de covariables en los
modelos de inflación cero.
Apéndice: Estimación de los parámetros del modelo

Estimación de momentos. A partir de (6) tenemos las ecuaciones de momento E( X)=X y
2
S2=E ( X )(1+ μ−E ( X )) que se resuelven fácilmente con μ́ MO=S / X −1+ X y π́ MO =X / μ́ MO
Estimación por máxima verosimilitud. Sea ni es el número de i en la muestra; en particular n 0

es el número de ceros en la muestra. Entonces la función de máxima verosimilitud viene dada
por
m
L(π , μ)=n0 log ⁡[(1−π )+ π e −μ
] +∑ ❑n x log ⁡[π Po ⁡( x , μ)]
x=1
y el vector de puntuación
( )
−μ −μ T
e −1 −π e
−μ (
n0 + n−n0 ) / π , n0 −μ
−( n−n 0 ) +n x /μ
1−π + π e 1−π + π e
lo que lleva a las ecuaciones de puntuación
1−n 0 /n
π= −μ
1−e
μ= x́ /π ,
x /1−n 0 /n
que se puede escribir en una ecuación μ= =:G(μ)ver figura 9. Como
1−e−μ
d x −μ
G( μ)= e >0 , μ j+1=G ( μ j ) converge para cualquier valor inicial μ0 al MLE μ́ MLE
dμ 1−n0 / n
que satisface la ecuación del punto fijo μ=G(μ) . μ0= μ́ MO puede elegirse como valor inicial
para la iteración. La convergencia de este algoritmo suele ser lineal y existen formas de
aceleración (Böhning, 1993).
Figura 9: MLE como punto fijo de G
Referencias
Böhning, D. (1982). Convergencia del algoritmo de Simar para encontrar la estimación de

máxima verosimilitud de un proceso de Poisson compuesto. Ann. Statist. 10, 1006 - 1008.
Böhning, D. (1995). A review of reliable maximum likelihood algorithms for the semi-
parametric mixture maximum likelihood estimator. Journal of Statistical Planning and
Inference 47, 5-28.
Böhning, D., Schlattmann, P. y Lindsay, B.G. (1992). Análisis de mezclas asistido por ordenador
(C.A.MAN): Statistical Algorithms. Biometrics 48, 283-303.
Böhning, D. (1993). Técnicas de aceleración en métodos de punto fijo para encontrar puntos
porcentuales. Statistics and Computing 3, 1-5. Böhning, D. (1994). A note on test for Poisson
overdispersion. Biometrika 81, 418-419.
Dieckmann, A. (1981). Ein einfaches stochastisches Modell zur Analyse von

Häufigkeitsverteilungen abweichenden Verhaltens. Zeitschrift für Soziologie 10, 319-325.
Dietz, E. (1992). Estimación de la heterogeneidad ) Un enfoque GLM. En: Fahrmeir, L., Francis
F., Gilchrist, R., Tutz, G. (Eds.), "Advances in GLIM and Statistical Modelling", Lecture Notes in
Statistics, Springer Verlag Berlin, p. 66-72.
Johnson, N., Kotz, S. y Kemp, A.W. (1992). Univariate Discrete Distributions, 2nd Edition, Wiley:
Nueva York. Kuan, J., Peck, R.C. y Janke, M.K. (1991). Statistical Methods for Traffic Accident
Research, en: Proceedings of the 1990 Taipei Symposium in Statistics, June 28-30, 1990, ed.
por Min-Te Chao y Philip E. Cheng. Taipei, Institute of Statistical Science. Lindsay, B.G. (1983).
The geometry of mixture likelihoods: a general theory, Ann. Statist. 11, 86-94.
Lambert, D. (1992). Zero-inflated Poisson regression, with application to defects in

manufacturing. Technometrics 34, 1-14.
Maritz, J.S. y Lwin, T. (1989). Empirical Bayes Methods, 2ª edición. Chapman & Hall: Londres.
Mendonça, L. (1995). Longitudinalstudie zu kariespräventiven Methoden, durchgeführt bei 7-
bis 10- jährigen urbanen Kindern in Belo Horizonte (Brasilien). Inaugural-Disseration zur
Erlangung der zahnmedizinischen Doktorwürde am Fachbereich Zahn-, Mund- und
Kieferheilkunde der Freien Universität Berlin.
Mendonça, L. y Böhning, D. (1994). El efecto del enriquecimiento de la salud y de la exposición

al agua con fluoruro de sodio en la prevención de la caries: Eine Kohortenstudie mit urbanen
Kindern in Brasilien. Beitrag zur 39. Jahren der GMV. Jahrestagung der GMDS vom 18.- 25.
September 1994 in Dresden. September 1994 in Dresden.
Schlattmann, P. y Böhning, D. (1993). Mixture models and disease mapping, Statistics in

Medicine 12, 1943-50.
Simar, L. (1976). Estimación por máxima verosimilitud de un proceso de Poisson compuesto.

Ann. Statist. 4, 1200- 1209. Symons, M.J., Grimson, R.C. y Yuan, Y.C. (1983). Clustering of rare
events. Biometría 39, 193-205

p (X =x) =Po ⁡ (x ,μ) X μ

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

p (X =x) =Po ⁡ (x ,μ) X μ

Cargado por

Copyright:

Formatos disponibles

Capítulo 32

Modelos de recuento cero y sus aplicaciones en salud pública y ciencias sociales

En esta contribución estudiamos una forma especial de densidad de heterogeneidad no

En la epidemiología dental, el índice DMF es un importante y conocido indicador y medida

Figura 1: Distribución de la DMFT al inicio del estudio

Figura 2: Distribución del .DMFT

3 El Cero-Inflado Poisson Model

f ( x ; π , μ)=(1−π )Po ⁡( x , 0)+ π Po ⁡( x , μ)

Interpretación. La representación (5) señala que el modelo ZIP es un modelo de mezcla

Algunas estadísticas: x=0.2032 , s2=0.2365La prueba de sobredispersión ofrece O=

Figura 4: Residuos de Pearson de los dos modelos

Sociología del crimen. En un estudio sobre el comportamiento desviado, Dieckmann (1981)

¿ 0.0001 ¿. De nuevo, el modelo ZIP proporciona un ajuste aceptable en este caso.

Epidemiología geográfica (cartografía de enfermedades) La cartografía de enfermedades es un

donde μ es la tasa de población, o como ratios, como la Mortalidad Estandarizada Ratio:

donde μ es la TME de la población. Obsérvese que Ei denota aquí el número esperado de

donde y es el vector de covariables, α es un parámetro de intercepción desconocido y β un

(1−π ) Po ⁡(x , 0)+ π Po ⁡(x , μ)=(1−π) Po ⁡( x , 0)+ π Po ⁡( x ,exp ⁡( α + β y ) )

La tabla 3 compara la ganancia en la log-verosimilitud para los tres modelos de distribución.

El punto de la Tabla 3 es el siguiente. Se podría argumentar que el modelo log-lineal simple

Apéndice: Estimación de los parámetros del modelo

Estimación por máxima verosimilitud. Sea ni es el número de i en la muestra; en particular n 0

lo que lleva a las ecuaciones de puntuación

Figura 9: MLE como punto fijo de G

Böhning, D. (1982). Convergencia del algoritmo de Simar para encontrar la estimación de

Dieckmann, A. (1981). Ein einfaches stochastisches Modell zur Analyse von

Lambert, D. (1992). Zero-inflated Poisson regression, with application to defects in

Mendonça, L. y Böhning, D. (1994). El efecto del enriquecimiento de la salud y de la exposición

Schlattmann, P. y Böhning, D. (1993). Mixture models and disease mapping, Statistics in

Simar, L. (1976). Estimación por máxima verosimilitud de un proceso de Poisson compuesto.

También podría gustarte