Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Poisson
Regresión Poisson
4/25/2007
Regresión Poisson
Resumen
El procedimiento Regresión Poisson está diseñado para ajustar un modelo de regresión en el
cual la variable dependiente Y consiste de conteos. El modelo de regresión ajustado relaciona Y
con una o más variables predictoras X, que pueden ser cuantitativas o categóricas. El
procedimiento ajusta un modelo usando máxima verosimilitud o mínimos cuadrados ponderados.
La selección de variables por pasos es una opción. Se realizan pruebas de razón de verosimilitud
para probar la significancia de los coeficientes del modelo. El modelo ajustado puede graficarse
y generarse predicciones a partir del mismo. Se identifican y grafican residuos atípicos.
Datos de Ejemplo:
El archivo mines.sf6 contiene un grupo de datos tomados de Myers (1990) que describen el
número de lesiones que ocurren en los campos de carbón en West Virginia. Los datos consisten
de n = 44 observaciones de diferentes minas. A continuación se muestra una porción de los
datos:
La variable dependiente es Fractures (fracturas), que tabula el número de lesiones en cada mina.
Las otras 4 columnas son variables predictoras potenciales que cuantifican diversos atributos de
cada mina.
e − λiti (λi t i )
p(Yi ) = (1)
Yi !
Análisis de Desviación
Fuente Desviación Gl Valor-P
Modelo 37.1277 4 0.0000
Residuo 37.856 39 0.5220
Total (corr.) 74.9837 43
Porcentaje de desviación explicado por el modelo = 49.5143
Porcentaje ajustado = 36.1781
Análisis de Residuos
Estimación Validación
n 44
CME 4.15055
MAE 0.986136
MAPE
ME -0.0604684
MPE
La salida incluye:
δ (β 1 , β 2 ,..., β k | β 0 )
R2 = (4)
δ (β 0 )
δ (β 1 , β 2 ,..., β k | β 0 ) − 2 p
2
Radj = (5)
δ (β 0 )
ei = y i − λ̂i t i (6)
Se incluyen el cuadrado medio del error (CME), el error absoluto medio (MAEA), el error
porcentual absoluto medio (MAPE), el error medio (ME), y el error porcentual medio (MPE).
Estas estadísticas de validación pueden ser comparadas con las estadísticas del modelo
ajustado para determinar qué tan bien el modelo predice las observaciones fuera de los datos
usados para ajustarlo.
La regresión explica alrededor del 49.5% de la desviación de un modelo con sólo una constante.
El valor de P para un par de variables está por arriba 0.05, indicando que podrían ser removidos
razonablemente del modelo.
• Modelo: orden del modelo a ser ajustado. Los modelos de primer orden incluyen solo efectos
principales. Los modelos de segundo orden incluyen efectos cuadráticos para los factores
cuantitativos e interacciones de dos factores entre todas las variables.
• Incluir Constante: Si no se marca esta opción, el término constante β0 será omitido del
modelo.
• Ajustar: especifica si todas las variables independientes especificadas en caja de diálogo del
ingreso de datos deben ser incluidas en el modelo final, o si se debe aplicar una selección por
pasos de las variables. La selección por pasos intenta encontrar un modelo parsimonioso que
contenga sólo variables significativas estadísticamente. Un ajuste por Selección Hacia
Adelante comienza sin variables en el modelo. Un ajuste por Selección Hacia Atrás comienza
con todas las variables en el modelo.
• P-para-Eliminar - En un ajuste por pasos, las variables serán removidas del modelo en un
paso dado si sus valores de P son mayores que el valor especificado de P-para-Eliminar.
• Pasos Max.: máximo número de pasos permitidos cuando se lleva a cabo un ajuste por
pasos.
• Mostrar: si se muestran los resultados en cada paso cuando se lleva a cabo un ajuste por
pasos.
• Excluir: Presione este botón para excluir efectos del modelo. Se mostrará una caja de
diálogo:
Haga doble clic sobre un efecto para moverlo del campo Incluir al campo Excluir o para
regresarlo.
• Selección hacia adelante – Comienza con un modelo con sólo un término constante
y mete una variable a la vez con base en su significancia estadística si entrara al
modelo actual. En cada paso, el algoritmo pone en el modelo la variable que tendría
la mayor significancia estadística si entrara. Siempre que la variable más significativa
tenga un valor de P menor o igual al especificado en la caja de diálogo Opciones del
Análisis, será introducida al modelo. Cuando ninguna variable tenga un valor de P lo
suficientemente pequeño, se detiene la selección de variables. Además, las variables
introducidas al modelo al principio del procedimiento pueden ser removidas después
si su valor de P cae dentro del criterio P-para-Eliminar.
• Selección hacia atrás – Comienza con un modelo con todas las variables
especificadas en la caja de diálogo del ingreso de datos y quita una variable a la vez
con base en su significancia estadística en el modelo actual. En cada paso, el
algoritmo saca del modelo la variable que es la menos significativa estadísticamente.
Si la variable menos significativa tiene un valor de P mayor al especificado en la caja
de diálogo Opciones del Análisis, será removida del modelo. Cuando todas las
variables restantes tengan valores pequeños de P, se detiene el procedimiento.
Además, las variables removidas del modelo al principio del procedimiento pueden
ser reintroducidas después si su valor de P alcanza el criterio P-para-Introducir.
© 2006 by StatPoint, Inc. Regresión Poisson - 7
STATGRAPHICS – Rev. 4/25/2007
Paso 0:
14 factores en el modelo. 29 g.l. para el error.
Porcentaje de desviación explicada = 68.75% Porcentaje ajustado = 28.74%
Paso 1:
Eliminando factor Years with P-para-eliminar = 0.931068
13 factores en el modelo. 30 g.l. para el error.
Porcentaje de desviación explicada = 68.74% Porcentaje ajustado = 31.40%
Paso 2:
Eliminando factor Height*Height with P-para-eliminar = 0.667761
12 factores en el modelo. 31 g.l. para el error.
Porcentaje de desviación explicada = 68.49% Porcentaje ajustado = 33.82%
Paso 3:
Eliminando factor Thickness*Thickness with P-para-eliminar = 0.785169
11 factores en el modelo. 32 g.l. para el error.
Porcentaje de desviación explicada = 68.39% Porcentaje ajustado = 36.39%
Paso 4:
Eliminando factor Thickness*Years with P-para-eliminar = 0.847819
10 factores en el modelo. 33 g.l. para el error.
Porcentaje de desviación explicada = 68.35% Porcentaje ajustado = 39.01%
Paso 5:
Eliminando factor Extraction*Years with P-para-eliminar = 0.688459
9 factores en el modelo. 34 g.l. para el error.
Porcentaje de desviación explicada = 68.13% Porcentaje ajustado = 41.46%
Paso 6:
Eliminando factor Height with P-para-eliminar = 0.529659
8 factores en el modelo. 35 g.l. para el error.
Porcentaje de desviación explicada = 67.60% Porcentaje ajustado = 43.60%
Paso 7:
Eliminando factor Extraction*Height with P-para-eliminar = 0.957829
7 factores en el modelo. 36 g.l. para el error.
Porcentaje de desviación explicada = 67.60% Porcentaje ajustado = 46.26%
Paso 8:
Eliminando factor Years*Years with P-para-eliminar = 0.402248
6 factores en el modelo. 37 g.l. para el error.
Porcentaje de desviación explicada = 66.66% Porcentaje ajustado = 47.99%
Paso 9:
Eliminando factor Thickness*Height with P-para-eliminar = 0.39377
5 factores en el modelo. 38 g.l. para el error.
Porcentaje de desviación explicada = 65.69% Porcentaje ajustado = 49.69%
Paso 10:
Eliminando factor Height*Years with P-para-eliminar = 0.0852434
4 factores en el modelo. 39 g.l. para el error.
Porcentaje de desviación explicada = 61.74% Porcentaje ajustado = 48.41%
Análisis de Desviación
Fuente Desviación Gl Valor-P
Modelo 46.2986 4 0.0000
Residuo 28.6851 39 0.8874
Total (corr.) 74.9837 43
El modelo final involucra sólo 2 variables: Thickness y Extraction. Contiene efectos principales
para ambas variables, una interacción entre las 2 variables, y un efecto cuadrático para
Extraction. El porcentaje de desviación explicada por el modelo ha aumentado a
aproximadamente 61.7%.
0
0 200 400 600 800 1000
Thickness
Opciones de Ventana
• Nivel de Confianza: porcentaje usado para los límites de confianza. Poner en 0 para omitir
los límites.
• Siguiente y Atrás: usado para mostrar otros factores cuando hay presentes más de 16.
La tasa estimada de fracturas disminuye de una alta de casi 4.5 a una baja de casi 0 conforme el
grosor (Thickness) de la mina aumenta, en Extraction = 75, Height = 50, y Years = 7.
Gráfica de Fractures
4
observado
0
0 1 2 3 4 5
predicho
Si el modelo ajusta bien, los puntos deben estar esparcidos aleatoriamente alrededor de la línea
diagonal.
Predicciones
El modelo de regresión ajustado puede usarse para predecir el resultado de nuevas muestras
cuyas variables predictoras son dadas. Por ejemplo, suponga que se desea una predicción para
una mina con Thickness = 100, Extraction = 70, Height = 50, y Years = 10. Se puede agregar una
nueva columna a la hoja de datos con estos valores para las variables predictoras, pero se dejaría
en blanco la entrada para Fractures. Entonces la ventana Predicciones presentaría:
La tabla muestra el valor ajustado λ̂i t i , junto con intervalos de confianza aproximados del 95%.
• Mostrar: muestra Todos los Valores (predicciones para todas las filas en la hoja de datos), o
Sólo Pronósticos (predicciones para las filas con valores faltantes para Y).
Intervalos de Confianza
La ventana Intervalos de Confianza muestra el error de estimación potencial asociado con cada
coeficiente en el modelo, así como para las razones de tasas.
Opciones de Ventana
Esta tabla puede ser útil para determinar que tan bien se han separado unos de otros los efectos
de las variables independientes.
Residuos Atípicos
Una vez que el modelo ha sido ajustado, es útil estudiar los residuos para determinar si existe
algún valor atípico que debiera ser removido de los datos. La ventana Residuos Atípicos lista
todas las observaciones que tienen residuos grandes atípicos.
La tabla muestra:
• Y – el valor observado de Y.
ei = y i − λ̂i t i (7)
ei
ri = (8)
λ̂i t i
La tabla incluye todas las filas para las cuales el valor absoluto del residual de Pearson es mayor
que 2.0. El presente ejemplo muestra 2 residuos que exceden 2.5, ninguno de los cuales excede
de 3.0.
Gráficas de Residuos
Al igual que con todos los modelos estadísticos, es una buena práctica examinar los residuos. El
procedimiento Regresión Poisson incluye varios tipos de gráficas de residuos, dependiendo de
las Opciones de Ventana.
Gráfica de Residuos
2.8
Residuos de desviación
1.8
0.8
-0.2
-1.2
-2.2
0 1 2 3 4 5
predicho Fractures
0.6
autocorrelación
0.2
-0.2
-0.6
-1
0 2 4 6 8 10 12
retraso
Esto sólo es relevante si los datos se colectaron secuencialmente. Cualquier barra extendiéndose
más allá de los límites de probabilidad indicaría dependencia significativa entre residuos
separados por el retraso indicado.
Opciones de Ventana
• Nivel de Confianza: para una Función de Autocorrelación, el nivel usado para crear los
límites de probabilidad.
Puntos Influyentes
Cuando se ajusta un modelo de regresión, no todas las observaciones tienen la misma influencia
en la estimación de los parámetros del modelo ajustado. Aquellos con valores atípicos de las
variables independientes tienden a tener mayor influencia que los otros. La ventana Puntos
Influyentes presenta cualquier observación que tenga gran influencia en el modelo ajustado:
La tabla muestra todos las observaciones con leverage alto. El punto leverage es una estadística
que mide cuán distante está una observación de la media de las n observaciones en el espacio de
las variables independientes. Entre más grande el leverage, mayor el impacto del punto en los
valore ajustados ŷ. Los puntos son colocados en la lista si el leverage es mayor de tres veces el
de un punto promedio
La observación con el punto leverage mayor en los datos de la muestra es la fila #25, aunque es
sólo alrededor de 4 veces el punto leverage promedio.
Salvar Resultados
Se pueden salvar en la hoja de datos los siguientes resultados:
1. Valores Predichos – los valores ajustados λ̂i t i correspondientes a cada fila de la hoja de
datos.
2. Límites Inferiores – los límites inferiores de confianza para λ̂i t i .
3. Límites Superiores – los límites superiores de confianza para λ̂i t i .
4. Residuos – los residuos ordinarios.
5. Residuos Pearson – los residuos estandarizados de Pearson.
6. Residuos de Desviación – los residuos de desviación.
7. Leverages – los puntos niveladores para cada fila.
Cálculos
Sea λi = la tasa estimada en los valores de las variables predictoras en la fila i.
Función de Verosimilitud
L=∏
n
[λi t i ]y i
exp(− λi t i )
(10)
i =1 yi !
Desviación
L( βˆ )
δ ( βˆ ) = (11)
y i i exp(− y i )
n y
∏i =1 yi !
Punto Leverage
{
hi = diag X i′( X ′WX ) X i wi
−1
} (12)
p
h= (13)
n