Analisis Probit PDF

STATGRAPHICS – Rev.
4/25/2007
Análisis Probit
Resumen
El procedimiento Análisis Probit está diseñado para ajustar un modelo de regresión en el cual la
variable dependiente Y caracteriza un evento con sólo dos posibles resultados. Se pueden
modelados dos tipos de datos:
1. Datos en los que Y consiste en un conjunto de 0’s y 1’s, donde 1 representa la

ocurrencia de uno de los dos resultados.
2. Datos en los cuales Y representa la proporción de veces que ocurre uno de los dos
resultados.
El modelo de regresión relaciona a Y con una o más variables predictoras X, que pueden ser
cuantitativas o categóricas. En este procedimiento, se asume que la probabilidad de un evento
está relacionada con los predictores a través de la función probit. El procedimiento Regresión
Logística puede usarse para ajustar el mismo tipo de datos pero emplea una forma funcional
diferente.
El procedimiento ajusta un modelo usando máxima verosimilitud o mínimos cuadrados

ponderados. La selección por pasos de variables es una opción. Para probar la significancia de
los coeficientes del modelo se realizan pruebas de cociente de verosimilitud. Se puede graficar el
modelo ajustado y predicciones generados a partir del mismo. Se identifican y grafican residuos
atípicos.
Dado que el procedimiento Análisis Probit es análogo al de Regresión Logística, debe remitirse a
la documentación de éste último para una descripción detallada de las diferentes opciones. Esta
documentación resalta las diferencias entre los dos modelos y cubre un ejemplo simple.
StatFolio de Ejemplo: probit.sgp
Datos de Ejemplo:
El archivo beetles.sf3 contiene un bien conocido conjunto de datos de Bliss (1935) que muestra
los resultados de experimentos en los cuales se expusieron escarabajos a diferentes
concentraciones de bisulfuro de carbono. El archivo de datos muestra la dosis (dose), el número
de escarabajos expuestos (exposed), y el número de escarabajos muertos (killed).
Dose Exposed Killed

1.6907 59 6
1.7242 60 13
1.7552 62 18
1.7842 56 28
1.8113 63 52
1.8369 59 53
1.861 62 61
1.8839 60 60
© 2006 por StatPoint, Inc. Análisis Probit - 1

STATGRAPHICS – Rev. 4/25/2007
Para estos datos, la variable dependiente Y es la proporción de escarabajos expuestos a cada dosis
que murieron, calculada por Y = Killed / Exposed, es decir, Y = muertos / expuestos. Hay una
sola variable predictora X = Dose (dosis). Hay un total de n = 481 sujetos.
Ingreso de Datos
La caja de diálogo del ingreso de datos solicita información sobre las variables de entrada:
• Variable Dependiente: una variable numérica que contiene a la variable dependiente Y. Y

puede consistir en un conjunto de s proporciones, cada una entre 0 y 1, o un conjunto de n 0’s
y 1’s binarios que representan la ocurrencia o no ocurrencia de un resultado.
• (Tamaño de Muestra): Si Y contiene un conjunto de proporciones, ingrese una columna con

los tamaños de muestra correspondientes a cada proporción. Si Y contiene un conjunto de 0’s
y 1’s, deje este campo en blanco.
• Factores Cuantitativos: columnas numéricas que contienen los valores de cualesquiera

factores cuantitativos a ser incluidos en el modelo.
• Factores Categóricos: columnas numéricas o no numéricas que contienen los niveles de

cualesquiera factores categóricos a ser incluidos en el modelo.
• Selección: selección de un subgrupo de datos.

Modelo Estadístico
El modelo probit relaciona la probabilidad de ocurrencia P del resultado contado por Y con las
variables predictoras X. El modelo toma la forma
P ( X ) = Φ ( β 0 + β 1 X 1 + β 2 X 2 + ... + β k X k ) (1)
donde Φ(Z) es la función de distribución acumulada normal estándar.
Resumen del Análisis

El Resumen del Análisis presenta una tabla que muestra el modelo estimado y las pruebas de
significancia para coeficientes del modelo. A continuación se muestra una salida típica.
Análisis Probit - Killed/Exposed

Variable dependiente: Killed/Exposed
Tamaños de muestra: Exposed
Factores:
Dose
Modelo Estimado de Regresión (Máxima Verosimilitud)

Error
Parámetro Estimado Estándar
CONSTANTE -34.9349 2.65395
Dose 19.7277 1.49062
Análisis de Desviación
Fuente Desviación Gl Valor-P
Modelo 274.083 1 0.0000
Residuo 10.1198 6 0.1197
Total (corr.) 284.202 7
Porcentaje de desviación explicado por el modelo = 96.4392

Porcentaje ajustado = 95.0318
Pruebas de Razón de Verosimilitud

Factor Chi-Cuadrada Gl Valor-P
Dose 274.083 1 0.0000
Análisis de Residuos
Estimación Validación
n 8
MSE 0.131797
MAE 0.0562163
MAPE 17.4188
ME -0.0211148
MPE -3.25668
La salida incluye:
• Resumen de los Datos: un resumen de los datos que fueron ingresados.
• Modelo Estimado de Regresión: estimaciones de los coeficientes del modelo de regresión,

con errores estándar.

• Análisis de Desviación: descomposición de la desviación de los datos en un componente

explicado (Modelo) y un componente no explicado (Residuo). La Desviación compara la
función de verosimilitud de un modelo con el valor más grande que puede alcanzar la
función de verosimilitud, de tal forma que un modelo perfecto tendría una desviación igual a
0. Hay tres renglones en la tabla:
1. Total (corr.) – la desviación de un modelo que contiene únicamente un término

constante, λ(β0).
2. Residuo – la desviación que queda después de haber ajustado el modelo.
3. Modelo – la reducción en la desviación debida a las variables predictoras,

λ(β1,β2,…,βk|β0), igual a la diferencia entre los otros dos componentes.
El Valor de P para el Modelo prueba si el añadir las variables predictoras reduce

significativamente la desviación comparada con un modelo que contiene sólo un término
constante. Un Valor de P pequeño (menor de 0.05 si se trabaja con un nivel de significancia
del 5%) indica que el modelo ha reducido significativamente la desviación y es así útil para
predecir la probabilidad del resultado estudiado. Un Valor de P pequeño indica que una
desviación significativa queda aún en los residuos, así que puede haber un mejor modelo.
• Porcentaje de Desviación – el porcentaje de desviación explicada por el modelo, calculada

por medio de
λ (β 1 , β 2 ,..., β k | β 0 )
R2 = (2)
λ (β 0 )
Es similar a una estadística R cuadrada en regresión múltiple, en que va de 0% a 100%.

También se calcula una desviación ajustada con
λ (β 1 , β 2 ,..., β k | β 0 ) − 2 p
2
Radj = (3)
λ (β 0 )
donde p es igual al número de coeficientes en el modelo ajustado, incluyendo al término

constante. Es semejante a la estadística R-cuadrada ajustada en que compensa el número de
variables en el modelo.
• Pruebas de Razón de Verosimilitud – una prueba de significancia para cada efecto en el

modelo ajustado. Estas pruebas comparan la función de verosimilitud del modelo completo
con la del modelo en el cual sólo el efecto indicado ha sido removido. Valores de P pequeños
indican que el modelo ha mejorado significativamente por el efecto correspondiente.
• Análisis de Residuos – si un subgrupo de filas en la hoja de datos ha sido excluido del

análisis usando el campo Seleccionar en la caja de diálogo de ingreso de datos, el modelo
ajustado se usa para hacer predicciones de los valores de Y para estas filas. Esta tabla muestra
estadísticas sobre los errores de predicción, definidos por

ei = y i − Pˆ ( X i ) (4)
Se incluyen el cuadrado medio del error (CME), el error absoluto medio (EAM), el error
porcentual absoluto medio (EPAM), el error medio (EM), y el error porcentual medio (EPM).
Estas estadísticas de validación pueden ser comparadas con las estadísticas del modelo
ajustado para determinar qué tan bien el modelo predice las observaciones fuera de los datos
usados para ajustarlo.
El modelo ajustado para los datos del ejemplo es
P ( Killed ) = Φ ( - 34.9349 + 19.7277 Dose ) (5)
La regresión explica alrededor del 96.4% de la desviación de un modelo sin Dose. El valor de P
para Dose es muy pequeño, indicando que es un predictor estadísticamente significativo para la
proporción de escarabajos muertos (Killed).
Advierta que el valor de P para los Residuos no es significativo, indicando que no queda “falta de
ajuste” significativa sin explicar.
Gráfico del Modelo Ajustado

El Gráfico del Modelo Ajustado presenta la probabilidad estimada de un resultado Pˆ ( X ) versus
cualquier variable predictora sola, con las otras variables constantes.
Gráfica del Modelo Ajustado

con intervalos de confianza del 95.0%
1
0.8
Killed/Exposed
0.6
0.4
0.2
0
1.6 1.65 1.7 1.75 1.8 1.85 1.9
Dose
Se incluyen en el gráfico límites de confianza para P(X).

Gráfico Probit
El Gráfico Probit es similar al Gráfico del Modelo Ajustado, excepto que el eje vertical está
escalado de manera que el modelo ajustado será una línea recta.
Probit(Killed/Exposed)
con intervalos de confianza del 95.0%
99.9
99
porcentaje acumulado
95
80
50
20
5
1
0.1
1.6 1.65 1.7 1.75 1.8 1.85 1.9
Dose

Analisis Probit PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Probit PDF

Cargado por

Copyright:

Formatos disponibles

STATGRAPHICS – Rev.

1. Datos en los que Y consiste en un conjunto de 0’s y 1’s, donde 1 representa la

El procedimiento ajusta un modelo usando máxima verosimilitud o mínimos cuadrados

StatFolio de Ejemplo: probit.sgp

Dose Exposed Killed

© 2006 por StatPoint, Inc. Análisis Probit - 1

• Variable Dependiente: una variable numérica que contiene a la variable dependiente Y. Y

• (Tamaño de Muestra): Si Y contiene un conjunto de proporciones, ingrese una columna con

• Factores Cuantitativos: columnas numéricas que contienen los valores de cualesquiera

• Factores Categóricos: columnas numéricas o no numéricas que contienen los niveles de

• Selección: selección de un subgrupo de datos.

© 2006 por StatPoint, Inc. Análisis Probit - 2

donde Φ(Z) es la función de distribución acumulada normal estándar.

Resumen del Análisis

Análisis Probit - Killed/Exposed

Modelo Estimado de Regresión (Máxima Verosimilitud)

Porcentaje de desviación explicado por el modelo = 96.4392

Pruebas de Razón de Verosimilitud

• Resumen de los Datos: un resumen de los datos que fueron ingresados.

• Modelo Estimado de Regresión: estimaciones de los coeficientes del modelo de regresión,

© 2006 por StatPoint, Inc. Análisis Probit - 3

• Análisis de Desviación: descomposición de la desviación de los datos en un componente

1. Total (corr.) – la desviación de un modelo que contiene únicamente un término

2. Residuo – la desviación que queda después de haber ajustado el modelo.

3. Modelo – la reducción en la desviación debida a las variables predictoras,

El Valor de P para el Modelo prueba si el añadir las variables predictoras reduce

• Porcentaje de Desviación – el porcentaje de desviación explicada por el modelo, calculada

Es similar a una estadística R cuadrada en regresión múltiple, en que va de 0% a 100%.

donde p es igual al número de coeficientes en el modelo ajustado, incluyendo al término

• Pruebas de Razón de Verosimilitud – una prueba de significancia para cada efecto en el

• Análisis de Residuos – si un subgrupo de filas en la hoja de datos ha sido excluido del

© 2006 por StatPoint, Inc. Análisis Probit - 4

El modelo ajustado para los datos del ejemplo es

P ( Killed ) = Φ ( - 34.9349 + 19.7277 Dose ) (5)

Gráfico del Modelo Ajustado

Gráfica del Modelo Ajustado

Se incluyen en el gráfico límites de confianza para P(X).

© 2006 por StatPoint, Inc. Análisis Probit - 5

© 2006 por StatPoint, Inc. Análisis Probit - 6

También podría gustarte