Está en la página 1de 9

El modelo de regresión

Logística
 A partir de un conjunto de variables
explicativas que pueden ser cuantitativas
o cualitativas se trata de predecir una
variable respuesta de tipo dicotómico.
 El modelo en este caso no es lineal, sino
de tipo logístico.
 Como en el caso del Análisis
Discriminante, las variables explicativas
deberán tener un comportamiento
distinto en ambos grupos. De otra manera
no será posible una clasificación óptima.
 Frente al Análisis discriminante presenta la
ventaja de tolerar mejor la presencia de
muchas variables explicativas de tipo
cualitativo en el modelo y de ofrecer una
interpretación mucho más rica de los
parámetros de éste.
 Sin embargo, plantea el inconveniente de
restringirse a la predicción de
exclusivamente dos grupos.
Expresión matemática del modelo

 El modelo calcula la probabilidad de la


categoría respuesta “éxito” de acuerdo con
la expresión:
B0  B1 X1  B2 X 2 ... Bk X k
e
p( E )  B0  B1 X1  B2 X 2 ... Bk X k

1 e
1
  B0  B1 X1  B2 X 2 ... Bk X k
1 e
 X1 , X 2 , ... , X k son las variables explicativas del
modelo.

 B0 , B1 , B2 , ... , Bk son los coeficientes del


modelo. Se estiman por máxima verosimilitud.
Interpretación de los coeficientes del
modelo

Se define el riesgo de un suceso como el


cociente entre la probabilidad de que ocurra el
suceso y la probabilidad de que no ocurra.

El exponencial de cada parámetro del modelo


es el factor por el que se multiplica el riesgo
de la categoría respuesta para incrementos
unitarios en la variable independiente asociada
a ese parámetro.
Contrastes de nulidad de los parámetros

El estadístico de Wald, definido para cada variable


como el cuadrado del cociente entre el valor del
parámetro y su error típico sirve para contrastar la
hipótesis de que el correspondiente parámetro es
cero, es decir de que la variable no influye en el
modelo. El estadístico de Wald tiene una propiedad
que le hace muy indeseable. Cuando el parámetro
crece mucho también se dispara su variabilidad
haciendo más verosímil rechazar la hipótesis nula.
Por esta razón es poco fiable y es más interesante
basar la importancia de las variables en el valor del
exponencial de su parámetro.
Bondad de ajuste del modelo

Una vez estimados los parámetros del modelo y


antes de utilizarlo para predicciones fuera de
la muestra se debe analizar la bondad del
ajuste. Para ello se comparan las
probabilidades estimadas por el modelo con las
observadas en la realidad. Existen tres formas
de hacer esta comparativa, dos de ellas
descriptivas y la otra inferencial.
 Histograma de las probabilidades
estimadas
 matriz de clasificación o de confusión
 test de bondad de ajuste
Histograma de probabilidades
estimadas
 Representa las probabilidades observadas frente
a las estimadas.
 Para un ajuste ideal, los dos grupos deben
quedar separados completamente, de manera
que todos los individuos de uno aparezcan en un
extremo y los del otro en el extremo contrario.
 También visualiza los errores en la clasificación
y permite determinar la probabilidad frontera
para minimizar los errores en la dirección de
consecuencias más graves.

También podría gustarte