Regresión Logística

Regresión Logística
PROFESORA:
Fátima Medina De Aliaga
INTEGRANTES:
Albornoz Miner
Aiquipa Fredy
Cardenas Miguel
La regresión logística forma parte de los modelos
lineales generalizados, donde la función de enlace es
la función logit.
Fisher y Yates sugirieron en

En 1937, Bartlett utilizó la 1938 el uso de esa
transformación para transformación para analizar
analizar proporciones INTRODUCCION datos binarios.
El término logit fue introducido por Joseph Berkson en

1944 para designar esta transformación y sus trabajos
incentivaron la utilización de la regresión logística.
OBJETIVOS
Investigar Investigar
El objetivo
cómo
primordial
influyecómo
de influye
enesta
la en laesprobabilidad
probabilidad
técnica elde
modelar de ocurrencia
ocurrencia
comodeinfluyen de la
un suceso,
las variables
presencia o
un suceso,
regresoras la presencia
noendeladiversos
probabilidad ode
noyocurrencia
factores de
el diversos
valor odefactores
nivel y el
un suceso
de los envalor
mismos. o
particular.
nivel de los mismos.
MODELO DE REGRESION LOGISTICA
 Se considera que la variable dependiente Y o clase es una variable
dicotómica que toma dos alternativas, de tal manera que cada
individuo de la muestra tiene que pertenecer a una y sólo una, de estas
alternativas (clases o grupos).
El Modelo Esta dado:

Supuestos
 Las
variables explicativas son incorrelacionadas.
 Las respuestas son independientes
 Cada tiene distribución Bernoulli B(pi)
 Varianza Heterocedástica: V () = pi (1-pi
Estimación de parámetros
 El método más empleado es el de máxima verosimilitud, que consiste en maximizar
la función de verosimilitud de la muestra.
 Donde:
 Para encontrar el valor β se deriva con respecto a β0 β1, β2… βk y se iguala al valor
cero, obteniéndose:
Estimación de parámetros
 El método más empleado es el de máxima verosimilitud, que
consiste en maximizar la función de verosimilitud de la muestra.
Donde:
 Para encontrar el valor β se deriva con respecto a β0 β1, β2… βk y se
iguala al valor cero, obteniéndose:
 Parametro
Contraste de significatividad global

Esta diferencia se le conoce como razón de máxima verosimilitud. Se debe

mencionar además que el suele etiquetarse bajo el término deviance.
Contraste para los coeficientes individuales

 test de Wald.
Interpretación
 El papel de los coeficientes estandarizados en la regresión logística la
juegan los denominados odds ratio.
Mayores odd ratio es mayor influencia de esa variable en la predicción de

ocurrencia del caso.
Tabla de clasificación o matriz de confusión
 Si bien los coeficientes de bondad de ajuste no son del todo fiables, la
tabla de clasificación es normalmente el criterio que debemos de seguir
para indicar la bondad de ajuste del modelo.
Resultado de la
Matriz de confusión para predicción
una variable de salida
dicotómica (clasificación) Si No
Valor real SI a b
de la clase No c d
 Sensibilidad: % de positivos que son clasificados como positivos (d/c+d).
 Especificidad: % de negativos que son clasificados como negativos (a/a+b).
 Falsos Positivos: % de negativos clasificados como positivos (b/a+b).
 Falso Negativo: % de positivos clasificados como negativos (c/c+d).
Capacidad Discrimante del Modelo
Curva ROC
Aplicación
 Se a los datos de una encuesta de opinión sobre restaurantes de Nueva
York (USA). La cual fue realizada a clientes de la ciudad en el año
2006. El objetivo es modelar la probabilidad de que en un restaurante
sea incluido en la “guía Micheline de Nueva York.
 Descripcion
Variables de Variables
Descripción
InMichelin (y) 1= si el restaurante está incluido en la guía Michelin
0= caso contrario
Alimento Puntuaciones de la comida(sobre 30)

Decoración Puntuación de la decoración(sobre 30)
Servicio Puntuación dl servicio(sobre 30)
Precio Precio del plato(en dólares)
RESULTADOS
 TABLA Nº 1
Historial de iteraciones
Iteración -2 log de la Coeficientes
verosimilitud
Constante
1 225,789 -,195
Paso 0
2 225,789 -,196
 Se calcula la verosimilitud de un modelo que solo tiene el termino constante.

L está comprendido entre “o y 1”. El estadístico -2LL mide hasta qué punto un
modelo se ajusta bien los datos. El valor del parámetro b0=-0.196
 TABLA Nº 2
Variables que no están en la ecuación

Puntuación gl Sig.
Alimento 43,969 1 ,000

Decoración 47,933 1 ,000
Variables
Paso 0 Servicio 34,114 1 ,000
Precio 35,935 1 ,000
Observamos que todas nuestras
Estadísticos globales
variables
57,693
son4significativas.,000
TABLA Nº 3
Tabla de clasificación
Observado Pronosticado
InMichelin Porcentaje
0 1 correcto

0 90 0 100,0
InMichelin
Paso 0 1 74 0 ,0
Porcentaje global 54,9
a. En el modelo se incluye una constante.
b. El valor de corte es ,500
El modelo clasifico 54.9% de los casos y ningún restaurante sea incluido en la

guía Micheline de Nueva York ha sido clasificado correctamente.
 TABLA Nº 4
Historial de iteraciones
Iteración -2 log de la Coeficientes
verosimilitud Constante Alimento Decoració Servicio Precio
n
1 161,800 -7,968 ,231 ,177 -,045 ,007
2 151,438 -9,930 ,327 ,159 -,121 ,045
3 148,512 -10,719 ,386 ,107 -,186 ,084
Paso 1
4 148,397 -11,170 ,404 ,100 -,192 ,091
5 148,397 -11,197 ,405 ,100 -,192 ,092
6 148,397 -11,197 ,405 ,100 -,192 ,092
 Recordemos que en el “paso cero” en la tercera iteración se obtuvo:

-2LL modelo 0 = 225,789
 Se realiza con el método hacia adelante y aplicando el método (RV) para contrastar
nuevas variables. En nuestro proceso se reduce. La contante b0=148,397, para el
restaurante sea incluido en la Guia MIcheline de Nueva York=0.405 y así
sucesivamente hasta el precio del plato = 0.092
 TABLA Nº 5
Pruebas omnibus sobre los coeficientes del modelo
Chi cuadrado gl Sig.
Paso 77,392 4 ,000

Paso 1 Bloque 77,392 4 ,000
Modelo 77,392 4 ,000
 Chi cuadrado = (-2LL modelo 0 )-(-2LL modelo 1)
 Chi cuadrado = 225,789 -148,397
 Chi cuadrado = 77.392
 TABLA Nº 7
Variables en la ecuación
B E.T. Wald gl Sig. Exp(B) I.C. 95% para
EXP(B)
Inferior Superio
r
Alimento ,405 ,131 9,484 1 ,002 1,499 1,159 1,940
Decoraci
on ,100 ,089 1,256 1 ,262 1,105 ,928 1,316
Paso 1a
Servicio -,192 ,124 2,425 1 ,119 ,825 ,648 1,051
Precio ,092 ,032 8,344 1 ,004 1,096 1,030 1,166
Constante -11,197 2,309 23,518 1 ,000 ,000
a. Variable(s) introducida(s) en el paso 1: Alimento, Decoración, Servicio, Precio.
 TABLA Nº 8
Tabla de clasificación
Observado Pronosticado
InMichelin Porcentaje
0 1 correcto
0 81 9 90,0
InMichelin
Paso 1 1 20 54 73,0
Porcentaje global 82,3

 Se logra observar , los resultados de la tabla de clasificación , de los 74 casos para los
restaurantes incluidos en la Guia MIcheline de Nueva York , el modelo acertó en 54 de
ellos ; mientras para los restaurante que no fueron incluidos en la Guia MIcheline de
Nueva York (90 restaurantes ).
 EL modelo acertó en un 82.3%.(Porcentaje Global).

Sensibilidad: 72.97%
Especificidad: 90%
Tasa Falsos Positivos: 10%
Tasa Falsos Negativos: 27.03 %
CURVA ROC
Área bajo la curva
Variables resultado de contraste: Probabilidad pronosticada
Área Error Sig. Intervalo de confianza
típ.a
asintótica b
asintótico al 95%
Límite Límite
inferior superior
,890 ,026 ,000 ,840 ,941
a. Bajo el supuesto no paramétrico
b. Hipótesis nula: área verdadera = 0,5
 La estimación puntual del área bajo la curva es de 0.89 que como se ve no difiere
demasiado de 0.5 que sería el mínimo exigible para un método de diagnóstico.
 El error estándar de esa estimación vale 0.026. Como el intervalo no contiene el

valor del 0.5 podemos afirmar que el área bajo la curva ROC es significativamente
mayor que lo mínimo exigible.

Regresión Logística

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Logística

Cargado por

Copyright:

Formatos disponibles

Regresión Logística

Fisher y Yates sugirieron en

El término logit fue introducido por Joseph Berkson en

El Modelo Esta dado:

Esta diferencia se le conoce como razón de máxima verosimilitud. Se debe

Contraste para los coeficientes individuales

Mayores odd ratio es mayor influencia de esa variable en la predicción de

Alimento Puntuaciones de la comida(sobre 30)

 Se calcula la verosimilitud de un modelo que solo tiene el termino constante.

Variables que no están en la ecuación

Alimento 43,969 1 ,000

El modelo clasifico 54.9% de los casos y ningún restaurante sea incluido en la

 Recordemos que en el “paso cero” en la tercera iteración se obtuvo:

Paso 77,392 4 ,000

 El error estándar de esa estimación vale 0.026. Como el intervalo no contiene el

También podría gustarte