Está en la página 1de 42

Regresión

Logística

Dr. Samuel Pérez


Introducción
En estadística, el análisis de la regresión
es un proceso estadístico para estimar las
relaciones entre variables. Incluye muchas
técnicas para el modelado y análisis de
diversas variables, cuando la atención se
centra en la relación entre una variable
dependiente y una o más variables
independientes (o predictoras).

2
Clasificación de la Regresión
Por el Nº de variables independientes (MCO)
• Simple
• Múltiple
Por la forma funcional
• Lineal
• Curvilínea
Por la variable dependiente
• Cuantitativa - Regresión
• Cualitativa - Análisis Discriminante
• Cualitativa - Logística (Binaria, Multinomial)
(Máx.Verosimiltud)

3
Regresion Logistica
La regresión logística permite estudiar relación
entre una variable dependiente cualitativa
(dicotómica o politómica) con una o más
variables independientes (cualitativas y/o
cuantitativas). Uno de los objetivo principales
es obtener un modelo que exprese la
probabilidad de que una unidad pertenezca a
una de las categorías.

4
Regresión Tradicional vs Logística

ENDOGENA vs. X1
10 1.5

8
1.0

ENDOGENA
ENDOGENA

6
0.5
4

0.0
2

0 -0.5
0 2 4 6 8 10 0 10 20 30 40 50 60

XI
X1

5
Aplicaciones
Economía:
• Empresa es rentable o no rentable
• Empresa bajo riesgo financiero o no
• Éxito de ventas frente a fracaso en ventas
• Compradores (consumidores) frente a no compradores.
• Que un cliente devuelva un crédito bancario o no.
Salud:
• Un trasplante de corazón sea aceptado o no.
• Que un paciente de un hospital sobreviva o no antes de que le den de alta.
• Que un determinado fármaco haga efecto o no.
Educación
• Un estudiante apruebe un curso (si/no).
• Una metodología de enseñanza sea aceptada o no.
• Que un estudiante pertenezca a un área académica
Otras…

6
Clasificación
• Regresión Logística Binomial, ocurre si la
variable dependiente es dicotómica. Ejm. Sexo
(dama o varón), Rendimiento (aprobó o
desaprobó), etc.
• Regresión Logística Polinomial, se da cuando la
variable dependiente es politómica. Ejm.
Región de Procedencia (costa, sierra o selva);
Nivel de conocimiento (bueno, regular o malo);
Grado académico, etc.

7
Supuestos Básicos
• Linealidad de las variables cualitativas
• No múlticolinealidad entre las variables
independientes.
• Independencia de los errores
• Información completa de predictores
• Separación completa de variables
• Sobredispersión (unas cuantas v.indep.
explican la variación)

8
Etapas para construir un modelo logit

ESPECIFICACIÓN Definición de la variable


endógena, explicativas y forma
funcional
ESTIMACIÓN Cálculo de los parámetros

Individual: Ver que variables resultan


significativas estadísticamente
VALIDACION
Conjunta: Ver si en conjunto el modelo
es aceptable

UTILIZACIÓN Predicción
Interpretación de los parámetros
9
Regresión Logística
Binaria

10
Regresión Logística Binaria Simple
Es cuando se tiene una sola variable independiente
cuantitativa(covariable), cuyo modelo y grafica es:
1
P(y=1)=
1+𝑒 −(𝛽0 +𝛽1 𝑥1 )

Para efectos de clasificación, la manera más fácil es si


probabilidad > 0.5 entonces la observación pertenece a la
segunda clase, caso contrario a la primera clase. Para encontrar
los parámetros (β’s) se utiliza el método de máxima verosimilitud.
11
Regresión Logística Binaria Múltiple
Se da cuando la variable dependiente es
dicotómica, como la variable sexo (dama,
varón), conocimiento(conoce, no conoce),
etc. y cuando se tiene más de una variable
independiente. El modelo se amplia a:
1
P(y=1)=
1+𝑒 −(𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 )

12
Estadístico de Wald
Contrasta la hipótesis
H : Bi=0
0

Para ello se utiliza:


2
෡𝑖
𝛽 2
W= ~𝜒𝑘−1,𝛼
𝜎𝛽෡
𝑖

Siendo k el Nº categorías de la variable dependiente.


Si p-valor asociado al estadístico Wald es menor a α, se rechazará
la hipótesis nula. Equivale a la prueba t-Student de la regresión,
para cada parámetro del modelo.

13
Interpretación de los coeficientes

14
Estadístico RA de Atkinson

Mide la correlación parcial entre cada variable


independiente y la variable dependiente, pudiendo
variar desde -1 a +1. Los valores positivos incrementa
su valor. RA puede considerarse como una medida
de contribución parcial de cada variable al modelo.

𝑊 − 2𝑝
𝑅𝐴 =
−2ln(𝐿0 )

Donde: W es el estadístico Wald y p el Nº parámetros


estimados. En el SPSS viene junto a la prueba Wald.

15
Significación global de los coeficientes del
modelo
Se prueba la hipótesis:
H0 : B1=B2=B3=…=Bk=0
El contraste se realiza por la prueba G o razón de
verosimilitud, se define por:
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠ó𝑙𝑜 𝑐𝑜𝑛 𝛽0 =𝐿0 2
G= −2𝑙𝑛 ~𝜒𝑝−1,𝛼
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑑𝑜=𝐿𝑝

En SPSS sale como prueba ómnibus, es semejante al “F” del ANVA en


la regresión.

16
Los ODD-Ratiox (OR= eβi = exp(βi))
Si la variable independiente es cuantitativa, la OR
representa la probabilidad del evento estimado que
tiene un individuo con un valor x frente a la probabilidad
que tiene un individuo con valor (x-1). Por ejemplo, si X
es la variable EDAD (en años cumplidos) y estamos
prediciendo muerte, la OR será la probabilidad de
muerte que tiene, por ejemplo, un individuo de 40 años
en relación a la que tiene uno de 39 años.
Permite cuantificar la importancia de la relación
existente entre cada una de las covariables y la variable
dependiente, se denominan odds ratios o razón de
probabilidades.
Si exp(βi)<1, a medida que aumenta el valor de X,
disminuye la probabilidad de la variable Y.

17
Medidas de bondad de ajuste
Nos indican cuán cerca están los valores estimados 𝑦ො𝑖
de los realmente observados yi, se dan de tres formas:
1. Basadas en pruebas de hipótesis
2. En comparación de observados y estimados
3. Los análogos al coeficiente de determinación.

18
1. Bondad de Ajuste basadas en
hipótesis.
Se debe probar la hipótesis:
Ho: El modelo seleccionado ajusta bien los datos
Podemos probar con:
a. Desvianza (deviance)
b. Prueba Chi-cuadrada
c. Prueba de Hosmer-Lemeshow
d. Eficacia predictiva

19
a. Desvianza (deviance)
Se define como:
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜
D= −2𝑙𝑛 2
~𝜒𝑁−𝑝
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑎𝑡𝑢𝑟𝑎𝑑𝑜

N=Nº de datos y p=Nº parámetros contenidos en el modelo.

En algunos paquetes se utiliza como -2ln L(β), -2ln


likelihood o -2LL. Que mide hasta que punto un modelo se ajusta
bien a los datos, cuanto más pequeño sea el valor, mejor será el
ajuste.

20
b. Chi-cuadrada
Compara los valores observados y los estimados por el
modelo.
𝑀
𝑚𝑖 𝑦𝑖 − 𝑝ෝ𝑖 2
2 2
𝜒 =෍ ∼ 𝜒𝑀−𝑝
𝑝ෝ𝑖 1 − 𝑝ෝ𝑖
𝑖=1

Donde: mi=Nº casos incluidos en cada patrón de


predictores

21
c. Hosmer-Lemeshow
Prueba bondad de ajuste para modelos que incluyan uno
o más variables independientes continuas, comprueba si
el modelo propuesto puede explicar lo que se observa,
evalúa la distancia entre un observado y un esperado.
Ho: El modelo se ajusta a la realidad.
Regla: Si “sig” > α entonces aceptamos Ho.
Significa que usar este modelo y calcular predicciones con
él es suficientemente correcto. Equivale a la Ho: ρ=0 en
regresión binaria simple.

Sólo aplicar si tenemos 2 o más variables independientes.

22
d. Eficacia predictiva
Consiste en comparar las predicciones con los datos
observados en regresión logística binaria, formándose una
tabla:
Pronosticados
Observados Negativo(No) Positivo (Si) Totales

Negativo (No) A B A+B


Positivo (Si) C D C+D
Totales A+C B+D N

Donde A y D son clasificaciones correctas y B y D son incorrectos.


Generándose índices:
• Tasa de aciertos: (A+D)/N (grado de eficacia predictiva)
• Tasa de errores: (B+C)/N
• Especificidad: A/(A+B)
• Sensibilidad : D/(C+D)
• Tasa de falsos negativos: C/(A+C)
• Tasa de falsos positivos: B/(A+B)

23
Bondad de Ajuste (similares a R2)
Tenemos los indicadores:
a. R cuadrado de Cox y Snell
b. R cuadrado de Nagelkerke

24
Seudo R-cuadrado ajustado

Semejante al coeficiente de determinación (R2) en la


regresión lineal, aunque no es recomendable, tiene la
forma:
−𝟐𝒍𝒏𝑳( ෡
𝜷)
𝑹𝟐𝑳 = 𝟏 −
෡ 𝟎)
−𝟐𝒍𝒏𝑳(𝜷
Donde:
መ es el verosímil del modelo seleccionado
𝐿(𝛽)
𝐿(𝛽መ0 ) es el verosímil del modelo sólo con 𝛽መ0 .

Sí 0.2 ≤ 𝑹𝟐𝑳 ≤0.4 hay buen ajuste.

25
R cuadrado de Nagelkerke
Equivale al R2aj en la regresión. De estos dos
últimos se recomienda tomar el mayor para una
interpretación.

26
Selección de variables
Deben incluirse todas aquellas variables que
se consideren importantes para el modelo,
con independencia de si es un análisis
univariado previo demostró o no su
significación estadística. Si ( p <0,05) sería
un criterio excesivamente restrictivo, sino de
un cierto grado de relación (por ejemplo p
<0,25 ) que puede conducir a dejar de
incluir en el modelo covariables con una
débil asociación a la variable dependiente en
solitario pero que podrían demostrar ser
fuertes predictores de la misma al tomarlas
en conjunto con el resto de covariables.
27
Selección de variables independientes
• Hacia adelante (forward)
• Condicional
• RL
• Wald
• Hacia atrás (backward)
• Condicional
• RL
• Wald

28
Análisis de puntos influyentes
• Valores de influencia
• Distancias de Cook
• DfBetas

29
Factores de confusión
Durante el proceso de incorporación de variables, al
eliminar una variable de uno de los modelos de
regresión estimados, hay que observar si en el
modelo de regresión resultante al excluir esa variable,
los coeficientes asociados al resto de variables
introducidas en el modelo varían significativamente
respecto al modelo de regresión que sí incluía dicha
variable. Si así sucede, significa que dicha variable
podría ser un factor de confusión.

30
Ejemplo1 en SPSS

31
32
Estadístico de Wald
Contrasta la hipótesis
H : Bi=0
0

Para ello se utiliza:


2
෡𝑖
𝛽 2
W= ~𝜒𝑘−1,𝛼
𝜎𝛽෡
𝑖

Siendo k el Nº categorías de la variable dependiente.


Si p-valor asociado al estadístico Wald es menor a α, se rechazará
la hipótesis nula. Equivale a la prueba t de la regresión.

33
Significación global de los coeficientes del
modelo
Se prueba la hipótesis:
H0 : B1=B2=B3=…=Bk=0
El contraste se realiza por la prueba G o razón de
verosimilitud, se define por:
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠ó𝑙𝑜 𝑐𝑜𝑛 𝛽0 =𝐿0 2
G= −2𝑙𝑛 ~𝜒𝑝−1,𝛼
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑑𝑜=𝐿𝑝

En SPSS sale como prueba ómnibus, es semejante al “F” del ANVA en


la regresión.

34
Resultados …

La taza de
aciertos es del
50%, sin usar la
variable
independiente
35
Resultados …

36
Resultados …

Similar al
R2 ajustado

La Ho: no hay
diferencia entre
valores
observados y
estimados (el
modelo no se
ajusta al
conjunto de
datos

37
Resultados …

38
Resultados …

Valores para armar el modelo

1
P(y=1)=
1+𝑒 −(𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 )

39
Regresión Logística
Múltinomial Múltiple

40
Regresión Logística Multinomial Múltiple
Es cuando la variable dependiente tiene más de dos
categorías o respuestas, como: región de procedencia
(costa, sierra, selva), estado civil (soltero, casado, viudo),
etc. El objetivo es clasificarlos teniendo un conjunto de
variables independientes. El modelo es:

1
P(y=1)=
1+𝑒 −(𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 )

41
Gracias ...

También podría gustarte