Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Logística
2
Clasificación de la Regresión
Por el Nº de variables independientes (MCO)
• Simple
• Múltiple
Por la forma funcional
• Lineal
• Curvilínea
Por la variable dependiente
• Cuantitativa - Regresión
• Cualitativa - Análisis Discriminante
• Cualitativa - Logística (Binaria, Multinomial)
(Máx.Verosimiltud)
3
Regresion Logistica
La regresión logística permite estudiar relación
entre una variable dependiente cualitativa
(dicotómica o politómica) con una o más
variables independientes (cualitativas y/o
cuantitativas). Uno de los objetivo principales
es obtener un modelo que exprese la
probabilidad de que una unidad pertenezca a
una de las categorías.
4
Regresión Tradicional vs Logística
ENDOGENA vs. X1
10 1.5
8
1.0
ENDOGENA
ENDOGENA
6
0.5
4
0.0
2
0 -0.5
0 2 4 6 8 10 0 10 20 30 40 50 60
XI
X1
5
Aplicaciones
Economía:
• Empresa es rentable o no rentable
• Empresa bajo riesgo financiero o no
• Éxito de ventas frente a fracaso en ventas
• Compradores (consumidores) frente a no compradores.
• Que un cliente devuelva un crédito bancario o no.
Salud:
• Un trasplante de corazón sea aceptado o no.
• Que un paciente de un hospital sobreviva o no antes de que le den de alta.
• Que un determinado fármaco haga efecto o no.
Educación
• Un estudiante apruebe un curso (si/no).
• Una metodología de enseñanza sea aceptada o no.
• Que un estudiante pertenezca a un área académica
Otras…
6
Clasificación
• Regresión Logística Binomial, ocurre si la
variable dependiente es dicotómica. Ejm. Sexo
(dama o varón), Rendimiento (aprobó o
desaprobó), etc.
• Regresión Logística Polinomial, se da cuando la
variable dependiente es politómica. Ejm.
Región de Procedencia (costa, sierra o selva);
Nivel de conocimiento (bueno, regular o malo);
Grado académico, etc.
7
Supuestos Básicos
• Linealidad de las variables cualitativas
• No múlticolinealidad entre las variables
independientes.
• Independencia de los errores
• Información completa de predictores
• Separación completa de variables
• Sobredispersión (unas cuantas v.indep.
explican la variación)
8
Etapas para construir un modelo logit
UTILIZACIÓN Predicción
Interpretación de los parámetros
9
Regresión Logística
Binaria
10
Regresión Logística Binaria Simple
Es cuando se tiene una sola variable independiente
cuantitativa(covariable), cuyo modelo y grafica es:
1
P(y=1)=
1+𝑒 −(𝛽0 +𝛽1 𝑥1 )
12
Estadístico de Wald
Contrasta la hipótesis
H : Bi=0
0
13
Interpretación de los coeficientes
14
Estadístico RA de Atkinson
𝑊 − 2𝑝
𝑅𝐴 =
−2ln(𝐿0 )
15
Significación global de los coeficientes del
modelo
Se prueba la hipótesis:
H0 : B1=B2=B3=…=Bk=0
El contraste se realiza por la prueba G o razón de
verosimilitud, se define por:
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠ó𝑙𝑜 𝑐𝑜𝑛 𝛽0 =𝐿0 2
G= −2𝑙𝑛 ~𝜒𝑝−1,𝛼
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑑𝑜=𝐿𝑝
16
Los ODD-Ratiox (OR= eβi = exp(βi))
Si la variable independiente es cuantitativa, la OR
representa la probabilidad del evento estimado que
tiene un individuo con un valor x frente a la probabilidad
que tiene un individuo con valor (x-1). Por ejemplo, si X
es la variable EDAD (en años cumplidos) y estamos
prediciendo muerte, la OR será la probabilidad de
muerte que tiene, por ejemplo, un individuo de 40 años
en relación a la que tiene uno de 39 años.
Permite cuantificar la importancia de la relación
existente entre cada una de las covariables y la variable
dependiente, se denominan odds ratios o razón de
probabilidades.
Si exp(βi)<1, a medida que aumenta el valor de X,
disminuye la probabilidad de la variable Y.
17
Medidas de bondad de ajuste
Nos indican cuán cerca están los valores estimados 𝑦ො𝑖
de los realmente observados yi, se dan de tres formas:
1. Basadas en pruebas de hipótesis
2. En comparación de observados y estimados
3. Los análogos al coeficiente de determinación.
18
1. Bondad de Ajuste basadas en
hipótesis.
Se debe probar la hipótesis:
Ho: El modelo seleccionado ajusta bien los datos
Podemos probar con:
a. Desvianza (deviance)
b. Prueba Chi-cuadrada
c. Prueba de Hosmer-Lemeshow
d. Eficacia predictiva
19
a. Desvianza (deviance)
Se define como:
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜
D= −2𝑙𝑛 2
~𝜒𝑁−𝑝
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑎𝑡𝑢𝑟𝑎𝑑𝑜
20
b. Chi-cuadrada
Compara los valores observados y los estimados por el
modelo.
𝑀
𝑚𝑖 𝑦𝑖 − 𝑝ෝ𝑖 2
2 2
𝜒 = ∼ 𝜒𝑀−𝑝
𝑝ෝ𝑖 1 − 𝑝ෝ𝑖
𝑖=1
21
c. Hosmer-Lemeshow
Prueba bondad de ajuste para modelos que incluyan uno
o más variables independientes continuas, comprueba si
el modelo propuesto puede explicar lo que se observa,
evalúa la distancia entre un observado y un esperado.
Ho: El modelo se ajusta a la realidad.
Regla: Si “sig” > α entonces aceptamos Ho.
Significa que usar este modelo y calcular predicciones con
él es suficientemente correcto. Equivale a la Ho: ρ=0 en
regresión binaria simple.
22
d. Eficacia predictiva
Consiste en comparar las predicciones con los datos
observados en regresión logística binaria, formándose una
tabla:
Pronosticados
Observados Negativo(No) Positivo (Si) Totales
23
Bondad de Ajuste (similares a R2)
Tenemos los indicadores:
a. R cuadrado de Cox y Snell
b. R cuadrado de Nagelkerke
24
Seudo R-cuadrado ajustado
25
R cuadrado de Nagelkerke
Equivale al R2aj en la regresión. De estos dos
últimos se recomienda tomar el mayor para una
interpretación.
26
Selección de variables
Deben incluirse todas aquellas variables que
se consideren importantes para el modelo,
con independencia de si es un análisis
univariado previo demostró o no su
significación estadística. Si ( p <0,05) sería
un criterio excesivamente restrictivo, sino de
un cierto grado de relación (por ejemplo p
<0,25 ) que puede conducir a dejar de
incluir en el modelo covariables con una
débil asociación a la variable dependiente en
solitario pero que podrían demostrar ser
fuertes predictores de la misma al tomarlas
en conjunto con el resto de covariables.
27
Selección de variables independientes
• Hacia adelante (forward)
• Condicional
• RL
• Wald
• Hacia atrás (backward)
• Condicional
• RL
• Wald
28
Análisis de puntos influyentes
• Valores de influencia
• Distancias de Cook
• DfBetas
29
Factores de confusión
Durante el proceso de incorporación de variables, al
eliminar una variable de uno de los modelos de
regresión estimados, hay que observar si en el
modelo de regresión resultante al excluir esa variable,
los coeficientes asociados al resto de variables
introducidas en el modelo varían significativamente
respecto al modelo de regresión que sí incluía dicha
variable. Si así sucede, significa que dicha variable
podría ser un factor de confusión.
30
Ejemplo1 en SPSS
31
32
Estadístico de Wald
Contrasta la hipótesis
H : Bi=0
0
33
Significación global de los coeficientes del
modelo
Se prueba la hipótesis:
H0 : B1=B2=B3=…=Bk=0
El contraste se realiza por la prueba G o razón de
verosimilitud, se define por:
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠ó𝑙𝑜 𝑐𝑜𝑛 𝛽0 =𝐿0 2
G= −2𝑙𝑛 ~𝜒𝑝−1,𝛼
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑑𝑜=𝐿𝑝
34
Resultados …
La taza de
aciertos es del
50%, sin usar la
variable
independiente
35
Resultados …
36
Resultados …
Similar al
R2 ajustado
La Ho: no hay
diferencia entre
valores
observados y
estimados (el
modelo no se
ajusta al
conjunto de
datos
37
Resultados …
38
Resultados …
1
P(y=1)=
1+𝑒 −(𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 )
39
Regresión Logística
Múltinomial Múltiple
40
Regresión Logística Multinomial Múltiple
Es cuando la variable dependiente tiene más de dos
categorías o respuestas, como: región de procedencia
(costa, sierra, selva), estado civil (soltero, casado, viudo),
etc. El objetivo es clasificarlos teniendo un conjunto de
variables independientes. El modelo es:
1
P(y=1)=
1+𝑒 −(𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 )
41
Gracias ...