Está en la página 1de 28

Modelos de Clasificación

Variable de respuesta cualitativa


Variable de respuesta binaria
Modelo Lineal de Probabilidad
Regresión Logística: Logit
Extensiones
Variables de respuesta cualitativa
 Examinamos ahora las implicaciones de que la variable
de respuesta sea cualitativa.
 En este caso es inmediato reconocer que lo que
tenemos es un problema de clasificación.
 Debemos asignar una determinada observación a una de
las clases, o categorías, de la variable de respuesta: el
color de los ojos de una persona, la enfermedad que
sufre un paciente, si una transacción en internet es o no
fraudulenta, si un correo es spam o no,…
 Los problemas de clasificación son muy comunes en la
práctica.
 También es sencillo darse cuenta que el modelo de
regresión no será adecuado en este contexto.
2
¿Por qué no regresión lineal?
 Queremos predecir la enfermedad de un paciente a
partir de sus síntomas y parámetros biométricos.
Tenemos 3 posibilidades: (i) infarto, (ii) sobredosis o (iii)
ataque epiléptico.
1 infarto

 Codificamos esta variable como: y = 2 sobredosis
3 ataque epiléptico

 Lo que nos permite ajustar un modelo de regresión
sobre un conjunto de predictores.
 Esta codificación implica un orden y supone que la
diferencia entre infarto y sobredosis es lo mismo que la
diferencia entre sobredosis y ataque epiléptico.
 ¡Pero la codificación es arbitraria!
3
¿Por qué no regresión lineal?
 ¡Podemos cambiarla!
1 ataque epiléptico

 Por ejemplo, y = 2 infarto
3 sobredosis

 ¡Con esta codificación los resultados serían diferentes!
 Si la variable de respuesta fuera ordenada: leve, moderado
y severo, la codificación 1, 2 y 3 sería algo más razonable,
pero aún así el modelo de regresión no sería adecuado.
 No existe una forma natural de transformar una variable
de respuesta cualitativa con más de dos categorías en
una variable susceptible de ser tratada mediante el
modelo de regresión lineal.

4
Variables de respuesta binaria
 Supongamos que queremos predecir si una deuda
resultará finalmente impagada. Solo tenemos 2 categorías
o clases, que resulte impagada o que sea saldada.
 Podemos codificar la variable de respuesta, y, mediante
una variable ficticia
1 impago
y=
0 en caso contrario
 Puesto que y es una variable binaria sabemos que su
distribución es una Bernoulli o dicotómica. Su
esperanza viene dada por
E ( y) =
1× Pr( y =
1) + 0 × Pr( y =
0) =
Pr( y =
1)
 Que se conoce como la “probabilidad de éxito”.

5
Modelo Lineal de Probabilidad
 ¿Cuáles son la implicaciones de estimar y = β0 + β1 x + u ?
 Sabemos que E ( y | x) = β0 + β1 x , pero al mismo tiempo,
dado que y es una Bernoulli, E ( y= | x) Pr(
= y 1| x) .
 Por lo tanto un modelo de regresión lineal aplicado a una
variable dicotómica supone implícitamente un modelo
lineal para la “probabilidad de éxito”:
Pr( y = 1| x) = β0 + β1 x
 De forma que podríamos predecir y = 1 cuando yˆ > 0.5 .
 Este modelo se conoce como Modelo Lineal de
Probabilidad (LPM). Es fácil demostrar que genera los
mismos resultados si cambiamos la codificación.
 ¿Es razonable suponer un modelo lineal para las
probabilidades? ¡No!
6
Modelo Lineal de Probabilidad
y

ŷ = βˆ 0 + βˆ 1 x

0
x

 Las predicciones no están acotadas al intervalo [0, 1] y


finalmente se obtendrán predicciones fuera de ese
intervalo.
7
Modelo Lineal de Probabilidad
 Las predicciones fuera del intervalo [0, 1] son difíciles de
interpretar como probabilidades.
 Es cierto que las predicciones del LPM proporcionan una
ordenación y siempre pueden truncarse a sus valores
extremos, 0 o 1.
 En cualquier caso los modelos de probabilidad son no
lineales por definición, ¡las probabilidades están acotadas!
 El Modelo Lineal de Probabilidad, aunque plausible, no se
recomienda en la práctica. Además es difícil de extender
a casos con más de dos categorías.
 Importante: Observa que el modelo predice
probabilidades y de estas derivamos las predicciones
para y, como 0 o 1. Muchos modelos de clasificación
proceden de esta forma. 8
Modelos Lineales Generalizados
 Parece natural modelizar la “probabilidad de éxito”
mediante un modelo cuyas predicciones estén acotadas
al intervalo [0, 1].
 El LPM modeliza esta probabilidad mediante un modelo
lineal, Pr( y = 1| x) = β0 + β1 x .
 Podemos simplemente utilizar
una transformación que acote
−∞ < β0 + β1 x < ∞
al intervalo [0, 1]
g (β0 + β1 x) ∈ [0,1]
 g(•) es una función de enlace,
link, y hay muchos candidatos
posibles. 9
Modelos Lineales Generalizados
 Cualquier función de distribución acumulativa es un
candidato para g(•), puesto que su valor está acotado al
intervalo [0,1].
 La función logística ha ganado especial popularidad por
su facilidad de manejo desde el punto de vista analítico.

10
Regresión Logística
 La regresión logística o modelo logit modeliza la
probabilidad de éxito a partir de la función logística:
eβ0 +β1x 1
Pr(
= y 1|=x) =
1+ e β0 +β1 x
1 + e − (β0 +β1x )
 Puesto que las probabilidades suman 1

eβ0 +β1x 1
Pr( y =
0 | x) =
1 − Pr( y =
1| x) =
1− β0 +β1 x
= β0 +β1x
1+ e 1+ e
 Se trata pues de un modelo altamente no lineal en los
parámetros, cuyos coeficientes no tienen un significado
claro y que podemos extender a un número arbitrario
de predictores:
β +β x +...+β p x p
e 0 11
Pr(
= y 1|=x) β +β x +...+β p x p
1+ e 0 1 1 11
Regresión Logística
 Manipulación algebraica sencilla permite escribir
p( x)
= eβ0 +β1x
1 − p( x)
donde p= ( x) Pr(
= y 1| x) .
 Este ratio se conoce como “odds ratio”, y no es más que
la ratio entre la probabilidad de éxito, p(x), y la
probabilidad de fracaso, 1 − p(x).
 Puede tomar cualquier valor entre 0 e ∞.Valores
cercanos a 0 e ∞ indican valores muy bajos o muy altos,
respectivamente, de la “probabilidad de éxito”.
 Es usado con frecuencia debido a la facilidad en su
interpretación. Por ejemplo, un valor de 2 significa que la
probabilidad de éxito es el doble que la de fracaso.
12
Regresión Logística
 Naturalmente, conocido el “odds” de y es posible
determinar la probabilidad de éxito
odds ( y ) eβ0 +β1x
Pr(
= y 1|=
x) =
1 + odds ( y ) 1 + eβ0 +β1x
 Tomando logaritmos en el “odds” obtenemos
 p( x) 
log   = β0 + β1 x
 1 − p( x) 
La parte izquierda se conoce como log-odds o logit.
 La regresión logística tiene un logit lineal en los
predictores, y no tiene una interpretación sencilla.
 El logit es un número en la recta real, (−∞, +∞) .
13
Regresión Logística: Estimación
 A pesar de que la regresión logística tiene un logit lineal
en los predictores no es posible estimar este modelo
mediante mínimos cuadrados ordinarios.
 ¡Las probabilidades de éxito no son observables! En
nuestra muestra solo observamos valores 0 o 1 de la
variable de respuesta, y.
 Sin embargo, dado que conocemos la distribución de y,
Bernoulli, podemos hacer uso de un método general de
estimación en estadística conocido como estimación
máximo verosímil, que tiene buenas propiedades
estadísticas en grandes muestras.
 En concreto, proporciona estimadores consistentes,
asintóticamente normales y asintóticamente
eficientes bajo condiciones bastante generales. 14
Estimación Máximo Verosímil
 Intuitivamente el método de estimación máximo
verosímil elige valores de los parámetros que maximizan
la probabilidad de observar la muestra disponible.
 En nuestro caso esto significa que elegimos valores de
los β´s tal que la “probabilidad de éxito” predicha por
nuestro modelo, pˆ ( x) , se corresponda lo más posible con
lo observado en la muestra. Es decir, sustituidos los
estimadores en el modelo para p(x) producirá valores
muy altos para las observaciones de y igual a 1 y valores
muy bajos para las observaciones de y igual a 0.
 En el modelo de regresión lineal, si asumimos normalidad
de la y entonces los estimadores de OLS coinciden con
los estimadores de máxima verosimilitud (MLE).
15
Estimación Máximo Verosímil
 Esta intuición puede ser formalizada mediante la función
de verosimilitud de la muestra, que en el caso de una
Bernoulli es
L(β1 , β2 )
=
=
∏ p( x ) ∏ (1 − p( x ))
i
i: yi 1 = j: y j 0
j

donde p(x) viene dada por la función logística.


 Los estimadores de máxima verosimilitud eligen valores
para los β´s, βˆ´s , que maximizan la función de
verosimilitud.
 Nota: En la práctica, por cuestiones computacionales, se
trabaja con el logaritmo de la función de verosimilitud.
(β1 , β2 )
=
=i: yi 1 =
i ∑ log p( x ) + ∑ log(1 − p( x ))
i: y j 0
j

16
Estimación Máximo Verosímil
 Las condiciones de primer orden del problema de
optimización anterior dan lugar a un sistema de
ecuaciones no lineal en las β´s, que se resuelve
iterativamente por un algoritmo similar al de mínimos
cuadrados no lineales.
 Bajo condiciones bastante generales MLE proporciona
estimadores consistentes, asintóticamente
normales y asintóticamente eficientes. Aunque no
suelen ser insesgados en muestras finitas.
 Ello nos permite hacer contraste de hipótesis por los
procedimientos habituales, en concreto la ratio-t tendrá
una distribución asintóticamente normal, ratio-z.
 El estadístico-F no está disponible ahora, pero otros
procedimientos asintóticamente equivalentes, como por
ejemplo el contraste de razón de verosimilitud,
podría ser empleado. 17
Regresión Logística
 La regresión logística permite acomodar predictores
cualitativos á través de variables ficticias, al igual que
predictores no lineales y efectos interacción.
 Los parámetros de la regresión logística carecen de
significado claro, aunque siempre es posible derivar
efectos marginales de los predictores, que naturalmente
deben ser evaluados en un valor concreto del predictor.
 El efecto marginal sobre la probabilidad de un cambio
marginal en un predictor cuantitativo, x, viene dado por
dp ( x) e − (β0 +β1x )
= β1
dx (1 + e )
− ( β0 +β1 x ) 2

 Para un predictor cualitativo el efecto se calcula como la


diferencia entre las probabilidades para los valores 0 y 1.
18
Regresión Logística: Predicciones
 Una vez los parámetros han sido estimados, hacer
predicciones de las probabilidades es inmediato.
ˆ ˆ
eβ0 +β1x
pˆ ( x) = ˆ ˆ
1 + eβ0 +β1x
 ¡Esto predice probabilidades!, pero no asigna clases.
 Si queremos hacer predicciones de la clase a la que
pertenece una observación determinada, esto requiere,
en el caso del logit, una condición sobre cuando asignar
y = 1 o y = 0 a partir de un valor de x.
 La regla habitual es asignar y = 1 si pˆ ( x) ≥ 0.5 e y = 0
en caso contrario.
 ¡Naturalmente otras reglas son posibles!, y esta regla
habitual no tiene porque ser óptima.
19
Regresión Logística: Predicciones
 Por ejemplo, si nuestro modelo estima la probabilidad de
impago, y el coste de impago es muy elevado, el banco
puede ser conservador, y asignar y = 1, ‘impago’, para
probabilidades mucho más bajas, pˆ ( x) > 0.1.
 El conjunto de valores de los predictores que inclina la
balanza hacia una clase u otra es lo que se denomina la
frontera de decisión –decision boundary–.
 En el caso de la regresión logística la frontera de
decisión, cuando utilizamos la regla habitual, y = 1 si
pˆ ( x) ≥ 0.5 e y = 0 en caso contrario, viene dada por
β0 + β1 x1 + β2 x2 + ... + β p x p = 0
Y por tanto es lineal en los predictores, ¡siempre que
estos sean introducidos de forma lineal claro!
20
Regresión Logística Multinomial
 La regresión logística permite acomodar con facilidad
casos de clasificación binaria –solo 2 clases o categorías–
¿es posible extenderla a situaciones con más de 2 clases?
 Si, son los llamados logit multinomiales o regresión
logística multinomial.
 Constituyen una extensión directa de la regresión
logística para 2 clases, y predicen las probabilidades de
ocurrencia de cada clase considerada.
 En el caso de J clases, hay que modelizar, mediante una
función logística, J − 1 categorías y las probabilidades de
la variable de respuesta para la categoría restante, J, que
se toma como referencia, se determinan por la condición
de que las probabilidades para todas las categorías deben
sumar 1. 21
Regresión Logística Multinomial
 En este caso
β j 0 +β j 1 x
e
Pr(
= | x)
y j=
1 + Σ hJ =−11eβh 0 +βh1x
para j = 1, 2,…, J − 1, y
1
Pr(
= | x)
y J=
1 + Σ hJ =−11eβh 0 +βh1x
 Es fácil observar que para j = 1, 2,…, J − 1,
 Pr( y = j | x) 
log   = β j 0 + β j1 x
 Pr( y = J | x) 
 Esta ecuación indica que el log-odds o transformación logit
de cualquier clase, respecto a la clase tomada como
referencia, es lineal en los predictores.
22
Regresión Logística Multinomial
 Al igual que sucede con los predictores cualitativos, la
elección de una categoría como referencia es irrelevante
a efectos de las predicciones –tanto de las probabilidades
como de la asignación a la clase correspondiente–,
aunque los coeficientes estimados si variarán.
 Por tanto, la interpretación de los coeficientes o la
obtención de los efectos marginales si está sujeta a la
elección de la categoría considerada como base.
 ¡Otras normalizaciones son posibles!
 Estos modelos no son habituales en contextos
predictivos, pero si en situaciones de inferencia, porque
permiten acomodar con facilidad situaciones en las que
los individuos se enfrentan a la elección entre J
alternativas. 23
Modelo Probit
 La regresión logística comprime la recta real, en la
que está definida β0 + β1 x , en el intervalo [0, 1], donde
están definidas las probabilidades, p(x), mediante la
función de distribución logística
eβ0 +β1x
p ( x)= g (β0 + β1 x)=
1 + eβ0 +β1x
 Pero cualquier otra función de distribución podría servir.
 Si g (β0 + β1 x ) = Φ (β0 + β1 x ) , donde Φ(•) es la función de
distribución acumulativa normal estándar, entonces
tenemos el modelo probit.
 Existen pues múltiples modelos en este sentido, pero la
regresión logística es la más popular en el contexto
predictivo.
24
Modelos Lineales Generalizados
 La regresión logística es un caso particular de los
llamados Modelos Lineales Generalizados (GLM).
 Una gran familia de modelos que se extiende más allá de
los modelos de clasificación, y en los que una
transformación de la esperanza de la variable de
respuesta, y, se supone lineal en los predictores.
 En el caso de la regresión logística esta transformación
viene dada por el log-odds o transformación logit
 p( x)   E ( y | x) 
log   = log   = β0 + β1 x
 1 − p( x)   1 − E ( y | x) 
recuerda que p= ( x) Pr( = y 1|= x) E ( y | x) .
 El modelo de regresión lineal normal también forma
parte de la familia de modelos lineales generalizados. 25
Clasificador de Bayes
 Si nuestro objetivo es clasificar observaciones, es posible
demostrar que el error de contraste –test error– se
minimiza, en promedio, con un clasificador que
asigne cada observación a la clase más probable,
dado el valor de los predictores.
 En otras palabras, debemos asignar una observación a la
clase j si Pr( y = j | x) es la mayor probabilidad entre las
diferentes clases consideradas.
 Este sencillo clasificador se conoce como el clasificador
de Bayes.
 Por esta razón la mayoría de clasificadores procede
inicialmente a estimar las probabilidades de pertenencia a
cada clase, y a partir de ellas efectúa la asignación a una
clase concreta. 26
Clasificador de Bayes
 Naturalmente estas probabilidades condicionadas no son
conocidas en la práctica, y es por ello que deben ser
estimadas.
 La regresión logística postula un modelo para dichas
probabilidades. Se trata de un modelo paramétrico, y
reduce el problema a la estimación de un conjunto de
parámetros. Es también un método global.
 Podemos pensar, sin embargo, en clasificadores no
paramétricos sencillos que, para situaciones con un
gran número de observaciones y pocos predictores,
funcionan de forma muy razonable.
 Uno de estos clasificadores es el de los K-Vecinos
Cercanos –K-Nearest Neighbors (KNN)–. Se trata de
un método local. 27
Referencias:
 An Introduction to Statistical Learning (ISLR): Capítulo 4.1,
4.2, 4.3 y 2.2.3.

28

También podría gustarte