Está en la página 1de 59

Aprendizaje Estadı́stico y Computacional

Jonathan Acosta

Magı́ster en Ciencia de Datos


Pontificia Universidad Católica de Chile

Clase en vivo 1

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 1 / 32


Esquema

1 Conceptos Fundamentales semana 1


Tipos de aprendizajes: Supervisado y No supervisado
Los Problemas de Regresión y Clasificación
Etapas de modelamiento en Proyectos de Ciencia de Datos

2 Conceptos Fundamentales Semana 2


Regresión Lineal y Logı́stica
Ejercicios: Regresión Lineal y Logı́stica

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 2 / 32


Esquema

1 Conceptos Fundamentales semana 1


Tipos de aprendizajes: Supervisado y No supervisado
Los Problemas de Regresión y Clasificación
Etapas de modelamiento en Proyectos de Ciencia de Datos

2 Conceptos Fundamentales Semana 2


Regresión Lineal y Logı́stica
Ejercicios: Regresión Lineal y Logı́stica

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 3 / 32


Tipos de aprendizajes: Supervisado y No supervisado

¿Qué es el Aprendizaje Supervisado?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32


Tipos de aprendizajes: Supervisado y No supervisado

¿Qué es el Aprendizaje Supervisado?

Se llama supervisado por la presencia de la variable de resultado para


guiar el proceso de aprendizaje.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32


Tipos de aprendizajes: Supervisado y No supervisado

¿Qué es el Aprendizaje Supervisado?

Se llama supervisado por la presencia de la variable de resultado para


guiar el proceso de aprendizaje.

¿Qué es el Aprendizaje No Supervisado?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32


Tipos de aprendizajes: Supervisado y No supervisado

¿Qué es el Aprendizaje Supervisado?

Se llama supervisado por la presencia de la variable de resultado para


guiar el proceso de aprendizaje.

¿Qué es el Aprendizaje No Supervisado?

Como contra-parte del Aprendizaje Supervisado, el Aprendizaje No Su-


pervisado es aquel donde no se conoce la respuesta. Corresponde al
aprendizaje “sin profesor”.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32


Tipos de aprendizajes: Supervisado y No supervisado

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 5 / 32


Conceptos Fundamentales del Aprendizaje Supervisado

La ciencia del aprendizaje desempeña un papel fundamental en los


campos de la estadı́stica, la minerı́a de datos y la inteligencia arti-
ficial, y se cruza con áreas de la ingenierı́a y otras disciplinas.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 6 / 32


Conceptos Fundamentales del Aprendizaje Supervisado

La ciencia del aprendizaje desempeña un papel fundamental en los


campos de la estadı́stica, la minerı́a de datos y la inteligencia arti-
ficial, y se cruza con áreas de la ingenierı́a y otras disciplinas.

La mezcla de áreas provoca que varias palabras que signifiquen lo


mismo:
X: Entrada = Caracteristicas = Regresores = Predictores = V. Independientes.
Y : Salida = Respuesta = V. Dependiente.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 6 / 32


Conceptos Fundamentales del Aprendizaje Supervisado

La ciencia del aprendizaje desempeña un papel fundamental en los


campos de la estadı́stica, la minerı́a de datos y la inteligencia arti-
ficial, y se cruza con áreas de la ingenierı́a y otras disciplinas.

La mezcla de áreas provoca que varias palabras que signifiquen lo


mismo:
X: Entrada = Caracteristicas = Regresores = Predictores = V. Independientes.
Y : Salida = Respuesta = V. Dependiente.

Utilizaremos las anteriores indistintamente.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 6 / 32


Los Problemas de Regresión y Clasificación

En el aprendizaje supervisado es natural pensar que la naturaleza


de la variable respuesta influye en las técnicas de aprendizajes es-
pecı́ficas.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32


Los Problemas de Regresión y Clasificación

En el aprendizaje supervisado es natural pensar que la naturaleza


de la variable respuesta influye en las técnicas de aprendizajes es-
pecı́ficas.

El problema de regresión surge cuando la variable de interés es


numérica (continua o discreta).

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32


Los Problemas de Regresión y Clasificación

En el aprendizaje supervisado es natural pensar que la naturaleza


de la variable respuesta influye en las técnicas de aprendizajes es-
pecı́ficas.

El problema de regresión surge cuando la variable de interés es


numérica (continua o discreta).

El problema de clasificación surge cuando la variable de interés es


categórica (nominal u ordinal).

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32


Los Problemas de Regresión y Clasificación

En el aprendizaje supervisado es natural pensar que la naturaleza


de la variable respuesta influye en las técnicas de aprendizajes es-
pecı́ficas.

El problema de regresión surge cuando la variable de interés es


numérica (continua o discreta).

El problema de clasificación surge cuando la variable de interés es


categórica (nominal u ordinal).

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32


El problema de Regresión

Line los
Y po + B
=
x + 2
L
~ a
S
,

orremetros
B x
Y B
=
+ P, X + ,
+ 24
Jonathan Acosta (UC) EPG4506 Clase en vivo 1 8 / 32
El problema de Regresión

Dentro de los modelos de regresión lineal, ¿cuál es más


apropiado?, y en k-NN, ¿cómo elegir k?
Jonathan Acosta (UC) EPG4506 Clase en vivo 1 8 / 32
El problema de Clasificación

Figura 1: A la izquierda el clasificador x = (X1 , X2 ) y la derecha el


e = (X1 , X2 , X12 , X22 , X1 X2 ). Fuente Hastie et al. (2008)
clasificador x

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 9 / 32


El problema de Clasificación

Figura 1: A la izquierda el clasificador x = (X1 , X2 ) y la derecha el


e = (X1 , X2 , X12 , X22 , X1 X2 ). Fuente Hastie et al. (2008)
clasificador x

Como definir decidir si es más apropiado las fronteras lineales o


curvas?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 9 / 32


overfitting/underfitting

Figura 2: overfitting/underfitting: Creterios a tener en cuenta tanto para el


problema de clasificación como regresión
Jonathan Acosta (UC) EPG4506 Clase en vivo 1 10 / 32
Ciclo de un Proyecto de Ciencia de Datos

Figura 3: Ciclo de vida de un proyecto de Ciencia de Datos

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 11 / 32


Esquema

1 Conceptos Fundamentales semana 1


Tipos de aprendizajes: Supervisado y No supervisado
Los Problemas de Regresión y Clasificación
Etapas de modelamiento en Proyectos de Ciencia de Datos

2 Conceptos Fundamentales Semana 2


Regresión Lineal y Logı́stica
Ejercicios: Regresión Lineal y Logı́stica

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 12 / 32


El problema de Regresión

El problema de Regresión

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 13 / 32


El problema de Regresión: Regresión Lineal

Suponga que x = (x1 , x2 , . . . , xp ) es un vector de p caracterı́sticas.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 14 / 32


El problema de Regresión: Regresión Lineal

Suponga que x = (x1 , x2 , . . . , xp ) es un vector de p caracterı́sticas.

Asuma que dispone de n observaciones de la forma (xi , yi ), i =


1, . . . , n, para entrenar al modelo.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 14 / 32


El problema de Regresión: Regresión Lineal

Suponga que x = (x1 , x2 , . . . , xp ) es un vector de p caracterı́sticas.

Asuma que dispone de n observaciones de la forma (xi , yi ), i =


1, . . . , n, para entrenar al modelo.

En el modelo de regresión lineal


p
X
f (xi ) = 0 + x>
i = j xji , con x0i = 1, ^ i = 1, . . . , n.
j=0

Se puede probar que


b = ( b0 , . . . , bp ) = (X > X) 1
X >Y

donde X = (1|x1 | · · · |xp ) es la matriz de diseño e Y = (y1 , . . . , yn )


el vector de respuesta.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 14 / 32


El problema de Clasificación

El problema de Clasificación

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 15 / 32


El problema de Clasificación: Regresión Logı́stica
La forma del modelo es:
✓ ◆
P(G = k|X = x) >
ln = k0 + k x, k = 1, 2, . . . , K 1
P(G = K|X = x)

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 16 / 32


El problema de Clasificación: Regresión Logı́stica
La forma del modelo es:
✓ ◆
P(G = k|X = x) >
ln = k0 + k x, k = 1, 2, . . . , K 1
P(G = K|X = x)

Despejado se tiene que


exp( k0 + k> x)
P(G = k|X = x) = K
, k = 1, . . . , K 1,
X
>
1+ exp( l0 + l x)
l=1

1
P(G = K|X = x) = K
X
>
1+ exp( l0 + l x)
l=1

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 16 / 32


El problema de Clasificación: Regresión Logı́stica
La forma del modelo es:
✓ ◆
P(G = k|X = x) >
ln = k0 + k x, k = 1, 2, . . . , K 1
P(G = K|X = x)

Despejado se tiene que


exp( k0 + k> x)
P(G = k|X = x) = K
, k = 1, . . . , K 1,
X
>
1+ exp( l0 + l x)
l=1

1
P(G = K|X = x) = K
X
>
1+ exp( l0 + l x)
l=1

Para poder estimar los parámetros del modelo, se necesita asociar un mo-
delo de probabilidad a los datos.
Jonathan Acosta (UC) EPG4506 Clase en vivo 1 16 / 32
El problema de Clasificación: Regresión Logı́stica

Por ejemplo, para el caso K = 2, la log-verosimilitud puede ser escrita


como:
XN h ⇣ ⌘i
`( ) = yi > xi ln 1 + exp( > xi ) ,
i=1

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 17 / 32


El problema de Clasificación: Regresión Logı́stica

Por ejemplo, para el caso K = 2, la log-verosimilitud puede ser escrita


como:
XN h ⇣ ⌘i
`( ) = yi > xi ln 1 + exp( > xi ) ,
i=1

La cual puede ser maximizada, encontrando las raı́ces de la ecuación


gradiente igual a cero. Es decir, resolver:

U ( ) = r`( ) = 0

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 17 / 32


El problema de Clasificación

Figura 4: A la izquierda el clasificador x = (X1 , X2 ) y la derecha el


e = (X1 , X2 , X12 , X22 , X1 X2 ). Fuente Hastie et al. (2008)
clasificador x

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 18 / 32


El problema de Clasificación

Figura 4: A la izquierda el clasificador x = (X1 , X2 ) y la derecha el


e = (X1 , X2 , X12 , X22 , X1 X2 ). Fuente Hastie et al. (2008)
clasificador x

¿Como decidir si es más apropiado las fronteras lineales o curvas?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 18 / 32


Criterios de Selección de Variables

Criterios de Selección de Variables

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 19 / 32


Criterios de Selección de Variables

Es natural pensar que no todas las covariables son significativas en un modelo


Lineal o Lineal Generalizado.
Para poder seleccionar las covariables más representativas se pueden usar al-
guno de los siguientes criterios:

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 20 / 32


Criterios de Selección de Variables

Es natural pensar que no todas las covariables son significativas en un modelo


Lineal o Lineal Generalizado.
Para poder seleccionar las covariables más representativas se pueden usar al-
guno de los siguientes criterios:

2
Criterio del Rajustado : Eliminar aquellas variables que no aporten de ma-
nera significativa en este coeficiente, se puede establecer un porcentaje
mı́nimo de mejora. (Aplicable al caso de regresión)

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 20 / 32


Criterios de Selección de Variables

Es natural pensar que no todas las covariables son significativas en un modelo


Lineal o Lineal Generalizado.
Para poder seleccionar las covariables más representativas se pueden usar al-
guno de los siguientes criterios:

2
Criterio del Rajustado : Eliminar aquellas variables que no aporten de ma-
nera significativa en este coeficiente, se puede establecer un porcentaje
mı́nimo de mejora. (Aplicable al caso de regresión)

Criterio del p-valor de los parámetros del modelo: Quitar aquellas variables
cuyo p-valor sea mayor a la significancia establecida.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 20 / 32


Criterios de Selección de Variables

Es natural pensar que no todas las covariables son significativas en un modelo


Lineal o Lineal Generalizado.
Para poder seleccionar las covariables más representativas se pueden usar al-
guno de los siguientes criterios:

2
Criterio del Rajustado : Eliminar aquellas variables que no aporten de ma-
nera significativa en este coeficiente, se puede establecer un porcentaje
mı́nimo de mejora. (Aplicable al caso de regresión)

Criterio del p-valor de los parámetros del modelo: Quitar aquellas variables
cuyo p-valor sea mayor a la significancia establecida.

Tabla ANOVA o diferencia de Deviance: Corresponde a un test de hipótesis


que se utiliza para modelos anidados, donde la hipótesis nula establece que
el modelo reducido es casi tan bueno como el modelo mayor.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 20 / 32


Criterios de Selección de Variables

Considere las hipótesis

H0 : = 0 vs. H1 : = 1

donde 0 tiene q parámetros y 1 tiene p parámetros, tal que q < p < n.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 21 / 32


Criterios de Selección de Variables

Considere las hipótesis

H0 : = 0 vs. H1 : = 1

donde 0 tiene q parámetros y 1 tiene p parámetros, tal que q < p < n.

Para poner a prueba las hipótesis anteriores considere la diferencia de los es-
tadı́sticos de Deviance:
⇣ ⌘
D = D0 D1 = 2 `( b0 ) `( b1 ) ⇠ 2p q

o bien el cociente (cuando existe parámetro de dispersión).

(D0 D1 )/(p q)
F = ⇠ Fp q,n p
D1 /(n p)

Obs: Por lo general se construye una tabla ANOVA con varios modelos anida-
dos, indicando la variación de Deviance y el p-valor de las pruebas anteriores.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 21 / 32


Criterios de Selección de Variables

Criterio de Información: Son criterios basados en la verosimilitud, incor-


porando una penalización, de modo de encontrar un balance entre ajuste
y cantidad de parámetros:
AIC: Criterio de información de Akaike.
BIC: Criterio de información de Schwarzt (o Bayesiano).
Están dados por:

AIC = b + 2 ⇤ numpar est


2`(✓)

BIC = b + ln(n) ⇤ numpar est


2`(✓)

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 22 / 32


Criterios de Selección de Variables

Criterio de Información: Son criterios basados en la verosimilitud, incor-


porando una penalización, de modo de encontrar un balance entre ajuste
y cantidad de parámetros:
AIC: Criterio de información de Akaike.
BIC: Criterio de información de Schwarzt (o Bayesiano).
Están dados por:

AIC = b + 2 ⇤ numpar est


2`(✓)

BIC = b + ln(n) ⇤ numpar est


2`(✓)

Se selecciona el conjunto de covariables con AIC o BIC menor.


En caso de tener muestras pequeñas, existen las versiones corregidas de
AIC y BIC.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 22 / 32


Ejemplo: Regresión

Ejemplo (Calentamiento Global): Considere el ı́ndice de tempera-


tura media mundial entre la tierra y el océano desde 1880 hasta 2015,
con el perı́odo base 1951-1980.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 23 / 32


Criterios de Selección de Variables

Suponga que realizamos ajustes a través de regresiones lineales, del tipo


polinomial:

Modelo 1: y = 0 + 1 · t + "t
Modelo 2: y = 0 + 1 ·t+ 2 · t2 + " t
Modelo 3: y = 0 + 1 ·t+ 2 · t2 + 3 · t3 + " t

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 24 / 32


Criterios de Selección de Variables

Suponga que realizamos ajustes a través de regresiones lineales, del tipo


polinomial:

Modelo 1: y = 0 + 1 · t + "t
Modelo 2: y = 0 + 1 ·t+ 2 · t2 + " t
Modelo 3: y = 0 + 1 ·t+ 2 · t2 + 3 · t3 + " t

¿Alguno de los modelos anteriores les parece adecuado?

¿Qué modelo propondrı́a usted?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 24 / 32


Ejemplo: Regresión

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 25 / 32


Ejemplo: Regresión

¿Qué se puede concluir al respecto?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 25 / 32


Ejemplo: Regresión

Según la Tabla ANOVA, se tiene:


Res.Df RSS Df Sum of Sq F Pr(>F)
mod1 134 3.3697
mod1-mod2 133 1.7732 1 1.59650 120.62 <2e-16 ***
mod2-mod3 132 1.7471 1 0.02611 1.97 0.1625

AIC BIC
1 -110.95 -102.21
2 -196.27 -184.62
3 -196.28 -181.72

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 26 / 32


Ejemplo: Regresión

Según la Tabla ANOVA, se tiene:


Res.Df RSS Df Sum of Sq F Pr(>F)
mod1 134 3.3697
mod1-mod2 133 1.7732 1 1.59650 120.62 <2e-16 ***
mod2-mod3 132 1.7471 1 0.02611 1.97 0.1625

AIC BIC
1 -110.95 -102.21
2 -196.27 -184.62
3 -196.28 -181.72

Obs.: De estos tres modelos, se concluye que el mejor es el modelo cuadrático.


Ejercicio: Aplicar los otros criterios de selección, ¿se concluirá lo mismo?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 26 / 32


Ejercicio: Regresión Lineal
Se dispone de datos anuales durante un perı́odo de 14 años para las variables:
Consumo (C),
Exportaciones (Ex),
Oferta Monetaria (OM),
de la economı́a de un determinado paı́s. Al ajustar un modelo de regresión a
las variables Consumo y Oferta Monetaria, se obtuvo:
Ci = 851,3 + 0,7945 · OMi
(15,52) (11,60)
Además, se obtuvo R2 = 0,9182 y SCError1 = 143868,69.
Posteriormente, se ajustó el modelo de regresión con todas las variables, obte-
niendo:
Ci = 655,8 + 3,359 · Exi + 0,0556 · OMi
(11,39) (4,282) (0,312)
Además, se obtuvo R2 = 0,969 y SCError2 = 53938,8.
En ambos modelos las cifras entre paréntesis corresponden a los valores de los
estadı́sticos t-Student.
Jonathan Acosta (UC) EPG4506 Clase en vivo 1 27 / 32
Ejercicio: Regresión Lineal

Si, además, se sabe que la inversa de la matriz X > X, donde el orden corres-
ponde al modelo 2, es
0 1
0,6758016 0,007303 0,001341
(X > X) 1 = @ 0,007303 0,000125 0,0000276 A
0,001341 0,0000276 0,0000064

a) Realice un análisis de significancia, para determinar si se justifica la


incorporación de la variable Exportaciones.
2
b) En ambos modelos estime .
c) Suponga que Ex = 275, y OM = 1000. Utilizando ambos modelos y ésta
información, estime el consumo C. Compare los intervalos de confianza
de las predicciones realizadas por ambos modelos.
d) ¿Usted propondrı́a alguno de estos dos modelos? Justifique su respuesta.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 28 / 32


Ejercicio: Regresión Logı́stica
En un estudio se examinaron las relaciones entre las condiciones meteorológicas
durante los primeros 21 dı́as después de la eclosión de las crı́as de codorniz
escalada y su supervivencia hasta los 21 dı́as de edad. Sea p la probabilidad
de que las crı́as sobrevivan más de 21 dı́as. Se utilizó un total de 54 crı́as en
el estudio donde se ajustó un modelo logı́stico, cuyos resultados se muestran
en la siguiente Tabla, donde bj son estimaciones de los parámetros, se( bj ) sus
respectivos errores estándar, mientras, que C el estadı́stico de prueba de razón
de verosimilitud (delta de Deviance), cuando la variable indicada se excluyó del
modelo completo que contenı́a las tres variables explicativas.

Variable explicativa bj se( bj ) C


Temperatura mı́nima durante los primeros 12 dı́as 0,143 0,19 0,602
Temperatura máxima durante los primeros 7 dı́as 1,247 0,45 14,83
Número de dı́as con precipitaciones -0,706 0,45 2,83
durante los primeros 7 dı́as

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 29 / 32


Ejemplo Regresión Logı́stica

1 Con la información entregada, proponga un modelo basado en los estadı́sti-


cos de la razón de verosimilitud (delta de Deviance).
2 Utilice las pruebas de Wald para determinar qué variables explicativas son
significativas.
3 Suponga que el estimador del intercepto es b0 = 20,45. Obtenga la es-
timación de la probabilidad que una crı́a sobreviva más de 21 dı́as si se
tiene una temperatura mı́nima durante los primeros 12 dı́as fue de 2o C,
una temperatura máxima de 18o C durante los primeros 7 dı́as y solo un
dı́a de precipitaciones durante los primeros 7 dı́as.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 30 / 32


¿Alguna consulta?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 31 / 32


Bibliografia

Trevor Hastie, Robert Tibshirani and Jerome Friedman (2008) The Ele-
ments of Statistical Learning Data Mining, Inference, and Prediction.
Springer Series in Statistics.

Christopher M. Bishop (2006) Pattern Recognition and Machine Lear-


ning. New York: Springer.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 32 / 32

También podría gustarte