Clase Vivo1 AEC Anotaciones

Aprendizaje Estadı́stico y Computacional
Jonathan Acosta
Magı́ster en Ciencia de Datos

Pontificia Universidad Católica de Chile
Clase en vivo 1
Jonathan Acosta (UC) EPG4506 Clase en vivo 1 1 / 32

Esquema
1 Conceptos Fundamentales semana 1

Tipos de aprendizajes: Supervisado y No supervisado
Los Problemas de Regresión y Clasificación
Etapas de modelamiento en Proyectos de Ciencia de Datos
2 Conceptos Fundamentales Semana 2

Regresión Lineal y Logı́stica
Ejercicios: Regresión Lineal y Logı́stica

Esquema



¿Qué es el Aprendizaje Supervisado?

Se llama supervisado por la presencia de la variable de resultado para

guiar el proceso de aprendizaje.


¿Qué es el Aprendizaje No Supervisado?


¿Qué es el Aprendizaje No Supervisado?
Como contra-parte del Aprendizaje Supervisado, el Aprendizaje No Su-

pervisado es aquel donde no se conoce la respuesta. Corresponde al
aprendizaje “sin profesor”.


Conceptos Fundamentales del Aprendizaje Supervisado
La ciencia del aprendizaje desempeña un papel fundamental en los

campos de la estadı́stica, la minerı́a de datos y la inteligencia arti-
ficial, y se cruza con áreas de la ingenierı́a y otras disciplinas.


La mezcla de áreas provoca que varias palabras que signifiquen lo

mismo:
X: Entrada = Caracteristicas = Regresores = Predictores = V. Independientes.
Y : Salida = Respuesta = V. Dependiente.


La mezcla de áreas provoca que varias palabras que signifiquen lo

mismo:
X: Entrada = Caracteristicas = Regresores = Predictores = V. Independientes.
Y : Salida = Respuesta = V. Dependiente.
Utilizaremos las anteriores indistintamente.

En el aprendizaje supervisado es natural pensar que la naturaleza

de la variable respuesta influye en las técnicas de aprendizajes es-
pecı́ficas.


pecı́ficas.
El problema de regresión surge cuando la variable de interés es

numérica (continua o discreta).


pecı́ficas.

El problema de clasificación surge cuando la variable de interés es

categórica (nominal u ordinal).


pecı́ficas.

El problema de clasificación surge cuando la variable de interés es

categórica (nominal u ordinal).

El problema de Regresión
Line los
Y po + B
=
x + 2
L
~ a
S
,
orremetros
B x
Y B
=
+ P, X + ,
+ 24
Dentro de los modelos de regresión lineal, ¿cuál es más

apropiado?, y en k-NN, ¿cómo elegir k?
El problema de Clasificación
Figura 1: A la izquierda el clasificador x = (X1 , X2 ) y la derecha el

e = (X1 , X2 , X12 , X22 , X1 X2 ). Fuente Hastie et al. (2008)
clasificador x


clasificador x
Como definir decidir si es más apropiado las fronteras lineales o

curvas?

overfitting/underfitting
Figura 2: overfitting/underfitting: Creterios a tener en cuenta tanto para el

problema de clasificación como regresión
Ciclo de un Proyecto de Ciencia de Datos
Figura 3: Ciclo de vida de un proyecto de Ciencia de Datos

Esquema




El problema de Regresión: Regresión Lineal
Suponga que x = (x1 , x2 , . . . , xp ) es un vector de p caracterı́sticas.

Asuma que dispone de n observaciones de la forma (xi , yi ), i =

1, . . . , n, para entrenar al modelo.

Asuma que dispone de n observaciones de la forma (xi , yi ), i =

1, . . . , n, para entrenar al modelo.
En el modelo de regresión lineal

p
X
f (xi ) = 0 + x>
i = j xji , con x0i = 1, ^ i = 1, . . . , n.
j=0
Se puede probar que

b = ( b0 , . . . , bp ) = (X > X) 1
X >Y
donde X = (1|x1 | · · · |xp ) es la matriz de diseño e Y = (y1 , . . . , yn )

el vector de respuesta.


El problema de Clasificación: Regresión Logı́stica
La forma del modelo es:
✓ ◆
P(G = k|X = x) >
ln = k0 + k x, k = 1, 2, . . . , K 1
P(G = K|X = x)

✓ ◆
P(G = k|X = x) >
ln = k0 + k x, k = 1, 2, . . . , K 1
P(G = K|X = x)
Despejado se tiene que

exp( k0 + k> x)
P(G = k|X = x) = K
, k = 1, . . . , K 1,
X
>
1+ exp( l0 + l x)
l=1
1
P(G = K|X = x) = K
X
>
1+ exp( l0 + l x)
l=1

✓ ◆
P(G = k|X = x) >
ln = k0 + k x, k = 1, 2, . . . , K 1
P(G = K|X = x)
Despejado se tiene que

exp( k0 + k> x)
P(G = k|X = x) = K
, k = 1, . . . , K 1,
X
>
1+ exp( l0 + l x)
l=1
1
P(G = K|X = x) = K
X
>
1+ exp( l0 + l x)
l=1
Para poder estimar los parámetros del modelo, se necesita asociar un mo-
delo de probabilidad a los datos.
Por ejemplo, para el caso K = 2, la log-verosimilitud puede ser escrita

como:
XN h ⇣ ⌘i
`( ) = yi > xi ln 1 + exp( > xi ) ,
i=1

Por ejemplo, para el caso K = 2, la log-verosimilitud puede ser escrita

como:
XN h ⇣ ⌘i
`( ) = yi > xi ln 1 + exp( > xi ) ,
i=1
La cual puede ser maximizada, encontrando las raı́ces de la ecuación

gradiente igual a cero. Es decir, resolver:
U ( ) = r`( ) = 0


clasificador x


clasificador x
¿Como decidir si es más apropiado las fronteras lineales o curvas?

Criterios de Selección de Variables

Es natural pensar que no todas las covariables son significativas en un modelo

Lineal o Lineal Generalizado.
Para poder seleccionar las covariables más representativas se pueden usar al-
guno de los siguientes criterios:


2
Criterio del Rajustado : Eliminar aquellas variables que no aporten de ma-
nera significativa en este coeficiente, se puede establecer un porcentaje
mı́nimo de mejora. (Aplicable al caso de regresión)


2
Criterio del p-valor de los parámetros del modelo: Quitar aquellas variables
cuyo p-valor sea mayor a la significancia establecida.


2
Criterio del p-valor de los parámetros del modelo: Quitar aquellas variables
cuyo p-valor sea mayor a la significancia establecida.
Tabla ANOVA o diferencia de Deviance: Corresponde a un test de hipótesis

que se utiliza para modelos anidados, donde la hipótesis nula establece que
el modelo reducido es casi tan bueno como el modelo mayor.

Considere las hipótesis
H0 : = 0 vs. H1 : = 1
donde 0 tiene q parámetros y 1 tiene p parámetros, tal que q < p < n.

Considere las hipótesis
H0 : = 0 vs. H1 : = 1
donde 0 tiene q parámetros y 1 tiene p parámetros, tal que q < p < n.
Para poner a prueba las hipótesis anteriores considere la diferencia de los es-
tadı́sticos de Deviance:
⇣ ⌘
D = D0 D1 = 2 `( b0 ) `( b1 ) ⇠ 2p q
o bien el cociente (cuando existe parámetro de dispersión).
(D0 D1 )/(p q)
F = ⇠ Fp q,n p
D1 /(n p)
Obs: Por lo general se construye una tabla ANOVA con varios modelos anida-
dos, indicando la variación de Deviance y el p-valor de las pruebas anteriores.

Criterio de Información: Son criterios basados en la verosimilitud, incor-

porando una penalización, de modo de encontrar un balance entre ajuste
y cantidad de parámetros:
AIC: Criterio de información de Akaike.
BIC: Criterio de información de Schwarzt (o Bayesiano).
Están dados por:
AIC = b + 2 ⇤ numpar est

2`(✓)
BIC = b + ln(n) ⇤ numpar est

2`(✓)

Criterio de Información: Son criterios basados en la verosimilitud, incor-

porando una penalización, de modo de encontrar un balance entre ajuste
y cantidad de parámetros:
AIC: Criterio de información de Akaike.
BIC: Criterio de información de Schwarzt (o Bayesiano).
Están dados por:
AIC = b + 2 ⇤ numpar est

2`(✓)
BIC = b + ln(n) ⇤ numpar est

2`(✓)
Se selecciona el conjunto de covariables con AIC o BIC menor.

En caso de tener muestras pequeñas, existen las versiones corregidas de
AIC y BIC.

Ejemplo: Regresión
Ejemplo (Calentamiento Global): Considere el ı́ndice de tempera-

tura media mundial entre la tierra y el océano desde 1880 hasta 2015,
con el perı́odo base 1951-1980.

Suponga que realizamos ajustes a través de regresiones lineales, del tipo

polinomial:
Modelo 1: y = 0 + 1 · t + "t
Modelo 2: y = 0 + 1 ·t+ 2 · t2 + " t
Modelo 3: y = 0 + 1 ·t+ 2 · t2 + 3 · t3 + " t

Suponga que realizamos ajustes a través de regresiones lineales, del tipo

polinomial:
Modelo 1: y = 0 + 1 · t + "t
Modelo 2: y = 0 + 1 ·t+ 2 · t2 + " t
Modelo 3: y = 0 + 1 ·t+ 2 · t2 + 3 · t3 + " t
¿Alguno de los modelos anteriores les parece adecuado?
¿Qué modelo propondrı́a usted?


¿Qué se puede concluir al respecto?

Según la Tabla ANOVA, se tiene:

Res.Df RSS Df Sum of Sq F Pr(>F)
mod1 134 3.3697
mod1-mod2 133 1.7732 1 1.59650 120.62 <2e-16 ***
mod2-mod3 132 1.7471 1 0.02611 1.97 0.1625
AIC BIC
1 -110.95 -102.21
2 -196.27 -184.62
3 -196.28 -181.72

Según la Tabla ANOVA, se tiene:

Res.Df RSS Df Sum of Sq F Pr(>F)
mod1 134 3.3697
mod1-mod2 133 1.7732 1 1.59650 120.62 <2e-16 ***
mod2-mod3 132 1.7471 1 0.02611 1.97 0.1625
AIC BIC
1 -110.95 -102.21
2 -196.27 -184.62
3 -196.28 -181.72
Obs.: De estos tres modelos, se concluye que el mejor es el modelo cuadrático.

Ejercicio: Aplicar los otros criterios de selección, ¿se concluirá lo mismo?

Ejercicio: Regresión Lineal
Se dispone de datos anuales durante un perı́odo de 14 años para las variables:
Consumo (C),
Exportaciones (Ex),
Oferta Monetaria (OM),
de la economı́a de un determinado paı́s. Al ajustar un modelo de regresión a
las variables Consumo y Oferta Monetaria, se obtuvo:
Ci = 851,3 + 0,7945 · OMi
(15,52) (11,60)
Además, se obtuvo R2 = 0,9182 y SCError1 = 143868,69.
Posteriormente, se ajustó el modelo de regresión con todas las variables, obte-
niendo:
Ci = 655,8 + 3,359 · Exi + 0,0556 · OMi
(11,39) (4,282) (0,312)
Además, se obtuvo R2 = 0,969 y SCError2 = 53938,8.
En ambos modelos las cifras entre paréntesis corresponden a los valores de los
estadı́sticos t-Student.
Ejercicio: Regresión Lineal
Si, además, se sabe que la inversa de la matriz X > X, donde el orden corres-
ponde al modelo 2, es
0 1
0,6758016 0,007303 0,001341
(X > X) 1 = @ 0,007303 0,000125 0,0000276 A
0,001341 0,0000276 0,0000064
a) Realice un análisis de significancia, para determinar si se justifica la

incorporación de la variable Exportaciones.
2
b) En ambos modelos estime .
c) Suponga que Ex = 275, y OM = 1000. Utilizando ambos modelos y ésta
información, estime el consumo C. Compare los intervalos de confianza
de las predicciones realizadas por ambos modelos.
d) ¿Usted propondrı́a alguno de estos dos modelos? Justifique su respuesta.

Ejercicio: Regresión Logı́stica
En un estudio se examinaron las relaciones entre las condiciones meteorológicas
durante los primeros 21 dı́as después de la eclosión de las crı́as de codorniz
escalada y su supervivencia hasta los 21 dı́as de edad. Sea p la probabilidad
de que las crı́as sobrevivan más de 21 dı́as. Se utilizó un total de 54 crı́as en
el estudio donde se ajustó un modelo logı́stico, cuyos resultados se muestran
en la siguiente Tabla, donde bj son estimaciones de los parámetros, se( bj ) sus
respectivos errores estándar, mientras, que C el estadı́stico de prueba de razón
de verosimilitud (delta de Deviance), cuando la variable indicada se excluyó del
modelo completo que contenı́a las tres variables explicativas.
Variable explicativa bj se( bj ) C

Temperatura mı́nima durante los primeros 12 dı́as 0,143 0,19 0,602
Temperatura máxima durante los primeros 7 dı́as 1,247 0,45 14,83
Número de dı́as con precipitaciones -0,706 0,45 2,83
durante los primeros 7 dı́as

Ejemplo Regresión Logı́stica
1 Con la información entregada, proponga un modelo basado en los estadı́sti-

cos de la razón de verosimilitud (delta de Deviance).
2 Utilice las pruebas de Wald para determinar qué variables explicativas son
significativas.
3 Suponga que el estimador del intercepto es b0 = 20,45. Obtenga la es-
timación de la probabilidad que una crı́a sobreviva más de 21 dı́as si se
tiene una temperatura mı́nima durante los primeros 12 dı́as fue de 2o C,
una temperatura máxima de 18o C durante los primeros 7 dı́as y solo un
dı́a de precipitaciones durante los primeros 7 dı́as.

¿Alguna consulta?

Bibliografia
Trevor Hastie, Robert Tibshirani and Jerome Friedman (2008) The Ele-
ments of Statistical Learning Data Mining, Inference, and Prediction.
Springer Series in Statistics.
Christopher M. Bishop (2006) Pattern Recognition and Machine Lear-

ning. New York: Springer.

Clase Vivo1 AEC Anotaciones

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase Vivo1 AEC Anotaciones

Cargado por

Copyright:

Formatos disponibles

Aprendizaje Estadı́stico y Computacional

Magı́ster en Ciencia de Datos

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 1 / 32

1 Conceptos Fundamentales semana 1

2 Conceptos Fundamentales Semana 2

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 2 / 32

1 Conceptos Fundamentales semana 1

2 Conceptos Fundamentales Semana 2

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 3 / 32

¿Qué es el Aprendizaje Supervisado?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32

¿Qué es el Aprendizaje Supervisado?

Se llama supervisado por la presencia de la variable de resultado para

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32

¿Qué es el Aprendizaje Supervisado?

Se llama supervisado por la presencia de la variable de resultado para

¿Qué es el Aprendizaje No Supervisado?

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32

¿Qué es el Aprendizaje Supervisado?

Se llama supervisado por la presencia de la variable de resultado para

¿Qué es el Aprendizaje No Supervisado?

Como contra-parte del Aprendizaje Supervisado, el Aprendizaje No Su-

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 4 / 32

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 5 / 32

La ciencia del aprendizaje desempeña un papel fundamental en los

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 6 / 32

La ciencia del aprendizaje desempeña un papel fundamental en los

La mezcla de áreas provoca que varias palabras que signifiquen lo

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 6 / 32

La ciencia del aprendizaje desempeña un papel fundamental en los

La mezcla de áreas provoca que varias palabras que signifiquen lo

Utilizaremos las anteriores indistintamente.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 6 / 32

En el aprendizaje supervisado es natural pensar que la naturaleza

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32

En el aprendizaje supervisado es natural pensar que la naturaleza

El problema de regresión surge cuando la variable de interés es

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32

En el aprendizaje supervisado es natural pensar que la naturaleza

El problema de regresión surge cuando la variable de interés es

El problema de clasificación surge cuando la variable de interés es

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32

En el aprendizaje supervisado es natural pensar que la naturaleza

El problema de regresión surge cuando la variable de interés es

El problema de clasificación surge cuando la variable de interés es

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 7 / 32

Dentro de los modelos de regresión lineal, ¿cuál es más

Figura 1: A la izquierda el clasificador x = (X1 , X2 ) y la derecha el

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 9 / 32

Figura 1: A la izquierda el clasificador x = (X1 , X2 ) y la derecha el

Como definir decidir si es más apropiado las fronteras lineales o

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 9 / 32

Figura 2: overfitting/underfitting: Creterios a tener en cuenta tanto para el

Figura 3: Ciclo de vida de un proyecto de Ciencia de Datos

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 11 / 32

1 Conceptos Fundamentales semana 1

2 Conceptos Fundamentales Semana 2

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 12 / 32

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 13 / 32

Suponga que x = (x1 , x2 , . . . , xp ) es un vector de p caracterı́sticas.

Jonathan Acosta (UC) EPG4506 Clase en vivo 1 14 / 32

Suponga que x = (x1 , x2 , . . . , xp ) es un vector de p caracterı́sticas.

Asuma que dispone de n observaciones de la forma (xi , yi ), i =