Está en la página 1de 7

Introducción

Aprendizaje Estadístico I

Mauricio Gallardo Altamirano

Diplomado en Ciencia de Datos


¿De qué trata este curso?
Aprendizaje estadístico

• Los métodos de Aprendizaje Estadístico constituyen una colección de


técnicas para estimar el valor de una variable resultado yi , a partir de
un set de p variables explicativas: xi1 , xi2 , ..., xip , que caracterizan a
n unidades de observación u objetos de interés (individuos, empresas,
países, etc.) contenidos en una muestra.

xi1 , xi2 , ..., xip → yi
i = 1, 2, ...n
• Se trata de obtener el vector de valores de una variable resultado y a
partir de una matriz de datos X , llamada ’Matriz de Información’ :
   
x11 x12 ... x1p y1
   

 x21 x22 ... x2p  
→ y2 


 ... ... ... ... 


 ... 

xn1 xn2 .. xnp yn
1
X →y
Aprendizaje estadístico supervisado y no supervisado

• Los métodos de Aprendizaje Estadístico se dividen en dos grandes


grupos: supervisados y no supervisados.
• En los métodos supervisados el valor de la variable respuesta yi es
observado en la muestra, en los no supervisados tal valor es un cons-
tructo latente no observado.
• Los métodos supervisados permiten constatar la precisión de la esti-
mación. En tal sentido son ’supervisados’, porque es posible calcular
una función de pérdida para ’supervisar’ la distancia entre el valor
predicho y el observado.
• Ejemplos: Regresión Lineal, Regresión Logística, Regresión No Lineal,
Regresión No Paramétrica, Análisis Discriminante, Modelos Probit.
• En los métodos no supervisados como el valor de yi no es observa-
ble, no es posible calcular una función de pérdida que nos permita
’supervisar’ la precisión de nuestra estimación.
• Ejemplos: Componentes Principales, Análisis Factorial, Análisis de
Agrupamiento (Cluster).

2
Dos tipos de Métodos No Supervisados de acuerdo a su obje-
tivo

• Técnicas de Reducción de la Dimensión: conjunto de técnicas que a


partir de un conjunto de p variables altamente correlacionadas redu-
cen la dimensión de la información en un conjunto menor, q < p, de
variables no correlacionadas entre sí. Ejemplos: Componentes Princi-
pales, Análisis Factorial. Es decir colapsan la Matriz de Infomación X
en un vector o matriz de menor dimensión y:
X →y
• Técnicas de Agrupamiento (Clúster): conjunto de técnicas que a partir
de n objetos caracterizados por p variables, permiten conformar un
conjunto de k < n grupos de objetos homogéneos (parecidos entre
sí) de acuerdo a sus características. Ejemplos: K-medias, K-medianas,
Agrupamientos jerárquicos, Clases Latentes. En este caso, a partir de
la matriz X se genera un vector de clasificación y que indica los grupos
o clases a que pertenece cada objeto u observación:
3
X →y
Dos tipos de Métodos Supervisados de acuerdo a su objetivo

• Técnicas de predicción de una variable métrica: son todos los métodos


de regresión (lineales y no lineales, paramétricos y no paramétricos).
Son métodos ’supervisados’ porque podemos calcular una función de
pérdida (ej.: RMSE, MAE) para ’supervisar’ que tan cerca se encuen-
tra el valor predicho ybi del valor observado yi .
X →b
y y
• Técnicas de predicción de una variable categórica: son métodos que
persiguen predecir o pronosticar la pertenencia de objetos a catego-
rías o grupos. Entre estos métodos destacan la regresión logística y
el análisis discriminante. También son métodos supervisados, porque
podemos evaluar si el estimador de clasificación corresponde al gru-
po de pertenencia observado a través de un criterio de pérdida (ej:
accuracy, área bajo la Curva ROC).

X →b
y y
4
Introducción
Aprendizaje Estadístico I

Mauricio Gallardo Altamirano

Diplomado en Ciencia de Datos

También podría gustarte