Está en la página 1de 25

Evaluación del Aprendizaje Supervisado

César Olivares

Pontificia Universidad Católica del Perú


Maestrı́a en Informática
INF648 - Aprendizaje Automático: Teorı́a y Aplicaciones

2017

INF648 Evaluación del Aprendizaje Supervisado 2017 1 / 25


Motivación

¿Qué modelo es mejor que otro?


¿Qué estoy tratando de optimizar?
¿Son estos los mejores parámetros?
¿Cómo puedo estimar el error fuera de este conjunto de datos?
¿Cómo puedo saber si tenemos un problema de overfitting?

INF648 Evaluación del Aprendizaje Supervisado 2017 2 / 25


El problema del aprendizaje

Figura 1: Configuración básica del problema del aprendizaje (Abu-Mostafa 2012)

INF648 Evaluación del Aprendizaje Supervisado 2017 3 / 25


¿Es posible el aprendizaje?

Desde un punto de vista determinista, un conjunto de datos no nos dice nada sobre
los datos fuera de la muestra.
Desde un punto de vista probabilista, es posible aprender cuando las instancias del
conjunto de datos han sido generadas de manera independiente.

INF648 Evaluación del Aprendizaje Supervisado 2017 4 / 25


El problema del aprendizaje / Modelo probabilista

Figura 2: Configuración básica del problema del aprendizaje, añadiendo probabilidad


(Abu-Mostafa 2012)

INF648 Evaluación del Aprendizaje Supervisado 2017 5 / 25


El problema del aprendizaje / Configuración general

Figura 3: Configuración general del problema del aprendizaje supervisado (Abu-Mostafa 2012)
INF648 Evaluación del Aprendizaje Supervisado 2017 6 / 25
Fuentes del error en los datos fuera de la muestra

El error de predicción puede descomponerse en las siguientes fuentes: bias (sesgo),


varianza y ruido.
Si imaginamos que tenemos acceso a un número ilimitado de conjuntos de
entrenamiento (muestras representativas) del nuestro universo de datos y que
entrenamos nuestro modelo con cada uno de ellos, entonces:
Error de Bias. Es la diferencia entre la predicción promedio de los modelos y el
valor real de los datos.
Error de Varianza. Es el error debido a la variabilidad con respecto a la predicción
promedio.
Error Irreducible. Es el ruido presente en la generación de las muestras, que no
puede ser eliminado por ningún modelo.

Err (x) = (E[fˆ(x)] − f (x))2 + E[(fˆ(x) − E[fˆ(x)])2 ] + σe2

Err (x) = Bias2 + Varianza + Error Irreducible

INF648 Evaluación del Aprendizaje Supervisado 2017 7 / 25


Bias y varianza

Figura 4: Metáfora gráfica del bias y la varianza. Fuente: scott.fortmann-roe.com

INF648 Evaluación del Aprendizaje Supervisado 2017 8 / 25


Bias y varianza

Figura 5: Ejemplo con f (x) = sin(πx). Se ajusta dos modelos con conjuntos de datos de 2
muestras. H0 representa a los modelos h(x) = b. H1 representa a los modelos h(x) = ax + b.
(Abu-Mostafa 2012)

INF648 Evaluación del Aprendizaje Supervisado 2017 9 / 25


Bias y varianza

INF648 Evaluación del Aprendizaje Supervisado 2017 10 / 25


Error esperado según cantidad de datos

Figura 6: Curvas de aprendizaje para un modelo simple y para un modelo complejo, basadas en
experimentos. (Abu-Mostafa 2012)

INF648 Evaluación del Aprendizaje Supervisado 2017 11 / 25


Error esperado según complejidad del modelo

Figura 7: Modelos con diversa complejidad (Raschka 2015)

Figura 8: Contribución de bias y varianza al error total. Fuente: scott.fortmann-roe.com

INF648 Evaluación del Aprendizaje Supervisado 2017 12 / 25


Regularización y validación

Las principales técnicas para aproximarnos a un modelo de complejidad óptima son:


La Regularización, que nos permite controlar el grado de complejidad del modelo.
La Validación, que nos permite estimar, a partir de los datos conocidos, el error
que se espera tener con nuevos datos desconocidos.

INF648 Evaluación del Aprendizaje Supervisado 2017 13 / 25


El conjunto de validación

Es un subconjunto de los datos que se reserva para estimar el error fuera de la


muestra.
No se usa para el ajuste de los modelos.
Se usa para escoger entre distintos modelos y para seleccionar los parámetros
de aprendizaje de los modelos.
Por haber sido usado para ajustar parámetros del aprendizaje, no es ya un estimado
independiente de la bondad de un modelo.

Figura 9: División tripartita de los datos en un conjunto de entrenamiento, validación y pruebas


(Mueller 2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 14 / 25


Validación cruzada

La validación cruzada (Cross-Validation es una técnica que permite usar todos los
datos de entrenamiento tanto para el entrenamiento como para la validación (pero
no al mismo tiempo).
Es muy útil y recomendable cuando se tiene un número reducido de datos.
Se particiona el conjunto de entrenamiento en K partes (K-Fold Cross-Validation).
Se entrena el modelo para cada una de las K particiones, y se calcula el promedio
del error evaluado en los respectivos conjuntos de validación.

Figura 10: División de los datos en validación cruzada con K = 5 (Mueller 2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 15 / 25


Validación cruzada / Eligiendo el valor K

Formalmente, la mejor aproximación al error fuera de la muestra se obtiene cuando


el número de particiones K toma el valor m (número de muestras en el conjunto de
datos), es decir, cuando se usa conjuntos de validación de tamaño 1
(Leave-One-Out Cross-Validation).
Usar K = m es computacionalmente costoso, pues requiere entrenar m modelos.
Tı́picamente se elige valores de K = 5 o 10 (5-fold CV, o 10-fold CV).

INF648 Evaluación del Aprendizaje Supervisado 2017 16 / 25


Validación cruzada / Muestreo

Como en todo muestreo, en la división del conjunto de datos se debe procurar que
cada una de las particiones sea una muestra representativa.
El Muestro aleatorio (Random Sampling) es suficiente cuando se tiene muchos
datos y las diversas clases están igualmente representadas.
Cuando se tiene pocos datos o un conjunto de datos desbalanceado, se debe usar
Muestreo estratificado (Stratified Sampling) para conservar en lo posible la
representatividad de las muestras.

Figura 11: Comparación de la validación cruzada estándar y la validación cruzada estratificada


cuando los datos están ordenados por clase (Mueller 2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 17 / 25


Búsqueda en grilla (Grid search) con validación cruzada

Figura 12: Resultados de búsqueda en grilla con validación cruzada (Mueller 2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 18 / 25


Búsqueda en grilla (Grid search) con validación cruzada

Figura 13: Proceso de selección de parámetros y evaluación de modelo usando búsqueda en grilla
con validación cruzada (Mueller 2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 19 / 25


Evaluación del rendimiento de clasificadores

La exactitud (accuracy) no es siempre la medida de evaluación más apropiada para


estimar el rendimiento de un modelo y ajustar sus parámetros.
La exactitud es una mala medida sobre todo cuando se tiene un conjunto
desbalanceado de datos o cuando los diversos tipos de errores tienen diferentes
costos.
Ejemplos:
Diagnóstico de cáncer.
Publicidad click-through
Clasificación de spam.
La elección de la mejor medida depende del objetivo y aplicación del modelo.
Se busca el impacto más positivo posible en la medida de negocio o meta a alto
nivel de la aplicación.

INF648 Evaluación del Aprendizaje Supervisado 2017 20 / 25


Matrix de confusión

La matriz de confusión o tabla de contingencia es un sumario del rendimiento de


un clasificador.
A partir de la matriz confusión se puede calcular diversas medidas de error.

Fuente: nature.com

INF648 Evaluación del Aprendizaje Supervisado 2017 21 / 25


Matrix de confusión para más de 2 clases

Fuente: cloudacademy.com

INF648 Evaluación del Aprendizaje Supervisado 2017 22 / 25


Curva ROC
La curva ROC (Receiving Operationg Characteristics Curve) analiza el
comportamiento de un clasificador en diversos umbrales.
Evalúa qué tan bien el clasificador asigna de manera ordenada el puntaje (ranking)
al conjunto de datos.
El eje vertical es la tasa de verdaderos positivos (TPR) o exhaustividad (recall). El
eje horizontal es la tasa de falsos positivos (FPR). Cada punto corresponde a un
posible umbral (threshold) o punto de operación.
La curva ideal pasa por el punto (0, 1).
El peor resultado posible es la diagonal TPR = FPR (random guessing).
Usualmente se resume en un sólo valor: el área bajo la curva (AUC).

Figura 14: Comparación de la curva ROC de dos clasificadores (Mueller 2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 23 / 25


Curva de Precisión y Exhaustividad
La Precisión indica la fracción de predicciones positivas que son correctas.
La Exhaustividad indica la fracción de datos positivos que son correctamente
identificados por el modelo.
La Curva de Precisión y Exhaustividad nos permite visualizar la relación entre
ambas y encontrar un punto de operación óptimo para nuestros requerimientos.
La curva ideal pasa por el punto (1, 1).
El peor resultado posible es la diagonal TPR = FPR (random guessing).
Usualmente se resume en el valor del área bajo la curva, que recibe al nombre de
precisión media (average precision).

Figura 15: Comparación de la curva de precisión y exhaustividad de dos clasificadores (Mueller


2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 24 / 25


Bibliografı́a

Yaser S. Abu-Mostafa; Malik Magdon-Ismail; Hsuan-Tien Lin. (2012). Learning


from Data, 215.
He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions
on Knowledge and Data Engineering, 21(9), 1263–1284.
Andreas C. Mueller, S. G. (2016). Introduction to Machine Learning with Python:
A Guide for Data Scientists. O’Reilly Media.

INF648 Evaluación del Aprendizaje Supervisado 2017 25 / 25

También podría gustarte