Evaluacion Del Aprendizaje

Evaluación del Aprendizaje Supervisado
César Olivares
Pontificia Universidad Católica del Perú

Maestrı́a en Informática
INF648 - Aprendizaje Automático: Teorı́a y Aplicaciones
2017
INF648 Evaluación del Aprendizaje Supervisado 2017 1 / 25

Motivación
¿Qué modelo es mejor que otro?

¿Qué estoy tratando de optimizar?
¿Son estos los mejores parámetros?
¿Cómo puedo estimar el error fuera de este conjunto de datos?
¿Cómo puedo saber si tenemos un problema de overfitting?

El problema del aprendizaje
Figura 1: Configuración básica del problema del aprendizaje (Abu-Mostafa 2012)

¿Es posible el aprendizaje?
Desde un punto de vista determinista, un conjunto de datos no nos dice nada sobre
los datos fuera de la muestra.
Desde un punto de vista probabilista, es posible aprender cuando las instancias del
conjunto de datos han sido generadas de manera independiente.

El problema del aprendizaje / Modelo probabilista
Figura 2: Configuración básica del problema del aprendizaje, añadiendo probabilidad

(Abu-Mostafa 2012)

El problema del aprendizaje / Configuración general
Figura 3: Configuración general del problema del aprendizaje supervisado (Abu-Mostafa 2012)
Fuentes del error en los datos fuera de la muestra
El error de predicción puede descomponerse en las siguientes fuentes: bias (sesgo),

varianza y ruido.
Si imaginamos que tenemos acceso a un número ilimitado de conjuntos de
entrenamiento (muestras representativas) del nuestro universo de datos y que
entrenamos nuestro modelo con cada uno de ellos, entonces:
Error de Bias. Es la diferencia entre la predicción promedio de los modelos y el
valor real de los datos.
Error de Varianza. Es el error debido a la variabilidad con respecto a la predicción
promedio.
Error Irreducible. Es el ruido presente en la generación de las muestras, que no
puede ser eliminado por ningún modelo.
Err (x) = (E[fˆ(x)] − f (x))2 + E[(fˆ(x) − E[fˆ(x)])2 ] + σe2
Err (x) = Bias2 + Varianza + Error Irreducible

Bias y varianza
Figura 4: Metáfora gráfica del bias y la varianza. Fuente: scott.fortmann-roe.com

Bias y varianza
Figura 5: Ejemplo con f (x) = sin(πx). Se ajusta dos modelos con conjuntos de datos de 2
muestras. H0 representa a los modelos h(x) = b. H1 representa a los modelos h(x) = ax + b.
(Abu-Mostafa 2012)

Bias y varianza

Error esperado según cantidad de datos
Figura 6: Curvas de aprendizaje para un modelo simple y para un modelo complejo, basadas en
experimentos. (Abu-Mostafa 2012)

Error esperado según complejidad del modelo
Figura 7: Modelos con diversa complejidad (Raschka 2015)
Figura 8: Contribución de bias y varianza al error total. Fuente: scott.fortmann-roe.com

Regularización y validación
Las principales técnicas para aproximarnos a un modelo de complejidad óptima son:

La Regularización, que nos permite controlar el grado de complejidad del modelo.
La Validación, que nos permite estimar, a partir de los datos conocidos, el error
que se espera tener con nuevos datos desconocidos.

El conjunto de validación
Es un subconjunto de los datos que se reserva para estimar el error fuera de la

muestra.
No se usa para el ajuste de los modelos.
Se usa para escoger entre distintos modelos y para seleccionar los parámetros
de aprendizaje de los modelos.
Por haber sido usado para ajustar parámetros del aprendizaje, no es ya un estimado
independiente de la bondad de un modelo.
Figura 9: División tripartita de los datos en un conjunto de entrenamiento, validación y pruebas

(Mueller 2016)

Validación cruzada
La validación cruzada (Cross-Validation es una técnica que permite usar todos los
datos de entrenamiento tanto para el entrenamiento como para la validación (pero
no al mismo tiempo).
Es muy útil y recomendable cuando se tiene un número reducido de datos.
Se particiona el conjunto de entrenamiento en K partes (K-Fold Cross-Validation).
Se entrena el modelo para cada una de las K particiones, y se calcula el promedio
del error evaluado en los respectivos conjuntos de validación.
Figura 10: División de los datos en validación cruzada con K = 5 (Mueller 2016)

Validación cruzada / Eligiendo el valor K
Formalmente, la mejor aproximación al error fuera de la muestra se obtiene cuando

el número de particiones K toma el valor m (número de muestras en el conjunto de
datos), es decir, cuando se usa conjuntos de validación de tamaño 1
(Leave-One-Out Cross-Validation).
Usar K = m es computacionalmente costoso, pues requiere entrenar m modelos.
Tı́picamente se elige valores de K = 5 o 10 (5-fold CV, o 10-fold CV).

Validación cruzada / Muestreo
Como en todo muestreo, en la división del conjunto de datos se debe procurar que
cada una de las particiones sea una muestra representativa.
El Muestro aleatorio (Random Sampling) es suficiente cuando se tiene muchos
datos y las diversas clases están igualmente representadas.
Cuando se tiene pocos datos o un conjunto de datos desbalanceado, se debe usar
Muestreo estratificado (Stratified Sampling) para conservar en lo posible la
representatividad de las muestras.
Figura 11: Comparación de la validación cruzada estándar y la validación cruzada estratificada

cuando los datos están ordenados por clase (Mueller 2016)

Búsqueda en grilla (Grid search) con validación cruzada
Figura 12: Resultados de búsqueda en grilla con validación cruzada (Mueller 2016)

Búsqueda en grilla (Grid search) con validación cruzada
Figura 13: Proceso de selección de parámetros y evaluación de modelo usando búsqueda en grilla
con validación cruzada (Mueller 2016)

Evaluación del rendimiento de clasificadores
La exactitud (accuracy) no es siempre la medida de evaluación más apropiada para

estimar el rendimiento de un modelo y ajustar sus parámetros.
La exactitud es una mala medida sobre todo cuando se tiene un conjunto
desbalanceado de datos o cuando los diversos tipos de errores tienen diferentes
costos.
Ejemplos:
Diagnóstico de cáncer.
Publicidad click-through
Clasificación de spam.
La elección de la mejor medida depende del objetivo y aplicación del modelo.
Se busca el impacto más positivo posible en la medida de negocio o meta a alto
nivel de la aplicación.

Matrix de confusión
La matriz de confusión o tabla de contingencia es un sumario del rendimiento de

un clasificador.
A partir de la matriz confusión se puede calcular diversas medidas de error.
Fuente: nature.com

Matrix de confusión para más de 2 clases
Fuente: cloudacademy.com

Curva ROC
La curva ROC (Receiving Operationg Characteristics Curve) analiza el
comportamiento de un clasificador en diversos umbrales.
Evalúa qué tan bien el clasificador asigna de manera ordenada el puntaje (ranking)
al conjunto de datos.
El eje vertical es la tasa de verdaderos positivos (TPR) o exhaustividad (recall). El
eje horizontal es la tasa de falsos positivos (FPR). Cada punto corresponde a un
posible umbral (threshold) o punto de operación.
La curva ideal pasa por el punto (0, 1).
El peor resultado posible es la diagonal TPR = FPR (random guessing).
Usualmente se resume en un sólo valor: el área bajo la curva (AUC).
Figura 14: Comparación de la curva ROC de dos clasificadores (Mueller 2016)

Curva de Precisión y Exhaustividad
La Precisión indica la fracción de predicciones positivas que son correctas.
La Exhaustividad indica la fracción de datos positivos que son correctamente
identificados por el modelo.
La Curva de Precisión y Exhaustividad nos permite visualizar la relación entre
ambas y encontrar un punto de operación óptimo para nuestros requerimientos.
La curva ideal pasa por el punto (1, 1).
El peor resultado posible es la diagonal TPR = FPR (random guessing).
Usualmente se resume en el valor del área bajo la curva, que recibe al nombre de
precisión media (average precision).
Figura 15: Comparación de la curva de precisión y exhaustividad de dos clasificadores (Mueller

2016)

Bibliografı́a
Yaser S. Abu-Mostafa; Malik Magdon-Ismail; Hsuan-Tien Lin. (2012). Learning

from Data, 215.
He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions
on Knowledge and Data Engineering, 21(9), 1263–1284.
Andreas C. Mueller, S. G. (2016). Introduction to Machine Learning with Python:
A Guide for Data Scientists. O’Reilly Media.

Evaluacion Del Aprendizaje

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Evaluacion Del Aprendizaje

Cargado por

Copyright:

Formatos disponibles

Evaluación del Aprendizaje Supervisado

Pontificia Universidad Católica del Perú

INF648 Evaluación del Aprendizaje Supervisado 2017 1 / 25

¿Qué modelo es mejor que otro?

INF648 Evaluación del Aprendizaje Supervisado 2017 2 / 25

Figura 1: Configuración básica del problema del aprendizaje (Abu-Mostafa 2012)

INF648 Evaluación del Aprendizaje Supervisado 2017 3 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 4 / 25

Figura 2: Configuración básica del problema del aprendizaje, añadiendo probabilidad

INF648 Evaluación del Aprendizaje Supervisado 2017 5 / 25

El error de predicción puede descomponerse en las siguientes fuentes: bias (sesgo),

Err (x) = (E[fˆ(x)] − f (x))2 + E[(fˆ(x) − E[fˆ(x)])2 ] + σe2

Err (x) = Bias2 + Varianza + Error Irreducible

INF648 Evaluación del Aprendizaje Supervisado 2017 7 / 25

Figura 4: Metáfora gráfica del bias y la varianza. Fuente: scott.fortmann-roe.com

INF648 Evaluación del Aprendizaje Supervisado 2017 8 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 9 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 10 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 11 / 25

Figura 7: Modelos con diversa complejidad (Raschka 2015)

Figura 8: Contribución de bias y varianza al error total. Fuente: scott.fortmann-roe.com

INF648 Evaluación del Aprendizaje Supervisado 2017 12 / 25

Las principales técnicas para aproximarnos a un modelo de complejidad óptima son:

INF648 Evaluación del Aprendizaje Supervisado 2017 13 / 25

Es un subconjunto de los datos que se reserva para estimar el error fuera de la

Figura 9: División tripartita de los datos en un conjunto de entrenamiento, validación y pruebas

INF648 Evaluación del Aprendizaje Supervisado 2017 14 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 15 / 25

Formalmente, la mejor aproximación al error fuera de la muestra se obtiene cuando

INF648 Evaluación del Aprendizaje Supervisado 2017 16 / 25

Figura 11: Comparación de la validación cruzada estándar y la validación cruzada estratificada

INF648 Evaluación del Aprendizaje Supervisado 2017 17 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 18 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 19 / 25

La exactitud (accuracy) no es siempre la medida de evaluación más apropiada para

INF648 Evaluación del Aprendizaje Supervisado 2017 20 / 25

La matriz de confusión o tabla de contingencia es un sumario del rendimiento de

INF648 Evaluación del Aprendizaje Supervisado 2017 21 / 25

INF648 Evaluación del Aprendizaje Supervisado 2017 22 / 25

Figura 14: Comparación de la curva ROC de dos clasificadores (Mueller 2016)

INF648 Evaluación del Aprendizaje Supervisado 2017 23 / 25

Figura 15: Comparación de la curva de precisión y exhaustividad de dos clasificadores (Mueller

INF648 Evaluación del Aprendizaje Supervisado 2017 24 / 25

Yaser S. Abu-Mostafa; Malik Magdon-Ismail; Hsuan-Tien Lin. (2012). Learning

INF648 Evaluación del Aprendizaje Supervisado 2017 25 / 25

También podría gustarte