Documentos de Académico
Documentos de Profesional
Documentos de Cultura
César Olivares
2017
Desde un punto de vista determinista, un conjunto de datos no nos dice nada sobre
los datos fuera de la muestra.
Desde un punto de vista probabilista, es posible aprender cuando las instancias del
conjunto de datos han sido generadas de manera independiente.
Figura 3: Configuración general del problema del aprendizaje supervisado (Abu-Mostafa 2012)
INF648 Evaluación del Aprendizaje Supervisado 2017 6 / 25
Fuentes del error en los datos fuera de la muestra
Figura 5: Ejemplo con f (x) = sin(πx). Se ajusta dos modelos con conjuntos de datos de 2
muestras. H0 representa a los modelos h(x) = b. H1 representa a los modelos h(x) = ax + b.
(Abu-Mostafa 2012)
Figura 6: Curvas de aprendizaje para un modelo simple y para un modelo complejo, basadas en
experimentos. (Abu-Mostafa 2012)
La validación cruzada (Cross-Validation es una técnica que permite usar todos los
datos de entrenamiento tanto para el entrenamiento como para la validación (pero
no al mismo tiempo).
Es muy útil y recomendable cuando se tiene un número reducido de datos.
Se particiona el conjunto de entrenamiento en K partes (K-Fold Cross-Validation).
Se entrena el modelo para cada una de las K particiones, y se calcula el promedio
del error evaluado en los respectivos conjuntos de validación.
Figura 10: División de los datos en validación cruzada con K = 5 (Mueller 2016)
Como en todo muestreo, en la división del conjunto de datos se debe procurar que
cada una de las particiones sea una muestra representativa.
El Muestro aleatorio (Random Sampling) es suficiente cuando se tiene muchos
datos y las diversas clases están igualmente representadas.
Cuando se tiene pocos datos o un conjunto de datos desbalanceado, se debe usar
Muestreo estratificado (Stratified Sampling) para conservar en lo posible la
representatividad de las muestras.
Figura 12: Resultados de búsqueda en grilla con validación cruzada (Mueller 2016)
Figura 13: Proceso de selección de parámetros y evaluación de modelo usando búsqueda en grilla
con validación cruzada (Mueller 2016)
Fuente: nature.com
Fuente: cloudacademy.com