Está en la página 1de 26

METODOS DE

VALIDACION
¿Como se verifica que el modelo haya aprendido?

¿Los resultados que un modelo dado son válidos?

¿Que tan confiable el aprendizaje que obtuvo un modelo?

¿Como se comparan dos o mas modelos?


Al trabajar con algoritmos de IA, necesitamos de métodos para validar que los
resultados que esta generando sean validos, para dar cierta confiabilidad o
credibilidad al algoritmo.
Si se prueba con con los mismos datos de aprendizaje las tasas tendrán a mentir.
por lo que se hace necesario otro conjunto de datos no vistos. Por lo anterior se
definen los siguientes conjuntos

Conjunto de aprendizaje: Conjunto de muestras utilizado para entrenar el


algoritmo

Conjunto de prueba: Conjunto de muestras usado para probar el algoritmo, de las


cuales se conoce la salida que debe dar, pero no se le enseña al algoritmo
Entrenamiento y prueba
También se conoce como one shot train and test(entrenamiento y prueba de una
sola pasada). La idea es utilizar dos conjuntos:

Entrenamiento. Muestras utilizadas para el aprendizaje

Prueba. Muestras no vistas por el algoritmo pero cuya clase si sabemos

El propósito es obtener el porcentaje de error existente en la recuperación del


conjunto de prueba
Entrenamiento y prueba
Una forma de realizar esta prueba dado un conjunto de muestras es:

Conjunto de entrenamiento: Seleccionar un porcentaje de las muestras para el


entrenamiento(generalmente 70%)

Conjunto de prueba: Usar el porcentaje restante de las muestras para la prueba

Existe una ligera pérdida de eficiencia debido a que no se usa el total de las
muestras, pero si el conjunto de muestras es lo suficientemente grande no hay
problema.
Entrenamiento y prueba
Train y test
M1

M2

M3
Conjunto de
aprendizaje M4

M5

M6

M7

M8
Conjunto de
M9
Recuperación
M10
Notas adicionales:

La importancia de cada acierto/ fallo depende de la cantidad de muestras en el conjunto de prueba:

No. Muestras en el conjunto prueba Porcentaje que aporta cada muestra al


porcentaje de error y acierto

5 20%

10 10%

100 1%

200 .5%

1000 .1%
Entrenamiento y prueba - Ejemplo
Suponga la base de datos de iris plant:

150 Muestras,

Usar train and test con 70% de entrenamiento y 30% entrenamiento

1. Num. de Muestras en el conjunto de aprendizaje: 105


a. Num. de Muestras de setosa:35
b. Num Muestras de versicolor: 35
c. Num Muestras de virginica: 35
2. Muestras en el conjunto de prueba: 45
a. Num de Muestras de setosa: 15
b. Num de muestras de versicolor:15
c. Num de muestras de virginica: 15
Suponga que después del entrenamiento se tiene el siguiente resultado:
Clase Resultado
Eficiencia setosa= 93.33
Setosa 14 Clasificados como Setosa
Error setosa= 6.66
1 Clasificado como versicolor
0 Clasificados como Virginica
Eficiencia Versicolor= 73.33
Versicolor 1 Clasificados como Setosa
11 Clasificados como Versicolor Error versicolor= 26.66
3 Clasificados como Virginica

Virginica 0 Clasificados como Setosa Eficiencia Virginica= 86.66


2 Clasificados como versicolor
13 Clasificados como Virginica Error Virginica= 13.33

Errores: 7 de 45 Porc. error: 15% Porc. eficiencia: 85%


K Fold Cross Validation
Consiste en dividir el conjunto de N muestras en K grupos, por lo que cada grupo
tendra N / K muestras. Se hace un proceso iterativo en el que se deja un grupo
para probar y el resto para entrenar. Por ejemplo suponga k=5
Experimento 1:
El grupo G1 se usara para probar, es decir las muestras M1 y M2
Los grupos restantes (G2, G3, G4 Y G5) se usan para entrenar, es decir de
las muestras M3 a M10.
Experimento 2:
El grupo G2 se usara para probar, es decir las muestras M3 y M4
Los grupos restantes (G1, G3, G4 Y G5) se usan para entrenar, es decir las
muestras M1, M2 y de las muestras M5 a M10.
Experimento 3:

El grupo G3 se usara para probar, es decir las muestras M5 y M6

Los grupos restantes (G1, G2, G4 Y G5) se usan para entrenar.

Experimento 4:

El grupo G4 se usara para probar, es decir las muestras M7 y M8

Los grupos restantes (G1, G2, G3 Y G5) se usan para entrenar.


Experimento 5:

El grupo G5 se usara para probar, es decir las muestras M9 y M10

Los grupos restantes (G1, G2, G3 Y G4) se usan para entrenar.


Suponga la base de datos de iris plant

No. muestras = 150

Probar usando k fold cross validation con K= 5

muestras en cada grupo= 150/5 = 30, 10 de cada clase


Experimento 1 Grupo Resultado

Muestras Prueba: 30 Setosa 10 Clasificados como Setosa


0 Clasificado como versicolor
Errores: 7 0 Clasificados como Virginica

Porc. error: 23.33%


Versicolor 2 Clasificados como Setosa
Porc. eficiencia: 5 Clasificados como Versicolor
3 Clasificados como Virginica
76.66%

Virginica 0 Clasificados como Setosa


2 Clasificados como versicolor
8 Clasificados como Virginica
Experimento 2 Grupo Resultado

Muestras Prueba: 30 Setosa 9 Clasificados como Setosa


1 Clasificado como versicolor
Errores: 4 0 Clasificados como Virginica

Porc. error: 13.33%


Versicolor 0 Clasificados como Setosa
Porc. eficiencia: 9 Clasificados como Versicolor
1 Clasificados como Virginica
86.66%

Virginica 0 Clasificados como Setosa


2 Clasificados como versicolor
8 Clasificados como Virginica
Experimento 3 Grupo Resultado

Muestras Prueba: 30 Setosa 10 Clasificados como Setosa


0 Clasificado como versicolor
Errores: 2 0 Clasificados como Virginica

Porc. error: 6.66%


Versicolor 0 Clasificados como Setosa
Porc. eficiencia: 8 Clasificados como Versicolor
2 Clasificados como Virginica
93.33%

Virginica 0 Clasificados como Setosa


0 Clasificados como versicolor
10 Clasificados como Virginica
Experimento 4 Grupo Resultado

Muestras Prueba: 30 Setosa 10 Clasificados como Setosa


0 Clasificado como versicolor
Errores: 0 0 Clasificados como Virginica

Porc. error: 0 %
Versicolor 0 Clasificados como Setosa
Porc. eficiencia: 100% 10 Clasificados como Versicolor
0 Clasificados como Virginica

Virginica 0 Clasificados como Setosa


0 Clasificados como versicolor
10 Clasificados como Virginica
Experimento 5 Grupo Resultado

Muestras Prueba: 30 Setosa 10 Clasificados como Setosa


0 Clasificado como versicolor
Errores: 1 0 Clasificados como Virginica

Porc. error: 3.33 %


Versicolor 0 Clasificados como Setosa
Porc. eficiencia: 9 Clasificados como Versicolor
1 Clasificados como Virginica
96.66%

Virginica 0 Clasificados como Setosa


0 Clasificados como versicolor
10 Clasificados como Virginica
Experimiento % Eficiencia % Error

1 76.66 23.33

2 86.66 13.33

3 93,33 6.66

4 100 0

5 96.66 3.33

Promedio Eficiencia= 90.66 Promedio error= 9.33


Desv. est= 9.25 Desv. est error = 9.24
BOOTSTRAP
la idea de bootstrap es la de replicar todo el experimento de clasificación un gran
número de veces y estimar el error en pequeños conjunto de datos (digamos de
tamaño n), un número B de conjuntos de datos es creado, cada conjunto es una
réplica (aleatoriamente escogida) del conjunto original

❖ Validación cruzada:
➢ El error estimado es disperso
➢ Intervalo de confianza demasiado grande
❖ Bootstrap
➢ Genera limites de confianza mas cercana
➢ Taza de error optimista, esto es, reducida
➢ Preferible cuando el conjunto de datos sea pequeño
Un conjunto aleatorio de tamaño n se toma del conjunto original con reemplazo
para formar los subconjuntos de aprendizaje y prueba. Seleccionar con reemplazo
significa que, por ejemplo, que algunas muestras serán omitidas. También
algunos de las muestras aparecerán mas de una vez en los conjuntos

Esto nos da un estimado de error para cada conjunto. El promedio de error entre
todas estas es usado para indicar el error del clasificador.
Se definen N experimentos y para cada experimento los subconjuntos de
aprendizaje y recuperación
REFERENCIAS

Machine Learning, Neural and Statistical clasification Michie, capitulo 7

También podría gustarte