Está en la página 1de 26

Modelamiento y Simulación de Sistemas

Clase 4: Medidas de Error y Selección del Modelo: Validación.

Prof. Julián D. Arias Londoño


jdarias@udea.edu.co

Dept. Ingenierı́a de Sistemas


Universidad de Antioquia, Medellı́n,
Colombia.

7 de marzo de 2017
Modelando conjuntos de datos estáticos
“All models are wrong, but some models are useful ”
George Box

2 of 1
Modelando conjuntos de datos estáticos
“All models are wrong, but some models are useful ”
George Box

Como se ha visto hasta ahora casi todos los modelos usados para el
aprendizaje cuentan con uno o varios parámetros que es necesario ajus-
tar al conjunto de datos de entrenamiento con el que contemos.
 Regresión: orden del polinomio
 Regresión logı́stica: orden del polinomio
 K-vecinos más cercanos : Número de vecinos K
 Venata de Parzen: Tamaño de ventana h

2 of 1
Selección del mejor valor del parámetro del modelo
Para seleccionar el mejor parámetro para nuestro modelo debemos pre-
guntarnos ¿cuál es el objetivo que queremos alcanzar?

Hay dos opciones que debemos considerar:


 Que el conjunto de muestras con las que contamos para entrenar el
sistema queden representadas lo mejor posible por el modelo.
 Que el modelo permita hacer predicciones sobre nuevas muestras
con un grado de confiabilidad alto.
La primera opción está más relacionada al trabajo en estadı́stica mien-
tras que la segunda opción es el interés del aprendizaje de máquina,
que la máquina pueda tomar decisiones correctas sobre muestras que
no conoce, eso implica “aprendizaje”, lo primero implica memoria.

3 of 1
Medidas de error: Regresión
Para poder determinar cuál es el mejor modelo para nuestro problema
es necesario contar con una medida que nos indique qué tan bueno es
un modelo. Necesariamente entonces debemos hablar de medidas de
error o de pérdida.
 Regresión: La medida estándar para problemas de regresión es el
error cuadrático medio, el mismo que se usó como criterio en el
problema de regresión lineal.

1 X
N
E= (f (xi ) − yi )2
N
i =1

donde N es el número de muestras. También se pueden usar otras


medidas para evaluar la bondad del modelo como el
coeficiente de determinación (Consultar).
4 of 1
Medidas de error: Clasificación
 Clasificación: En el problema de clasificación el error se da si la el
sistema predice una clase cuando la clase real de la muestra es
otra. En este caso a diferencia del problema de regresión no existe
un “grado” de error, el error existe o no existe.

1 X
N
E = Jf (xi ) 6= yi K
N
i =1

donde J·K es una función indicador que es igual a 1 cuando la


condición se cumple y 0 de lo contrario.

5 of 1
Medidas de error: Clasificación
En problemas de clasificación existen diferentes tipos de error. Consi-
deremos un problema de clasificación biclase.

Cuadro: Medidas de desempeño y de error

Etiquetas Reales
1 0
Pred

1 TP FP
0 FN TN

 TP: True Positive  FN: False Negative


 FP: False Positive  TN: True Negative

6 of 1
Medidas de error: Clasificación
Con las medidas anteriores se pueden definir las siguientes medidas:
TP
 Sensibilidad: TP+FN (Recall).
TN
 Especificidad: TN+FP
TP+TN
 Eficiencia: TP+TN+FP+FN . Error = 1 - Eficiencia.
TP
 Precisión: TP+FP
Es importante tener en cuenta que la medida de eficiencia tal como fue
definida, da igual peso a las dos clases; sin embargo si la la base de
datos no está balanceada, es decir no tienen igual número de muestras
en las dos clases, dicha medida puede sesgarse a la clase que más
muestras tiene. Por esa razón es importante tener en cuenta tanto la
especificidad como la sensibilidad en el análisis del desempeño de los
sistemas (Consultar média geométrica).

7 of 1
Medidas de error: Clasificación
Cuando el número de clases es mayor a 2, podemos también construir
una tabla similar a la anterior.
Cuadro: Matriz de confusión
Etiquetas Reales
1 2 3 ··· C
1
Predicción

2
3
..
.
C

La eficiencia corresponde a la suma de la diagonal divido entre el total


de muestras. Todos los valores por fuera de la diagonal corresponden
a 8algún
of 1 tipo de error.
Generalización
En este momento contamos con un conjunto de herramientas para
medir el desempeño del sistema que estamos diseñando. Sin embar-
go existe un aspecto que todavı́a no hemos tenido en cuenta. Si el
objetivo de los sistemas construidos a partir de técnicas de aprendiza-
je de máquina es hacer predicciones confiables sobre muestras que no
conocemos, ¿cómo podemos medir ese comportamiento?

Si únicamente utilizamos las muestras con las cuales entrenamos el


sistema para medir el error, lo único que verificaremos es si el sistema
“memorizó” la respuesta para el conjunto de entrenamiento, pero no
podemos pensar que se comportará igual en muestras que el sistema
no conoce. La capacidad del sistema de predecir correctamente nuevas
muestras se conoce como Capacidad de Generalización.

9 of 1
Validación
Para poder hacer una buena selección de los parámetros de cualquier
modelo es necesario entonces utilizar una metodologı́a de validación
que nos permita tener alguna estimación sobre el comportamiento del
sistema ante nuevas muestras y con base en ello determinar el mejor
parámetro. Es decir, el mejor parámetro no es el que mejor se comporta
con las muestras de entrenamiento sino el que mejor se comporta con
las muestras desconocidas. Como en realidad nosotros sólo contamos

con un conjunto de N muestras de entrenamiento, las metodologı́as


de validación son estrategias para partir el conjunto de muestras, de
tal manera que usamos una parte para entrenar el sistema y otra para
validar el sistema. Estas estrategias nos permiten obtener resultados
estadı́sticamente válidos sobre el desempeño de nuestro sistema.

10 of 1
Validación Cruzada
Una de las metodologı́as más utilizadas en el entrenamiento de sistemas
se conoce como validación cruzada (en inglés crossvalidation). La
validación cruzada consiste en dividir de manera aleatoria el conjunto
de muestras en K subconjuntos disyuntos llamados folds, y usar K - 1
subconjuntos para entrenar el sistema y el subconjunto restante para
validar. Teniendo en cuenta que existe una incertidumbre sobre las

muestras nuevas que llegarán al sistema, el proceso anterior se repite


para los diferentes K, subconjuntos y el error se cuantifica como el
promedio del error obtenido en las K repeticiones.

11 of 1
Validación Cruzada

Figura: Imagen tomada de http://es.wikipedia.org

12 of 1
Validación Cruzada - Leave-one-out
Cuando el conjunto de muestras con las que se cuenta no es muy
grande, es necesario proporcionarle al sistema tantas muestras para
el entrenamiento como sea posible. El caso más extremo consiste en
construir tantos subconjuntos como muestras se tienen, es decir que
durante el entrenamiento se usan N -1 muestras y la muestra restante
se usa para la validación. Por lo tanto el procedimiento se repite N
veces.

Figura: Imagen tomada de http://es.wikipedia.org


13 of 1
Validación Booststrapping
El Booststrapping es una forma diferente de muestrear la base de datos.
En este caso el primer paso consiste en definir un porcentaje de mues-
tras que se desean usar para el entrenamiento del sistema, tı́picamente
se usan al rededor de un 70 % de las muestras para el entrenamiento
el 30 % restante para la validación. En la medida en que el número de
muestras se grande, dichos porcentajes se pueden llevar a una relación
50-50.

El procedimiento de validación consiste entonces en partir la muestra


de manera aleatoria en los porcentajes indicados, entrenar y validar el
sistema y volver a repetir el procedimiento seleccionando nuevamente
de manera aleatoria conjuntos diferentes. El procedimiento se repite
varias veces para poder tener buenas estimaciones del error promedio.

14 of 1
Desbalanceo
Es importante tener en cuenta que como las metodologı́as descritas
seleccionan los subconjuntos de manera aleatoria, si la base de datos
con que contamos está muy desbalanceada, es decir, tiene muchas
muestras de una clase y pocas de otra, debemos ejercer algún control
sobre los subconjuntos de muestras generados para el entrenamiento
y la validación, porque podrı́a darse el caso en que en el subconjunto
de muestras de entrenamiento sólo queden muestras de una clase y
ninguna o muy pocas de la otra clase.

Una forma de compensar este hecho es asegurarse que los porcentajes


o las particiones de las muestras se hagan de manera individual por
cada clase y luego se unan, ası́ garantizamos que en el entrenamiento
tendremos, en proporción, igual número de muestras de todas las clases.

15 of 1
Otras estrategias contra el desbalance
Sobremuestreo (Oversampling). Es el método más simple, consiste
en replicar de manera aleatoria, muestras de la clase minoritaria. El
problema con este método es que las “nuevas” muestras son en realidad
copias de las ya existentes, por consiguiente no se le proporciona al
sistema nueva información y el sistema tiende a padecer de un problema
llamado sobreajuste.

Técnica sintética de sobremuestreo minoritario (Synthetic Minority


Over-sampling Technique -SMOTE). Esa técnica crea muestras sı́nte-
ticas de la clase minoritaria tomando una muestra de manera aleatoria
junto con uno/todos sus k vecinos más cercanos y creando muestras
adicionales que estén a lo largo de una lı́nea que une ambos puntos.

16 of 1
Otras estrategias contra el desbanace
Submuestreo (Undersampling). Es un método eficiente para enfrentar
el problema del imbalance, consiste en descartar muestras, de manera
aleatoria, de la clase mayoritaria. Sin embargo el problema con
este método es que puede, potencialmente, descartar información
importante para el entrenamiento del sistema.

Una forma alternativa es intentar submuestrear de manera inteligente,


eliminando muestra que se considerar redundantes y/o ruidosas.

Cuando el problema de desbalance es muy crı́tico, se puede optar por


usar submuestreo y sobremuestreo al mismo tiempo. Sin embargo, exis-
ten de todas maneras varios inconvenientes con el uso de métodos de
muestreo.

17 of 1
Aprendizaje con balance de costo

En un problema de clasifi-
cación la función que no-
sotros desearı́amos tener es
la densidad de probabili-
dad de encontrar una mues-
tra de la categorı́a ωj y
tener un conjunto de ca-
racterı́sticas dadas por x.
p(ωj , x) = p(ωj |x)p(x) =
p(x|ωj )p(ωj ). Despejando:

p(x|ωj )p(ωj )
p(ωj |x) =
p(x)
18 of 1
Aprendizaje con balance de costo

En un problema de clasifi-
cación la función que no-
sotros desearı́amos tener es
la densidad de probabili-
dad de encontrar una mues-
tra de la categorı́a ωj y
tener un conjunto de ca-
racterı́sticas dadas por x.
p(ωj , x) = p(ωj |x)p(x) =
p(x|ωj )p(ωj ). Despejando:

p(x|ωj )p(ωj ) Figura: Imagen tomada de [5]


p(ωj |x) =
p(x)
18 of 1
Aprendizaje con balance de costo
Teniendo en cuenta que p(x) es constante para cualquiera de las dos
clases, con el objetivo de tener el mı́nimo error, la decisión sobre cuál
clase deberı́a asignársele a una nueva muestra debe tomarse con base
en la siguiente regla:

Decida ω1 si p(x|ω1 )p(ω1 ) > p(x|ω2 )p(ω2 ), de lo contrario decida


ω2 . Sin embargo, en muchos casos se asume que p(ω1 ) = p(ω2 ), lo
que para el caso de bases de datos no balanceadas no puede asegurarse.

Los procedimientos de submuestreo y sobremuestreo buscan precisa-


mente que dicha igualdad pueda cumplirse. Otra alternativa equivalen-
te es incluir en la criterio de aprendizaje un peso de tal manera que el
error producido por una clase no se considere igual al de la otra. (El
error es mayor si la muestra pertenece a la clase minoritaria).
19 of 1
Aprendizaje con balance de costo - perdida
Sin embargo es necesario también considerar que no todos los errores
pueden considerarse de la misma manera. Dependiendo de la aplicación
un falso positivo puede ser muy costoso (Ej: Seguridad), mientras que
en otras un falso negativo puede ser peor (Ej: Detección de cáncer).
Si asumimos que λij es el riesgo asociado a decidor la clase i dado que
la clase real es la j, la decisión correcta deberı́a tomarse a partir de la
siguiente regla:

Decida ω1 si λ21 p(x|ω1 )p(ω1 ) > λ12 p(x|ω2 )p(ω2 ), de lo contrario de-
cida ω2 , o de manera alternativa es decidir ω1 si
p(x|ω1 ) λ12 p(ω2 )
>
p(x|ω2 ) λ21 p(ω1 )

20 of 1
Aprendizaje con balance de costo - umbrales
Definir el valor de λij puede ser muy complejo. Una forma alternativa de
abordar el problema es definir un umbral de decisión Λ, de tal manera
que se decida ω1 si
p(x|ω1 )

p(x|ω2 )
Λ puede ser escogido de tal manera que se garantice igual error en
ambas clases (Equal Error Rate Threshold.) o que se obtenga mı́nimo
error de clasificiación (Minimum Cost Point.)

21 of 1
Aprendizaje con balance de costo - umbrales
Definir el valor de λij puede ser muy complejo. Una forma alternativa de
abordar el problema es definir un umbral de decisión Λ, de tal manera
que se decida ω1 si
p(x|ω1 )

p(x|ω2 )
Λ puede ser escogido de tal manera que se garantice igual error en
ambas clases (Equal Error Rate Threshold.) o que se obtenga mı́nimo
error de clasificiación (Minimum Cost Point.)

Una forma alternativa es usar un criterio de aprendizaje basado en una


figura de mérito...

21 of 1
Curva ROC

22 of 1
Referencias

[1 ] Minsky M.L., “Matter, minds and models”, Proceedings of the International


Federation for Information Processing Congress, Spartan Books, Washington
D.C., pp 45-49, 1965.
[2 ] Banks J., Carlson J.S., Nelson B.L. and Nicol D.M., “Discrete event system
simulation”. Prentice Hall, 3rd edition, 2001.
[3 ] Velten K., Mathematical Modeling and Simulation, WILEY-VCH, 2009.
[4 ] Murphy K.P., Machine Learning: A Probabilistic Perspective. The MIT Press,
2012.
[5 ] Duda R.O., Hart P.E., Stork D.G., Pattern Classification. 2ed,
WILEY-INTERSCIENCE, 2001.
[6 ] Bishop, C.M. Pattern Recognition and Machine Learning. Springer, 2006.

23 of 1

También podría gustarte