Clase Medidas de Error

Modelamiento y Simulación de Sistemas
Clase 4: Medidas de Error y Selección del Modelo: Validación.
Prof. Julián D. Arias Londoño

jdarias@udea.edu.co
Dept. Ingenierı́a de Sistemas

Universidad de Antioquia, Medellı́n,
Colombia.
7 de marzo de 2017
Modelando conjuntos de datos estáticos
“All models are wrong, but some models are useful ”
George Box
2 of 1
Modelando conjuntos de datos estáticos
“All models are wrong, but some models are useful ”
George Box
Como se ha visto hasta ahora casi todos los modelos usados para el
aprendizaje cuentan con uno o varios parámetros que es necesario ajus-
tar al conjunto de datos de entrenamiento con el que contemos.
Regresión: orden del polinomio
Regresión logı́stica: orden del polinomio
K-vecinos más cercanos : Número de vecinos K
Venata de Parzen: Tamaño de ventana h
2 of 1
Selección del mejor valor del parámetro del modelo
Para seleccionar el mejor parámetro para nuestro modelo debemos pre-
guntarnos ¿cuál es el objetivo que queremos alcanzar?
Hay dos opciones que debemos considerar:

Que el conjunto de muestras con las que contamos para entrenar el
sistema queden representadas lo mejor posible por el modelo.
Que el modelo permita hacer predicciones sobre nuevas muestras
con un grado de confiabilidad alto.
La primera opción está más relacionada al trabajo en estadı́stica mien-
tras que la segunda opción es el interés del aprendizaje de máquina,
que la máquina pueda tomar decisiones correctas sobre muestras que
no conoce, eso implica “aprendizaje”, lo primero implica memoria.
3 of 1
Medidas de error: Regresión
Para poder determinar cuál es el mejor modelo para nuestro problema
es necesario contar con una medida que nos indique qué tan bueno es
un modelo. Necesariamente entonces debemos hablar de medidas de
error o de pérdida.
Regresión: La medida estándar para problemas de regresión es el
error cuadrático medio, el mismo que se usó como criterio en el
problema de regresión lineal.
1 X
N
E= (f (xi ) − yi )2
N
i =1
donde N es el número de muestras. También se pueden usar otras

medidas para evaluar la bondad del modelo como el
coeficiente de determinación (Consultar).
4 of 1
Medidas de error: Clasificación
Clasificación: En el problema de clasificación el error se da si la el
sistema predice una clase cuando la clase real de la muestra es
otra. En este caso a diferencia del problema de regresión no existe
un “grado” de error, el error existe o no existe.
1 X
N
E = Jf (xi ) 6= yi K
N
i =1
donde J·K es una función indicador que es igual a 1 cuando la

condición se cumple y 0 de lo contrario.
5 of 1
En problemas de clasificación existen diferentes tipos de error. Consi-
deremos un problema de clasificación biclase.
Cuadro: Medidas de desempeño y de error
Etiquetas Reales
1 0
Pred
1 TP FP
0 FN TN
TP: True Positive FN: False Negative

FP: False Positive TN: True Negative
6 of 1
Con las medidas anteriores se pueden definir las siguientes medidas:
TP
Sensibilidad: TP+FN (Recall).
TN
Especificidad: TN+FP
TP+TN
Eficiencia: TP+TN+FP+FN . Error = 1 - Eficiencia.
TP
Precisión: TP+FP
Es importante tener en cuenta que la medida de eficiencia tal como fue
definida, da igual peso a las dos clases; sin embargo si la la base de
datos no está balanceada, es decir no tienen igual número de muestras
en las dos clases, dicha medida puede sesgarse a la clase que más
muestras tiene. Por esa razón es importante tener en cuenta tanto la
especificidad como la sensibilidad en el análisis del desempeño de los
sistemas (Consultar média geométrica).
7 of 1
Cuando el número de clases es mayor a 2, podemos también construir
una tabla similar a la anterior.
Cuadro: Matriz de confusión
Etiquetas Reales
1 2 3 ··· C
1
Predicción
2
3
..
.
C
La eficiencia corresponde a la suma de la diagonal divido entre el total

de muestras. Todos los valores por fuera de la diagonal corresponden
a 8algún
of 1 tipo de error.
Generalización
En este momento contamos con un conjunto de herramientas para
medir el desempeño del sistema que estamos diseñando. Sin embar-
go existe un aspecto que todavı́a no hemos tenido en cuenta. Si el
objetivo de los sistemas construidos a partir de técnicas de aprendiza-
je de máquina es hacer predicciones confiables sobre muestras que no
conocemos, ¿cómo podemos medir ese comportamiento?
Si únicamente utilizamos las muestras con las cuales entrenamos el

sistema para medir el error, lo único que verificaremos es si el sistema
“memorizó” la respuesta para el conjunto de entrenamiento, pero no
podemos pensar que se comportará igual en muestras que el sistema
no conoce. La capacidad del sistema de predecir correctamente nuevas
muestras se conoce como Capacidad de Generalización.
9 of 1
Validación
Para poder hacer una buena selección de los parámetros de cualquier
modelo es necesario entonces utilizar una metodologı́a de validación
que nos permita tener alguna estimación sobre el comportamiento del
sistema ante nuevas muestras y con base en ello determinar el mejor
parámetro. Es decir, el mejor parámetro no es el que mejor se comporta
con las muestras de entrenamiento sino el que mejor se comporta con
las muestras desconocidas. Como en realidad nosotros sólo contamos
con un conjunto de N muestras de entrenamiento, las metodologı́as

de validación son estrategias para partir el conjunto de muestras, de
tal manera que usamos una parte para entrenar el sistema y otra para
validar el sistema. Estas estrategias nos permiten obtener resultados
estadı́sticamente válidos sobre el desempeño de nuestro sistema.
10 of 1
Validación Cruzada
Una de las metodologı́as más utilizadas en el entrenamiento de sistemas
se conoce como validación cruzada (en inglés crossvalidation). La
validación cruzada consiste en dividir de manera aleatoria el conjunto
de muestras en K subconjuntos disyuntos llamados folds, y usar K - 1
subconjuntos para entrenar el sistema y el subconjunto restante para
validar. Teniendo en cuenta que existe una incertidumbre sobre las
muestras nuevas que llegarán al sistema, el proceso anterior se repite

para los diferentes K, subconjuntos y el error se cuantifica como el
promedio del error obtenido en las K repeticiones.
11 of 1
Validación Cruzada
Figura: Imagen tomada de http://es.wikipedia.org
12 of 1
Validación Cruzada - Leave-one-out
Cuando el conjunto de muestras con las que se cuenta no es muy
grande, es necesario proporcionarle al sistema tantas muestras para
el entrenamiento como sea posible. El caso más extremo consiste en
construir tantos subconjuntos como muestras se tienen, es decir que
durante el entrenamiento se usan N -1 muestras y la muestra restante
se usa para la validación. Por lo tanto el procedimiento se repite N
veces.
Figura: Imagen tomada de http://es.wikipedia.org

13 of 1
Validación Booststrapping
El Booststrapping es una forma diferente de muestrear la base de datos.
En este caso el primer paso consiste en definir un porcentaje de mues-
tras que se desean usar para el entrenamiento del sistema, tı́picamente
se usan al rededor de un 70 % de las muestras para el entrenamiento
el 30 % restante para la validación. En la medida en que el número de
muestras se grande, dichos porcentajes se pueden llevar a una relación
50-50.
El procedimiento de validación consiste entonces en partir la muestra

de manera aleatoria en los porcentajes indicados, entrenar y validar el
sistema y volver a repetir el procedimiento seleccionando nuevamente
de manera aleatoria conjuntos diferentes. El procedimiento se repite
varias veces para poder tener buenas estimaciones del error promedio.
14 of 1
Desbalanceo
Es importante tener en cuenta que como las metodologı́as descritas
seleccionan los subconjuntos de manera aleatoria, si la base de datos
con que contamos está muy desbalanceada, es decir, tiene muchas
muestras de una clase y pocas de otra, debemos ejercer algún control
sobre los subconjuntos de muestras generados para el entrenamiento
y la validación, porque podrı́a darse el caso en que en el subconjunto
de muestras de entrenamiento sólo queden muestras de una clase y
ninguna o muy pocas de la otra clase.
Una forma de compensar este hecho es asegurarse que los porcentajes

o las particiones de las muestras se hagan de manera individual por
cada clase y luego se unan, ası́ garantizamos que en el entrenamiento
tendremos, en proporción, igual número de muestras de todas las clases.
15 of 1
Otras estrategias contra el desbalance
Sobremuestreo (Oversampling). Es el método más simple, consiste
en replicar de manera aleatoria, muestras de la clase minoritaria. El
problema con este método es que las “nuevas” muestras son en realidad
copias de las ya existentes, por consiguiente no se le proporciona al
sistema nueva información y el sistema tiende a padecer de un problema
llamado sobreajuste.
Técnica sintética de sobremuestreo minoritario (Synthetic Minority

Over-sampling Technique -SMOTE). Esa técnica crea muestras sı́nte-
ticas de la clase minoritaria tomando una muestra de manera aleatoria
junto con uno/todos sus k vecinos más cercanos y creando muestras
adicionales que estén a lo largo de una lı́nea que une ambos puntos.
16 of 1
Otras estrategias contra el desbanace
Submuestreo (Undersampling). Es un método eficiente para enfrentar
el problema del imbalance, consiste en descartar muestras, de manera
aleatoria, de la clase mayoritaria. Sin embargo el problema con
este método es que puede, potencialmente, descartar información
importante para el entrenamiento del sistema.
Una forma alternativa es intentar submuestrear de manera inteligente,

eliminando muestra que se considerar redundantes y/o ruidosas.
Cuando el problema de desbalance es muy crı́tico, se puede optar por

usar submuestreo y sobremuestreo al mismo tiempo. Sin embargo, exis-
ten de todas maneras varios inconvenientes con el uso de métodos de
muestreo.
17 of 1
Aprendizaje con balance de costo
En un problema de clasifi-
cación la función que no-
sotros desearı́amos tener es
la densidad de probabili-
dad de encontrar una mues-
tra de la categorı́a ωj y
tener un conjunto de ca-
racterı́sticas dadas por x.
p(ωj , x) = p(ωj |x)p(x) =
p(x|ωj )p(ωj ). Despejando:
p(x|ωj )p(ωj )
p(ωj |x) =
p(x)
18 of 1
En un problema de clasifi-
cación la función que no-
sotros desearı́amos tener es
la densidad de probabili-
dad de encontrar una mues-
tra de la categorı́a ωj y
tener un conjunto de ca-
racterı́sticas dadas por x.
p(ωj , x) = p(ωj |x)p(x) =
p(x|ωj )p(ωj ). Despejando:
p(x|ωj )p(ωj ) Figura: Imagen tomada de [5]

p(ωj |x) =
p(x)
18 of 1
Teniendo en cuenta que p(x) es constante para cualquiera de las dos
clases, con el objetivo de tener el mı́nimo error, la decisión sobre cuál
clase deberı́a asignársele a una nueva muestra debe tomarse con base
en la siguiente regla:
Decida ω1 si p(x|ω1 )p(ω1 ) > p(x|ω2 )p(ω2 ), de lo contrario decida

ω2 . Sin embargo, en muchos casos se asume que p(ω1 ) = p(ω2 ), lo
que para el caso de bases de datos no balanceadas no puede asegurarse.
Los procedimientos de submuestreo y sobremuestreo buscan precisa-

mente que dicha igualdad pueda cumplirse. Otra alternativa equivalen-
te es incluir en la criterio de aprendizaje un peso de tal manera que el
error producido por una clase no se considere igual al de la otra. (El
error es mayor si la muestra pertenece a la clase minoritaria).
19 of 1
Aprendizaje con balance de costo - perdida
Sin embargo es necesario también considerar que no todos los errores
pueden considerarse de la misma manera. Dependiendo de la aplicación
un falso positivo puede ser muy costoso (Ej: Seguridad), mientras que
en otras un falso negativo puede ser peor (Ej: Detección de cáncer).
Si asumimos que λij es el riesgo asociado a decidor la clase i dado que
la clase real es la j, la decisión correcta deberı́a tomarse a partir de la
siguiente regla:
Decida ω1 si λ21 p(x|ω1 )p(ω1 ) > λ12 p(x|ω2 )p(ω2 ), de lo contrario de-
cida ω2 , o de manera alternativa es decidir ω1 si
p(x|ω1 ) λ12 p(ω2 )
>
p(x|ω2 ) λ21 p(ω1 )
20 of 1
Aprendizaje con balance de costo - umbrales
Definir el valor de λij puede ser muy complejo. Una forma alternativa de
abordar el problema es definir un umbral de decisión Λ, de tal manera
que se decida ω1 si
p(x|ω1 )
>Λ
p(x|ω2 )
Λ puede ser escogido de tal manera que se garantice igual error en
ambas clases (Equal Error Rate Threshold.) o que se obtenga mı́nimo
error de clasificiación (Minimum Cost Point.)
21 of 1
Aprendizaje con balance de costo - umbrales
Definir el valor de λij puede ser muy complejo. Una forma alternativa de
abordar el problema es definir un umbral de decisión Λ, de tal manera
que se decida ω1 si
p(x|ω1 )
>Λ
p(x|ω2 )
Λ puede ser escogido de tal manera que se garantice igual error en
ambas clases (Equal Error Rate Threshold.) o que se obtenga mı́nimo
error de clasificiación (Minimum Cost Point.)
Una forma alternativa es usar un criterio de aprendizaje basado en una

figura de mérito...
21 of 1
Curva ROC
22 of 1
Referencias
[1 ] Minsky M.L., “Matter, minds and models”, Proceedings of the International

Federation for Information Processing Congress, Spartan Books, Washington
D.C., pp 45-49, 1965.
[2 ] Banks J., Carlson J.S., Nelson B.L. and Nicol D.M., “Discrete event system
simulation”. Prentice Hall, 3rd edition, 2001.
[3 ] Velten K., Mathematical Modeling and Simulation, WILEY-VCH, 2009.
[4 ] Murphy K.P., Machine Learning: A Probabilistic Perspective. The MIT Press,
2012.
[5 ] Duda R.O., Hart P.E., Stork D.G., Pattern Classification. 2ed,
WILEY-INTERSCIENCE, 2001.
[6 ] Bishop, C.M. Pattern Recognition and Machine Learning. Springer, 2006.
23 of 1

Clase Medidas de Error

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase Medidas de Error

Cargado por

Copyright:

Formatos disponibles

Modelamiento y Simulación de Sistemas

Clase 4: Medidas de Error y Selección del Modelo: Validación.

Prof. Julián D. Arias Londoño

Dept. Ingenierı́a de Sistemas

Hay dos opciones que debemos considerar:

donde N es el número de muestras. También se pueden usar otras

donde J·K es una función indicador que es igual a 1 cuando la

Cuadro: Medidas de desempeño y de error

TP: True Positive FN: False Negative

La eficiencia corresponde a la suma de la diagonal divido entre el total

Si únicamente utilizamos las muestras con las cuales entrenamos el

con un conjunto de N muestras de entrenamiento, las metodologı́as

muestras nuevas que llegarán al sistema, el proceso anterior se repite

Figura: Imagen tomada de http://es.wikipedia.org

Figura: Imagen tomada de http://es.wikipedia.org

El procedimiento de validación consiste entonces en partir la muestra

Una forma de compensar este hecho es asegurarse que los porcentajes

Técnica sintética de sobremuestreo minoritario (Synthetic Minority

Una forma alternativa es intentar submuestrear de manera inteligente,

Cuando el problema de desbalance es muy crı́tico, se puede optar por

p(x|ωj )p(ωj ) Figura: Imagen tomada de [5]

Decida ω1 si p(x|ω1 )p(ω1 ) > p(x|ω2 )p(ω2 ), de lo contrario decida

Los procedimientos de submuestreo y sobremuestreo buscan precisa-

Una forma alternativa es usar un criterio de aprendizaje basado en una

[1 ] Minsky M.L., “Matter, minds and models”, Proceedings of the International

También podría gustarte