Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase Medidas de Error
Clase Medidas de Error
7 de marzo de 2017
Modelando conjuntos de datos estáticos
“All models are wrong, but some models are useful ”
George Box
2 of 1
Modelando conjuntos de datos estáticos
“All models are wrong, but some models are useful ”
George Box
Como se ha visto hasta ahora casi todos los modelos usados para el
aprendizaje cuentan con uno o varios parámetros que es necesario ajus-
tar al conjunto de datos de entrenamiento con el que contemos.
Regresión: orden del polinomio
Regresión logı́stica: orden del polinomio
K-vecinos más cercanos : Número de vecinos K
Venata de Parzen: Tamaño de ventana h
2 of 1
Selección del mejor valor del parámetro del modelo
Para seleccionar el mejor parámetro para nuestro modelo debemos pre-
guntarnos ¿cuál es el objetivo que queremos alcanzar?
3 of 1
Medidas de error: Regresión
Para poder determinar cuál es el mejor modelo para nuestro problema
es necesario contar con una medida que nos indique qué tan bueno es
un modelo. Necesariamente entonces debemos hablar de medidas de
error o de pérdida.
Regresión: La medida estándar para problemas de regresión es el
error cuadrático medio, el mismo que se usó como criterio en el
problema de regresión lineal.
1 X
N
E= (f (xi ) − yi )2
N
i =1
1 X
N
E = Jf (xi ) 6= yi K
N
i =1
5 of 1
Medidas de error: Clasificación
En problemas de clasificación existen diferentes tipos de error. Consi-
deremos un problema de clasificación biclase.
Etiquetas Reales
1 0
Pred
1 TP FP
0 FN TN
6 of 1
Medidas de error: Clasificación
Con las medidas anteriores se pueden definir las siguientes medidas:
TP
Sensibilidad: TP+FN (Recall).
TN
Especificidad: TN+FP
TP+TN
Eficiencia: TP+TN+FP+FN . Error = 1 - Eficiencia.
TP
Precisión: TP+FP
Es importante tener en cuenta que la medida de eficiencia tal como fue
definida, da igual peso a las dos clases; sin embargo si la la base de
datos no está balanceada, es decir no tienen igual número de muestras
en las dos clases, dicha medida puede sesgarse a la clase que más
muestras tiene. Por esa razón es importante tener en cuenta tanto la
especificidad como la sensibilidad en el análisis del desempeño de los
sistemas (Consultar média geométrica).
7 of 1
Medidas de error: Clasificación
Cuando el número de clases es mayor a 2, podemos también construir
una tabla similar a la anterior.
Cuadro: Matriz de confusión
Etiquetas Reales
1 2 3 ··· C
1
Predicción
2
3
..
.
C
9 of 1
Validación
Para poder hacer una buena selección de los parámetros de cualquier
modelo es necesario entonces utilizar una metodologı́a de validación
que nos permita tener alguna estimación sobre el comportamiento del
sistema ante nuevas muestras y con base en ello determinar el mejor
parámetro. Es decir, el mejor parámetro no es el que mejor se comporta
con las muestras de entrenamiento sino el que mejor se comporta con
las muestras desconocidas. Como en realidad nosotros sólo contamos
10 of 1
Validación Cruzada
Una de las metodologı́as más utilizadas en el entrenamiento de sistemas
se conoce como validación cruzada (en inglés crossvalidation). La
validación cruzada consiste en dividir de manera aleatoria el conjunto
de muestras en K subconjuntos disyuntos llamados folds, y usar K - 1
subconjuntos para entrenar el sistema y el subconjunto restante para
validar. Teniendo en cuenta que existe una incertidumbre sobre las
11 of 1
Validación Cruzada
12 of 1
Validación Cruzada - Leave-one-out
Cuando el conjunto de muestras con las que se cuenta no es muy
grande, es necesario proporcionarle al sistema tantas muestras para
el entrenamiento como sea posible. El caso más extremo consiste en
construir tantos subconjuntos como muestras se tienen, es decir que
durante el entrenamiento se usan N -1 muestras y la muestra restante
se usa para la validación. Por lo tanto el procedimiento se repite N
veces.
14 of 1
Desbalanceo
Es importante tener en cuenta que como las metodologı́as descritas
seleccionan los subconjuntos de manera aleatoria, si la base de datos
con que contamos está muy desbalanceada, es decir, tiene muchas
muestras de una clase y pocas de otra, debemos ejercer algún control
sobre los subconjuntos de muestras generados para el entrenamiento
y la validación, porque podrı́a darse el caso en que en el subconjunto
de muestras de entrenamiento sólo queden muestras de una clase y
ninguna o muy pocas de la otra clase.
15 of 1
Otras estrategias contra el desbalance
Sobremuestreo (Oversampling). Es el método más simple, consiste
en replicar de manera aleatoria, muestras de la clase minoritaria. El
problema con este método es que las “nuevas” muestras son en realidad
copias de las ya existentes, por consiguiente no se le proporciona al
sistema nueva información y el sistema tiende a padecer de un problema
llamado sobreajuste.
16 of 1
Otras estrategias contra el desbanace
Submuestreo (Undersampling). Es un método eficiente para enfrentar
el problema del imbalance, consiste en descartar muestras, de manera
aleatoria, de la clase mayoritaria. Sin embargo el problema con
este método es que puede, potencialmente, descartar información
importante para el entrenamiento del sistema.
17 of 1
Aprendizaje con balance de costo
En un problema de clasifi-
cación la función que no-
sotros desearı́amos tener es
la densidad de probabili-
dad de encontrar una mues-
tra de la categorı́a ωj y
tener un conjunto de ca-
racterı́sticas dadas por x.
p(ωj , x) = p(ωj |x)p(x) =
p(x|ωj )p(ωj ). Despejando:
p(x|ωj )p(ωj )
p(ωj |x) =
p(x)
18 of 1
Aprendizaje con balance de costo
En un problema de clasifi-
cación la función que no-
sotros desearı́amos tener es
la densidad de probabili-
dad de encontrar una mues-
tra de la categorı́a ωj y
tener un conjunto de ca-
racterı́sticas dadas por x.
p(ωj , x) = p(ωj |x)p(x) =
p(x|ωj )p(ωj ). Despejando:
Decida ω1 si λ21 p(x|ω1 )p(ω1 ) > λ12 p(x|ω2 )p(ω2 ), de lo contrario de-
cida ω2 , o de manera alternativa es decidir ω1 si
p(x|ω1 ) λ12 p(ω2 )
>
p(x|ω2 ) λ21 p(ω1 )
20 of 1
Aprendizaje con balance de costo - umbrales
Definir el valor de λij puede ser muy complejo. Una forma alternativa de
abordar el problema es definir un umbral de decisión Λ, de tal manera
que se decida ω1 si
p(x|ω1 )
>Λ
p(x|ω2 )
Λ puede ser escogido de tal manera que se garantice igual error en
ambas clases (Equal Error Rate Threshold.) o que se obtenga mı́nimo
error de clasificiación (Minimum Cost Point.)
21 of 1
Aprendizaje con balance de costo - umbrales
Definir el valor de λij puede ser muy complejo. Una forma alternativa de
abordar el problema es definir un umbral de decisión Λ, de tal manera
que se decida ω1 si
p(x|ω1 )
>Λ
p(x|ω2 )
Λ puede ser escogido de tal manera que se garantice igual error en
ambas clases (Equal Error Rate Threshold.) o que se obtenga mı́nimo
error de clasificiación (Minimum Cost Point.)
21 of 1
Curva ROC
22 of 1
Referencias
23 of 1