Documentos de Académico
Documentos de Profesional
Documentos de Cultura
olica de Temuco
Actividad 2
Metricas de Rendimiento de una ANN
Angel Aedo Busto
aaedo2011@alu.uct.cl
27 de Mayo de 2015
1.
Resumen
A continuaci
on se presentan las metricas usadas para medir el error en el rendimiento de las Redes Neuronales Artificiales.
1.1.
1.2.
El error de la suma al cuadrado es una medida de la discrepancia entre los datos y un modelo de estimaci
on. Un peque
no SSE indica un ajuste apretado del
modelo a los datos.
En un modelo con una sola variable explicativa, SSE esta dada por:
SSE =
n
X
(yi f (xi ))2
i=1
Universidad Cat
olica de Temuco
n
X
i=1
(i )2 =
n
X
(yi ( + xi ))2 ,
i=1
1.3.
El error cuadr
atico medio (MSE) de un estimador mide el promedio de los errores al cuadrado, es decir, la diferencia entre el estimador y lo que se estima. El
MSE es una funci
on de riesgo, correspondiente al valor esperado de la perdida
del error al cuadrado o perdida cuadratica. La diferencia se produce debido a la
aleatoriedad o porque el estimador no tiene en cuenta la informacion que podra
producir una estimaci
on m
as precisa.
El MSE es el segundo momento (sobre el origen) del error, y por lo tanto incorpora tanto la varianza del estimador as como su sesgo. Para un estimador
insesgado, el MSE es la varianza del estimador. Al igual que la varianza, el MSE
tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima. En una analoga con la desviacion estandar, tomando la raz cuadrada del
MSE produce el error de la raz cuadrada de la media o la desviacion de la raz
cuadrada media (RMSE o RMSD), que tiene las mismas unidades que la cantidad que se estima; para un estimador insesgado, el RMSE es la raz cuadrada
de la varianza, conocida como la desviacion estandar.
Si Y es un vector de n predicciones y Y es el vector de los verdaderos valores, entonces el (estimado) MSE del predictor es:
n
1X
(Yi Yi )2 .
MSE =
n i=1
Esta es una cantidad conocida, calculado dada una muestra particular (y por lo
tanto es dependiente de la muestra).
El MSE de un estimador con respecto al parametro desconocido se define como:
= E ( )2
MSE()
Esta definici
on depende del parametro desconocido, y el MSE en este sentido es
una propiedad de un estimador (de un metodo de obtencion de una estimacion).
1.4.
El error de raz cuadrada media (RMSE) es una medida de uso frecuente de las
diferencias entre los valores de la muestra (y valores de la poblacion) predichos
2
Universidad Cat
olica de Temuco
1.5.
El error absoluto porcentual promedio (MAPE), es una medida de la exactitud de un metodo para construir los valores de series de tiempo armarios en las
estadsticas, especficamente en la estimacion de la tendencia. Por lo general, la
precisi
on expresa como un porcentaje, y se define por la ecuacion:
n
1 X At Ft
M=
n t=1 At
Donde At es el valor real y Ft es el valor pronostico.
La diferencia entre At y Ft se divide por el valor actual At de nuevo. El valor absoluto en este c
alculo es sumado a cada punto equipado o pronosticado en
el tiempo y se divide de nuevo por el n
umero de puntos equipada n. Multiplicando por 100 hace que sea un porcentaje de error.
Aunque el concepto de MAPE suena muy simple y convincente, tiene dos grandes inconvenientes en la aplicacion practica:
Si hay cero valores (lo que a veces sucede por ejemplo en la serie de la
demanda), habr
a una division por cero
Al tener un ajuste perfecto, MAPE es cero. Pero en lo que se refiere a su
nivel superior, el MAPE tiene ninguna restriccion.
Al calcular la MAPE promedio de un n
umero de serie de tiempo podra haber
un problema: algunas de las series que tienen una muy alta distorcion MAPE
que podra distorsionar una comparacion entre la MAPE promedio de series de
tiempo equipado con un metodo en comparacion con el MAPE promedio al usar
otro metodo.
Universidad Cat
olica de Temuco
1.6.
1.7.
1X
et
n
Theils U-statistic
Theils U-Statistic es una medida de precision relativa que compara los resultados pronosticados con los resultados de la prediccion con datos historicos
mnimos. Tambien cuadrados las desviaciones para dar mas peso a los errores
grandes y exagerar los errores, lo que puede ayudar a eliminar metodos con
grandes errores.
Si el resultado obtenido es menor a 1; La tecnica de pronostico es mejor que
adivinar.
Si el resultado es 1; La tecnica es casi tan buena como adivinar.
Si el resultado es mayor a 1; La tecnica es peor que adivinar.
La ecuaci
on para calcular est
a dada por:
v
u
!2
u n1
u X Yt+1 Yt+1
u
u
Yt
t=1
U =u
u n1
u X Yt+1 Yt 2
t
Yt
t=1
Donde Yt es el valor actual del punto para un periodo de tiempo t, n es el
n
umero de puntos de datos y Yt es el valor de prediccion.
1.8.
Universidad Cat
olica de Temuco
1.9.
GM RAE =
RAEt
RAEt =
Nt
Xt F
Xt
Es decir, RAE es equivalente a los dos terminos de promedio de bateo de
McLaughlin. Una forma alternativa de usar GMRAE es elevando al cuadrado
los terminos de error de RAE en cuyo caso cada RAE sera equivalente Theils
U-Statistic.
La ventaja de los medios geometrica relativa es que no estan contaminadas
tanto por los valores atpicos y que son mas faciles de comunicar Theils UStatistic. Al mismo tiempo la expresion RAE se ve influenciada por los valores
extremadamente bajos y grandes. Armstrong y Collopy sugieren Winsorizing
los valores de RAE mediante el establecimiento de un lmite maximo de 10 y
un mnimo de un 0,01. Aunque el GMRAE podra ser mas facil de comunicarse
que Theils U-Statistic todava es tpicamente inapropiado para la toma de
decisiones de gesti
on
1.10.
ARV =
Ri2
j=1
N
X
(Fj Amean )
j=1
1.11.
Universidad Cat
olica de Temuco
1.12.
El criterio de informaci
on de Akaike es una medida de la calidad relativa
de un modelo estadstico, para un conjunto dado de datos. Como tal, el AIC
proporciona un medio para la seleccion del modelo.
AIC maneja un trade-off entre la bondad de ajuste del modelo y la complejidad
del modelo. Se basa en la entropa de informacion: se ofrece una estimacion relativa de la informaci
on perdida cuando se utiliza un modelo determinado para
representar el proceso que genera los datos.
AIC no proporciona una prueba de un modelo en el sentido de probar una
hip
otesis nula , es decir AIC puede decir nada acerca de la calidad del modelo
en un sentido absoluto. Si todos los modelos candidatos encajan mal, AIC no
dar
a ning
un aviso de ello.
En el caso general, la AIC es:
AIC = 2k 2 ln(L)
Donde k es el n
umero de par
ametros en el modelo estadstico , y L es el maximo
valor de la funci
on de verosimilitud para el modelo estimado.
Dado un conjunto de modelos candidatos para los datos, el modelo preferido
es el que tiene el valor mnimo en el AIC. Por lo tanto AIC no solo recompensa
la bondad de ajuste, sino tambien incluye una penalidad, que es una funcion
creciente del n
umero de par
ametros estimados. Esta penalizacion desalienta el
sobreajuste (aumentando el n
umero de parametros libres en el modelo mejora
la bondad del ajuste, sin importar el n
umero de parametros libres en el proceso
de generaci
on de datos).
Universidad Cat
olica de Temuco
1.13.
El criterio de informaci
on bayesiano (BIC) o el mas general criterio de Schwarz (SBC tambien, SBIC) es un criterio para la seleccion de modelos entre un
conjunto finito de modelos. Se basa, en parte, de la funcion de probabilidad y
que est
a estrechamente relacionado con el Criterio de Informacion de Akaike
(AIC).
Cuando el ajuste de modelos, es posible aumentar la probabilidad mediante
la adici
on de par
ametros, pero si lo hace puede resultar en sobreajuste. Tanto
el BIC y AIC resuelven este problema mediante la introduccion de un termino
de penalizaci
on para el n
umero de parametros en el modelo, el termino de penalizaci
on es mayor en el BIC que en el AIC.
El BIC fue desarrollado por Gideon E. Schwarz, quien dio un argumento bayesiano a favor de su adopci
on. Akaike tambien desarrollo su propio formalismo
Bayesiano, que ahora se conoce como la ABIC por Criterio de Informacion Bayesiano de Akaike.
El BIC es una consecuencia derivada asintotica bajo los supuestos de que la
distribuci
on de los datos se encuentra en la familia exponencial. Donde:
x = los datos observados
n = el n
umero de datos u observaciones x, o equivalentemente, el tama
no
de la muestra
k = el n
umero de parametros libres a ser estimados. Si el modelo esta bajo
el supuesto de que es lineal, k es el n
umero de regressores, incluyendo el
intercepto.
p(x|M ) = La probabilidad marginal de los datos observados dado el modelo M ; esto es, Es decir, la integral de la funcion de verosimilitud p(x|, M )
veces la distribuci
on de probabilidad antes p(|M ) sobre los parametros
del modelo M para los datos observados fijos x
= El m
L
aximo valor de la funcion de verosimilitud del modelo M , i.e. L
Referencias
[1] Guoqiang Zhang, B. Eddy Patuwo, Michael Y. Hu, Forecasting with
artificial neural networks: The state of the art, Graduate School of Management, Kent State University, Kent, Ohio 44242-0001, USA,
[2] Gary D. Kader, Means and MADs, http://www.learner.org/courses/
learningmath/data/pdfs/session5/mads_1.pdf,
Universidad Cat
olica de Temuco