Está en la página 1de 7

Concepto de regresión

Para este análisis se debe tener en cuenta, que existen varios métodos estadísticos que se
usan cuando la variable de respuesta y las variables predictivas son continuas y se quiere
predecir los valores de la primera respuesta en función de las secundarias. En conclusión,
el análisis de regresión es ajustar un modelo a los datos valorando los coeficientes a partir
de los análisis observados, para que con esto se pueda predecir valores de la variable de
respuesta de una o más variables predictivas.[ CITATION Pab16 \l 12298 ]

El análisis de regresión lleva una principal función en la estadística moderna y se utiliza


para:

 Identificar que con una variable de respuesta se relaciona con las variables
predictivas.
 Describir el modelo de la relación de las variables de respuesta y predictivas y buscar
la derivada de una función matemática optima que represente un modelo matemático
para esa relación.
 Pronosticar la variable de respuesta con la ayuda de las variables explicativas o
predictoras.

Tipos de Regresión
1. Lineal simple
Se le denomina regresión lineal simple cuando solo existe una variable independiente.
Depende del argumento, a la variable de modelo se le conoce como variable de respuesta, y
a las variables independientes como regresores, predictores o features. [ CITATION Joa20 \l
12298 ]
Y =a+a X 1
2. Lineal múltiple
La regresión lineal múltiple se enfoca en ajustar los modelos lineales entre una variable
dependiente y más de una variable independiente. En este tipo de modelos es importante
resaltar la heterocedasticidad, la multicolinealidad y la especificación. [ CITATION Mon16 \l
12298 ]
Y =a1 X 1+ a2 X 2 +b
3. Polinomial
La Regresión Polinomial es un método especial de regresión lineal, se extiende el modelo
lineal al adicionar variables predictoras adicionales, conseguidos al aumentar cada uno de
los predictores originales a una potencia.[ CITATION Lig19 \l 12298 ]
Y =a X 1 +a X 22 +b
4. Logística
Es una técnica estadística multivariante que permite evaluar la relación que existe entre
una variable dependiente no métrica, de particularidad dicotómica y un conjunto de
variables independientes métricas o no métricas.
Para este método, tiene la forma del siguiente modelo.
Y = β0 + β 1 x i + ε i para i=1,2 , … ,n
Por tanto, se deduce:
Si Y =1 , ε i =1−β 0−β 1 x i
SiY =0 , ε i=−β 0−β 1 xi
Por lo que ε i, no puede llevar distribución normal porque toma valores discretos. [ CITATION
lle04 \l 12298 ]

Clasificación de métricas de error


Error Cuadrático Medio (MSE)
Se puede decir que es la mas simple y comun de las métricas para el análisis de regresión,
pero se puede decir que también es una de las menos útiles. Esta definida por la siguiente
ecuación.
N
1 2
MSE= ∑ ( y i− ^yi )
N i=1
Donde y i es el resultado real deseado y ^y i es la predicción del modelo.
El MSE básicamente se refiere a la medición del error cuadrado promedio de las
predicciones propuestas. Para cada punto asignado, se calcula la diferencia cuadrada entre
las predicciones y el resultado objetivo, y luego de esto se le calcula el promedio de ese
resultado.
Cabe recalcar que cuanto mayor sean los valores de resultado, peor es el modelo de
regresión. Cabe mencionar que el resultado nunca es negativo, ya que si se observa se esta
cuadrando los valores de error de predicción individual antes de que sean sumados, pero
para que el modelo sea perfecto este valor debería ser cero.
Se debe tener en cuanta que, si se desea tener valores de predicción constantes, la mejor
opción seria calcular el valor medio de los valores de resultado objetivo. Esto se puedo hacer
estableciendo una derivada del error total estipulado con respecto a la constante cero, y así
descubrir el objetivo final con esta ecuación.[ CITATION sit19 \l 12298 ]
Error cuadrático medio (RMSE)
El error RMSE es nada más que la raíz cuadrada del error MSE. La raíz cuadrada se añade
para realizar que la escala de los errores sean igual que la escala de los objetivos. La
ecuación que describe este método es la siguiente.
N
R MSE=
1


N i =1
(
2
y i− ^y i ) = √ MSE
Pero cabe recalcar lo importante que es la semejanza y la diferencias entre los errores RMSE
y los errores MSE.
Como primer punto, se puede decir que son similares en términos de minimización, cada
uno de estos minimizadores de MSE son también minimizadores para el RMSE y viceversa,
ya que la raíz cuadrada del error RMSE es una función que no disminuye los valores de
cada uno. Para entender mejor un pequeño ejemplo; si tenemos dos conjuntos de
predicciones, “X” y “Y”, e indicamos que el error MSE de X es mayor que el error MSE de Y,
entonces se puede estar seguro de que el error RMSE de X es mayor que el error RMSE de
Y. Y así en la dirección contraria.
MSE ( X )> MSE ( Y ) ⟺ RMSE ( X ) > RMSE ( Y )
Lo que significa que, si el modelo métrico deseado es RMSE, aun se puede comparar los
modelos utilización el método MSE, ya que el MSE organizara los modelos de la misma
forma que el error RMSE. Asi pues se puede optimizar el error MSE en lugar del error
RMSE.
Por lo que se puede decir que, es más fácil y conveniente operar con el error MSE, por lo que
los modelos usar MSE en lugar de RMSE. También se puede notar un poco de diferencia en
los dos por los modelos basados en gradientes.

Fig. 1: Gradiente de RMSE con respecto a la i-th predicción

Viajar a lo largo de una gradiente de error MSE es equivalente a viajar a lo largo de una
gradiente de error RMSE, pero con la diferencia de la tasa de flujo, ya que esta tasa de flujo
depende de la puntuación del error MSE en sí.
Resumiendo, aunque los errores RMSE y los MSE son muy similares en términos de
puntuación, no pueden ser intercambiables de una manera inmediata para métodos que se
enfocan en gradientes.[ CITATION sit19 \l 12298 ]
Error absoluto medio (MAE)
En el error MAE se calcula como si seria un promedio de diferencias absolutas entre los
valores de predicción y los valores objetivos. El error MAE es una puntuación lineal, por lo
que significa que se ponderan por igual todas las diferencias en el promedio. Se calcula
matemáticamente por la siguiente ecuación.
N
1
M A E= ∑| y i− ^y i|
N i=1
Lo que lo hace mas importante a esta métrica es que penaliza errores gigantes no tan mal
como lo haría un error MSE. Por esto, no es tan sensitivo a los valores atípicos como en el
error cuadrático medio.
Una importancia acerca del error MAE, es sus gradientes con lo que respecta a las
predicciones. El gradiend es una función de pasos y se torna -1 cuando Y_hat es mas
pequeño que el resultado objetivo y +1 cuando este es mas grande que el resultado objetivo.

Fig. 2: Gráfica de error MAE

Se debe tener en cuanta que, si se desea obtener una predicción constante, la mejor opción
sería el valor de la mediana de los valores de resultado objetivo. Esta se puede encontrar
realizando la derivada del error total con respecto a la constante cuando tiende a 0, y se
puede así descubrir a partir de la ecuación mencionada. [ CITATION sit19 \l 12298 ]
R al cuadrado (R2)
Otra medida que se puede utilizar para examinar un modelo es el R 2 y que está
estrechamente en relación con el error MSE, pero esta tiene la ventaja de estar a libre de
escala, en este no interesa si los valores de salida son muy grandes o pequeños, el método
R2 estará siempre entre -∞ y 1.
Cuando R2 tiende a ser negativo, solo puede significar que el modelo es peor que la
predicción de la media. El modelo matemático de esta ecuación es la siguiente.

MSE ( model )
R2=1−
MSE ( baseline )
Donde el MSE(model) se calcula como se lo hizo anteriormente y el MSE(baseline) se da por
la siguiente ecuación:
N
1 2
MSE (baseline)= ∑ ( y i− ý )
N i=1
Donde ý es la media y observada.

Para estar un poco mas claro, se puede decir que a esta MSE(baseline) hace como referencia
de una MSE que obtendría un modelo mucho más simple. Esto quiere decir que seria un
modelo que predice siempre el promedio de todos los casos muestra. Un resultado cercano a
1 indicaría un modelo con error cercano a cero, y un resultado cercano a cero indicaría un
modelo cercano a MSE(baseline).[ CITATION sit19 \l 12298 ]

Error porcentual cuadrado (MSPE)


El error relativo de preferencia se puede expresar con error de porcentaje cuadrado medio.
Para cada variable, el error absoluto se debe dividir por el valor resultado obtenido, dando
así un error relativo. La fórmula de este método es la siguiente:
N 2
1 00 % y i− ^y i
MS P E= ∑
N i=1 ( yi )
Entonces se puede considerar que el error MSPE es una versión ponderada del error MSE.
El peso de muestra es inversamente proporcional al cuadrado de resultado objetivo. Esto
quiere decir que, lo que se da por un error absoluto fijo. Deprende netamente del valor
obtenido y conforme aumenta el valor obtenido, menor sería el valor por darse.
Ya que el error MSPE se lo considera como una versión ponderada del error MSE las
predicciones constantes óptimas para el error MSPE resultan ser la media ponderada de los
valores de resultado objetivo.[ CITATION Sit19 \l 12298 ]

Error porcentual absoluto medio


En la preferencia de error relativo también se lo puede expresar con este método error
porcentual absoluto medio. Para cada valor, el error absoluto se debe dividir por el valor
resultante objetivo. El error MAPE también puede ser catalogado como una versión
ponderada del error MAE. Se expresa mediante la siguiente ecuación.
N
100 % y i− ^y i
MSPE= ∑
N i=1 yi | |
Para el error MAPE, el peso de muestra es inversamente proporcional a valor objetivo. Pero
así mismo que el error MSPE, el valor que se da por un error absoluto fijo también depende
del valor resultante objetivo. Y a manera que aumenta el valor objetivo, menor es el valor
por darse.
Se debe tener en cuenta que, si un valor atípico da muy pero muy pequeño, el error MAPE
debería estar muy inclinado hacia él, ya que el valor atípico tendrá más alto el peso.
[ CITATION Sit19 \l 12298 ]
Error logarítmico cuadrático medio (RMSLE)
Este método es nada mas que un error RMSE calculado en escala logarítmica. Para llevar a
cabo el cálculo, se toma un logaritmo de los valores de las predicciones y los valores
resultante objetivo, y se calcula el error RMSE entre ellos.
Los resultados objetivos por lo general no son negativos, pero no obstante pueden ser igual
a cero, y como se sabe el logaritmo de cero no esta definido. Es por eso por lo que
generalmente se adiciona una constante a los valores de predicción y los valores objetivos
antes que se lleve a cabo la operación logarítmica.
N
RMS L E=
√ 1
N i=1

RMSLE= MSE ( log ( y i +1 )−log ( ^y i +1 ) )


2
∑ ( log ( y i+1 ) −log ( ^y i +1 ) ) RMSLE=RMSE ( log ( y i+ 1 )−log ( ^y i +1 ) )

Por ende, este método de métrica se utiliza generalmente en la misma condición que la
métrica de MSPE y MAPA, ya que este también contiene errores relaticos mas que los
errores absolutos.

Fig. 3: Curva de error para el método métrico RMSLE

Se debe tener en cuenta la asimetría que se proyectan de las curvas de error. Desde el
punto de vista del error métrico RMSLE, es mejor siempre predecir mas valores de la misma
cantidad que valores menos que del objetivo. Se llega a la conclusión que el error RMSLE
penaliza una aproximación poco predicha más que una aproximación sobre pronosticada.
[ CITATION Sit19 \l 12298 ]
Constantes optimas de las diferentes métricas
Tabla 1: Constantes óptimas para diferentes métricas de evaluación de regresión

Metrica Datos
Constantes
s x y
MSE 11 … 5
RMSLE 9.11 … 9
MAE 8 … 8
MSPE 6.6 … 6
MAPE 6 … 27

Observaciones:

 La constante optima del error RMSLE resulta ser mas alta que las constantes tanto para el error
MAPE como para el error MSPE.
 El error MSE esta bastante inclinada hacia el valor enorme del conjunto de datos ingresados, en
cambio que el error MAE es mucho menos inclinada.
 Los errores MSPE y MAPE se orientan a resultados objetivos mas pequeños ya que a estos se
asiganan mayor peso al objeto de entrada.
 El error RMSLE esta considerado frecuentemente como mejor metrica que la del error MAPE, ya
que no esta tan orientado a objetivos pequeños, pero que funciona muy bien con errores relativos.
[ CITATION Sit19 \l 12298 ]

Referencias

[1] P. Pablo Vinuesa, «Welcome to Pablo Vinuesa's Research and Teaching Site,» Google
Scholar, 22 Octubre 2016. [En línea]. Available:
https://www.ccg.unam.mx/~vinuesa/R4biosciences/docs/Tema9_regresion.html.
[Último acceso: 9 Junio 2021].

[2] J. A. Rodrigo, «Ciencia de datos,» Octubre 2020. [En línea]. Available:


https://www.cienciadedatos.net/documentos/py10-regresion-lineal-python.html.
[Último acceso: 9 Junio 2021].

[3] M. Granados, «Documentos de Trabajo en Economía Aplicada. Universidad de


Granada, España,» 2016. [En línea]. Available:
https://www.ugr.es/~montero/matematicas/regresion_lineal.pdf. [Último acceso: 9
Junio 2021].

[4] L. Gonzalez, «Aprende IA,» Copyright © 2021 Aprende IA, 11 Enero 2019. [En línea].
Available: https://aprendeia.com/algoritmo-regresion-polinomial-machine-learning/.
[Último acceso: 9 Junio 2021].

[5] lleon, «La Biblioteca Central 'Pedro Zulen' de la Universidad Nacional Mayor de San
Marcos,» 31 Marzo 2004. [En línea]. Available:
https://sisbib.unmsm.edu.pe/bibvirtualdata/Tesis/Basic/Salcedo_pc/enPDF/Cap2.P
DF. [Último acceso: 9 Junio 2021].

[6] s. b. data, «sitiobigdata.com,» POWERED BY WORDPRESSTHEME, 27 Mayo 2019. [En


línea]. Available: https://sitiobigdata.com/2019/05/27/aprendizaje-automatico-
seleccionando-metricas-regresion/. [Último acceso: 9 Junio 2021].

[7] S. B. Data, «sitiobigdata.com,» POWERED BY WORDPRESS, 27 Mayo 2019. [En línea].


Available: https://sitiobigdata.com/2019/05/27/modelos-de-machine-learning-
metricas-de-regresion-mse-parte-2/. [Último acceso: 9 Junio 2021].

También podría gustarte