Está en la página 1de 32

Aprendizaje automático y minería de datos

Xiomara Blanco

Tema 2. Evaluación de Algoritmos de Regresión


Índice

► Algoritmos de regresión
► Métricas de Algoritmos de Regresión
MSE
MAE
RMSE
RMLSE
R2
► Visualización de Algoritmos de Regresión

2
Terminología / Notación

► Variable respuesta (outcome) Y (a.k.a. Dependent variable,


objective, response, target, class)

► Vector de N mediciones predictoras llamado X (a.k.a inputs,


regressors, covariates, features, independent variables).

► Tenemos datos de entrenamiento (training data)

que son observaciones (ejemplos, instancias) de estás medidas.

3
Regresión

4
Regresión lineal

5
Regresión lineal

6
Regresión lineal

7
Nuestra primera aplicación regresión

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones

8
Nuestra primera aplicación regresión

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones


150000 € 200000 € 300000 € 350000 €

9
Nuestra primera aplicación regresión

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones


150000 € 200000 € 300000 € 350000 €

Precio = 100000€ + 50000€ x habitaciones

10
Nuestra primera aplicación regresión

400000 €

350000 €
Casa 5

3000000 €
Casa 4

250000 €

200000 €
Casa 2

150000 €
Casa 1
100000 €

50000 €

1 2 3 4 5

11
Nuestra primera aplicación regresión

400000 €

350000 €
Casa 5

3000000 €
Casa 4

250000 €
Casa 3

200000 €
Casa 2

150000 €
Casa 1
100000 €

50000 €

1 2 3 4 5

12
Nuestra primera aplicación regresión

400000 €
Casa 5

350000 €
Casa 4
3000000 €

Casa 3
250000 €

200000 €

150000 € Casa 2

100000 €
Casa 1

50000 €

1 2 3 4 5

13
Nuestra primera aplicación regresión

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones


100 m2 70m2 150m2 120m2 170m2
Garaje Garaje Piscina
Trastero Garaje
150000 € 200000 € 300000 € 350000 €

Precio = 100000€ + 50000€ x habitaciones +…+…

14
Ejemplo ventas:

15
Regresión: f(x) ideal

► ¿Cuál es el valor de X cuando X=4?

► Al f(x) ideal se le conoce como función de regresión

► También esta definida para un vector de X

16
Regresión: f(x) ideal

► La función predictora
óptima de Y es
aquella con un
menor Error:

► Por tanto, que


minimiza:

17
Métricas de Error

18
Mean Square Error (MSE)
► Se define como la media de la diferencia entre el valor real y el valor predicho o estimado al cuadrado
1 n
MSE = n ∑(𝐘ᵢ - Ŷᵢ)².
i=1

Y
Salidas

MSE

x
Entradas
Adaptado: https://sunjackson.github.io/2018/09/26/2cf12da6359138289cad4abcb69a7612/

En R: mean((training.data - predict(training.model))^2)

19
Mean Absolute Error (MAE)

Se define como la diferencia en valor absoluto entre el valor real


y el valor predicho.
n
MAE = 1 ^
∑ | 𝒴ⱼ - 𝒴ⱼ|
n j=1

Salidas

MAE

En R:
install.packages(metrics)
x
library(metrics) Entradas
Adaptado: https://sunjackson.github.io/2018/09/26/2cf12da6359138289cad4abcb69a7612/
mae(predict(),training.data$Y)
20
Root Mean Square Error (RMSE)
Se define como la raíz cuadrada de la media de la diferencia entre el
valor real y el valor predicho o estimado al cuadrado.

n
^
RMSE = ∑ (𝒴ᵢ - 𝒴ᵢ)²
√ ᵢ=1 n
Comparada con el error absoluto medio (MAE), amplifica y penaliza los
errores grandes. Los valores más bajos indican un mejor ajuste.
Tanto el MSE como el RMSE se ven afectados de manera similar por
valores atípicos.
El RMSE es análogo a la desviación estándar y el MSE a la varianza.
Varían de 0 a infinito.

En R:
install.packages(metrics)
library(metrics)
rmse(training.data$Y ,predict())

21
Root Mean Square Logarithmic Error (RMSLE)
Logaritmo de la raíz del error cuadrático medio.

1 N
∑ (log(𝒴ᵢ +1) - (log(𝒴^ ᵢ +1))²
RMSLE =
√ N
i=1

RMSLE robusto con valores atípicos.


Penaliza uder-prediction (predicción más pequeña que el valor real)
más que una over-prediction (predicción más grande que el valor real).

Outlier Subestimación y sobreestimación


Y = 60 80 90 Y = 1000
X = 67 78 91 X = 1400
RMSE=4,242 RMSLE=0,6466 RMSE=400 RMSLE=0,33

Y = 60 80 90 750 Y = 1000
X = 67 78 91 102 X = 600
RMSE=374,724 RMSLE=1,160 RMSE=400 RMSLE=0,510

22
R2
Coeficiente de determinación, R2 o R-dos

El modelo más simple posible sería predecir siempre el promedio de todas


las muestras. Un valor cercano a 1 indica un modelo con error cercano a
cero, y un valor cercano a cero indica un modelo muy cercano a la línea de
base.
Error común: muchos artículos en la web indican que el rango de R² se
encuentra entre 0 y 1, lo que no es realmente cierto. El valor máximo de R²
es 1, pero el mínimo puede ser menos infinito.
Por ejemplo, considere un modelo realmente malo que predice un valor
altamente negativo para todas las observaciones a pesar de que y_actual es
positivo.
En este caso, R² será menor que 0. Este es un escenario altamente
improbable pero la posibilidad aún existe.
23
Visualización de Errores

24
Predicho vs. Real

25
Predicho vs. Real

Error Cuadrático Medio (MSE) 1.00; Error Absoluto Medio (MAE) 1.00
8

7
y_real
x x_pred

4
y

x
x
3 x
x
x
x
x
x
2 x

0
0 2 4 6 8
Adaptado: https://pt.slideshare.net/YangZhang12/model-evaluation-120042601

26
Predicho vs. Real
8 Error Cuadrático Medio 1.20; Error Absoluto Medio 1.16

7 y_real
x x_pred

4
y

x x x
x x
3 x
x
x
2 x

0
0 2 4 6 8
x
Adaptado: https://pt.slideshare.net/YangZhang12/model-evaluation-120042601

27
Predicho vs. Real

8
Error Cuadrático Medio 0.90; Error Absoluto Medio 0.82

7 y_real
x x_pred
6

4
y

x
3 x
x x
x x
x x
2 x

0
0 2 4 6 8
x
Adaptado: https://pt.slideshare.net/YangZhang12/model-evaluation-120042601

28
Predicho vs. Real
Error Cuadrático Medio (MSE): 100.00 Error Logarítmico Cuadrático Medio (RMSLE) 0.29

3500 y_real
x x_pred
3000

2500

2000
y

1500
x
x
1000 x
x
x
x
500 x
x
x
x
0
0 2 4 6 8
x

Adaptado: https://pt.slideshare.net/YangZhang12/model-evaluation-120042601

29
Predicho vs. Real
Error Cuadrático Medio: 184.39 Error Logarítmico Cuadrático Medio 0.59

3500 y_real
x x_pred
3000

2500

2000
y

1500

x
x
1000 x
x
x x
x
500 x
x
x

0
0 2 4 6 8
x
Adaptado: https://pt.slideshare.net/YangZhang12/model-evaluation-120042601

30
Predicho vs. Real
Error Cuadrático Medio: 796.24 Error Logarítmico Cuadrático Medio 0.47
x
3500 y_real
x x_pred
3000

2500

2000
y

1500

x
1000 x
x
x
x
500 x
x
x
x
0
0 2 4 6 8
x

Adaptado: https://pt.slideshare.net/YangZhang12/model-evaluation-120042601

31
Gracias por la atención prestada
¿Preguntas?

Fuente: https://pixabay.com/photos/

32

También podría gustarte