Tema2 1826

Aprendizaje automático y minería de datos
Xiomara Blanco
Tema 2. Evaluación de Algoritmos de Regresión

Índice
► Algoritmos de regresión
► Métricas de Algoritmos de Regresión
MSE
MAE
RMSE
RMLSE
R2
► Visualización de Algoritmos de Regresión
2
Terminología / Notación
► Variable respuesta (outcome) Y (a.k.a. Dependent variable,

objective, response, target, class)
► Vector de N mediciones predictoras llamado X (a.k.a inputs,

regressors, covariates, features, independent variables).
► Tenemos datos de entrenamiento (training data)
que son observaciones (ejemplos, instancias) de estás medidas.
3
Regresión
4
Regresión lineal
5
Regresión lineal
6
Regresión lineal
7
Nuestra primera aplicación regresión
Casa 1 Casa 2 Casa 3 Casa 4 Casa 5
1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones
8

150000 € 200000 € 300000 € 350000 €
9

150000 € 200000 € 300000 € 350000 €
Precio = 100000€ + 50000€ x habitaciones
10
400000 €
350000 €
Casa 5
3000000 €
Casa 4
250000 €
200000 €
Casa 2
150000 €
Casa 1
100000 €
50000 €
1 2 3 4 5
11
400000 €
350000 €
Casa 5
3000000 €
Casa 4
250000 €
Casa 3
200000 €
Casa 2
150000 €
Casa 1
100000 €
50000 €
1 2 3 4 5
12
400000 €
Casa 5
350000 €
Casa 4
3000000 €
Casa 3
250000 €
200000 €
150000 € Casa 2
100000 €
Casa 1
50000 €
1 2 3 4 5
13

100 m2 70m2 150m2 120m2 170m2
Garaje Garaje Piscina
Trastero Garaje
150000 € 200000 € 300000 € 350000 €
Precio = 100000€ + 50000€ x habitaciones +…+…
14
Ejemplo ventas:
15
Regresión: f(x) ideal
► ¿Cuál es el valor de X cuando X=4?
► Al f(x) ideal se le conoce como función de regresión
► También esta definida para un vector de X
16
Regresión: f(x) ideal
► La función predictora
óptima de Y es
aquella con un
menor Error:
► Por tanto, que

minimiza:
17
Métricas de Error
18
Mean Square Error (MSE)
► Se define como la media de la diferencia entre el valor real y el valor predicho o estimado al cuadrado
1 n
MSE = n ∑(𝐘ᵢ - Ŷᵢ)².
i=1
Y
Salidas
MSE
x
Entradas
Adaptado: https://sunjackson.github.io/2018/09/26/2cf12da6359138289cad4abcb69a7612/
En R: mean((training.data - predict(training.model))^2)
19
Mean Absolute Error (MAE)
Se define como la diferencia en valor absoluto entre el valor real

y el valor predicho.
n
MAE = 1 ^
∑ | 𝒴ⱼ - 𝒴ⱼ|
n j=1
Salidas
MAE
En R:
install.packages(metrics)
x
library(metrics) Entradas
Adaptado: https://sunjackson.github.io/2018/09/26/2cf12da6359138289cad4abcb69a7612/
mae(predict(),training.data$Y)
20
Root Mean Square Error (RMSE)
Se define como la raíz cuadrada de la media de la diferencia entre el
valor real y el valor predicho o estimado al cuadrado.
n
^
RMSE = ∑ (𝒴ᵢ - 𝒴ᵢ)²
√ ᵢ=1 n
Comparada con el error absoluto medio (MAE), amplifica y penaliza los
errores grandes. Los valores más bajos indican un mejor ajuste.
Tanto el MSE como el RMSE se ven afectados de manera similar por
valores atípicos.
El RMSE es análogo a la desviación estándar y el MSE a la varianza.
Varían de 0 a infinito.
En R:
install.packages(metrics)
library(metrics)
rmse(training.data$Y ,predict())
21
Root Mean Square Logarithmic Error (RMSLE)
Logaritmo de la raíz del error cuadrático medio.
1 N
∑ (log(𝒴ᵢ +1) - (log(𝒴^ ᵢ +1))²
RMSLE =
√ N
i=1
RMSLE robusto con valores atípicos.

Penaliza uder-prediction (predicción más pequeña que el valor real)
más que una over-prediction (predicción más grande que el valor real).
Outlier Subestimación y sobreestimación

Y = 60 80 90 Y = 1000
X = 67 78 91 X = 1400
RMSE=4,242 RMSLE=0,6466 RMSE=400 RMSLE=0,33
Y = 60 80 90 750 Y = 1000
X = 67 78 91 102 X = 600
RMSE=374,724 RMSLE=1,160 RMSE=400 RMSLE=0,510
22
R2
Coeficiente de determinación, R2 o R-dos
El modelo más simple posible sería predecir siempre el promedio de todas

las muestras. Un valor cercano a 1 indica un modelo con error cercano a
cero, y un valor cercano a cero indica un modelo muy cercano a la línea de
base.
Error común: muchos artículos en la web indican que el rango de R² se
encuentra entre 0 y 1, lo que no es realmente cierto. El valor máximo de R²
es 1, pero el mínimo puede ser menos infinito.
Por ejemplo, considere un modelo realmente malo que predice un valor
altamente negativo para todas las observaciones a pesar de que y_actual es
positivo.
En este caso, R² será menor que 0. Este es un escenario altamente
improbable pero la posibilidad aún existe.
23
Visualización de Errores
24
Predicho vs. Real
25
Predicho vs. Real
Error Cuadrático Medio (MSE) 1.00; Error Absoluto Medio (MAE) 1.00
8
7
y_real
x x_pred
4
y
x
x
3 x
x
x
x
x
x
2 x
0
0 2 4 6 8
Adaptado: https://pt.slideshare.net/YangZhang12/model-evaluation-120042601
26
Predicho vs. Real
8 Error Cuadrático Medio 1.20; Error Absoluto Medio 1.16
7 y_real
x x_pred
4
y
x x x
x x
3 x
x
x
2 x
0
0 2 4 6 8
x
27
Predicho vs. Real
8
Error Cuadrático Medio 0.90; Error Absoluto Medio 0.82
7 y_real
x x_pred
6
4
y
x
3 x
x x
x x
x x
2 x
0
0 2 4 6 8
x
28
Predicho vs. Real
Error Cuadrático Medio (MSE): 100.00 Error Logarítmico Cuadrático Medio (RMSLE) 0.29
3500 y_real
x x_pred
3000
2500
2000
y
1500
x
x
1000 x
x
x
x
500 x
x
x
x
0
0 2 4 6 8
x
29
Predicho vs. Real
Error Cuadrático Medio: 184.39 Error Logarítmico Cuadrático Medio 0.59
3500 y_real
x x_pred
3000
2500
2000
y
1500
x
x
1000 x
x
x x
x
500 x
x
x
0
0 2 4 6 8
x
30
Predicho vs. Real
Error Cuadrático Medio: 796.24 Error Logarítmico Cuadrático Medio 0.47
x
3500 y_real
x x_pred
3000
2500
2000
y
1500
x
1000 x
x
x
x
500 x
x
x
x
0
0 2 4 6 8
x
31
Gracias por la atención prestada
¿Preguntas?
Fuente: https://pixabay.com/photos/
32

Tema2 1826

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema2 1826

Cargado por

Copyright:

Formatos disponibles

Aprendizaje automático y minería de datos

Tema 2. Evaluación de Algoritmos de Regresión

► Variable respuesta (outcome) Y (a.k.a. Dependent variable,

► Vector de N mediciones predictoras llamado X (a.k.a inputs,

► Tenemos datos de entrenamiento (training data)

que son observaciones (ejemplos, instancias) de estás medidas.

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones

Precio = 100000€ + 50000€ x habitaciones

Casa 1 Casa 2 Casa 3 Casa 4 Casa 5

1 habitación 2 habitaciones 3 habitaciones 4 habitaciones 5 habitaciones

Precio = 100000€ + 50000€ x habitaciones +…+…

► ¿Cuál es el valor de X cuando X=4?

► Al f(x) ideal se le conoce como función de regresión

► También esta definida para un vector de X

► Por tanto, que

Se define como la diferencia en valor absoluto entre el valor real

RMSLE robusto con valores atípicos.

Outlier Subestimación y sobreestimación

El modelo más simple posible sería predecir siempre el promedio de todas

También podría gustarte