Está en la página 1de 2

Control 2

Principios de Machine Learning para Minería


Fecha de entrega: Viernes 19 de Noviembre 2021, a las 7pm, vía mail

¿Qué es la función de pérdida? ¿De qué cosas depende una función de pérdida? De un ejemplo de
función de pérdida simétrica y otra que no sea simétrica (sean como ejemplos escritos o como
funciones matemáticas)

R: La función de pérdida evalúa la desviación entre las predicciones realizadas en un modelo y los
valores reales de las observaciones utilizadas en el entrenamiento. El resultado de esta función
depende de los parámetros o coeficientes de los modelos, estos son usados en la evaluación de la
función de pérdida, mientras menores sean los valores obtenidos, más eficiente es el modelo y su
minimización se realiza ajustando los parámetros o coeficientes de los modelos. Un ejemplo de
función de pérdida simétrica es el error cuadrático medio, que asignan la misma pérdida sin
importar si es que se está sobreestimando o subestimando, mientras que, en las funciones
asimétricas, por ejemplo, el error cuadrático ponderado, se busca aplicar distintas penalizaciones a
diferentes direcciones de la pérdida. Por ejemplo, una función simétrica le daría la misma perdida a
la sobrestimación o subestimación de un mineral que debiese haber ido a stocks, mientras que una
función asimétrica penalizaría con mayor error a la subestimación que enviase a botadero que a la
sobrestimación que enviaría este mineral a planta.

Se cuenta con la siguiente base de datos que posee 3 datos y 2 variables. Se quiere hacer una regresión
en lineal univariada, donde la variable explicativa es la variable 1 y la variable de respuesta es la
variable 2. Los parámetros resultantes de la regresión lineal son los siguientes: y .
Calcule las predicciones entregadas por el modelo para cada uno de los valores de la variable 1, como
también el valor de la función de pérdida para dichos parámetros (considerando que la función de
pérdida se calcula con el error cuadrático medio).

Variable 1 Variable 2
2.2 0,58
4.7 0,84
3.3 0,81

R1:
Evaluar usando variable 1
Variable 1 y
2.2 0.98
4.7 1.98
3.3 1.42
R2:
Función de perdida (Error Cuadrático Medio)

0.16
1.30
0.37
Sumatoria 1.8317
MSE 0.61

Suponga que ahora ud. quiere estandarizar los datos mencionados en la pregunta anterior para
utilizarlos en otro modelo ¿Cuáles serían los valores estandarizados resultantes para dicho caso
(variable 1 y variable 2)?

R3: Estandarización
Variable 1 Variable 2
-0.958 -1.148
1.038 0.680
-0.080 0.469

Se necesita realizar una clasificación entre dos tipos de datos (rojos y verdes), los cuales poseen dos
variables explicativas (x1 y x2) tal como se muestra en la figura inferior. Usted desea aplicar un método
de clasificación para separar ambas categorías. Utilizando para este caso el método de Regresión
Logística, ¿qué consideraciones debiese tener en cuenta para que un modelo como éste pueda tener
un buen resultado?

R: Para obtener un buen resultado debemos considerar lo siguiente:


- Aplicar a casos en donde la variable de salida sea binaria.
- Se debe eliminar el ruido o valores atípicos para la data de entrenamiento.
- Variables de entrada transformados a distribución gaussiana, para exponer mejor relación
lineal.
- Hay que eliminar entradas o variables correlacionadas para evitar sobreajuste en el modelo, es
decir, no debe existir multicolinealidad entre los predictores.

También podría gustarte