Está en la página 1de 6

Trabajo Parcial CC442

1. [Chemical Features of Wine] Los datos del archivo wine.csv contiene variables que
representan características químicas del vino, con cada caso siendo un vino diferente
1.1. Implemente un PCA para reducir dimensión sobre estas variables predictoras (calcular
la proporción de la varianza total explicada por cada PC) . Etiquete la PC1

De las 13 variables que tenemos en el conjunto de datos son 2 las componentes principales
que son combinaciones lineales de ellas; las 2 componentes son suficientes para capturar la
mayor variabilidad de la variabilidad total.

Notamos que la PC1 captura alrededor del 36.2% de la variabilidad; asi como también, la PC2
con 19.2% de porcentaje.

1.2. Implemente un SparsePCA para reducir dimensión sobre estas variables predictoras
(calcular la proporción de la varianza total explicada por cada PC). Etiquete la PC1
Con SparsePCA tenemos una reduccion de dimensionalidad de tamaño 2, con una
variabilidad total explicada por ambas de alrededor 55.4%.

2. [Predicting Prices of Used Cars] El archivo ToyotaCorolla.csv contiene datos sobre autos
usados (Toyota Corolla) a la venta a fines del verano de 2004 en los Países Bajos. tiene
1436 registros que contienen detalles sobre 38 atributos, incluidos Price, Age, Kilometers,
HP y otras especificaciones. El objetivo es predecir el precio de un Toyota Corolla usado
basado en sus especificaciones.
2.1. Divida los datos en conjuntos de datos de entrenamiento (70 %) y validación (30 %).
Ejecute una regresión lineal múltiple con la variable de resultado Price y variables
predictoras Age_08_04, KM, Fuel_Type, HP, Automatic, Doors, Quarterly_Tax,
Mfr_Guarantee, Guarantee_Period, Airco, Automatic_airco, CD_Player,
Powered_Windows, Sport_Model, and Tow_Bar. Obtenga histogramas de los errores

Para el conjunto de datos de entrenamiento se tienen los coeficientes estimados y las


estadísticas de regresión.

Para el conjunto de datos de entrenamiento se tienen los coeficientes estimados y las


estadísticas de regresión.
Luego elaboramos el histograma de los errores para el conjunto de datos de validación.

Gráficamente los errores tienden a distribuirse normalmente.

2.2. ¿Cuáles parecen ser las tres o cuatro especificaciones de automóviles más
importantes para predecir el precio del auto?
2.3. Repetir 2.1 y 2.2 con una Regresión lasso. Obtenga histogramas de los errores

Las predicciones del modelo final se alejan en promedio 1280.6333 unidades del valor
real, utilizando solo 15 de los 36 predictores disponibles con la regresion lasso .
2.4. Comente las posibles diferencias encontradas entre ambos tipos de Regresiones

Mediante regresión Lasso se redujo el rmse a diferencia de regresión lineal mco asi
como las demás estadísticas de regresión.

También podría gustarte