Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MCI022 2021 2 Tarea 3
MCI022 2021 2 Tarea 3
Tarea Nro 3
Preprocesamiento, Clasificación y Reducción de dimensión
Profesor: Dr. Walter Gómez Bofill
La Base de Datos desafio1 contiene 189 variables. La última variable es Categórica (representa
etiquetas de clase). La primera columna de la base de datos solo representa el número de la fila y
debe eliminarse. El resto de las variables son continuas. A partir de este conjunto de datos:
Pregunta 1
1. Leer la base de datos original y almacenarla en un objeto DataF rame de Pandas. Eliminar 30
variables explicativas (elegidas aleatoriamente utilizando la semilla asignada) y guardar esta
nueva base de datos de trabajo inicial en un objeto X0 .
2. Preprocesar la base de datos X0 (limpiar y estandarizar) y generar otra nueva base de datos
X1 . ¿Cuántas muestras de la base base datos X0 tenı́an valores reales (diferente de NaN o
Null ) en todas sus variables explicativas?
3. Escoger un algoritmo de reducción de dimensión y aplicarlo sobre el conjunto de datos obtenido
en el item anterior para generar otra nueva base de datos X2 con 50 variables explicativas.
Pregunta 2
Cada estudiante debe desarrollar la tarea en un archivo de Jupyter Notebook (escrito correctamente)
y subir su solución antes del dı́a Jueves 16 de diciembre a las 23:30 hrs. El archivo debe incluir
la explicación de cada paso para ejecutar los códigos. El archivo debe nombrarse de la siguiente
forma: N ombreEstudiante − mci022 − T area3.