Está en la página 1de 1

MCI-022 Análisis cientı́fico de datos Segundo Semestre 2021

Tarea Nro 3
Preprocesamiento, Clasificación y Reducción de dimensión
Profesor: Dr. Walter Gómez Bofill

La Base de Datos desafio1 contiene 189 variables. La última variable es Categórica (representa
etiquetas de clase). La primera columna de la base de datos solo representa el número de la fila y
debe eliminarse. El resto de las variables son continuas. A partir de este conjunto de datos:

Pregunta 1

Reducir el número de variables explicativas a 50. Para esto:

1. Leer la base de datos original y almacenarla en un objeto DataF rame de Pandas. Eliminar 30
variables explicativas (elegidas aleatoriamente utilizando la semilla asignada) y guardar esta
nueva base de datos de trabajo inicial en un objeto X0 .
2. Preprocesar la base de datos X0 (limpiar y estandarizar) y generar otra nueva base de datos
X1 . ¿Cuántas muestras de la base base datos X0 tenı́an valores reales (diferente de NaN o
Null ) en todas sus variables explicativas?
3. Escoger un algoritmo de reducción de dimensión y aplicarlo sobre el conjunto de datos obtenido
en el item anterior para generar otra nueva base de datos X2 con 50 variables explicativas.

Pregunta 2

Aplicar un algoritmo de clasificación a las matrices X1 y X2 obtenidas en la pregunta anterior.


Ajustar dos Predictores (uno para cada conjunto de datos). Para esto:

1. Dividir los conjuntos de datos (matrices X 0 s) en un conjunto de entrenamiento y un conjunto


de testeo (usar una semilla común para generar la separación).
2. Elegir un algoritmo de clasificación y ajustar un Predictor para cada matriz Xi , i ∈ {1, 2}, a
partir de los conjuntos de datos obtenidos en el item anterior.
3. Indique el número de datos mal clasificados por cada predictor en el conjunto de entrenamiento
y de testeo correspondiente. ¿Qué predictor tiene mejor resultado en el entrenamiento, y en el
testeo? A partir de lo observado, indique si hay evidencias de overfitting o underfitting.

Cada estudiante debe desarrollar la tarea en un archivo de Jupyter Notebook (escrito correctamente)
y subir su solución antes del dı́a Jueves 16 de diciembre a las 23:30 hrs. El archivo debe incluir
la explicación de cada paso para ejecutar los códigos. El archivo debe nombrarse de la siguiente
forma: N ombreEstudiante − mci022 − T area3.

También podría gustarte