Está en la página 1de 7

EVALUACIÓN

Preprocesamiento de Datos

ASIGNATURA: INTRODUCCIÓN AL ANÁLISIS DE DATOS

UNIDAD 2: CICLO DE VIDA DEL DATO


Nombre del estudiante: Christian Farnast Contardo

Asignatura: Introducción al Análisis de datos

Carrera: TENS en analítica de datos

Docente: Diego Cheuquepán Maldonado

Fecha: 07.12.2021.

Preprocesamiento Datos

2
A continuación se presentan las indicaciones que deben considerar para desarrollar la evaluación
correspondiente a la semana 6 unidad 2 de la asignatura Introducción al Análisis de Datos:

Contextualización
En el ciclo de vida de datos la preparación de datos, denominada también preprocesamiento, es una de las
etapas más importantes. Los profesionales de datos dedican cerca del 80% de su tiempo a limpiar, dar forma y
formatear los datos antes de realizar cualquier análisis.

En este taller se utilizará IBM Data Refinery para ejecutar tareas de preparación de datos, usando el conjunto
de datos de los pasajeros del Titanic. Este conjunto de datos tiene 12 columnas de tipo integer, double y string.
Algunas columnas necesitan operaciones de modelado o limpieza para hacer un uso completo de los datos.

De esta manera se trabajará, principalmente, completando los valores faltantes con diferentes enfoques.

Actividad
Descargue el conjunto de datos que se utilizarán en este taller haciendo clic en el icono a continuación.

El conjunto de datos tiene 12 atributos, según se observa en la siguiente descripción:

3
Se pide:

1. Convierta el tipo de columna (30 puntos).


Considere lo siguiente:
- Convierta las columnas Survived, PClass, Sibsp y Parch de tipo string en tipo entero.

R:

2. Complete los valores faltantes (40 puntos).


Considere lo siguiente:

4
- Las columnas que tienen valores perdidos en el conjunto de datos del Titanic son Edad (Age), Cabina
(Cabin) y Embarcado (Embarked). Los métodos que se aplicarán para completar los valores faltantes son
diferentes para cada atributo.
Embarked: Para completar los valores faltantes en el atributo Embarked se llenará con 'S' sabiendo que
los pasajeros realmente embarcaron en Southampton.
Cabin: Para completar los valores faltantes en el atributo Cabin se creará una columna adicional que
tiene un 1 para un pasajero cuya cabina existe, y un 0 si no existe. En relación con el accidente, la cabina
de pasajeros conocida indica que sobrevivieron.
Age: Para completar los valores faltantes en el atributo Age calcular la media de los valores de la
columna y utilízarla para reemplazar los valores nulos.

R:
Embarked antes de completar:

Embarked despues de completar:

Age antes de completar:

5
3. Elimine los valores duplicados (30 puntos).
Considere lo siguiente:
- El conjunto de datos del Titanic no tiene información confidencial que deba ser única, excepto la
identificación del pasajero.
- Elimine los valores duplicados del conjunto de datos usando el atributo de identificación del pasajero
PassengerId.
Paso 1:

6
Paso 2:

R:

También podría gustarte