Está en la página 1de 2

UNIVERSIDAD DEL VALLE – SEDE TULUÁ

Programa Académico de Ingeniería de Sistemas


Curso de Descubrimiento de Conocimiento en Bases de Datos
PRÁCTICA DE PREPROCESAMIENTO DE DATOS

1. OBJETIVO:
Desarrollar habilidades en el análisis y preprocesamiento de los datos en un proceso de
Minería de Datos.

2. EJERCICIO:
Utilizando el dataset SIVIGILA (Sistema-de-Vigilancia-Epidemiologica), cuya ficha técnica se
presenta a continuación:

Resolver las siguientes tareas:

 Analizar e identificar Outliers usando el método de la línea de control.


 Describir una estrategia para corregir los outliers y aplicarla.
 Analizar los Datos missing y describir la estrategia para imputar la información faltante y
aplicarla.
 Discretizar el atributo edad basado en amplitud
 Determinar qué atributos pueden ser descartados y el motivo de su decisión.
Tenga en cuenta el tipo y significado de los atributos:

 Codigoevento: (Número) – Contiene el código del evento (o motivo) de consulta o


vigilancia.

 Fechanotificacion: (Texto simple) – Fecha en que se reporta el evento

 semananotificacion : (Número) – Número de la seemana del año en que se reporta el


evento

 anonotificacion: (Número) – Año en que se reporta el evento

 codigoips: (Número) – Código de la institución que prestó la atención del evento.

 Subindiceips (Número) – Categoría de la ips

 Edad: (Número) Edad del paciente reportado

 Unidaddemedidaedad: (Número) – Indica si la edad está expresada en años (1), meses


(2) o días (3).

 Sexo: (Texto simple) – Indica el género del paciente: M – Masculno o F – Femenino

 nombredelevento: (Texto simple) – Descripción del evento (motivo de consulta).

3. REFERENCIA Y CONSIDERACIONES:

 Los datos son tomados de https://www.datos.gov.co/Salud-y-Protecci-n-Social

 Algunos valores fueron cambiados para facilitar el cumplimiento del objetivo a través
de los ejercicios propuestos.

También podría gustarte