Está en la página 1de 17

DATA QUALITY (DQ)

Ivonne Rodríguez
UNIDAD 2: DESCUBRIMIENTO DE CONOCIMIENTO EN
BASES DE DATOS (KDD)

Proceso KDD

Calidad de Datos
CASO
Interno Externo
Institución
gubernamental

Datos corpora*vos Difusión

Tipos de datos
Formatos

DWH

data set
recopilar los datos

data set
Formas de
h"p://catalogo.datosabiertos.gob.ec/
Datos abiertos de una
oficina de estadís*cas
nacionales (INEC)

DDI -> .xml

5
h"p://catalogo.datosabiertos.gob.ec/

Datos abiertos de una


oficina de estadís*cas
nacionales (INEC)
Metadatos .xls

6
- Metadatos estadís+cos para el aseguramiento de la calidad de los datos -
h"p://catalogo.datosabiertos.gob.ec/

Datos abiertos de una


oficina de estadís*cas
nacionales (INEC)

Conjunto de datos .csv


- Microdato -

7
8
DQ • Introducción
• Dimensiones
• Métricas
• Vigencia del paradigma “GIGO” (Garbage in, garbage out )
malos datos, por mucho que tengamos buenos modelos analí=cos, no podremos obtener buenos
resultados. (Rossi, 2015)

Sin calidad no hay


análisis

• Ar#culo de Thomas C. Redman “Data Quality Management Past, Present, and


Future: Towards a Management System for Data” (Redman, 2013)
“… las empresas que han logrado y sostenido mejoras en calidad de datos, son aquellas que han enfocado sus esfuerzos
en la ges:ón de calidad de los datos en puntos claves como la creación (del dato o conjunto de datos), y aplicaron
consistentemente técnicas rela:vamente sencillas para encontrar y eliminar las causas fundamentales de error “
Calidad de Datos
(DQ) Propósito de uso (consumidor)
(Juran & Godfrey, 1999)
(Wang & Strong, 1996)
“apto/adecuado para el uso"
Ø “Fitness for use" énfasis
Correc:tud (libres de defectos)
(Redman, 2013)

¿Qué es?

Exac:tud, comple:tud,
Ø Dimensiones /caracterís/cas consistencia, y dimensiones
(ISO/IEC 25012, 2008) relacionadas con :empo (entre
(Ba2ni & Scannapieco, 2006) las más comunes)
DQ es….
“grado en que las caracterís0cas de los datos sa0sfacen las necesidades
expresadas e implícitas cuando se u0lizan en condiciones especificadas”
(ISO/IEC 25012, 2008)

La calidad de datos es un concepto


multidimensional y relativo al contexto en el cual
se aplica
Áreas de inves+gación relacionadas con la calidad de datos

Minería
de datos

Estadís8ca y Sistemas de
análisis de datos ges8ón de
estadís8cos Información
DQ
Integración Representación
de datos del
conocimiento
Big Data

Fuente: (BaCni & Scannapieco, 2016)

13
ACTIVIDAD: Individual

1: Instalación de las herramientas de So7ware:

• SQLServer
• PowerDesigner
• Descarga e Instalación de SSIS

• RapidMiner

También podría gustarte