Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5 Calidad Datos - 2
5 Calidad Datos - 2
Ivonne Rodríguez
UNIDAD 2: DESCUBRIMIENTO DE CONOCIMIENTO EN
BASES DE DATOS (KDD)
Proceso KDD
Calidad de Datos
CASO
Interno Externo
Institución
gubernamental
Tipos de datos
Formatos
DWH
data set
recopilar los datos
data set
Formas de
h"p://catalogo.datosabiertos.gob.ec/
Datos abiertos de una
oficina de estadís*cas
nacionales (INEC)
5
h"p://catalogo.datosabiertos.gob.ec/
6
- Metadatos estadís+cos para el aseguramiento de la calidad de los datos -
h"p://catalogo.datosabiertos.gob.ec/
7
8
DQ • Introducción
• Dimensiones
• Métricas
• Vigencia del paradigma “GIGO” (Garbage in, garbage out )
malos datos, por mucho que tengamos buenos modelos analí=cos, no podremos obtener buenos
resultados. (Rossi, 2015)
¿Qué es?
Exac:tud, comple:tud,
Ø Dimensiones /caracterís/cas consistencia, y dimensiones
(ISO/IEC 25012, 2008) relacionadas con :empo (entre
(Ba2ni & Scannapieco, 2006) las más comunes)
DQ es….
“grado en que las caracterís0cas de los datos sa0sfacen las necesidades
expresadas e implícitas cuando se u0lizan en condiciones especificadas”
(ISO/IEC 25012, 2008)
Minería
de datos
Estadís8ca y Sistemas de
análisis de datos ges8ón de
estadís8cos Información
DQ
Integración Representación
de datos del
conocimiento
Big Data
13
ACTIVIDAD: Individual
• SQLServer
• PowerDesigner
• Descarga e Instalación de SSIS
• RapidMiner