Minería de Datos Modulo 3

ata Warehouse
Arquitectyura y
diseño Construcción Poblamiento Optimización
Metodología de Inmon Tipos de usuarios Limpieza de los datos
Metodología de Kimball Redundancia de

Metodología de limpieza
información
Estructura del data Alcances del data

warehouse Selección de los atributos
warehouse
Listar los atributos
Discretización de los
atributos
Índice
Introducción............................................................................................................................................................................................................ 4
Data Warehouse.................................................................................................................................................................................................... 5
1 Arquitectura y Diseño ............................................................................................................................................................................... 6
1.1 Metodología de Inmon ...............................................................................................................................................6
1.2 Metodología de Kimball .............................................................................................................................................6
1.3 Estructura del Data Warehouse ................................................................................................................................. 7
1.3.1 Estructura Operacional del Data Warehouse ........................................................................................................ 8
2 Construcción del Data Warehouse .................................................................................................................................................... 11
2.1 Tipo de usuarios finales ............................................................................................................................................11
2.2 Redundancia de información ................................................................................................................................... 12
2.3 Alcance del Data Warehouse ................................................................................................................................... 12
3 Poblamiento del Data Warehouse ..................................................................................................................................................... 13
3.1 Poblamiento por acumulación simple:.....................................................................................................................13
3.2 Poblamiento por Rolling: .......................................................................................................................................... 13
4 Optimización del Data Warehouse.................................................................................................................................................... 14
4.1 Limpieza de los datos ...............................................................................................................................................14
4.2 Metodologías de limpieza de los datos ....................................................................................................................17
4.2.1 Fases de la limpieza de los datos .........................................................................................................................17
4.3 Selección de atributos ..............................................................................................................................................18
4.4 Listar los atributos ....................................................................................................................................................19
4.5 Discretización de los atributos ................................................................................................................................. 20
4.6 Tipos de discretización .............................................................................................................................................21
4.6.1 Ciclo de Discretización ......................................................................................................................................... 22
Cierre ....................................................................................................................................................................................................................... 23
[Escriba texto]
Resultado de aprendizaje
Construye almacenes de datos de manera autónoma, para responder a necesidades específicas de

una organización en un contexto de análisis de datos.
Introducción
En el pasado módulo 2 analizamos los distintos componentes del almacén de datos en el ámbito de la
teoría de inteligencia de negocios, en este módulo 3 conoceremos el almacén de datos más importante
en este ámbito, llamado Data Warehouse, el cual es un elemento tecnológico importante para el
desarrollo y manejo de los datos. Su construcción se origina a partir de la optimización de los datos y el
posterior análisis de estos por parte de las empresas para mejorar sus procesos o resultados. La función
principal de este almacén de datos es servir como base de los sistemas transaccionales de la empresa, lo
que se refleja en la integración de las diferentes fuentes de datos (ERP, archivos planos, bases de datos,
etc.).
El Data Warehouse es un lugar donde es almacenada la información que resulta del procesamiento de
los datos diarios e históricos de una empresa, para poder lograr un mejor acceso a esta información, de
una forma más oportuna. En otras palabras, el Data Warehouse es un gran repositorio de datos, que nos
permite un libre, rápido y efectivo acceso a los datos y por otra parte la posibilidad infinita y totalmente
flexible de manipulación de grandes cantidades de datos de fuentes de distintas.
Estos sistemas de Data Warehouse, no solamente almacenan información, además cumple un rol muy
importante dentro de la integración de los diversos sistemas o fuentes de origen, de donde se toman
los datos, es capaz de seleccionarlos, historizarlos, limpiarlos y almacenarlos para la planificación,
control y toma de decisiones estratégicas a muy alto nivel. En este módulo (módulo 3) se expondrá el
Data Warehouse, desde las distintas visiones de este almacén de datos.
En la primera parte se expone el diseño y arquitectura del Data Warehouse, pasando además por las
distintas metodologías y estructuras. En la segunda parte se expone la forma de construir el Data
Warehouse, donde además revisamos temas tales como; tipos de usuarios, manejo de la redundancia de
la información y el alcance del Data Warehouse, que sin duda es muy importante para conocer los
límites de nuestro proyecto y finalmente la optimización del Data Warehouse, con el objetivo de
conocer respecto a la limpieza y las distintas metodologías de limpieza de los datos, ¿cómo y cuál es la
mejor forma de seleccionar los atributos? Y por último el proceso de discretización de estos, todo lo
anterior, con el objetivo de construir almacenes de datos de manera autónoma, para responder a
necesidades específicas de una organización en un contexto de análisis de datos.
Pág. 4
[Escriba texto]
Data Warehouse
Un Data Warehouse es un almacén, de datos en el que se integran de una a varias fuentes de datos.
Estas fuentes de datos pueden llegar a ser hetero u homo géneas y algunos ejemplos de fuentes de
datos pueden ser; bases de datos, archivos planos como CSV o documentos Excel, además de sistemas
transaccionales como los ERP, CRM, etc. Estos almacenes de datos poseen datos actuales e históricos
cuyo objetivo es ser explotados para poder obtener conocimiento mediante la analítica y los distintos
procesos orientados a la inteligencia de negocios.
[Escriba texto]
1 Arquitectura y Diseño
Actualmente existen dos arquitecturas muy importantes dentro del diseño inicial de un Data Warehouse.
Ambas metodologías tienen características propias que hacen que una y otra sean totalmente válidas en
inteligencia de negocio. Estas metodologías son la metodología Inmon y la metodología de Kimball.
1.1 Metodología de Inmon

Inmon plantea la importancia de la transferencia de información desde los diferentes sistemas
transaccionales que poseen las organizaciones, a través de los procesos ETL, donde son cargados,
validados y consolidados en el Data Warehouse corporativo. En este Data Warehouse corporativo
además de los datos existen los metadatos que sirven para documentar toda la información contenida
en el Data Warehouse. Además, propone que su modelo tiene ciertas características, las cuales son:
• Datos orientados a temas: los datos en el almacén de datos se organizan de manera de que los
elementos queden unidos entre sí cuando los datos tienen cierta conexión.
• Datos integrados: el almacén de datos debe poseer datos desde todas las áreas y sistemas de la
empresa.
• No volátil: este término alude a los datos previamente almacenados en el Data Warehouse, en
este caso, estos datos se deben mantener siempre, aun así, se añadan o actualicen nuevos datos,
por otra parte, es importante destacar que los datos alojados son solamente de lectura, de
modo de tener esta información disponible para realizar análisis histórico de datos.
• Variante en el tiempo: todos los cambios que ocurren a través del tiempo se deben almacenar y
registrar, de modo de tener un inventario de estos cambios para poder generar informes que
muestren estas variaciones.
1.2 Metodología de Kimball

En comparación con el modelo anterior, una de las grandes diferencias es que la arquitectura del
modelo de Kimball no normaliza la información, o dicho de otra manera, la información se encuentra
desnormalizada.
Esta metodología también se centra en el denominado ciclo de vida dimensional del negocio, este ciclo
se basa en cuatro puntos básicos fundamentales, los cuales son:
• Proceso centrado en el negocio: no se puede dejar de lado el negocio en todo el proceso. Es
muy importante concentrarse en identificar todos los requerimientos del negocio y utilizar estos
requerimientos para desarrollar sólidas relaciones con el negocio.
[Escriba texto]
• Infraestructura adecuada de información: cuando utilizamos la metodología de Kimball en el

negocio, debemos diseñar una base de datos integrada, fácil de utilizar, única y de alta
capacidad para cubrir todos los requerimientos del negocio.
• Incrementos significativos: cada una de las cargas o incrementos deben aportar mucho valor a
los procesos que se están actualizando.
• Solución completa: es importante entregar todos los elementos que los usuarios del
negocio van a necesitar al realizar inteligencia de negocios.
1.3 Estructura del Data Warehouse

La estructura del Data Warehouse surge a partir de diferentes niveles de detalles. Si analizamos su
estructura, podemos visualizar e identificar una gran cantidad de datos históricos y actuales, en donde
por un lado encontramos datos con un alto nivel de resumen y por otro lado, también podemos
encontrar datos ligeramente resumidos. La estructura de los niveles antes mencionados inicia en la
estructura operacional del Data Warehouse y normalmente está asociada con el nivel de granularidad
o detalle que podría llegar a alcanzar un dato, por ejemplo, en el caso de los datos históricos, presentan
más integración y son a la vez mas sintéticos, por otra parte, los datos más actuales, son muchas veces
más voluminosos y menos granulados, lo que significa que presentan menos detalle. Esto que
acabamos de mencionar, respecto a la granularidad, es uno de los aspectos más importantes del Data
Warehouse, sobre todo cuando se utiliza metodologías como la de Inmon.
Además de la granularidad de un dato, también es muy importante mencionar que en la estructura del
Data Warehouse se incluyen metadatos o datos que describen a los datos, dicho de otra forma, toda la
información que le dé sentido, contenido y coherencia a los datos y que mejoren la posibilidad de hacer
análisis. Inmon representaba lo anterior de muy buena forma con el diseño representado en la imagen
1.
[Escriba texto]
Figura 1: estructura de Data Warehouse a partir de la representación de Inmon. Fuente: Gorbea S. (2017) Diseño de un
Data Warehouse para medir el desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica:
archivonomía, bibliotecología e información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
ib.unam.mx/ib/index.php/ib/article/view/57828/51839
1.3.1 Estructura Operacional del Data Warehouse

En la anterior imagen (imagen1) observamos parte de la estructura generalizada del Data
Warehouse, sin embargo, también es importante conocer la organización relacional general de
éste.
Esta organización relacional muestra como la información fue integrada anteriormente desde sus
diversas fuentes de datos, esta información es muy útil en la construcción de un Data Warehouse
ya que determinará lo robusto o débil del diseño, considerando los contenidos del módulo
anterior de los modelos Inmon y Kimbal sobre la recuperación de hechos, dimensiones y
atributos.
En la imagen 2, podemos observar las relaciones que de forma implícita se integran entre los
distintos elementos que están presentes en esta base de datos operacional. En este caso, los
datos que se obtienen respecto a proyectos de investigación, RRHH y datos institucionales,
comparten ciertos elementos, como por ejemplo las tablas o dimensiones comunes, que se
relacionan entre sí a partir de distintas conexiones, que se encuentran identificadas en el atributo
con el nombre ID.
[Escriba texto]
Figura 2 : estructura de una base de datos operacional. Fuente: Gorbea S. (2017) Diseño de un Data Warehouse para
medir el desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica: archivonomía, bibliotecología
e información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
Como parte fundamental del diseño, también tenemos elementos como los atributos (ya los
hemos nombrado anteriormente formando parte de cada una de las tablas de dimensiones o en
las relaciones que se dan al interior del flujo de los procesos) estos atributos los podemos
identificar y adoptar según alguno de los siguientes tipos:
• Atributos normales: corresponden comúnmente a valores estadísticos que tienen
pertenencia al usuario, dentro de este tipo de atributo podemos encontrar: nombre,
género, teléfono, dirección, apellidos, etc.
• Atributos transaccionales: corresponden a valores que nos permitan el registrar

transacciones propias del usuario. El mejor ejemplo para este tipo de atributo tiene que
ver con la transacción financiera del usuario, con valores como, por ejemplo: valor, IVA,
fecha de orden, ID, etc.
• Atributos o Valores Calculados: valores que toman el proceso de alguna actividad o el

resultado de esta actividad, también estos valores pueden identificar el resultado de la
actividad de nuestro negocio, por ejemplo, el cálculo de la ganancia de una venta.
Por otra parte y también mencionado más arriba, nos encontramos con hechos y dimensiones,
los primeros (hechos) representan fielmente el proceso del negocio y a nivel más de diseño,
representa una tabla que sirve para guardar cada uno de los atributos, por otra parte, cuando
hablamos de dimensiones, estamos hablando de componentes que nos sirven para recoger las
características de análisis de un hecho, ejemplo de esto, podría ser las características de una
[Escriba texto]
venta, donde tenemos, entre otros, un análisis del día de venta, el trabajador de esta venta, el
cliente, el producto comercializado, etc.
En las imágenes 3 y 4 podemos observar los atributos de cada una de las dimensiones y
relaciones que se dan según los procesos.
Figura 3: estructura con atributos proceso institución. Fuente: Gorbea S. (2017) Diseño de un Data Warehouse para
medir el desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica: archivonomía, bibliotecología
e información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
Figura 4: estructura con atributos proceso RRHH. Fuente: Gorbea S. (2017) Diseño de un Data Warehouse para medir el
desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica: archivonomía, bibliotecología e
información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
[Escriba texto]
Los esquemas mostrados anteriormente en las imágenes 3 y 4, nos permiten observar las tablas
de hecho y dimensiones que forman parte de la base de datos relacional, cada una de las tablas
que se observan, están compuestas por dos secciones, una superior, que contiene todos los
campos que forman parte de la Primary key, (concepto que veremos más adelante), y por otro
lado la estructura inferior, contiene los elementos o atributos.
Respecto a las distintas interacciones que observamos en los esquemas y que están
representados por “líneas” se llevan a cabo a través de llaves llamadas Foreign Key o llaves
foráneas, concepto que veremos a continuación.
• Llave Primaria o Primary Key: es un atributo específico o conjunto de ellos que nos
sirve para hacer una identificación única del registro, ningún otro registro podría llegar a
tener esa Primary Key, por lo tanto, no puede haber duplicados de este mismo atributo o
valor.
• Llave Foránea o Foreign Key: es una limitación que sirve como referencia entre dos
tablas, esta llave foránea se encarga de identificar una columna o grupo de columnas en
alguna tabla que se refiera a esta misma columna o grupo de columna en otra tabla.
Saber más
¿Qué es un Data Warehouse?, video resumen.

https://www.youtube.com/watch?v=jFsRdTcljeU
2 Construcción del Data Warehouse

Actualmente existen variadas maneras para la construcción de un Data Warehouse, todo dependiendo
del tipo de organización para la que lo estemos construyendo, sin embargo, hay tres conceptos que
deben ser considerados en toda construcción, las cuales son:
2.1 Tipo de usuarios finales

Uno de los puntos más importantes al momento de realizar el Data Warehouse es el usuario final, es
importante considerar que cada vez hay una más amplia variedad de usuarios y que estos, nos van a
definir cómo será la estructura de nuestro Data Warehouse, los tipos de usuarios son variados y en
general podríamos encontrar tres tipos: Gerencia y ejecutivos de alto nivel, parte analista (analista de
información, de negocios, financieros, etc.) y usuarios de tipo soporte.
[Escriba texto]
2.2 Redundancia de información

Es importante que la redundancia de información sea considerada por las empresas al momento de
construir un Data Warehouse, existen distintos tipos de redundancia de datos, que veremos más
adelante.
2.3 Alcance del Data Warehouse

Respecto al alcance, es importante mencionar que un Data Warehouse podría llegar a ser tan amplio
como la información que tenga la empresa siempre es importante considerar factores como los valores,
cantidad de información y utilidad del Data Warehouse, este tipo de componentes podrían ser
determinantes en la creación de un gran Data Warehouse o uno pequeño.
La construcción del Data Warehouse, parte con la selección del modelo que queramos utilizar, entre
ellos tenemos los anteriores modelos Kimball e Inmon, recordar que ambos tienen características
específicas y se utilizan dependiendo de la situación de empresa que tengamos.
Posterior al modelo que utilizaremos, obtendremos el modelo dimensional, donde tendremos

identificado el hecho o proceso, en las distintas dimensiones que acompañan al hecho o al proceso y
por último encontraremos los distintos atributos, dependientes de las dimensiones.
Figura 5: modelo dimensional obtenido a partir del proceso de Venta. Fuente: elaboración propia.
La imagen 4, corresponde al modelo dimensional obtenido a partir del proceso de ventas de una
empresa, en este caso, observamos la tabla de hecho “Venta”, acompañada de cuatro dimensiones
(Sucursal, Producto, Cliente, Tiempo) y que a su vez contiene los diferentes atributos que acompañan las
dimensiones.
La construcción de este modelo dimensional lo realizaremos en SQL Developer y esta construcción se

puede realizar de dos maneras, a través de la interfaz de SQL o a través de la construcción de una Query,
estas construcciones las veremos más adelante en la demostración de este módulo.
[Escriba texto]
3 Poblamiento del Data Warehouse

Para realizar el proceso de poblamiento del Data Warehouse, es fundamental la movida de bloques de
datos, la mayoría de las veces desde varios sistemas operativos, archivos planos, ERP o bases de datos,
todo esto mediante procesos inteligentes e informatizados, que normalmente se ejecutan como
procesos, en horarios no hábiles para no interrumpir el funcionamiento del sistema.
Todo lo anterior descrito, lo obtenemos con los procesos de ETL, estos procesos se pueden construir
utilizando distintas herramientas o softwares del mercado, algunos gratuitos y otros pagados. Al
momento de construir los sistemas que nos servirán para poblar el Data Warehouse, es importante
considerar la opción de que los sistemas permitan el posible crecimiento y evolución de este, otorgando
la posibilidad de escalabilidad y soporte efectivo del sistema, las grandes cantidades de datos y las
posibles consultas complejas que podríamos llegar a realizar.
Figura 6: ejemplo poblamiento incremental Data Warehouse. Fuente: elaboración propia.
3.1 Poblamiento por acumulación simple:

Este tipo de poblamiento consiste en realizar un resumen de todas las transacciones ejecutadas en un
periodo de tiempo específico y antes seleccionado por el administrador, la data que sale a partir de este
período seleccionado se transporta como una única transacción hacia el Data Warehouse.
3.2 Poblamiento por Rolling:

Este tipo de poblamiento es altamente recomendado para mantener niveles altos de granularidad de la
información, puesto que Rolling almacena información resumida a distintos niveles, por ejemplo; totales
diarios, totales semanales, totales mensuales, etc.
Este poblamiento, interactúa directamente con la base de datos de destino, lo que significa que al
realizar este proceso, se aplica en la data de salida todas las restricciones o reglas de negocio que se
aplican por ejemplo en ETL.
[Escriba texto]
4 Optimización del Data Warehouse

Este proceso se suele confundir con la fase de Transformación de ETL, es un proceso totalmente aparte,
sin embargo, esto no lo hace un proceso menos importante, la optimización de la información la
realizamos antes de la ETL, con el objetivo de eliminar o reducir la posible pérdida de tiempo y de
recursos (gastos, errores, etc.) que podamos llegar a realizar cuando comenzamos con la construcción
del Data Warehouse.
4.1 Limpieza de los datos

Este proceso implica la capacidad de observar más respecto a los problemas de los datos que
podríamos llegar a tener al momento de construir el Data Warehouse, actualmente existen varias
metodologías para limpiar la data, dependiendo de los distintos problemas que podamos llegar a tener.
Este proceso que también se denomina data Cleansing o Scrubbing, es algo totalmente necesario para
que los datos que nos llegan desde los sistemas transaccionales tengan una calidad adecuada para
posteriormente realizar el proceso de analítica.
Normalmente cuando tenemos fuentes de datos, nos encontramos con que los datos están sucios,
pueden poseer ciertos errores o discrepancias entre los diferentes datos que podamos tener. Ejemplo de
esto, podría ser la letra ñ o podríamos encontrar acentos con codificaciones diferentes entre las fuentes
de información. Algunas de las tareas o procesos más comunes de la limpieza de los datos son:
• Igualar formatos: un problema muy frecuente es que tengamos formatos diferentes en dos
bases de datos o fuentes de información distintas, por ejemplo, que de una base de datos una
fecha venga como número y de otra fuente de dato venga como fecha, debemos ser capaces de
unificar los formatos y mantener el que creamos será útil más adelante.
Figura 7: ejemplo igualar formatos. Fuente: elaboración propia.

[Escriba texto]
• Descartar campos: este proceso nos sirve principalmente para disminuir los tamaños de las
muestras, muchas veces cuando acudimos a las fuentes de datos, nos encontramos con xx
cantidades de filas y xx cantidades de columnas, las que en total dan un número xx de peso de
nuestra data. El proceso de descartar campos nos disminuye de gran manera ese xx de peso de
nuestra data, ya que solamente seleccionamos lo que nos servirá y el resto lo dejamos.
Figura 8: ejemplo descartar campos. Fuente: elaboración propia.
• Corrección de errores ortográficos: este proceso podemos realizarlo o no como parte de la

limpieza de datos, si no lo realizamos asumimos las posibles faltas ortográficas y debemos tener
en consideración que más adelante trabajaremos con la data de esa forma. Si realizamos el
proceso de corrección de errores ortográficos, podríamos, por ejemplo, más adelante, unificar
conceptos, realizar conteos con información única, etc.
• Dar formato a fechas: en este tipo de limpieza consideramos los distintos formatos posibles de
las fechas, no es lo mismo trabajar con dd/mm/aaaa que con aaaa/dd/mm, se deben unificar los
formatos, como ya lo mencionamos más arriba.
Regla de Negocio: Formato fecha MM/DD/AAA
25 Febrero 1996 02 / 25 / 1996

Figura 9: ejemplo dar formato a fechas. Fuente: elaboración propia.
[Escriba texto]
• Eliminar columnas duplicadas: para eliminar la redundancia de la información, es importante

realizar la eliminación de las columnas duplicadas, esto siempre y cuando contenga la misma
información para no generar datos duplicados.
Figura 10: ejemplo “eliminar columnas duplicadas”. Fuente: elaboración propia.
• Identificar Dimensiones que Cambian con el Tiempo: Es importante identificar cada una de
las dimensiones que a través del tiempo podrían llegar a variar, esto con el objetivo de identificar
estos datos, para posteriormente tratarlo como valores no incrementales.
Figura 11: ejemplo “identificar dimensiones que cambian con el tiempo”. Fuente: elaboración propia.
[Escriba texto]
4.2 Metodologías de limpieza de los datos

Dos de las metodologías más utilizadas a partir de Scrubbing son:
• Metodología a partir de problemas de una fuente: esta metodología tiene que ver con
problemas relacionado con datos que posean falta de integridad o precariedad, lo que tiene que
ver con datos sin sentido, con poco contexto o vacíos.
• Metodología a partir de problemas de diversas fuentes: esta metodología tiene que ver con
los problemas relacionados con conflictos de estructuras, o duplicidad, contradicciones o
posibles inconsistencias relacionados con la data.
4.2.1 Fases de la limpieza de los datos

• Análisis de la data: este primer análisis lo realizamos con el fin de determinar e identificar
los errores, inconsistencias y problemas que deberían ser eliminados de forma oportuna. Esta
fase es necesario que se realice de forma manual, solo de una muestra, ya que cuando
tenemos grandes cantidades de información resulta difícil realizar un análisis manual.
• Definición de reglas de mapeo o reglas de negocio: esta segunda fase, está fundamentada
con prever los problemas relacionados con la calidad de los datos. Cuando tenemos
problemas con la calidad, es importante determinar reglas de negocio que nos van a servir
para establecer ciertos parámetros que estructuran los datos, de modo de realizar mejoras en
la calidad de estos.
• Verificación: luego de analizar la data y establecer reglas de negocio, es importante realizar

la verificación de esto. posteriormente, se hace válido y necesario testear y evaluar esta data
y reglas del negocio, para que no existan errores.
[Escriba texto]
4.3 Selección de atributos

Como parte fundamental del diseño, también tenemos elementos como los atributos, ya los hemos
nombrado anteriormente formando parte de cada una de las tablas de dimensiones o en las relaciones
que se dan al interior del flujo de los procesos. Todas las dimensiones poseen atributos, que son rasgos,
características, cualidades o modificadores. El atributo es una pequeña parte de información que no se
elimina ni se puede descomponer.
Para poder seleccionar los atributos es importante reconocer antes las dimensiones, después de
determinarlas nos debemos preguntar ¿qué características son fundamentales para cada una de las
dimensiones que tengo?, por ejemplo, una dimensión usuario, probablemente va a contener
información relacionada al usuario, como, por ejemplo, nombre, apellidos, sexo, dirección, teléfono, en
fin. Cada una de las características nombradas anteriormente para el usuario, se denominan atributos.
Alguna de las características para la selección de los atributos es definir por ciertas cualidades, como,
por ejemplo:
• Son o no significativos: es muy importante que los atributos sean lo más útil para los usuarios
de mi Data Warehouse.
• No deben ser derivados, deben ser directos: las características no deben ser características de
características, es importante que no existan derivados de atributos que ya existen.
En primera instancia, estos derivados no deberían estar presentes, sin embargo, más adelante
podemos añadir esos derivados en nuestras tablas.
• Atributos no se deben descomponer: una de las características de los atributos es que tengan
valores individualizados, no pueden ser compuestos, ya que en este caso los valores compuestos
deberían ser un atributo individual.
• Atributos del mismo tipo: es importante tener atributos que se relacionen con otros atributos,
por ejemplo, si necesitáramos solamente valores de tipo Fecha en el nacimiento de una persona,
no deberíamos tener nada más que fechas, no valores, ni números.
[Escriba texto]
4.4 Listar los atributos

Esta técnica se realiza para asegurar todos los posibles casos que pueda tener el atributo, esta técnica
no tiene mucho complemento, solamente es una metodología para tener un orden de nuestras
dimensiones y atributos (ver imagen 5)
Figura 12: atributos de proceso directorio telefónico. Fuente: IBM Knowledge center (s/f) recuperado
de https://www.ibm.com/support/knowledgecenter/es/SSGU8G_11.50.0/com.ibm.ddi.doc/ddi010.gif
Otra manera de listar los atributos es la que vemos en la imagen 6, que a continuación se presenta.
Dimensiones Atributos
d_f_ingreso año, mes, semana, día, hora, minuto, segundo
d_f_alta año, mes, semana, día, hora, minuto, segundo
d_f_adm Descripción
d_t_adm_posterior Descripción
d_t_alta Descripción
d_f_urg_post año, mes, semana, día, hora, minuto, segundo
d_f_hosp_ant año, mes, semana, día, hora, minuto, segundo
d_f_hosp_post año, mes, semana, día, hora, minuto, segundo
d_GRD Descripción
d_servicio Descripción
d_diagnostico Descripción
d_sexo Descripción
d_tipo_ep Descripción
Figura 13: Atributos relacionado con dimensiones. Fuente: Elaboración Propia.
[Escriba texto]
4.5 Discretización de los atributos

La discretización es un proceso mediante el cual los atributos son incluidos en el depósito para que ese
atributo tenga un número limitado posible de estados. Se puede llegar a discretizar tanto cadenas de
valores como columnas numéricas.
En este caso y como nuestra materia está relacionada con la minería de datos, se realiza la discretización
de los datos a partir del cubo OLAP, el cual, a través de una serie de algoritmos, es capaz de calcular los
depósitos que serán necesarios para almacenar todos los datos o atributos.
Esta metodología de discretización está hecha principalmente cuando tenemos variables cuantitativas
desde una columna o una cadena y queremos transformarla en valores de clase o variables cualitativas
ordinales.
Figura 14: ejemplo de discretización (conversión cuantitativo a cualitativo). Fuente: elaboración propia.
[Escriba texto]
4.6 Tipos de discretización

• Discretización Top Down: inicia la tabla con una lista vacía de Split-Points o puntos de corte y que
permite agregar nuevos puntos a nuestra tabla, realizando además una separación entre cada uno
de los intervalos.
• Discretización Buttom Up: inicia la tabla con todos los valores de la variable como valores
continuos y a la vez elimina alguno de estos valores de la tabla concatenando los intervalos.
• Discretización Dinámica: discretiza los atributos continuos durante el proceso de clasificación de
los datos.
• Discretización estática: discretiza los atributos continuos antes del proceso de clasificación de los
datos.
• Discretización Global: utiliza todo el espacio para el proceso de discretización. Este tipo de
discretización es más eficiente, ya que se realiza este proceso durante todo el proceso de minería de
datos.
• Discretización Local: utiliza solamente una parte del espacio para el proceso de discretización. Este
tipo de discretización no es tan eficiente como la global, sin embargo, nos sirve para poder descubrir
de forma más local alguna forma más útil de hacer discretización durante el proceso.
[Escriba texto]
4.6.1 Ciclo de Discretización
Figura 15: ciclo de la Discretización. Fuente: elaboración propia.

Minería de Datos Modulo 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Minería de Datos Modulo 3

Cargado por

Copyright:

Formatos disponibles

ata Warehouse

Metodología de Inmon Tipos de usuarios Limpieza de los datos

Metodología de Kimball Redundancia de

Estructura del data Alcances del data

Listar los atributos

Construye almacenes de datos de manera autónoma, para responder a necesidades específicas de

1.1 Metodología de Inmon

1.2 Metodología de Kimball

• Infraestructura adecuada de información: cuando utilizamos la metodología de Kimball en el

1.3 Estructura del Data Warehouse

1.3.1 Estructura Operacional del Data Warehouse

• Atributos transaccionales: corresponden a valores que nos permitan el registrar

• Atributos o Valores Calculados: valores que toman el proceso de alguna actividad o el

¿Qué es un Data Warehouse?, video resumen.

2 Construcción del Data Warehouse

2.1 Tipo de usuarios finales

2.2 Redundancia de información

2.3 Alcance del Data Warehouse

Posterior al modelo que utilizaremos, obtendremos el modelo dimensional, donde tendremos

La construcción de este modelo dimensional lo realizaremos en SQL Developer y esta construcción se

3 Poblamiento del Data Warehouse

Figura 6: ejemplo poblamiento incremental Data Warehouse. Fuente: elaboración propia.

3.1 Poblamiento por acumulación simple:

3.2 Poblamiento por Rolling:

4 Optimización del Data Warehouse

4.1 Limpieza de los datos

Figura 7: ejemplo igualar formatos. Fuente: elaboración propia.

Figura 8: ejemplo descartar campos. Fuente: elaboración propia.

• Corrección de errores ortográficos: este proceso podemos realizarlo o no como parte de la

Regla de Negocio: Formato fecha MM/DD/AAA

25 Febrero 1996 02 / 25 / 1996

• Eliminar columnas duplicadas: para eliminar la redundancia de la información, es importante

Figura 10: ejemplo “eliminar columnas duplicadas”. Fuente: elaboración propia.

4.2 Metodologías de limpieza de los datos

4.2.1 Fases de la limpieza de los datos

• Verificación: luego de analizar la data y establecer reglas de negocio, es importante realizar

4.3 Selección de atributos

4.4 Listar los atributos

4.5 Discretización de los atributos

4.6 Tipos de discretización

4.6.1 Ciclo de Discretización

Figura 15: ciclo de la Discretización. Fuente: elaboración propia.

También podría gustarte