Está en la página 1de 45

DATAMINING

Ing. CIP Richard Branko Luque del Carpio


Temas a tratar

 Recopilacion Almacen de datos (Data


Warehousing)
 Almacenes de datos y bases de datos
transaccionales.
 Arquitectura de los almacenes de datos
 Carga y mantenimiento de los almacenes de datos
 Almacén y minería de datos
1. Necesidad de los almacenes de datos
 Los sistemas comerciales actualmente incluyen
herramientas para:
 Informes avanzados
 Inteligencia de negocios (BUSINESS INTELLIGENCE)
 Sistemas de información ejecutivos, etc

 Teniendo esto es necesario distinguir 2 usos diferentes de


los sistemas de información:
 Procesamiento Transaccional
 Procesamiento Analítico
1.1 OLTP Y OLAP
 OLTP (Online Transactional Processing):
 Proceso transaccional en tiempo real
 Trabajo primario en un sistema de información
 Consiste en realizar tareas transaccionales como actualización
o consultas a una base de datos

 Por ejemplo: En el caso de una empresa, la inserción de


un nuevo cliente, el cambio de sueldo de un empleado, la
tramitación de un pedido, el almacenamiento de una
venta, la impresión de una factura, la baja de un producto,
etc
1.1 OLTP Y OLAP
 OLAP (OnLine Analytical Processing):
 Engloba un conjunto de operaciones, EXCLUSIVAMENTE DE
CONSULTA, en las que requiere CRUZAR gran cantidad de
información.
 El objetivo de estas CONSULTAS es realizar informes y
resúmenes, generalmente para el apoyo en la toma de
decisiones.

 Por ejemplo: Pueden ser resúmenes de ventas mensuales,


los consumos eléctricos por días, el producto cuyas
ventas han crecido mas en el ultimo trimestre.
1.1 OLTP Y OLAP

 Estos dos procesamientos se caracterizan por ser


"online" es decir que sean relativamente instantáneas.

 Esto suele ser claro para OLTP pero no tan claro para
OLAP debido a que utiliza consultas muy complejas.
Temas a tratar

 Recopilacion Almacen de datos (Data


Warehousing)
 Almacenes de datos y bases de datos
transaccionales.
 Arquitectura de los almacenes de datos
 Carga y mantenimiento de los almacenes de datos
 Almacén y minería de datos
2. Almacenes de datos y bases de datos
transaccionales.
 Es un conjunto de datos históricos internos o externos,
que están organizados de tal forma que permiten resumir,
descubrir y analizar los datos con el fin de ayudar a la
toma de decisiones.

 Un almacén de datos facilita el análisis de los datos en


tiempo real (OLAP)
Diferencias entre una base de datos
transaccional y almacén de datos
BASE DE DATOS TRANSACCIONAL ALMACEN DE DATOS

Recuperacion de informacion, informes, analisis y mineria


Proposito Operaciones diarias. Soporte a las aplicaciones
de datos

Tipo de datos Datos de funcionamiento de la organización Datos utiles para el analisis.

Datos de funcionamiento, cambiantes, internos,


Caracteristicas de los datos Datos historicos, datos internos y externos
incompletos…

Modelo de datos Datos normalizados Datos en estrella, en copo de nieve, multidimensionales

Cientos/miles: aplicaciones, operarios, administrador


Numero y tipo de usuarios Decenas, directores, ejecutivos, analistas
de la base de datos

Acceso SQL Lectura y Escritura SQL y herramientas propias


Temas a tratar

 Recopilacion Almacen de datos (Data


Warehousing)
 Almacenes de datos y bases de datos
transaccionales.
 Arquitectura de los almacenes de datos
 Carga y mantenimiento de los almacenes de datos
 Almacén y minería de datos
3. ARQUITECTURA DE LOS ALMACENES
DE DATOS

 Un almacén de datos recoge datos históricos o también


llamados "hechos“.
3.1 Modelo multidimensional:

 Los datos se organizan en torno a los HECHOS que tienen


ATRIBUTOS O MEDIDAS que pueden verse en mayor o
menor detalle según ciertas DIMENSIONES.

 Por ejemplo:
 Una cadena de supermercados puede tener como HECHOS
básicos las ventas. Cada venta tiene una MEDIDA como
importe, cantidad, numero de clientes, etc y esto se puede
detallar en varias DIMENSIONES como tiempo de la venta,
productor de la venta, lugar de la venta, etc.
3.1 Modelo multidimensional:
 De acuerdo al ejemplo anterior podemos comprobar que: las
MEDIDAS responden generalmente a la pregunta
¿CUANTO?, mientras que las dimensiones responderán al
¿CUANDO?, ¿QUE?, ¿DONDE?, etc.

 Por ejemplo: El HECHO "El día 20 de mayo de 2003 la


empresa vendió en España 12 327 unidades de productos de la
categoría insecticidas“

 La cantidad 12 327 unidades = representa una MEDIDA


 20 de mayo de 2003 = representa la dimensión TIEMPO
 España = representa la dimensión LUGAR
 Insecticidas = representa la dimensión PRODUCTOS
3.1 Modelo multidimensional:

 Por ejemplo: El HECHO "El primer trimestre de 2004 la


empresa vendió en Valencia por un importe de 22 000
euros el producto X“

 El importe 22 000 euros = representa una MEDIDA


 primer trimestre 2004 = representa la dimensión TIEMPO
 Valencia = representa la dimensión LUGAR
 Producto X = representa la dimensión ARTICULOS
3.1 Modelo multidimensional:

FIGURA PAGINA 49
3.1 Modelo multidimensional:

 La forma que tienen el conjunto de HECHOS y sus


DIMENSIONES hace que llamen:

 Almacenes de datos en ESTRELLA SIMPLE = cuando no hay caminos


alternativos en las dimensiones.
 Almacenes de datos en COPO DE NIEVE = cuando si hay caminos
alternativos en las dimensiones (Comentario: como el ejemplo
anterior).

 Cuando el numero de dimensiones no excede de 3 esta puede


representarse en un CUBO.
 El CUBO estará formado por casillas donde cada casilla
contendrá el valor posible para cada dimensión.
3.1 Modelo multidimensional:

FIGURA PAGINA 50
3.2. DataMarts

 Son subconjuntos de datos con el propósito de ayudar a


que un área específica dentro del negocio pueda tomar
mejores decisiones.
 El Datamart es un sistema orientado a la consulta
 Es consultado mediante herramientas OLAP
(Procesamiento Analítico en Línea) que ofrecen una visión
multidimensional de la información.
3.2. DataMarts
 Beneficios de un DataMart:

Acelera las consultas reduciendo el volumen de datos a recorrer.

Estructura los datos para su adecuado acceso por una herramienta.

Segmentar los datos en diferentes plataformas de hardware.

Los costos que implica la construcción de un DataMart son mucho


menores a un DataWarehouse
3.2. DataMarts
 Diferencia DataMart DataWarehouse
 El DataMart esta pensando para cubrir necesidades de un grupo de
trabajo o un determinado departamento dentro de una organización.

 El Datawarehouse es la organización en su conjunto. Se caracterizan por


disponer una estructura optima de datos para analizar la información al
detalle desde todas las perspectivas que afecten a los procesos de dicho
departamento.
3.2. DataMarts - Estructura de un DataMart

 Un DataMart se representa un modelo multidimensional


donde se representa un actividad que es un objeto de análisis
("HECHO") y las dimensiones que caracterizan la actividad
("DIMENSIONES")

 La información relevante sobre el hecho (ACTIVIDAD) se


representa por un conjunto de indicadores ("medidas o
atributos de hecho")

 La información descriptiva de cada DIMENSION se


representa por un conjunto de atributos (ATRIBUTOS DE
DIMENSION).
3.2. DataMarts - Estructura de un DataMart

 Ejemplo:

 Organización: Cadena de supermercados


 Actividad de objeto de análisis: ventas de productos
 Información registrada sobre una venta: del PRODUCTO
taurion se han vendido en el ALMACEN Almacen #1 el DIA
17/07/2014, 5 UNIDADES por un IMPORTE de 103 nuevos
soles.
3.2. DataMarts - Estructura de un DataMart
3.2. DataMarts - Estructura de un DataMart
3.2. DataMarts - Estructura de un DataMart
3.2. DataMarts
 La idea general es crear DataMart para cada uno de los
departamentos de una organización de acuerdo a su necesidad.
 Se podría tener un DataMart para el área de Ventas y otro
para el área de RR.HH.

 Por ejemplo:
 Un empleado ha dedicado ciertos recursos en un proyecto durante
un periodo en un departamento. Los HECHOS podrían llamarse
"Participaciones", Las MEDIDAS O ATRIBUTOS podrían ser
"hora de participación", "numero de participantes", "presupuesto”,
“nivel de éxito del proyecto”, etc. y las DIMENSIONES podrían
ser tiempo (para representar el periodo en el que ha estado
involucrado), departamento (para representar un empleado, equipo o
división en la que se ha desarrollado) y el proyecto (subproyecto o
proyecto del programa)
3.2. DataMarts

 Cada una de las estrellas que representan un ámbito


dentro de la organización se denominan DATAMARTS
 Cada Datamart tendrá unas medidas y dimensiones
propias y diferentes de los demás.
 La única dimensión que suele aparecer en todos los
Datamarts es dimensión TIEMPO, ya que el almacén de
datos representa información histórica.
3.3. Explotación de una almacén de datos.
(Operadores)
 El modelo multidimensional se basa en un conjunto de
datamarts.
 Para completar el modelo multidimensional debemos
definir una serie de operadores sobre la estructura
 Los mas importantes son:

 DRILL: se trata de disgregar los datos siguiendo los caminos de


una o mas dimensiones
 ROLL: se trata de agregar los datos siguiendo los caminos de
una o mas dimensiones
 SLICE & DICE: se seleccionan y se proyectan los datos
 PIVOT: se reorientan las dimensiones
3.3. Explotación de una almacén de datos.
(Operadores)
 Estos operadores son también llamados OLAP,
operadores de análisis de datos u operadores de
almacenes de datos
 Es operadores permiten realizar consultas de proyección,
selección y agrupamiento que se pueden hacer en SQL

 Por ejemplo:
 La consulta "obtener para cada categoría y trimestre el
total de ventas" para el Datamart de la figura:
3.3. Explotación de una almacén de datos.
(Operadores)
 El resultado que se nos puede mostrar de manera tabular
o matricial la consulta del modelo anterior lo podemos
ver en la figura:

FIGURA 1 DE LA PAGINA 53
3.3. Explotación de una almacén de datos.
(Operadores)
 Operador DRILL: Este operador permite entrar mas
en detalle en el informe.
 Por ejemplo: Queremos desglosar la informacion por
ciudades (Valencia y Leon) y además seleccionando la
categoría REFRESCOS. La respuesta de la consulta la
podemos ver en la figura:

FIGURA 2 DE LA PAGINA 53
3.3. Explotación de una almacén de datos.
(Operadores)
 Operador ROLL: Este operador es la inversa del DRILL
y el objetivo es obtener información mas agregada.
 Por ejemplo: Si quisiéramos obtener los totales de las
categorías "refrescos" y "congelados" simplemente seria
necesario aplicar el operador ROLL a la consulta como se
observa en la figura:

FIGURA 1 DE LA PAGINA 54
3.3. Explotación de una almacén de datos.
(Operadores)
 Operador PIVOT: se reorientan las dimensiones
 Por ejemplo: supongamos que tenemos la consulta en la
situación en la que estamos mostrando el importe para
las categorías "refrescos" y "congelados", las ciudades
"Valencia" y "Leon" y todos los Trimestres. La posible
representación es la que se muestra en la siguiente figura:

FIGURA 2 DE LA PAGINA 54
3.4. Implementación de almacén de datos.
(Diseño)
 Una de las razones para crear un almacén de datos separada de la
base de datos operaciones es conseguir que análisis se pueda
realizar de manera eficiente
 Con el objetivo de obtener eficiencia deseada los sistemas de
almacenes de bases de datos pueden implementarse utilizando 2
tipos de esquemas físicos:

 ROLAP: físicamente, el almacén de datos se construye sobre una base


de datos relacional.
 MOLAP: fisicamente, el almacén de datos se construye sobre estructuras
basadas en matrices multidimensionales

 Una de las maneras mas eficientes de implementar un DATAMART


en bases de datos relacionales se basa en IGNORAR casi
completamente la estructura de los datos en las fuentes de origen y
utiliza una estructura nueva denominada STARFLAKE.
Temas a tratar

 Recopilacion Almacen de datos (Data


Warehousing)
 Almacenes de datos y bases de datos
transaccionales.
 Arquitectura de los almacenes de datos
 Carga y mantenimiento de los almacenes
de datos
 Almacén y minería de datos
4. Carga y mantenimiento de almacén de
datos
 Si se ha decidido diseñar un almacén de datos y ya se esta
implementado bajo alguna tecnología ROLAP o MOLAP el
siguiente paso es cargar los datos.

 Para la carga de información existe un Sistema especializado


denominado SISTEMA ETL (Extraction,Transformation, Load).

 La construcción del ETL es responsabilidad del equipo de


desarrollo del almacén de datos y se realiza específicamente
para cada almacén de datos

 El sistema ETL se encarga de realizar las siguientes tareas:


4. Carga y mantenimiento de almacén de
datos

 Lectura de datos transaccionales:


Se trata de obtener los datos mediantes consultas SQL sobre
la base de datos transaccional. Generalmente se intenta que
esta lectura sea en horarios de poca carga transaccional. Para
la primera carga los datos pueden encontrarse en históricos u
es posible que en distintos formatos. Este hecho condiciona
muchas veces el numero de años que se puede incluir en el
almacén de datos.

 Incorporación de datos externos:


Generalmente aquí se deben incorporar otro tipo de
herramientas, para convertir texto, hojas de calculo en tablas
de base de datos que se puedan integrar en el almacén de
datos.
4. Carga y mantenimiento de almacén de
datos

 Creación de claves:
En general se recomienda crear claves primarias nuevas
para todas las tablas que se vayan creando en el
almacenamiento intermedio o en el almacén de datos.

 Integración de datos:
Consiste en muchos casos en la fusión de datos de
distintas fuentes, detectar cuando representan los mismos
objetos y generar las referencias y restricciones
adecuadas para conectar la información y proporcionar
integraridad referencial.
4. Carga y mantenimiento de almacén de
datos

 Limpieza y transformación de datos:


Se trata de evitar datos redundantes, inconsistentes,
estandarizar medidas, formatos, fechas, tratar valores nulos,
etc.

 Planificación de la carga y mantenimiento:


Consiste en definir las fases de carga, el orden, para evitar
violar restricciones de integridad, del mismo modo que se
realizan las migraciones, y las ventanas de carga, con el objetivo
de poder hacer la carga sin saturar ni la base de datos
transaccional, así como el mantenimiento sin paralizar el
almacén de datos.
4. Carga y mantenimiento de almacén de
datos
 Indización:
Finalmente se han de crear índices sobre las claves y
atributos del almacén de datos que se consideren
relevantes.

 Pruebas de calidad:
En realidad se trata de definir métricas de calidad de
datos del almacén de datos, así como implantar un
programa de calidad de datos, con un responsable de
calidad que realice un seguimiento, especialmente si el
almacén de datos se desea utilizar para el apoyo en
decisiones estratégicas o especialmente sensibles.
Temas a tratar

 Recopilacion Almacen de datos (Data


Warehousing)
 Almacenes de datos y bases de datos
transaccionales.
 Arquitectura de los almacenes de datos
 Carga y mantenimiento de los almacenes de datos
 Almacén y minería de datos
4. Almacén y minería de datos
 El concepto de almacenes de datos nace hace mas de una
década ligado a un concepto EIS(Sistemas de Información
Ejecutivo)

 Cuando están cubiertas todas las necesidades operacionales


de una organización se plantean herramientas informáticas
para asistir o cubrir necesidades ESTRATEGICAS

 La definición original de almacén de datos es de


"COLECCION DE DATOS VARIANTE AL TIEMPO PARA
AYUDAR A LA TOMA DE DECISIONES“

 Los almacenes de datos pueden utilizarse de muy diferentes


maneras, y pueden agilizar muchos procesos diferentes de
análisis
4. Almacén y minería de datos
4. Almacén y minería de datos

 La variedad de usos del almacén de datos sugiere la existencia de


diferentes grupos de usuarios: analistas, ejecutivos, investigadores,
etc, Según el carácter de estos usuarios se les puede catalogar en
dos grandes grupos:

 picapiedreros (o granjeros): se dedican fundamentalmente a realizar


informes periódicos, ver la evolución de indicadores, controlar valores
anómalos, etc
 exploradores: encargados de encontrar nuevos patrones significativos
utilizando técnicas OLAP o de minería de datos.

 Los almacenes de datos no son imprescindibles para hacer


extracción de conocimiento a partir de datos, en realidad se puede
hacer minería de dato sobre un simple archivo de datos de acuerdo
al volumen de datos a minar.
GRACIAS POR SU ATENCION

También podría gustarte