Está en la página 1de 102

LOGO

Alumnos:

Jeri Sandoval, Roberto
Rosales Buiza John
Segovia Herrera Nstor
Robles Rodriguez Isaac
06/08/2013 1 Administracin de las Tecnologas de la
Informacin
FACULTAD DE INGENIERA INDUSTRIAL Y DE SISTEMAS
Data Warehouse
Definiciones de Data Warehouse
Un Data Warehouse es un conjunto integrado de bases de datos,
con orientacin temtica, que estn diseados para el apoyo a la
Toma de Decisiones, y donde cada unidad de datos es relevante en
algn momento del tiempo
Bill H. Inmon
"una copia de las transacciones de datos especficamente
estructurada para la consulta y el anlisis o"la unin de todos los
Data marts de una entidad
Ralph Kimball
Yo considero al DW como algo que provee dos beneficios
empresariales reales: Integracin y Acceso de datos. DW elimina
una gran cantidad de datos intiles y no deseados, como tambin el
procesamiento desde el ambiente operacional clsico
Susan Osterfeldt

06/08/2013 2
Administracin de las Tecnologas
de la Informacin
Objetivos
Hacer la informacin de la organizacin
accesible
Hacer a la informacin de la organizacin
consistente
Controlar el acceso efectivo a los datos
Generar informacin de manera flexible
Servir de ayuda a la toma de decisiones

06/08/2013 3
Administracin de las Tecnologas
de la Informacin
En resumen
Un Data Warehouse tiene como objetivo
almacenar y proveer a la Organizacin de
informacin relevante y a tiempo
06/08/2013 4
Administracin de las Tecnologas
de la Informacin
Importancia del Data Warehouse
Mejorar la Entrega de Informacin:.
Mejorar el Proceso de Toma de Decisiones
Impacto Positivo sobre los Procesos
Empresariales
06/08/2013 5
Administracin de las Tecnologas
de la Informacin
A pensar antes de implementar un
Data Warehouse
La amplitud; el nmero de diferentes temas y puntos de
foco
Fuentes que proveern datos brutos.
Los medios por los cuales los datos se transportan de las
aplicaciones fuente y son cargados al Data Warehouse.
Las reglas de negocio que se aplican a la data en bruto
para producir activos de datos de alta calidad.
Las bases de datos receptoras, en la que estos activos
de datos sern almacenados.
Los activos de datos; los elementos, el nivel de detalle de
cada elemento, y cunta historia se ha mantenido, por
ejemplo.
La Inteligencia de negocio
Herramientas de nivel usuario para acceder a los activos
de datos.
La arquitectura y complejidad en general del entorno.

06/08/2013 6
Administracin de las Tecnologas
de la Informacin
Empresas que usan DATA
WAREHOUSE
Royal bank of canada
Paypal
3M
Coca-Cola Company
Verizon
Ford Motor Company
Herramientas de nivel usuario para acceder a los
activos de datos.
La arquitectura y complejidad en general del
entorno.

06/08/2013 7
Administracin de las Tecnologas
de la Informacin

06/08/2013 8
Administracin de las Tecnologas
de la Informacin
Productos (suites) de DATA
WAREHOUSE y BI
IBM Cognos
http://www-01.ibm.com/software/data/cognos/
Teradata
http://www.teradata.com
Oracle Hyperion
http://www.oracle.com/hyperion/index.html
MicroStrategy
http://www.strategy.com
SAS
http://www.sas.com


06/08/2013 9
Administracin de las Tecnologas
de la Informacin
Caractersticas de un Data Warehouse
Orientado a un tema
Administra grandes cantidades de informacin
Guarda informacin en diversos medios de
almacenamiento
Comprende mltiples versiones de uno (o
varios) esquema de base de datos
Condensa y agrega informacin
Integra y asocia informacin de muchas fuentes
06/08/2013 10
Administracin de las Tecnologas
de la Informacin
Diferencias entre un sistema de Data
Warehouse y aplicaciones
tradicionales
SISTEMAS TRADICIONALES

DATAWAREHOUSE

Predomina la actualizacin.
Actividad operativa (da a da).
Proceso puntual.
Estabilidad.
Datos desagregados.
Dato actual.
Respuesta de la transaccin
inmediata.
Estructura relacional.
Usuarios de perfiles bajos.
Explotacin de la informacin
relacionada con operatividad de
cada aplicacin

Predomina la consulta
Anlisis y decisin estratgica.
Proceso masivo.
Dinamismo.
Niveles de detalle/agregacin.
Dato histrico.
Respuesta masiva
Estructura Multidimensional
Usuarios de perfiles altos.
Explotacin de informacin
interna y externa relacionada con
el negocio.
06/08/2013 11
Administracin de las Tecnologas
de la Informacin
Metodologas de Diseo de Data
Warehouse
Metodologa de Inmon (Top Bottom)

06/08/2013 12
Administracin de las Tecnologas
de la Informacin
Metodologa de Kimball (Bottom-up)
06/08/2013 13
Administracin de las Tecnologas
de la Informacin
Metodologa agil para la
implementacin de un dw
06/08/2013 14
Administracin de las Tecnologas
de la Informacin
Page 15
Arquitectura de un Data
Warehouse
06/08/2013 15
Administracin de las Tecnologas
de la Informacin
Production
systems

Other sources
CRM
Billing
Activation
systems
Other
DBs
Files
ETL
DataWarehouse
OLAP
cubes
Business
Users
Querying &
Reporting
tools
Acquisition Storage /
Archiving
Restitution
Datamarts
Flujo de Datos de un DW
06/08/2013 16
Administracin de las Tecnologas
de la Informacin
Page 17



Base de datos operacional / Nivel de base de datos
externo.
Nivel de acceso a los datos
Nivel de organizacin de datos
Nivel de data warehouse
Nivel de acceso a la informacin
Nivel de gestin de proceso

Arquitectura de un Data
Warehouse
06/08/2013 17
Administracin de las Tecnologas
de la Informacin
Page 18

Base de datos operacional / Nivel de base de datos
externo (Fuentes de datos)
Los sistemas operacionales procesan datos para apoyar
las necesidades operacionales crticas, tales como
ERPs, SCMs, tambin se procesa informacin de fuentes
de datos externas, tales como de la internet, INEI, BCRP.

Nivel de acceso a los datos
Es responsable de la interfaces entre las herramientas
de acceso a la informacin y las bases de datos
operacionales. En algunos casos, esto es todo lo que un
usuario final necesita para realizar estas interfases se
utiliza el SQL (Standar Query Lenguaje)




Elementos de la Arq. De un DW
06/08/2013 18
Administracin de las Tecnologas
de la Informacin
Page 19

Nivel de organizacin de datos
El componente final de la arquitectura data Warehouse
es la organizacin de los datos, incluye todos los
procesos necesarios como seleccionar, editar, resumir,
combinar y cargar datos en el depsito y acceder a la
informacin desde bases de datos operacionales y/o
externas

Nivel de data warehouse
En un data Warehouse fsico, el almacenaje de data
procesada, incluso en forma redundante

Elementos de la Arq. De un DW
06/08/2013 19
Administracin de las Tecnologas
de la Informacin
Page 20
Nivel de acceso a la informacin
Este nivel se incluye el hardware y software
involucrados en representar y proveer de informacin al
usuario final normalmente usa da a da. Por ejemplo:
Excel, Lotus 1-2-3, Focus, Access, SAS, etc.

Nivel de gestin de proceso
El nivel de gestin de procesos tiene que ver con la
programacin de diversas tareas que deben realizarse
para construir y mantener actualizado el data warehouse
y la informacin del directorio de datos.




Elementos de la Arq. De un DW
06/08/2013 20
Administracin de las Tecnologas
de la Informacin
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE
Establecer una asociacin de usuarios, gestin y grupos
Construir prototipos rpida y frecuentemente
Implementacin incremental
Reportar activamente y publicar los casos exitosos

A
d
m
i
n
i
s
t
r
a
c
i

n

d
e

l
a
s

T
e
c
n
o
l
o
g

a
s

d
e

l
a

I
n
f
o
r
m
a
c
i

n


Fase 1: Organizacin
06/08/2013 21
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE


A
d
m
i
n
i
s
t
r
a
c
i

n

d
e

l
a
s

T
e
c
n
o
l
o
g

a
s

d
e

l
a

I
n
f
o
r
m
a
c
i

n


Quin es el auditorio?

Cul es el alcance?

Qu tipo de data warehouse
debera construirse?
1ra.: Establecer un ambiente "data warehouse virtual.

2da.: Construir una copia de los datos operacionales desde un sistema
operacional nico y posibilitar al data warehouse de una serie de
herramientas de acceso a la informacin.

3ra.: Finalmente, la estrategia data warehousing ptima es seleccionar el
nmero de usuarios basados en el valor de la empresa y hacer un anlisis de
sus puntos, preguntas y necesidades de acceso a datos.



06/08/2013 22
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
3 ESTRATEGIAS PARA EL DISEO DE UN DATA WAREHOUSE
1ra. : Los usuarios de los data warehouses
usualmente no conocen mucho sobre sus
requerimientos y necesidades como los usuarios
operacionales.

2da.: El diseo de un data warehouse, con
frecuencia involucra lo que se piensa en trminos
ms amplios y con conceptos del negocio ms
difciles de definir que en el diseo de un sistema
operacional. Al respecto, un data warehouse est
bastante cerca a Reingeniera de los Procesos del
Negocio (Business Process Reengineering).

3ra.: Finalmente, la estrategia de diseo ideal para
un data warehousing es generalmente de afuera
hacia adentro (outside-in) a diferencia de arriba
hacia abajo (top-down).
06/08/2013 23
PROYECTO DE ELABORACION
DE UN DATA WAREHOUSE
A
d
m
i
n
i
s
t
r
a
c
i

n

d
e

l
a
s

T
e
c
n
o
l
o
g

a
s

d
e

l
a

I
n
f
o
r
m
a
c
i

n


4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE

1ra.: Un data warehouse es una inversin buena slo si los usuarios finales
realmente pueden conseguir informacin vital ms rpida y ms barata de lo
que obtienen con la tecnologa actual.

2da.: La administracin debe reconocer que el mantenimiento de la
estructura del data warehouse es tan crtico como el mantenimiento de
cualquier otra aplicacin de misin-crtica.

3ra.: La gestin debe comprender tambin que si se embarcan sobre un
programa data warehousing, se crearn nuevas demandas sobre sus
sistemas operacionales, que son:
Demandas para mejorar datos
Demandas para una data consistente
Demandas para diferentes tipos de datos, etc.
06/08/2013 24
PROYECTO DE ELABORACION
DE UN DATA WAREHOUSE
Administracin de las
Tecnologas de la Informacin
Se ha reconocido los beneficios del
procesamiento analtico en lnea (On Line
Analytical Processing - OLAP), ms all de las
reas tradicionales de marketing y finanzas.
El crecimiento de la computacin
cliente/servidor, ha creado servidores de
hardware y software ms poderosos y
sofisticados que nunca. Los servidores de
hoy compiten con las mainframes de ayer y
ofrecen arquitecturas de memoria
tecnolgicamente superiores, procesadores
de alta velocidad y capacidades de
almacenamiento masivas.

Fase 2: Desarrollo
1. PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE?

06/08/2013 25
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE

Hay muchas maneras para
desarrollar data warehouses como
tantas organizaciones existen. Sin
embargo, hay un nmero de
dimensiones diferentes que
necesitan ser consideradas:

Alcance de un data warehouse
Redundancia de datos
Tipo de usuario final
06/08/2013 26
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE


Si se escoge incorrectamente, el data warehouse se convierte en una
gran empresa con problemas difciles de trabajar en su entorno, costoso
para arreglar y difcil de justificar.

Para conseguir que la implementacin del depsito tenga un inicio
exitoso, se necesita enfocar hacia tres bloques claves de construccin:

Arquitectura total del depsito
Arquitecturas del servidor
Sistemas de Gestin de Base de Dato
Hay muchas maneras para desarrollar data warehouses como tantas
organizaciones existen. Sin embargo, hay un nmero de dimensiones
diferentes que necesitan ser consideradas:

Alcance de un data warehouse
Redundancia de datos
Tipo de usuario final
06/08/2013 27
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
4 CONFIABILIDAD DE LOS DATOS

La data "sucia" es peligrosa. Las herramientas de limpieza
especializadas y las formas de programar de los clientes
proporcionan redes de seguridad.

No importa cmo est diseado un programa o cun hbilmente se
use. Si se alimenta mala informacin, se obtendr resultados
incorrectos o falsos.

Desafortunadamente, los datos que se usan satisfactoriamente en
las aplicaciones de lnea comercial operacionales pueden ser
basura en lo que concierne a la aplicacin data warehousing
06/08/2013 28
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA
WAREHOUSE


La data sucia es un serio peligro para el xito de
un proyecto de data warehouse. Dependiendo del
alcance del problema, simplemente podra no ser
posible dirigirlo rpidamente y abaratarlo.
Los principales factores son:
- El tiempo que toma la programacin interna
- El costo de las herramientas
Los gerentes de proyectos de Data Warehouse
necesitan evaluar el problema con realismo, los
recursos internos disponibles para distribuirlos y
seleccionar la solucin que se adapte a la planilla
y presupuesto del proyecto, o modificar la planilla
y el presupuesto para solucionar el problema.

06/08/2013 29
PROYECTO DE ELABORACION
DE UN DATA WAREHOUSE
Administracin de las
Tecnologas de la Informacin
Proyecto Total o Proyecto en Fases
Es ms viable el desarrollo de un proyecto en fases que produzcan resultados a corto
plazo que el desarrollo de un proyecto que entregue resultados al trmino de varios
aos. Por ello, el proyecto debe estar centrado en un rea o un proceso.
Modelo lgico de datos
El modelo lgico de datos debe tener un alcance ms alto y cubrir todas las reas de
inters, as como los procesos ms estratgicos de cada una de ellas.
Proyecto Especializado o Proyecto Base
Decidir sobre qu tipo de proyecto, es algo complicado. Un proyecto especializado
soporta directamente un proceso especfico, por ejemplo: retencin de clientes.
Un proyecto base entrega capacidad genrica de anlisis a todos los usuarios que
tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la
solucin de un problema especfico o el soporte especializado de un proceso
especfico.



FASE 3: IMPLEMENTACION

1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION
06/08/2013 30
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION

Identificar el problema en el cual el uso
estratgico de la informacin detallada,
permita conseguir una solucin para
generar una ventaja competitiva o un
ahorro de costos.

Definir el modelo lgico de datos a
implementar para resolver el problema
planteado.
06/08/2013 31
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
3 ESTRATEGIAS EN LA IMPLEMENTACION
Definir el mejor diseo fsico para el modelo de datos. El diseo fsico debe estar
orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia
del modelo lgico que est orientado al usuario y a la facilidad de consulta.
Definir los procesos de extraccin, filtro, transformacin de informacin y carga de
datos que se deben implementar para poblar ese modelo de datos.
Definir los procesos de administracin de la informacin que permanece en el data
warehouse
Definir las formas de consultas a la informacin del data warehouse que se le
proporcionar al usuario. Para sto, debe considerarse la necesidad de resolver un
problema y la potencia de consulta.
Completar el modelo de consulta base, relativo al rea seleccionada.
Implementar los procesos estratgicos del rea de trabajo, es decir, implementar
herramientas especializadas de scoring, herramientas especializadas para induccin
de conocimiento (Data Mining), etc.
Completar las reas de inters, en forma similar a lo descrito anteriormente.

06/08/2013 32
PROYECTO DE ELABORACION
DE UN DATA WAREHOUSE
Administracin de las
Tecnologas de la Informacin
Qu clases de costos excedieron el
presupuesto en ms del 10% en cada uno de
los 12 meses pasados?
Se aumentaron los presupuestos en ms de
5% para cualquier rea dentro de los ltimos
18 meses?
Cmo especificar las clases de gasto entre
diferentes departamentos? Entre divisiones?
A travs de las regiones geogrficas?
Cmo tener mrgenes de operacin sobre los
dos ltimos aos en cada rea de negocio?
Donde han disminuido los mrgenes, se han
incrementado los costos?
FASE 4: EVALUACION
1 EVALUACION DE RENDIMIENTO DE LA INVERSION
06/08/2013 33
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las Tecnologas
de la Informacin
CASO PRACTICO
En un estudio encargado por 20 vendedores y consultores, se encontr un
Retorno Promedio Total de la inversin (Return On Investment-ROI) de
401%.Tambin, se excluyeron los proyectos fracasados, as como los
ejecutados excepcionalmente, tanto buenos como malos.
2.2 Millones Costo promedio
2.3 Aos Perodo de reembolso promedio
160% ROI mediano
533% ROI promedio del modelo complementario de datos
322% ROI promedio del proyecto ms grande
401% ROI promedio total
CAMBIOS DE VALOR
06/08/2013 34
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
1.1 COSTOS Y BENEFICIOS
Costos preliminares
Planificacin
Diseo
Modelamiento /Ingeniera de
Informacin
Costos iniciales
Plataforma de hardware
Software de base de datos
Costos en procesamiento
Mantenimiento de datos
Desarrollo de aplicaciones
Capacitacin y soporte
Beneficios Tcticos
Impresin y emisin de reporte
reducido
Demanda reducida para consultas de
clientes
- Entrega ms rpida de informacin a los
usuarios
Beneficios Estratgicos (Potencialidad)
Aplicaciones y herramientas de
acceso para los usuarios finales
Decisiones con mayor informacin
Toma de decisiones ms rpida
Capacidad de soporte a la
informacin organizacional
06/08/2013 35
PROYECTO DE ELABORACION DE UN DATA
WAREHOUSE
Administracin de las
Tecnologas de la Informacin
2 BENEFICIOS A OBTENER

Para la Empresa
El data warehouse hace lo posible por aprovechar el
valor potencial enorme de los recursos de informacin
de la empresa y volver ese valor potencial en valor
verdadero.
Para los Usuarios
El data warehouse extiende el alcance de la informacin
para que puedan accesar directamente en lnea, lo que
a la vez contribuye en su capacidad para operar con
mayor efectividad las tareas rutinarias o no.
Para la Organizacin en Tecnologas de Informacin

El data warehouse enriquece las capacidades del
usuario autosuficiente y hace lo factible para ofrecer
nuevos servicios a los usuarios, sin interferir con las
aplicaciones cotidianas de produccin
06/08/2013 36
Importante: El Modelo de Datos
Es el modelo por el cual se disea el esquema de funcionamiento de la
Base de Datos que provee al Data Warehouse.

Existen varios enfoques en este sentido:

Fbrica de informacin corporativa (CIF): incluyen ODS, data warehouse y data
marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional,
fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa

Esquema en estrella: Este mtodo replica las estructuras multidimensionales de
hechos y dimensiones, pero usa tablas de RDBMS, especficamente tablas de
hechos y tablas de dimensiones. Se dejan de lado las reglas de normalizacin de
base de datos y se ponen los datos donde tienen ms sentido

Data vault (Arquitectura de modelado fundacional comn -CFIMA):
Esta es una arquitectura de integracin de datos que contiene una base de datos
orientada al detalle que contiene un conjunto de tablas normalizadas nicamente
enlazadas que soportan una o ms reas funcionales de las tablas de negocio con
tablas satlites para rastrear cambios histricos. Este enfoque hbrido rene lo
mejor del cruce entre la tercera forma normal (3NF)


06/08/2013 37
Administracin de las Tecnologas
de la Informacin
Page 38
DATA WAREHOUSE VS BD
OPERACIONAL
Uso de Base de Datos
Operacionales

Uso de
Data Warehouse

Muchos usuarios concurrentes

Pocos usuarios concurrentes

Consultas predefinidas y
actualizables

Consultas complejas,
frecuentemente
no anticipadas.

Cantidades pequeas de datos
resumidas.

Cantidades grandes de datos
resumidas.

Requerimientos de respuesta
inmediata
Requerimientos de respuesta no
crticos

06/08/2013 38
Administracin de las Tecnologas
de la Informacin
Modelo de Estrella
06/08/2013 39
Administracin de las Tecnologas
de la Informacin
Extraccin, Transformacin y Carga
Extraccin
Multiples Fuentes
Orientadas a trabajo Batch : cagas de estos sistemas son ms fuertes
cuando los sistemas de produccin tienen poca carga
Conectvidad a diferentes tecnologas, diferentes manejadores de BDs
Transformacin
Manipulacin de data compleja
Reunin de diferentes fuentes
Implementacin de reglas de negocio
Limpiado, ordenado, eliminacin de duplicidades
Optimizado para el desempeo y para grandes volmenes
Carga
Cargar la data en tablas de hechos y dimensiones
Produce un historial en archivos o en la BD para trazabilidad
Otros
Controla los flujos de ejecucin: maneja las dependencias entre tareas,
control de ejecucin, gestin de errores, registros histricos.
40
06/08/2013
Administracin de las Tecnologas
de la Informacin
Ejemplos de transformacin
Transformacin de Bsqueda difusa
Busca valores en las tablas usando criterios difusos
Ejemplo: Para un campo de texto la data puede contener muchas variantes de la misma
palabra (friend, a friend, freind, etc). La lgica difusa puede ayudar a reunir las variantes.

Transformacin de dimensiones de cambio lento
Ayuda a manejar la actualizacin de una dimensin de cambio lento
Ejemplo : la informacin sobre los consumidores cambia constantemente, pero queremos una
historia de estos
Cambio de direccin no queremos el valor anteiror (reemplazo)
Un cambio en el valor VAT duplicamos la entrada del consumidor agregando los datos adicionales
(para propsitos financieros)

41
Customer table Bill Table
Customer ID Last Name City Company VAT Nb Bill ID Customer ID Date Amount
FR 1234567 67890 00012345 01/01/2008 500
FR 5555566 89567 00012345 01/06/2008 400
00012345 DESPRIEE Paris
OLTP Model
DimCustomer FactBill Table
Customer Key Customer ID Last Name City Company VAT Nb Bill ID Customer Key Date Amount
2048 00012345 DESPRIEE Paris FR 1234567 67890 2048 01/01/2008 500
3057 00012345 DESPRIEE Paris FR 5555566 89567 3057 01/06/2008 400
OLAP Model
Clave sustituta
06/08/2013
Administracin de las Tecnologas
de la Informacin
Control de la Ejecucin
Los datos son muy sensibles, la calidad de los
reportes depende la calidad de estos
Cargar un Data Warehouse puede implicar
reglas complejas de extraccin, transformacin
y carga
Los usuarios del negocio no confiarn en un
DW si no confan en su carga

42
06/08/2013
Administracin de las Tecnologas
de la Informacin
Ejemplos de paquetes en ETL
Flujo de control y flujo de datos
43
06/08/2013
Administracin de las Tecnologas
de la Informacin
Middleware
Son Instancias intermedias a la carga y al acceso que sirven
para verificar la calidad y fiabilidad de la data
Estacin de transformacin interina: un rea en la cual grupos
de datos extrados de alguna de las fuentes pasan por un
proceso de transformacin antes de moverse hacia la base de
datos del almacn.
Estacin de aseguramiento de la calidad: Un rea en la cual
grupos de datos pasan por un conjunto de intensas revisiones
de aseguramiento de la calidad antes de pasar hacia el almacn
de datos.

06/08/2013 44
Administracin de las Tecnologas
de la Informacin
Middleware (2)

06/08/2013 45
Administracin de las Tecnologas
de la Informacin
Solucin: crear almacenes de datos especializados por rea, que
reciben los datos desde el almacn centralizado, estos almacenes se
conocen como Data Marts.
Problema: al crecer el DW. El rendimiento de las consultas decae y el modelo
centralizado deja de ser optimo.
06/08/2013 46
Administracin de las Tecnologas
de la Informacin
Toma de decisiones
Un Datamart es una base de
datos departamental,
especializada en el
almacenamiento de los datos
de un rea de negocio
especfica.


Se caracteriza por disponer la
estructura ptima de datos para
analizar la informacin al
detalle desde todas las
perspectivas que afecten a los
procesos de dicho
departamento.

DATAMART
06/08/2013 47
Administracin de las Tecnologas
de la Informacin
Data Mart
Puede ser alimentado desde los datos de un
DWH, o integrar por si mismo un compendio de
distintas fuentes de informacin.
06/08/2013 48
Administracin de las Tecnologas
de la Informacin
Data Warehouses Vs. Data Marts
Data Mart
Departamental
Un solo tema
Pocos
<
100 GB
Meses
Data Mart
Data
Warehouse
Propiedad
Alcance
Tema
Fuente de datos

Tamao (tpico)
Tiempo de implementacin
Data Warehouse
Empresarial
Mltiples
Muchas
100 GB to > 1 TB
Meses a aos
06/08/2013 49
Administracin de las Tecnologas
de la Informacin
Su objetivo es agilizar la consulta de grandes cantidades de
datos. Caracteriza la Arquitectura necesaria para la
implementacin de un sistema de ayuda en la toma de
decisiones. La consultas son pocas pero son muy
consumidoras de tiempo (pueden correr horas), las
actualizaciones son menos frecuentes y/o la respuesta a la
consulta no depende del hecho de tener actualizada la base
de datos.
Soporte anlisis multidimensional y
procesamiento analtico en lnea(OLAP)
06/08/2013 50
Administracin de las Tecnologas
de la Informacin
Soporte anlisis multidimensional y
procesamiento analtico en lnea(OLAP)
Los datos son clasificados en diferentes
dimensiones y pueden ser vistas unas con otras en
diferentes combinaciones para obtener diferentes
anlisis de los datos que contienen.

Los Usuarios pueden formular consultas complejas,
arreglar datos en un reporte, cambiar de datos
resumidos a datos detallados.

CARACTERISTICAS
06/08/2013 51
Administracin de las Tecnologas
de la Informacin
ROLAP (Relational OLAP) MOLAP (multidimensional
OLAP)
Almacena los datos en un motor
relacional
Almacena los datos en una base de
datos multidimensional
Muchas dimensiones Diez o menos dimensiones
Soportan analisis OLAP contra
grandes volumenens de datos
Se comportan razonablemente en
volumenes de datos mas reducidos
(menos de 5Gb)
Herramienta flexible y general Solucin particular con volmenes
de informacin y numero de
dimensiones mas modestos
Clasificacin segn el tipo de motor en el
que estn almacenados los datos:
06/08/2013 52
Administracin de las Tecnologas
de la Informacin
Consultando un cubo
Trim4
Trim1 Trim2 Trim3
Dimensin tiempo
Santiago
Quito
Arequipa
Manzana
Paal
Yogurt
Lima
Ventas
Fact
Melon
06/08/2013 53
Administracin de las Tecnologas
de la Informacin
LA ESTRUCTURA DE UN CUBO

54 06/08/2013
Administracin de las Tecnologas
de la Informacin

55
Hechos Principales
06/08/2013
Administracin de las Tecnologas
de la Informacin

56

Medidas
06/08/2013
Administracin de las Tecnologas
de la Informacin

57

Medida :
cuenta de suscriptor x mes

(para agilizar clculos)


06/08/2013
Administracin de las Tecnologas
de la Informacin

58

Medida:
Tasa de cambio de moneda,
esta se expresa en una sola,
independientemente de la
divisa de pago.
06/08/2013
Administracin de las Tecnologas
de la Informacin

59

Dimensiones

La Dimensin fecha se usa ms
de una vez (dimensin con rol)
06/08/2013
Administracin de las Tecnologas
de la Informacin

60

Relaciones
Una relacin regular



06/08/2013
Administracin de las Tecnologas
de la Informacin
The cube structure

61

Relaciones
Una relacin de hecho


06/08/2013
Administracin de las Tecnologas
de la Informacin

62

Relaciones
Una relacin referenciada


06/08/2013
Administracin de las Tecnologas
de la Informacin
The cube structure

63
Relaciones
Una relacin de muchos a
muchos

Dim Product Fact Charges
Fact Charges Dim Subscriber
Dim Subscriber Fact Subscriber


06/08/2013
Administracin de las Tecnologas
de la Informacin
LOGO
Administracin de las Tecnologas de la Informacin
DATA MINING
Minera de Datos
06/08/2013 64
Administracin de las Tecnologas
de la Informacin
Contents
DATA MINING
1. What is Data Mining?
2. POR QU?
3. Data Mining un proceso
4. Importante
06/08/2013 65
5. Anexos
What is Data Mining?

El data mining es el conjunto
de tcnicas y tecnologas
que permiten explorar
grandes BBDD, de manera
automtica o
semiautomtica, con el
objetivo de encontrar
patrones repetitivos,
tendencias o reglas que
expliquen el comportamiento
de los datos en un
determinado contexto.

Administracin de las Tecnologas
de la Informacin
66 06/08/2013
What is Data Mining?

Arte/Ciencia de descubrir y aprovecha en
forma automtica informacin
no-obvia y til en grandes bases de datos

Administracin de las Tecnologas
de la Informacin
67 06/08/2013
nfasis en:
no-obvia (no intuitivas)
til (coste vs beneficio)
grande (proceso automtico)

No hay reglas siempre que el proceso sea eficiente en
tiempo, dinero y recursos humanos
Tres pasos
Preparacin de los datos
Anlisis de datos
Toma de decisiones
Redes Neuronales
06/08/2013 68
Administracin de las Tecnologas
de la Informacin
Preparacin de datos
Extraccin / Integracin
Transformacin
Seleccin
Limpieza
Data warehouse
50-80% tiempo del proyecto
06/08/2013 69
Administracin de las Tecnologas
de la Informacin
LOGO
06/08/2013 Administracin de las Tecnologas de la
Informacin
70
Scrubbing, selecting, cleansing,
preprocessing,
Eliminar redundancia
Eliminar datos y variables irrelevantes
Tratar datos ausentes
media, substitucin astuta, interpolacin, ignorar, ?
Correccin errores
Outliers (datos fuera de rango)
Verificar consistencia


Reservar todo preprocesamiento relevante hasta el anlisis
06/08/2013 71
Administracin de las Tecnologas
de la Informacin
Anslisis de datos
Tcnicas:

rboles de decisin
Reglas de asociacin
Ajustes (regresiones..)
Algoritmos genticos
Redes neuronales

Tareas conceptuales:

Clasificacin
Optimizacin
Interpolacin
Modelacin
Prediccin

Objetivos:

Target marketing
Segmentacin
Control
Prediccin ventas
Descubrir imperfecciones

06/08/2013 72
Administracin de las Tecnologas
de la Informacin
Toma de decisiones
Los resultados del anlisis pueden resultar inescrutables
El analista debe entender el problema a fondo
Los resultados deben presentarse con honestidad
El post-procesamiento y la inclusin de factores subjectivos
son a menudo necesarios
Validacin estricta
06/08/2013 73
Administracin de las Tecnologas
de la Informacin
Administracin de las Tecnologas
de la Informacin
PARA QU?
06/08/2013 74
Las empresas de todos los tamaos
necesitan aprender de sus datos para
crear una relacin one-to-one con sus
clientes.
Las empresas recogen datos de todos lo
procesos.
Los datos recogidos se tienen que
analizar, comprender y convertir en
informacin con la que se pueda actuar y
aqu es donde Data Mining juega su
papel
Administracin de las Tecnologas
de la Informacin
Data Mining proporciona la
Inteligencia
06/08/2013 75
El Data Warehouse proporciona los datos.
La inteligencia permitir buscar en esos datos
tratando de encontrar patrones, descubrir
reglas, nuevas ideas que probar, y hacer
predicciones acerca del futuro
Se estudiarn las tcnicas y herramientas que
aaden la inteligencia al datawarehouse para
explotar los datos de los clientes y sacar el
mximo rendimiento

Administracin de las Tecnologas
de la Informacin
Relacin
06/08/2013 76
Relacin con el Data Mining
Est asociado al escaln ms alto de la pirmide (Nivel Estratgico) y
tiene por objeto eliminar los errores cometidos por las personas al
analizar los datos debido a prejuicios y dejar que sean los datos los
que muestren los modelos subyacentes en ellos.

Mientras en Data Warehousing, se basan en estructuras
multidimensionales, en las que se almacena la informacin
calculando previamente todas las combinaciones de todos los niveles
de todas las aperturas de anlisis.

Aunque este mtodo se puede considerar como exagerado, nunca
ser tan caro, como lo que le costara a la organizacin el tomar las
decisiones equivocadas.
Como nos ayudan?
Qu clientes permanecern fieles?
Qu clientes estn a punto de abandonar?
Dnde debemos localizar la prxima
sucursal?
Qu productos se deben promocionar a
qu prospectos?
...
Las respuestas a estas preguntas estn
enterradas en los datos y se necesitan
las tcnicas de Data Mining para
buscarlas

Administracin de las Tecnologas
de la Informacin
77 06/08/2013
Administracin de las Tecnologas
de la Informacin
Data Mining un proceso
Pasos
06/08/2013 78
Data Mining un proceso
Administracin de las Tecnologas
de la Informacin
79 06/08/2013
Identificar
un
problema
Usar data mining para
transformar los datos
en informacin
Actuar basndonos
en la informacin
Medir los
resultados
LOGO
06/08/2013 Administracin de las Tecnologas de la
Informacin
80
OBJETIVO
Establecer la secuencia de lgica de actividades, responsables e informacin necesaria que permita controlar, recopilar y procesar
informacin primaria y secundaria.
ALCANCE
El presente procedimiento permite la publicacin de informacin clasificada por sector, inicindose con la coordinacin de la
disponibilidad de informacin y finalizando con el ingreso de informacin al sistema.
El presente documento aplica para el Departamento de Informacin y Negocios Electrnicos de la Sub Direccin de Inteligencia y
Prospectiva Comercial.
LOGO
06/08/2013 Administracin de las Tecnologas de la
Informacin
81
Direccin de Promocin de Exportaciones
Subdireccin de Inteligencia y Prospectiva Comercial
7
Distribuir informacin a
sectoristas
FIN
Especialista en Procesamiento e Informacin Estadstica
6
Clasificar informacin
por sector
Departamento de Informacin y Negocios Electrnicos
Leyenda
1
Coordinar disponibilidad
de informacin
2
Extraer informacin de
base de datos SUNAT
INICIO
INICIO / FIN Entidad Externa Actividad Decisin?
Otro
Procedimiento
A
1
Conector dentro de pgina Conector a otra pgina Inicio y fin de actividades en paralelo
5
Coordinar
actualizacin
Es conforme?
3
Transferir informacin
a INFOTRADE
4
Validar informacin
cargada
No
Si
SUNAT
SUNAT
Elab. base datos
compradores
internacionales
Elaboracin de
informe mensual de
exportaciones
Elaboracin de
informes especiales
LOGO
06/08/2013 Administracin de las Tecnologas de la
Informacin
82
LOGO
06/08/2013 Administracin de las Tecnologas de la
Informacin
83
Direccin de Promocin de Exportaciones
Subdireccin de Inteligencia y Prospectiva Comercial
FIN
Departamento de Informacin y Negocios Electrnicos
Leyenda
INICIO / FIN Actividad Decisin?
Otro
Procedimiento
A
1
Conector dentro de pgina Conector a otra pgina Inicio y fin de actividades en paralelo Entidad Externa
INICIO
1
Recopila informacin
de fuentes externas
3
Transfiere informacin
a base de datos
Especialista en PROCOM y Portal Institucional
5
Actualiza informacin
de base de datos
Informacin
encontrada?
7
Busca informacin de
compradores
2
Ordena y guarda
informacin
Soporte y
Mantenimiento
Plataforma SIICEX
Subdireccin de Promocin Comercial
Especialista de Promocin Comercial
4
Califica acceso de
informacin
10
Prioriza atencin
8
Remite requerimiento
Coordinador de Informacin y
Negocios Electrnicos
11
Extrae informacin de
compradores
Si
No
A
A
9
Registrar el
requerimiento
Usuarios Internos y/o Externos
6
Califica acceso de
informacin
Administracin de las Tecnologas
de la Informacin
Importante
06/08/2013 84
La promesa de Data Mining es encontrar los patrones
Simplemente el hallazgo de los patrones no es suficiente
Debemos ser capaces de entender los patrones,
responder a ellos, actuar sobre ellos, para finalmente
convertir los datos en informacin, la informacin en
accin y la accin en valor para la empresa
Data Mining resumen
Administracin de las Tecnologas
de la Informacin
85 06/08/2013
Data Mining es un proceso que se tiene que
centrar en las acciones derivadas del
descubrimiento de conocimiento no en el
mecanismo de descubrimiento en si mismo.
Aunque los algoritmos son importantes, la
solucin es ms que un conjunto de tcnicas y
herramientas.
Las tcnicas se tienen que aplicar en el
caso correcto a los datos correctos
Conclusiones
Administracin de las Tecnologas
de la Informacin
86 06/08/2013
El concepto de DWH est teniendo una gran aplicacin
en la actualidad para el desarrollo de las empresas,
como almacn de datos. Sus objetivos incluyen la
reduccin de los costes de almacenamiento y una mayor
velocidad de respuesta frente a las consultas de los
usuarios. Estos pueden ahora analizar y realizar
preguntas sobre aos, ms que sobre meses de
informacin.
Para disear una buena arquitectura de DWH es
necesario como primer paso conocer bien los
requerimientos del negocio y hacer un estudio profundo
de las fuentes externas que nos van a suministrar los
datos. Adems, hacer un buen diseo del rea de
transformacin de datos, cules son las
transformaciones que se van a realizar y cmo se va a
implementar el modelo dimensional con sus tablas de
hechos y de dimensiones es el segundo paso a seguir.
Resumiendo los beneficios de la
arquitectura del DWH :
Administracin de las Tecnologas
de la Informacin
87 06/08/2013
Provee un esquema de organizacin cules son los componentes que
la forman, cmo ellos se interrelacionan, quin es el dueo de cada
parte y cules son las prioridades.

Mejora la flexibilidad permite que rpidamente se aadan nuevas
fuentes de datos.

Desarrollo rpido y reuso los desarrolladores de DWH son ms
capaces de comprender el proceso de DWH , los contenidos de las
bases de datos y las reglas del negocio ms rpidamente.

Herramientas de comunicaciones define y comunica la direccin y el
alcance de las expectativas , identifica los roles y responsabilidades y
comunica los requerimientos al proveedor.

LOGO
Administracin de las Tecnologas de la
Informacin
Que la tecnologa no te entierre
06/08/2013 88
LOGO
ANEXOS
REDES NEURONALES
06/08/2013 Administracin de las Tecnologas de la
Informacin
89
Fuente: Jos Ignacio Latorre
Universitat de Barcelona
http://sophia.ecm.ub.es/latorre/
Por qu no se emplea el Data Mining?

Explotacin bruta de las bases de datos da resultados sin sentido
o no-competitivos
Sentido comn y buena formacin = coste elevado

S se emplea, pero poca gente es consciente

Data Mining
06/08/2013 90
Administracin de las Tecnologas
de la Informacin
Redes Neuronales
06/08/2013 91
Administracin de las Tecnologas
de la Informacin
Qu es una red neuronal?
Datos
Datos histricos
variables objetivos
Datos nuevos
variables ??
Las redes neuronales aprenden a partir de ejemplos
Economista/Matemtico/Fsico/Analista
Aproximante universal
(Permiten un ajuste a partir de ejemplos en
un gran espacio de funciones sin sesgo,
robusto, flexible que implementa
inferencia bayesiana)
Economista/Empresario
Herramienta de prediccin
(objetivo, consolidado,
adaptable a problemas complejos,
integrable)
Modelo del cerebro
Redes neuronales
06/08/2013 92
Administracin de las Tecnologas
de la Informacin
Redes neuronales
Para qu sirven una red neuronal?
Clasificacin
Clientes buenos/malos, comprometidos o no, asequibles o no
Reconocimiento de patrones
Interpolacin
Adivinar el comportamiento de un nuevo cliente
Crear una nueva pintura
Prediccin
Ventas, meteorologa, finanzas, control de produccin
Las redes neuronales pueden ser aplicadas a cualquier
problema de inferencia estadstica
06/08/2013 93
Administracin de las Tecnologas
de la Informacin
Cmo funciona una red neuronal?
capa 1


capa 2


capa l

.....

|
|
.
|

\
|
+ =

) ( ) 1 (
) 1 (
1
) ( ) ( l
i
l
j
l n
j
l
ij
l
i
t z w f z
Red neuronal
feedforward
multicapa
Redes neuronales
06/08/2013 94
Administracin de las Tecnologas
de la Informacin
Redes neuronales
|
|
.
|

\
|
+ =

) ( ) 1 (
) 1 (
1
) ( ) ( l
i
l
j
l n
j
l
ij
l
i
t z w f z
La funcin de activacin da flexibilidad para que la respuesta de
cada neurona pueda ser no lineal
Los pesos w y los umbrales t determinan la forma en que la informacin
es procesada por cada neurona
El nmero de capas y de neuronas por capa definen la
arquitectura de la red neuronal
El algoritmo de aprendizaje por correccin de errores hacia
atrs, back-propagation (1985) establece un procedimiento
eficiente para ajustar los pesos y umbrales de una red neuronal
de forma que aprenda ejemplos.
Hemos aprendido a aprender!
06/08/2013 95
Administracin de las Tecnologas
de la Informacin
Redes neuronales
T vs C
C
T c C T T C
Entrenamiento

0. w y t aleatorios
1. Introducir un ejempo (T)
2. Output = T
bien
Output = C
error
3. Propagar un cambio de
w and t a travs de la red
para reducir el error
4. Repetir con todos los
ejemplos varias veces
Aprendizaje supervisado de T / C
T
Robusto
Universal
Sin sesgo
06/08/2013 96
Administracin de las Tecnologas
de la Informacin
Redes neuronales
Belgrado 19/04/1999
Una red neuronal es
entrenada con patrones
de aviones



La red detecta un avin
militar escondido bajo un
avin comercial
06/08/2013 97
Administracin de las Tecnologas
de la Informacin
Finanzas
Data Mining
Divorcios
Ciencia
Banca
Reconocimiento
de patrones
06/08/2013 98
Administracin de las Tecnologas
de la Informacin
Tarjetas de crdito
1. 50000 clientes reciben la oferta

2. Un red neuronal es entrenada con
las respuestas

3. La red predice la respuesta de los
450000 clientes restantes

Un banco desea ofrecer una nueva tarjeta a sus clientes
Depsitos Salario
Edad Sexo Crditos
Hipotecas Educacin
S / No
Red neuronal
Ejemplos
06/08/2013 99
Administracin de las Tecnologas
de la Informacin
Ejemplos
Lift Chart
% de clientes contactados
% de
Respuestas positivas
retenidas
06/08/2013 100
Administracin de las Tecnologas
de la Informacin
Promedios sobre redes entrenadas a partir de pesos aleatorios
Si existe un modelo subyacente, las redes son equivalentes
Si no existe un modelo subyacente, las redes producen dispersin
Lanzamos 100 redes sobre
datos entrenar/validar
Para cada dato tenemos un
promedio y una dispersin
Descartamos 3 sigma



Alarmas
Arbitraje
.

-1 sigma


+ 1sigma
NN
Real
Ejemplos
Series temporales de cotizaciones
06/08/2013 101
Administracin de las Tecnologas
de la Informacin
Ejemplos
Estoy divorciado?
Una red neuronal ha sido entrenada con

rea del apartamento
es relevante la virginidad? divorciado?
salario s / no
visitas de los suegros
salud,..
Acierto: 88%
Matemticas / Filosofa 100%
06/08/2013 102
Administracin de las Tecnologas
de la Informacin

También podría gustarte