Está en la página 1de 101

1

Un Data Warehouse es un conjunto integrado de bases de


datos, con orientacin temtica, que estn diseados para
el apoyo a la Toma de Decisiones, y donde cada unidad de
datos es relevante en algn momento del tiempo
Bill H. Inmon
"una copia de las transacciones de datos especficamente
estructurada para la consulta y el anlisis o"la unin de
todos los Data marts de una entidad
Ralph Kimball
Yo considero al DW como algo que provee dos beneficios
empresariales reales: Integracin y Acceso de datos. DW
elimina una gran cantidad de datos intiles y no deseados,
como tambin el procesamiento desde el ambiente
operacional clsico
Susan Osterfeldt

2
Hacer la informacin de la organizacin
accesible
Hacer a la informacin de la
organizacin consistente
Controlar el acceso efectivo a los datos
Generar informacin de manera flexible
Servir de ayuda a la toma de decisiones

3
Un Data Warehouse tiene como objetivo
almacenar y proveer a la Organizacin
de informacin relevante y a tiempo
4
Mejorar la Entrega de Informacin:.
Mejorar el Proceso de Toma de
Decisiones
Impacto Positivo sobre los Procesos
Empresariales
5
La amplitud; el nmero de diferentes temas y puntos de foco
Fuentes que proveern datos brutos.
Los medios por los cuales los datos se transportan de las
aplicaciones fuente y son cargados al Data Warehouse.
Las reglas de negocio que se aplican a la data en bruto para
producir activos de datos de alta calidad.
Las bases de datos receptoras, en la que estos activos de datos
sern almacenados.
Los activos de datos; los elementos, el nivel de detalle de cada
elemento, y cunta historia se ha mantenido, por ejemplo.
La Inteligencia de negocio
Herramientas de nivel usuario para acceder a los activos de
datos.
La arquitectura y complejidad en general del entorno.

6
Royal bank of canada
Paypal
3M
Coca-Cola Company
Verizon
Ford Motor Company
Herramientas de nivel usuario para
acceder a los activos de datos.
La arquitectura y complejidad en
general del entorno.

7
IBM Cognos
http://www-01.ibm.com/software/data/cognos/
Teradata
http://www.teradata.com
Oracle Hyperion
http://www.oracle.com/hyperion/index.html
MicroStrategy
http://www.strategy.com
SAS
http://www.sas.com


8
Orientado a un tema
Administra grandes cantidades de
informacin
Guarda informacin en diversos medios de
almacenamiento
Comprende mltiples versiones de uno (o
varios) esquema de base de datos
Condensa y agrega informacin
Integra y asocia informacin de muchas
fuentes
9
SISTEMAS TRADICIONALES

DATAWAREHOUSE

Predomina la actualizacin.
Actividad operativa (da a
da).
Proceso puntual.
Estabilidad.
Datos desagregados.
Dato actual.
Respuesta de la transaccin
inmediata.
Estructura relacional.
Usuarios de perfiles bajos.
Explotacin de la informacin
relacionada con operatividad
de cada aplicacin

Predomina la consulta
Anlisis y decisin estratgica.
Proceso masivo.
Dinamismo.
Niveles de detalle/agregacin.
Dato histrico.
Respuesta masiva
Estructura Multidimensional
Usuarios de perfiles altos.
Explotacin de informacin
interna y externa relacionada
con el negocio.
10
Metodologa de Inmon (Top Bottom)

11
12
13
Page 14
Arquitectura de un Data
Warehouse
14
Production
systems

Other sources
CRM
Billing
Activation
systems
Other
DBs
Files
ETL
DataWarehouse
OLAP
cubes
Business
Users
Querying &
Reporting
tools
Acquisition Storage /
Archiving
Restitution
Datamarts
Flujo de Datos de un DW
15
Page 16



Base de datos operacional / Nivel de base de datos
externo.
Nivel de acceso a los datos
Nivel de organizacin de datos
Nivel de data warehouse
Nivel de acceso a la informacin
Nivel de gestin de proceso

Arquitectura de un Data
Warehouse
16
Page 17

Base de datos operacional / Nivel de base de datos
externo (Fuentes de datos)
Los sistemas operacionales procesan datos para apoyar
las necesidades operacionales crticas, tales como
ERPs, SCMs, tambin se procesa informacin de fuentes
de datos externas, tales como de la internet, INEI, BCRP.

Nivel de acceso a los datos
Es responsable de la interfaces entre las herramientas
de acceso a la informacin y las bases de datos
operacionales. En algunos casos, esto es todo lo que un
usuario final necesita para realizar estas interfases se
utiliza el SQL (Standar Query Lenguaje)




Elementos de la Arq. De un DW
17
Page 18

Nivel de organizacin de datos
El componente final de la arquitectura data Warehouse
es la organizacin de los datos, incluye todos los
procesos necesarios como seleccionar, editar, resumir,
combinar y cargar datos en el depsito y acceder a la
informacin desde bases de datos operacionales y/o
externas

Nivel de data warehouse
En un data Warehouse fsico, el almacenaje de data
procesada, incluso en forma redundante

Elementos de la Arq. De un DW
18
Page 19
Nivel de acceso a la informacin
Este nivel se incluye el hardware y software
involucrados en representar y proveer de informacin al
usuario final normalmente usa da a da. Por ejemplo:
Excel, Lotus 1-2-3, Focus, Access, SAS, etc.

Nivel de gestin de proceso
El nivel de gestin de procesos tiene que ver con la
programacin de diversas tareas que deben realizarse
para construir y mantener actualizado el data warehouse
y la informacin del directorio de datos.




Elementos de la Arq. De un DW
19
1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE
Establecer una asociacin de usuarios, gestin y grupos
Construir prototipos rpida y frecuentemente
Implementacin incremental
Reportar activamente y publicar los casos exitosos

A
d
m
i
n
i
s
t
r
a
c
i

n

d
e

l
a
s

T
e
c
n
o
l
o
g

a
s

d
e

l
a

I
n
f
o
r
m
a
c
i

n


20
Fase 1: Organizacin
2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE


A
d
m
i
n
i
s
t
r
a
c
i

n

d
e

l
a
s

T
e
c
n
o
l
o
g

a
s

d
e

l
a

I
n
f
o
r
m
a
c
i

n


21
Quin es el auditorio?

Cul es el alcance?

Qu tipo de data warehouse
debera construirse?
1ra.: Establecer un ambiente "data warehouse virtual.

2da.: Construir una copia de los datos operacionales desde un sistema
operacional nico y posibilitar al data warehouse de una serie de
herramientas de acceso a la informacin.

3ra.: Finalmente, la estrategia data warehousing ptima es seleccionar el
nmero de usuarios basados en el valor de la empresa y hacer un anlisis de
sus puntos, preguntas y necesidades de acceso a datos.



10/03/2014 22
3 ESTRATEGIAS PARA EL DISEO DE UN DATA WAREHOUSE
1ra. : Los usuarios de los data warehouses
usualmente no conocen mucho sobre sus
requerimientos y necesidades como los usuarios
operacionales.

2da.: El diseo de un data warehouse, con
frecuencia involucra lo que se piensa en trminos
ms amplios y con conceptos del negocio ms
difciles de definir que en el diseo de un sistema
operacional. Al respecto, un data warehouse est
bastante cerca a Reingeniera de los Procesos del
Negocio (Business Process Reengineering).

3ra.: Finalmente, la estrategia de diseo ideal para
un data warehousing es generalmente de afuera
hacia adentro (outside-in) a diferencia de arriba
hacia abajo (top-down).
10/03/2014
A
d
m
i
n
i
s
t
r
a
c
i

n

d
e

l
a
s

T
e
c
n
o
l
o
g

a
s

d
e

l
a

I
n
f
o
r
m
a
c
i

n


23
4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE

1ra.: Un data warehouse es una inversin buena slo si los usuarios finales
realmente pueden conseguir informacin vital ms rpida y ms barata de lo
que obtienen con la tecnologa actual.

2da.: La administracin debe reconocer que el mantenimiento de la
estructura del data warehouse es tan crtico como el mantenimiento de
cualquier otra aplicacin de misin-crtica.

3ra.: La gestin debe comprender tambin que si se embarcan sobre un
programa data warehousing, se crearn nuevas demandas sobre sus
sistemas operacionales, que son:
Demandas para mejorar datos
Demandas para una data consistente
Demandas para diferentes tipos de datos, etc.
10/03/2014 24
Se ha reconocido los beneficios del
procesamiento analtico en lnea (On Line
Analytical Processing - OLAP), ms all de las
reas tradicionales de marketing y finanzas.
El crecimiento de la computacin
cliente/servidor, ha creado servidores de
hardware y software ms poderosos y
sofisticados que nunca. Los servidores de
hoy compiten con las mainframes de ayer y
ofrecen arquitecturas de memoria
tecnolgicamente superiores, procesadores
de alta velocidad y capacidades de
almacenamiento masivas.

Fase 2: Desarrollo
1. PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE?

10/03/2014 25
2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE

Hay muchas maneras para
desarrollar data warehouses como
tantas organizaciones existen. Sin
embargo, hay un nmero de
dimensiones diferentes que
necesitan ser consideradas:

Alcance de un data warehouse
Redundancia de datos
Tipo de usuario final
10/03/2014 26
3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE


Si se escoge incorrectamente, el data warehouse se convierte en una
gran empresa con problemas difciles de trabajar en su entorno, costoso
para arreglar y difcil de justificar.

Para conseguir que la implementacin del depsito tenga un inicio
exitoso, se necesita enfocar hacia tres bloques claves de construccin:

Arquitectura total del depsito
Arquitecturas del servidor
Sistemas de Gestin de Base de Dato
Hay muchas maneras para desarrollar data warehouses como tantas
organizaciones existen. Sin embargo, hay un nmero de dimensiones
diferentes que necesitan ser consideradas:

Alcance de un data warehouse
Redundancia de datos
Tipo de usuario final
10/03/2014 27
4 CONFIABILIDAD DE LOS DATOS

La data "sucia" es peligrosa. Las herramientas de limpieza
especializadas y las formas de programar de los clientes
proporcionan redes de seguridad.

No importa cmo est diseado un programa o cun hbilmente se
use. Si se alimenta mala informacin, se obtendr resultados
incorrectos o falsos.

Desafortunadamente, los datos que se usan satisfactoriamente en
las aplicaciones de lnea comercial operacionales pueden ser
basura en lo que concierne a la aplicacin data warehousing
10/03/2014 28
5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA
WAREHOUSE


La data sucia es un serio peligro para el xito de
un proyecto de data warehouse. Dependiendo del
alcance del problema, simplemente podra no ser
posible dirigirlo rpidamente y abaratarlo.
Los principales factores son:
- El tiempo que toma la programacin interna
- El costo de las herramientas
Los gerentes de proyectos de Data Warehouse
necesitan evaluar el problema con realismo, los
recursos internos disponibles para distribuirlos y
seleccionar la solucin que se adapte a la planilla
y presupuesto del proyecto, o modificar la planilla
y el presupuesto para solucionar el problema.

10/03/2014 29
Proyecto Total o Proyecto en Fases
Es ms viable el desarrollo de un proyecto en fases que produzcan resultados a corto
plazo que el desarrollo de un proyecto que entregue resultados al trmino de varios
aos. Por ello, el proyecto debe estar centrado en un rea o un proceso.
Modelo lgico de datos
El modelo lgico de datos debe tener un alcance ms alto y cubrir todas las reas de
inters, as como los procesos ms estratgicos de cada una de ellas.
Proyecto Especializado o Proyecto Base
Decidir sobre qu tipo de proyecto, es algo complicado. Un proyecto especializado
soporta directamente un proceso especfico, por ejemplo: retencin de clientes.
Un proyecto base entrega capacidad genrica de anlisis a todos los usuarios que
tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la
solucin de un problema especfico o el soporte especializado de un proceso
especfico.



FASE 3: IMPLEMENTACION

1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION
10/03/2014 30
2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION

Identificar el problema en el cual el uso
estratgico de la informacin detallada,
permita conseguir una solucin para
generar una ventaja competitiva o un
ahorro de costos.

Definir el modelo lgico de datos a
implementar para resolver el problema
planteado.
10/03/2014
Administracin de las
Tecnologas de la
Informacin
31
3 ESTRATEGIAS EN LA IMPLEMENTACION
Definir el mejor diseo fsico para el modelo de datos. El diseo fsico debe estar
orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia
del modelo lgico que est orientado al usuario y a la facilidad de consulta.
Definir los procesos de extraccin, filtro, transformacin de informacin y carga de
datos que se deben implementar para poblar ese modelo de datos.
Definir los procesos de administracin de la informacin que permanece en el data
warehouse
Definir las formas de consultas a la informacin del data warehouse que se le
proporcionar al usuario. Para sto, debe considerarse la necesidad de resolver un
problema y la potencia de consulta.
Completar el modelo de consulta base, relativo al rea seleccionada.
Implementar los procesos estratgicos del rea de trabajo, es decir, implementar
herramientas especializadas de scoring, herramientas especializadas para induccin
de conocimiento (Data Mining), etc.
Completar las reas de inters, en forma similar a lo descrito anteriormente.

10/03/2014
Administracin de las
Tecnologas de la
Informacin
32
Qu clases de costos excedieron el
presupuesto en ms del 10% en cada uno de
los 12 meses pasados?
Se aumentaron los presupuestos en ms de
5% para cualquier rea dentro de los ltimos
18 meses?
Cmo especificar las clases de gasto entre
diferentes departamentos? Entre divisiones?
A travs de las regiones geogrficas?
Cmo tener mrgenes de operacin sobre los
dos ltimos aos en cada rea de negocio?
Donde han disminuido los mrgenes, se han
incrementado los costos?
FASE 4: EVALUACION
1 EVALUACION DE RENDIMIENTO DE LA INVERSION
Administracin de las Tecnologas de la Informacin 33 10/03/2014
CASO PRACTICO
En un estudio encargado por 20 vendedores y consultores, se encontr un
Retorno Promedio Total de la inversin (Return On Investment-ROI) de
401%.Tambin, se excluyeron los proyectos fracasados, as como los
ejecutados excepcionalmente, tanto buenos como malos.
2.2 Millones Costo promedio
2.3 Aos Perodo de reembolso promedio
160% ROI mediano
533% ROI promedio del modelo complementario de datos
322% ROI promedio del proyecto ms grande
401% ROI promedio total
CAMBIOS DE VALOR
10/03/2014
Administracin de las
Tecnologas de la
Informacin
34
1.1 COSTOS Y BENEFICIOS
Costos preliminares
Planificacin
Diseo
Modelamiento /Ingeniera de
Informacin
Costos iniciales
Plataforma de hardware
Software de base de datos
Costos en procesamiento
Mantenimiento de datos
Desarrollo de aplicaciones
Capacitacin y soporte
Beneficios Tcticos
Impresin y emisin de reporte
reducido
Demanda reducida para consultas de
clientes
- Entrega ms rpida de informacin a los
usuarios
Beneficios Estratgicos (Potencialidad)
Aplicaciones y herramientas de
acceso para los usuarios finales
Decisiones con mayor informacin
Toma de decisiones ms rpida
Capacidad de soporte a la
informacin organizacional
10/03/2014
Administracin de las
Tecnologas de la
Informacin
35
2 BENEFICIOS A OBTENER

Para la Empresa
El data warehouse hace lo posible por aprovechar el
valor potencial enorme de los recursos de informacin
de la empresa y volver ese valor potencial en valor
verdadero.
Para los Usuarios
El data warehouse extiende el alcance de la informacin
para que puedan accesar directamente en lnea, lo que
a la vez contribuye en su capacidad para operar con
mayor efectividad las tareas rutinarias o no.
Para la Organizacin en Tecnologas de Informacin

El data warehouse enriquece las capacidades del
usuario autosuficiente y hace lo factible para ofrecer
nuevos servicios a los usuarios, sin interferir con las
aplicaciones cotidianas de produccin
Importante: El Modelo de Datos
Es el modelo por el cual se disea el esquema de funcionamiento de la
Base de Datos que provee al Data Warehouse.

Existen varios enfoques en este sentido:

Fbrica de informacin corporativa (CIF): incluyen ODS, data warehouse y data
marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional,
fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa

Esquema en estrella: Este mtodo replica las estructuras multidimensionales de
hechos y dimensiones, pero usa tablas de RDBMS, especficamente tablas de
hechos y tablas de dimensiones. Se dejan de lado las reglas de normalizacin de
base de datos y se ponen los datos donde tienen ms sentido

Data vault (Arquitectura de modelado fundacional comn -CFIMA):
Esta es una arquitectura de integracin de datos que contiene una base de datos
orientada al detalle que contiene un conjunto de tablas normalizadas nicamente
enlazadas que soportan una o ms reas funcionales de las tablas de negocio con
tablas satlites para rastrear cambios histricos. Este enfoque hbrido rene lo
mejor del cruce entre la tercera forma normal (3NF)


10/03/2014 Administracin de las Tecnologas de la Informacin 36
Page 37
DATA WAREHOUSE VS BD
OPERACIONAL
Uso de Base de Datos
Operacionales

Uso de
Data Warehouse

Muchos usuarios concurrentes

Pocos usuarios concurrentes

Consultas predefinidas y
actualizables

Consultas complejas,
frecuentemente
no anticipadas.

Cantidades pequeas de datos
resumidas.

Cantidades grandes de datos
resumidas.

Requerimientos de respuesta
inmediata
Requerimientos de respuesta no
crticos

10/03/2014 Administracin de las Tecnologas de la Informacin 37
Modelo de Estrella
10/03/2014 Administracin de las Tecnologas de la Informacin 38
Extraccin
Multiples Fuentes
Orientadas a trabajo Batch : cagas de estos sistemas son ms fuertes
cuando los sistemas de produccin tienen poca carga
Conectvidad a diferentes tecnologas, diferentes manejadores de BDs
Transformacin
Manipulacin de data compleja
Reunin de diferentes fuentes
Implementacin de reglas de negocio
Limpiado, ordenado, eliminacin de duplicidades
Optimizado para el desempeo y para grandes volmenes
Carga
Cargar la data en tablas de hechos y dimensiones
Produce un historial en archivos o en la BD para trazabilidad
Otros
Controla los flujos de ejecucin: maneja las dependencias entre tareas,
control de ejecucin, gestin de errores, registros histricos.
10/03/2014 Administracin de las Tecnologas de la Informacin
39
Transformacin de Bsqueda difusa
Busca valores en las tablas usando criterios difusos
Ejemplo: Para un campo de texto la data puede contener muchas variantes de la
misma palabra (friend, a friend, freind, etc). La lgica difusa puede ayudar a
reunir las variantes.

Transformacin de dimensiones de cambio lento
Ayuda a manejar la actualizacin de una dimensin de cambio lento
Ejemplo : la informacin sobre los consumidores cambia constantemente, pero
queremos una historia de estos
Cambio de direccin no queremos el valor anteiror (reemplazo)
Un cambio en el valor VAT duplicamos la entrada del consumidor agregando los datos
adicionales (para propsitos financieros)

10/03/2014 Administracin de las Tecnologas de la Informacin
40
Customer table Bill Table
Customer ID Last Name City Company VAT Nb Bill ID Customer ID Date Amount
FR 1234567 67890 00012345 01/01/2008 500
FR 5555566 89567 00012345 01/06/2008 400
00012345 DESPRIEE Paris
OLTP Model
DimCustomer FactBill Table
Customer Key Customer ID Last Name City Company VAT Nb Bill ID Customer Key Date Amount
2048 00012345 DESPRIEE Paris FR 1234567 67890 2048 01/01/2008 500
3057 00012345 DESPRIEE Paris FR 5555566 89567 3057 01/06/2008 400
OLAP Model
Clave sustituta
Los datos son muy sensibles, la calidad
de los reportes depende la calidad de
estos
Cargar un Data Warehouse puede
implicar reglas complejas de extraccin,
transformacin y carga
Los usuarios del negocio no confiarn en
un DW si no confan en su carga

10/03/2014 Administracin de las Tecnologas de la Informacin
41
Flujo de control y flujo de datos
10/03/2014 Administracin de las Tecnologas de la Informacin
42
Son Instancias intermedias a la carga y al acceso que
sirven para verificar la calidad y fiabilidad de la data
Estacin de transformacin interina: un rea en la cual
grupos de datos extrados de alguna de las fuentes
pasan por un proceso de transformacin antes de
moverse hacia la base de datos del almacn.
Estacin de aseguramiento de la calidad: Un rea en la
cual grupos de datos pasan por un conjunto de intensas
revisiones de aseguramiento de la calidad antes de
pasar hacia el almacn de datos.

10/03/2014 Administracin de las Tecnologas de la Informacin 43

10/03/2014 Administracin de las Tecnologas de la Informacin 44
Solucin: crear almacenes de datos especializados por rea, que
reciben los datos desde el almacn centralizado, estos almacenes
se conocen como Data Marts.
10/03/2014 Administracin de las Tecnologas de la Informacin 45
Problema: al crecer el DW. El rendimiento de las consultas decae y el modelo
centralizado deja de ser optimo.
Toma de decisiones
Un Datamart es una base de
datos departamental,
especializada en el
almacenamiento de los datos
de un rea de negocio
especfica.


Se caracteriza por disponer la
estructura ptima de datos para
analizar la informacin al
detalle desde todas las
perspectivas que afecten a los
procesos de dicho
departamento.

DATAMART
10/03/2014 Administracin de las Tecnologas de la Informacin 46
10/03/2014 Administracin de las Tecnologas de la Informacin 47
Puede ser alimentado desde los datos de un
DWH, o integrar por si mismo un compendio
de distintas fuentes de informacin.
Data Warehouses Vs. Data Marts
Data Mart
Departamental
Un solo tema
Pocos
<
100 GB
Meses
Data Mart
Data
Warehouse
Propiedad
Alcance
Tema
Fuente de datos

Tamao (tpico)
Tiempo de implementacin
Data Warehouse
Empresarial
Mltiples
Muchas
100 GB to > 1 TB
Meses a aos
10/03/2014 Administracin de las Tecnologas de la Informacin 48
Su objetivo es agilizar la consulta de grandes cantidades de
datos. Caracteriza la Arquitectura necesaria para la
implementacin de un sistema de ayuda en la toma de
decisiones. La consultas son pocas pero son muy
consumidoras de tiempo (pueden correr horas), las
actualizaciones son menos frecuentes y/o la respuesta a la
consulta no depende del hecho de tener actualizada la base
de datos.
Soporte anlisis multidimensional y
procesamiento analtico en lnea(OLAP)
10/03/2014 Administracin de las Tecnologas de la Informacin 49
Soporte anlisis multidimensional y
procesamiento analtico en lnea(OLAP)
Los datos son clasificados en diferentes
dimensiones y pueden ser vistas unas con otras en
diferentes combinaciones para obtener diferentes
anlisis de los datos que contienen.

Los Usuarios pueden formular consultas complejas,
arreglar datos en un reporte, cambiar de datos
resumidos a datos detallados.

CARACTERISTICAS
10/03/2014 Administracin de las Tecnologas de la Informacin 50
ROLAP (Relational OLAP) MOLAP (multidimensional
OLAP)
Almacena los datos en un motor
relacional
Almacena los datos en una base de
datos multidimensional
Muchas dimensiones Diez o menos dimensiones
Soportan analisis OLAP contra
grandes volumenens de datos
Se comportan razonablemente en
volumenes de datos mas reducidos
(menos de 5Gb)
Herramienta flexible y general Solucin particular con volmenes
de informacin y numero de
dimensiones mas modestos
Clasificacin segn el tipo de motor en el
que estn almacenados los datos:
10/03/2014 Administracin de las Tecnologas de la Informacin 51
10/03/2014 Administracin de las Tecnologas de la Informacin 52
Trim4
Trim1 Trim2 Trim3
Dimensin tiempo
Santiago
Quito
Arequipa
Manzana
Paal
Yogurt
Lima
Ventas
Fact
Melon

10/03/2014 Administracin de las Tecnologas de la Informacin
53

10/03/2014 Administracin de las Tecnologas de la Informacin
54
Hechos Principales

10/03/2014 Administracin de las Tecnologas de la Informacin
55

Medidas

10/03/2014 Administracin de las Tecnologas de la Informacin
56

Medida :
cuenta de suscriptor x mes

(para agilizar clculos)



10/03/2014 Administracin de las Tecnologas de la Informacin
57

Medida:
Tasa de cambio de moneda,
esta se expresa en una sola,
independientemente de la
divisa de pago.

10/03/2014 Administracin de las Tecnologas de la Informacin
58

Dimensiones

La Dimensin fecha se usa ms
de una vez (dimensin con rol)

10/03/2014 Administracin de las Tecnologas de la Informacin
59

Relaciones
Una relacin regular




10/03/2014 Administracin de las Tecnologas de la Informacin
60

Relaciones
Una relacin de hecho



10/03/2014 Administracin de las Tecnologas de la Informacin
61

Relaciones
Una relacin referenciada



10/03/2014 Administracin de las Tecnologas de la Informacin
62
Relaciones
Una relacin de muchos a
muchos

Dim Product Fact Charges
Fact Charges Dim Subscriber
Dim Subscriber Fact Subscriber


10/03/2014
Administracin de las Tecnologas de la Informacin
63
DATA MINING
10/03/2014
Administracin de las
Tecnologas de la Informacin
64
1. What is Data Mining?
2. POR QU?
3. Data Mining un proceso
4. Importante
5. Anexos
El data mining es el
conjunto de tcnicas y
tecnologas que
permiten explorar
grandes BBDD, de
manera automtica o
semiautomtica, con
el objetivo de
encontrar patrones
repetitivos, tendencias
o reglas que expliquen
el comportamiento de
los datos en un
determinado contexto.

10/03/2014
Administracin de las
Tecnologas de la Informacin
65
Arte/Ciencia de descubrir y aprovecha
en
forma automtica informacin
no-obvia y til en grandes bases de datos

10/03/2014
Administracin de las
Tecnologas de la Informacin
66
nfasis en:
no-obvia (no intuitivas)
til (coste vs beneficio)
grande (proceso automtico)

No hay reglas siempre que el proceso sea eficiente en
tiempo, dinero y recursos humanos
10/03/2014 Administracin de las Tecnologas de la Informacin 67
Preparacin de los datos
Anlisis de datos
Toma de decisiones
Redes Neuronales
10/03/2014 Administracin de las Tecnologas de la Informacin 68
Extraccin / Integracin
Transformacin
Seleccin
Limpieza
Data warehouse
50-80% tiempo del proyecto
10/03/2014
Administracin de las Tecnologas de la Informacin 69
10/03/2014 Administracin de las Tecnologas de la Informacin 70
Eliminar redundancia
Eliminar datos y variables irrelevantes
Tratar datos ausentes
media, substitucin astuta, interpolacin, ignorar, ?
Correccin errores
Outliers (datos fuera de rango)
Verificar consistencia


Reservar todo preprocesamiento relevante hasta el anlisis
10/03/2014 Administracin de las Tecnologas de la Informacin 71
Tcnicas:

rboles de decisin
Reglas de asociacin
Ajustes (regresiones..)
Algoritmos genticos
Redes neuronales

Tareas conceptuales:

Clasificacin
Optimizacin
Interpolacin
Modelacin
Prediccin

Objetivos:

Target marketing
Segmentacin
Control
Prediccin ventas
Descubrir imperfecciones

10/03/2014 Administracin de las Tecnologas de la Informacin 72
Los resultados del anlisis pueden resultar inescrutables
El analista debe entender el problema a fondo
Los resultados deben presentarse con honestidad
El post-procesamiento y la inclusin de factores subjectivos
son a menudo necesarios
Validacin estricta
Las empresas de todos los tamaos
necesitan aprender de sus datos para
crear una relacin one-to-one con sus
clientes.
Las empresas recogen datos de todos lo
procesos.
Los datos recogidos se tienen que analizar,
comprender y convertir en informacin con
la que se pueda actuar y aqu es donde
Data Mining juega su papel
10/03/2014 Administracin de las Tecnologas de la Informacin 73
El Data Warehouse proporciona
los datos.
La inteligencia permitir buscar en
esos datos tratando de encontrar
patrones, descubrir reglas, nuevas
ideas que probar, y hacer
predicciones acerca del futuro
Se estudiarn las tcnicas y
herramientas que aaden la
inteligencia al datawarehouse
para explotar los datos de los
clientes y sacar el mximo
rendimiento

10/03/2014 Administracin de las Tecnologas de la Informacin 74
10/03/2014 Administracin de las Tecnologas de la Informacin 75
Relacin con el Data Mining
Est asociado al escaln ms alto de la pirmide (Nivel Estratgico) y
tiene por objeto eliminar los errores cometidos por las personas al
analizar los datos debido a prejuicios y dejar que sean los datos los
que muestren los modelos subyacentes en ellos.

Mientras en Data Warehousing, se basan en estructuras
multidimensionales, en las que se almacena la informacin
calculando previamente todas las combinaciones de todos los niveles
de todas las aperturas de anlisis.

Aunque este mtodo se puede considerar como exagerado, nunca
ser tan caro, como lo que le costara a la organizacin el tomar las
decisiones equivocadas.
Qu clientes permanecern fieles?
Qu clientes estn a punto de abandonar?
Dnde debemos localizar la prxima sucursal?
Qu productos se deben promocionar a qu
prospectos?
...
Las respuestas a estas preguntas estn
enterradas en los datos y se necesitan las
tcnicas de Data Mining para buscarlas

10/03/2014 Administracin de las Tecnologas de la Informacin 76
10/03/2014 Administracin de las Tecnologas de la Informacin 77
Pasos
10/03/2014 Administracin de las Tecnologas de la Informacin 78
Identificar
un
problema
Usar data mining para
transformar los datos
en informacin
Actuar basndonos
en la informacin
Medir los
resultados
10/03/2014
Administracin de las Tecnologas de la Informacin 79
OBJETIVO
Establecer la secuencia de lgica de actividades, responsables e informacin necesaria que permita controlar, recopilar y procesar
informacin primaria y secundaria.
ALCANCE
El presente procedimiento permite la publicacin de informacin clasificada por sector, inicindose con la coordinacin de la
disponibilidad de informacin y finalizando con el ingreso de informacin al sistema.
El presente documento aplica para el Departamento de Informacin y Negocios Electrnicos de la Sub Direccin de Inteligencia y
Prospectiva Comercial.
10/03/2014
Administracin de las Tecnologas de la Informacin 80
Direccin de Promocin de Exportaciones
Subdireccin de Inteligencia y Prospectiva Comercial
7
Distribuir informacin a
sectoristas
FIN
Especialista en Procesamiento e Informacin Estadstica
6
Clasificar informacin
por sector
Departamento de Informacin y Negocios Electrnicos
Leyenda
1
Coordinar disponibilidad
de informacin
2
Extraer informacin de
base de datos SUNAT
INICIO
INICIO / FIN Entidad Externa Actividad Decisin?
Otro
Procedimiento
A
1
Conector dentro de pgina Conector a otra pgina Inicio y fin de actividades en paralelo
5
Coordinar
actualizacin
Es conforme?
3
Transferir informacin
a INFOTRADE
4
Validar informacin
cargada
No
Si
SUNAT
SUNAT
Elab. base datos
compradores
internacionales
Elaboracin de
informe mensual de
exportaciones
Elaboracin de
informes especiales
10/03/2014
Administracin de las Tecnologas de la Informacin 81
10/03/2014
Administracin de las Tecnologas de la Informacin 82
Direccin de Promocin de Exportaciones
Subdireccin de Inteligencia y Prospectiva Comercial
FIN
Departamento de Informacin y Negocios Electrnicos
Leyenda
INICIO / FIN Actividad Decisin?
Otro
Procedimiento
A
1
Conector dentro de pgina Conector a otra pgina Inicio y fin de actividades en paralelo Entidad Externa
INICIO
1
Recopila informacin
de fuentes externas
3
Transfiere informacin
a base de datos
Especialista en PROCOM y Portal Institucional
5
Actualiza informacin
de base de datos
Informacin
encontrada?
7
Busca informacin de
compradores
2
Ordena y guarda
informacin
Soporte y
Mantenimiento
Plataforma SIICEX
Subdireccin de Promocin Comercial
Especialista de Promocin Comercial
4
Califica acceso de
informacin
10
Prioriza atencin
8
Remite requerimiento
Coordinador de Informacin y
Negocios Electrnicos
11
Extrae informacin de
compradores
Si
No
A
A
9
Registrar el
requerimiento
Usuarios Internos y/o Externos
6
Califica acceso de
informacin
10/03/2014 Administracin de las Tecnologas de la Informacin 83
La promesa de Data Mining es encontrar los patrones
Simplemente el hallazgo de los patrones no es suficiente
Debemos ser capaces de entender los patrones,
responder a ellos, actuar sobre ellos, para finalmente
convertir los datos en informacin, la informacin en
accin y la accin en valor para la empresa
Administracin de las Tecnologas de la Informacin 84 10/03/2014
Data Mining es un proceso que se tiene
que centrar en las acciones derivadas del
descubrimiento de conocimiento no en el
mecanismo de descubrimiento en si
mismo.
Aunque los algoritmos son importantes, la
solucin es ms que un conjunto de
tcnicas y herramientas.
Las tcnicas se tienen que aplicar en el
caso correcto a los datos correctos
Administracin de las Tecnologas de la Informacin 85 10/03/2014
El concepto de DWH est teniendo una gran aplicacin
en la actualidad para el desarrollo de las empresas,
como almacn de datos. Sus objetivos incluyen la
reduccin de los costes de almacenamiento y una mayor
velocidad de respuesta frente a las consultas de los
usuarios. Estos pueden ahora analizar y realizar
preguntas sobre aos, ms que sobre meses de
informacin.
Para disear una buena arquitectura de DWH es
necesario como primer paso conocer bien los
requerimientos del negocio y hacer un estudio profundo
de las fuentes externas que nos van a suministrar los
datos. Adems, hacer un buen diseo del rea de
transformacin de datos, cules son las
transformaciones que se van a realizar y cmo se va a
implementar el modelo dimensional con sus tablas de
hechos y de dimensiones es el segundo paso a seguir.
Administracin de las Tecnologas de la Informacin 86 10/03/2014
Provee un esquema de organizacin cules son los componentes que
la forman, cmo ellos se interrelacionan, quin es el dueo de cada
parte y cules son las prioridades.

Mejora la flexibilidad permite que rpidamente se aadan nuevas
fuentes de datos.

Desarrollo rpido y reuso los desarrolladores de DWH son ms
capaces de comprender el proceso de DWH , los contenidos de las
bases de datos y las reglas del negocio ms rpidamente.

Herramientas de comunicaciones define y comunica la direccin y el
alcance de las expectativas , identifica los roles y responsabilidades y
comunica los requerimientos al proveedor.

10/03/2014
Administracin de las Tecnologas de la Informacin 87
10/03/2014
Administracin de las Tecnologas de la Informacin 88
Fuente: Jos Ignacio Latorre
Universitat de Barcelona
http://sophia.ecm.ub.es/latorre/
10/03/2014 Administracin de las Tecnologas de la Informacin 89

Explotacin bruta de las bases de datos da resultados sin sentido
o no-competitivos
Sentido comn y buena formacin = coste elevado

S se emplea, pero poca gente es consciente

Data Mining
Redes Neuronales
10/03/2014 Administracin de las Tecnologas de la Informacin 90
Qu es una red neuronal?
Datos
Datos histricos
variables objetivos
Datos nuevos
variables ??
Las redes neuronales aprenden a partir de ejemplos
Economista/Matemtico/Fsico/Analista
Aproximante universal
(Permiten un ajuste a partir de ejemplos en
un gran espacio de funciones sin sesgo,
robusto, flexible que implementa
inferencia bayesiana)
Economista/Empresario
Herramienta de prediccin
(objetivo, consolidado,
adaptable a problemas complejos,
integrable)
Modelo del cerebro
Redes neuronales
10/03/2014 Administracin de las Tecnologas de la Informacin 91
Redes neuronales
Para qu sirven una red neuronal?
Clasificacin
Clientes buenos/malos, comprometidos o no, asequibles o no
Reconocimiento de patrones
Interpolacin
Adivinar el comportamiento de un nuevo cliente
Crear una nueva pintura
Prediccin
Ventas, meteorologa, finanzas, control de produccin
Las redes neuronales pueden ser aplicadas a cualquier
problema de inferencia estadstica
10/03/2014 Administracin de las Tecnologas de la Informacin 92
Cmo funciona una red neuronal?
capa 1


capa 2


capa l

.....

|
|
.
|

\
|
+ =

) ( ) 1 (
) 1 (
1
) ( ) ( l
i
l
j
l n
j
l
ij
l
i
t z w f z
Red neuronal
feedforward
multicapa
Redes neuronales
10/03/2014 Administracin de las Tecnologas de la Informacin 93
Redes neuronales
|
|
.
|

\
|
+ =

) ( ) 1 (
) 1 (
1
) ( ) ( l
i
l
j
l n
j
l
ij
l
i
t z w f z
La funcin de activacin da flexibilidad para que la respuesta de
cada neurona pueda ser no lineal
Los pesos w y los umbrales t determinan la forma en que la informacin
es procesada por cada neurona
El nmero de capas y de neuronas por capa definen la
arquitectura de la red neuronal
El algoritmo de aprendizaje por correccin de errores hacia
atrs, back-propagation (1985) establece un procedimiento
eficiente para ajustar los pesos y umbrales de una red neuronal
de forma que aprenda ejemplos.
Hemos aprendido a aprender!
10/03/2014 Administracin de las Tecnologas de la Informacin 94
Redes neuronales
T vs C
C
T c C T T C
Entrenamiento

0. w y t aleatorios
1. Introducir un ejempo (T)
2. Output = T
bien
Output = C
error
3. Propagar un cambio de
w and t a travs de la red
para reducir el error
4. Repetir con todos los
ejemplos varias veces
Aprendizaje supervisado de T / C
T
Robusto
Universal
Sin sesgo
10/03/2014 Administracin de las Tecnologas de la Informacin 95
Redes neuronales
Belgrado 19/04/1999
Una red neuronal es
entrenada con patrones
de aviones



La red detecta un avin
militar escondido bajo un
avin comercial
10/03/2014 Administracin de las Tecnologas de la Informacin 96
Finanzas
Data Mining
Divorcios
Ciencia
Banca
Reconocimiento
de patrones
10/03/2014 Administracin de las Tecnologas de la Informacin 97
Tarjetas de crdito
1. 50000 clientes reciben la oferta

2. Un red neuronal es entrenada con
las respuestas

3. La red predice la respuesta de los
450000 clientes restantes

Un banco desea ofrecer una nueva tarjeta a sus clientes
Depsitos Salario
Edad Sexo Crditos
Hipotecas Educacin
S / No
Red neuronal
Ejemplos
10/03/2014 Administracin de las Tecnologas de la Informacin 98
Ejemplos
Lift Chart
% de clientes contactados
% de
Respuestas positivas
retenidas
10/03/2014 Administracin de las Tecnologas de la Informacin 99
Promedios sobre redes entrenadas a partir de pesos aleatorios
Si existe un modelo subyacente, las redes son equivalentes
Si no existe un modelo subyacente, las redes producen dispersin
Lanzamos 100 redes sobre
datos entrenar/validar
Para cada dato tenemos un
promedio y una dispersin
Descartamos 3 sigma



Alarmas
Arbitraje
.

-1 sigma


+ 1sigma
NN
Real
Ejemplos
Series temporales de cotizaciones
10/03/2014 Administracin de las Tecnologas de la Informacin 100
Ejemplos
Estoy divorciado?
Una red neuronal ha sido entrenada con

rea del apartamento
es relevante la virginidad? divorciado?
salario s / no
visitas de los suegros
salud,..
Acierto: 88%
Matemticas / Filosofa 100%
10/03/2014 Administracin de las Tecnologas de la Informacin 101