Está en la página 1de 28

 Bodegas de datos

› Definiciones
› Características
› Ventajas
› Desventajas
› Funciones de uso
 Minería de datos
 Aplicativos
 Costos
 Conclusiones
 Bibliografía
 Construcción de grandes almacenes de
datos integrados, organizados y
estructurados de tal forma que le
permiten al usuario facilitar el proceso
en una toma de dediciones.
 Ralph Kimball, lo define como una
copia de transacciones de datos
específicamente estructurada para su
consulta y análisis.
 Algunas organizaciones han
comenzado a construir repositorios
más pequeños, más fáciles y rápidos
de implementar, conocidos como Data
Marts, que son organizados alrededor
de aplicaciones específicas, como por
ejemplo, almacenando los datos
relevantes del área de contabilidad, de
producción o de ventas en un almacén
de datos por separado.
 Información accesible.
 Información consistente.
 Información adaptable y elástica.
 Fundamental para la toma de decisiones.
 Seguridad en la información
 No volátil.
 Variable en el tiempo.
 Orientado a temas.
 Integrado – Datos consistentes.
 Favorece el análisis y divulgación de
datos especialmente OLAP
(Procesamiento analítico en línea).
 Las bodegas de datos hacen más fácil el acceso a una gran
variedad de datos para su uso.
 Facilitan el funcionamiento de las aplicaciones, de los
sistemas de apoyo en la toma decisiones tales como:
› informes de tendencia, por ejemplo: obtener los ítems con la
mayoría de las ventas en un área en particular dentro de los
últimos dos años
› informes de excepción, informes que muestran los resultados
reales frente a los objetivos planteados a prioridad.
 Las bodegas de datos pueden trabajar en conjunto y, por
lo tanto, aumentar el valor operacional de las aplicaciones
empresariales, en especial la gestión de relaciones con
clientes.
 Muy útiles para el almacenamiento de análisis y consultas
de históricos.
 Permite hacer planes de forma más efectiva.
 Transforma los datos en información y la información en
conocimiento.
 Los costos de mantenimiento son elevados.
 Las bodegas de datos se pueden quedar
obsoletos relativamente pronto.
 Requiere continuo mantenimiento,
transformación e integración de datos.
 Requieren sistemas, aplicaciones y
almacenamiento específico.
 En un proceso de implantación puede
encontrarse dificultades ante los diferentes
objetivos que pretende una organización.
 No es muy útil para la toma de decisiones en
tiempo real debido al largo tiempo de
procesamiento que puede requerir.
 Una Bodega de Datos debe entregar la
información correcta a la gente indicada en
el momento adecuado en el formato
correcto
 Da respuesta a las necesidades de usuarios
conocedores, utilizando Sistemas de
Soporte en la decisión (DSS), Sistemas de
información ejecutiva (EIS) o herramientas
para hacer consultas y reportes
 Los usuarios finales pueden hacer consultas
sobre sus Bodegas de Datos sin tocar o
afectar la operación del sistema
 Realización de los requerimientos:
› Definición del nombre del requerimiento
› Descripción:
 Fuentes de información
 Variables que se van a cargar en la bodega de datos.
 Proceso de cargue inicial y actualización de la
información.
 Visualización de la información.
 Seguridad tanto en la autorización para la publicación
en Internet como en los permisos de consulta de la
información.
 Verificación y actualización del
requerimiento.
 Desarrollo del requerimiento en el sistema.
 Paralelamente al desarrollo de los sistemas Data
Warehouse y Datamarts, ha surgido un nuevo
componente que provee herramientas avanzadas de
análisis de información, y facilita el acceso a la misma a
través de dimensiones, de tal manera que un mismo dato
puede ser analizado bajo distintos puntos de vista. El
análisis de datos a través de diversas dimensiones (cubo)
permite detectar comportamientos y reglas del negocio
que no son fácilmente identificables con los sistemas
transaccionales.
Dimensiones
 Las dimensiones de un cubo son atributos relativos a las variables, son las
perspectivas de análisis de las variables (forman parte de la tabla de
dimensiones). Son catálogos de información complementaria necesaria para
la presentación de los datos a los usuarios, como por ejemplo: descripciones,
nombres, zonas, rangos de tiempo, etc. Es decir, la información general
complementaria a cada uno de los registros de la tabla de hechos.
Variables
 También llamadas “indicadores de gestión”, son los datos que están
siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las
variables representan algún aspecto cuantificable o medible de los objetos o
eventos a analizar. Normalmente, las variables son representadas por valores
detallados y numéricos para cada instancia del objeto o evento medido. En
forma contraria, las dimensiones son atributos relativos a la variables, y son
utilizadas para indexar, ordenar, agrupar o abreviar los valores de las
mismas. Las dimensiones poseen una granularidad menor, tomando como
valores un conjunto de elementos menor que el de las variables; ejemplos de
dimensiones podrían ser: “productos”, “localidades” (o zonas), “el
tiempo” (medido en días, horas, semanas, etc.)
 Ejemplos de variables podrían ser:
› Beneficios
› Gastos
› Ventas
 Ejemplos de dimensiones podrían ser:
› producto (diferentes tipos o denominaciones de productos)
› localidades (o provincia, o regiones, o zonas geográficas)
› tiempo (medido de diferentes maneras, por horas, por días,
por meses, por años, ...)
› tipo de cliente (casado/soltero, joven/adulto/anciano, ...)

 Según lo anterior, podríamos construir un cubo de


información sobre el indice de ventas (variable a estudiar)
en función del producto vendido, la provincia, el mes del
año y si el cliente está casado o soltero (dimensiones).
Tendríamos un cubo de 4 dimensiones.
 La minería de datos es una
tecnología de soporte para
usuario final, cuyo objetivo es
extraer conocimiento útil y
utilizable a partir de la
información contenida en las
bases de datos de las empresas.

 Los objetivos de un sistema de


minería de datos nos permitirían
analizar factores de influencia en
determinados procesos, predecir
o estimar variables o
comportamientos futuros,
sementar o agrupar ítems
similares, además de obtener
secuencias de eventos que
provocan comportamientos
específicos.
 Los sistemas de minería de datos se desarrollan
bajo lenguajes de ultima generación basados
en la inteligencia artificial y utilizando métodos
matemáticos, tales como:
Redes neuronales
Introducción de reglas
Arboles de decisión
Conjunto de reglas por clase
 Soporta también sofisticadas operaciones de
análisis tales como los sistemas Scoring y
aplicaciones de detección de fraude.
 El KDD (Knowledge Discovery in Databases) es
un proceso que comprende tanto a la minería
de datos como el proceso de creación de
conocimiento, buscando procesar las grandes
cantidades de datos crudos, identificando los
patrones entre los datos obtenidos y
generando el conocimiento que satisfaga las
necesidades del cliente.
 De forma general, los datos
son la materia prima bruta.
En el momento que el
usuario les atribuye algún
significado especial pasan
a convertirse en
información. cuando los
especialistas elaboran o
encuentran un modelo,
haciendo que la
interpretación de la
información y ese modelo
representen un valor
agregado, entonces nos
referimos al conocimiento.
Data Mining toma el proceso de
evolución más allá del acceso y
navegación retrospectiva de los datos,
hacia la entrega de información
prospectiva y proactiva. Data Mining
está listo para su aplicación porque está
soportado por tres tecnologías que ya
están suficientemente maduras:
 Recolección masiva de datos.
 Potentes computadoras con
multiprocesadores.
 Algoritmos de Data Mining.
 Explorar los datos se encuentran en las
profundidades de las bases de datos.
 Consolidar los datos en un almacén de datos.
 Tiene una arquitectura cliente-servidor usando
procesamiento paralelo.
 Facilita el uso de varias herramientas y técnicas
para la extracción de los datos.
 La minería de datos produce cinco tipos de
información:
— Asociaciones
— Secuencias
— Clasificaciones
— Agrupamientos
— Pronósticos
 Descubrimiento automatizado de
modelos previamente desconocidos.
 Predicción automatizada de tendencias
y comportamientos.
 Aportes a la toma de decisiones con
bases y fundamentos reales basados
en los dato.
 Los
ambientes para el desarrollo de las
bodegas de datos son:
› Oracle Data Warehouse
› SQL Server Entreprise ed.
› Sybase – PoweDesigner, Sybase IQ
Fabricante Producto SO Costo
Oracle Oracle Database Enterprise Edition Windows 32 Bits
(Perpetua Licencia) USD 45,700,00
1 Año USD 9.500,00
Oracle Oracle Data Mining Windows 32 Bits
(Perpetua Licencia) USD 23.000,00
1 Año USD 4.600,00
Oracle Oracle Olap Windows 32 Bits
(Perpetua Licencia) USD 23.000,00
1 Año USD 4.600,00
Buy N
Fabricante Microsoft
Enterprise Edition Microsoft

Volume L
Retail, VL

Standard Edition Microsoft


 Información segura y confiable
 Se usa como una alternativa para la
toma de decisiones en una
organización
 Permite tener de una manera
organizada los datos con el fin de
poder extraer informes específicos en
determinados ciclos de tiempo
 Brinda una estructura robusta en el
almacenamiento de datos