Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Datamining, Datawarehouse y Datawart
Datamining, Datawarehouse y Datawart
DATA MINING
Descubriendo Informacin Oculta
Pgina 1 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de
negocios en grandes bases de datos - por ejemplo: encontrar informacin de la venta
de un producto entre grandes montos de Gigabytes almacenados - y minar una
montaa para encontrar una veta de metales valiosos. Ambos procesos requieren
examinar una inmensa cantidad de material, o investigar inteligentemente hasta
encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente
tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades
de negocios al proveer estas capacidades:
Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las
plataformas de hardware y software existentes y puede ser implementadas en
sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos
productos sean desarrollados. Cuando las herramientas de Data Mining son
implementadas en sistemas de procesamiento paralelo de alto performance, pueden
analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que
los usuarios pueden automticamente experimentar con ms modelos para entender
datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar
inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores
predicciones.
Las bases de datos pueden ser grandes tanto en profundidad como en ancho:
Pgina 2 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado.
Modelado es simplemente el acto de construir un modelo en una situacin donde
usted conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la
respuesta.
La primera cosa que puede probar, para ver si es un buen modelo, es pedirle que
aplique el modelo a su base de clientes. Con Data Mining, la mejor manera para
Pgina 3 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data
Mining. Una vez que el proceso est completo, los resultados pueden ser testeados
contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona,
las observaciones deben mantenerse para los datos excluidos.
Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas
con el Data Warehouse as como con herramientas flexibles e interactivas para el
anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera
del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos.
Adems, cuando nuevos conceptos requieren implementacin operacional, la
integracin con el warehouse simplifica la aplicacin de los resultados desde Data
Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar
procesos de negocios en toda la organizacin, en reas tales como manejo de
campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos,
etc.
Este diseo representa una transferencia fundamental desde los sistemas de soporte
de decisin convencionales. Ms que simplemente proveer datos a los usuarios finales
a travs de software de consultas y reportes, el servidor de Anlisis Avanzado aplica
los modelos de negocios del usuario directamente al Warehouse y devuelve un
anlisis proactivo de la informacin ms relevante. Estos resultados mejoran los
metadatos en el server OLAP proveyendo un estrato de metadatos que representa una
vista fraccionada de los datos. Generadores de reportes, visualizadores y otras
herramientas de anlisis pueden ser aplicadas para planificar futuras acciones y
confirmar el impacto de esos planes.
Pgina 4 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como combinacin
gentica, mutacin y seleccin natural en un diseo basado en los conceptos de evolucin
natural.
Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas hechas a
intervalos especficos. El tiempo es usualmente la dimensin dominanate de los datos.
Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias,
comportamientos o eventos basado en datos histticos.
Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como descriptivas
para aprender acerca de la estructura de un conjunto de datos.
Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las tendencias ,
comportamientos o eventos basado en datos histricos.
rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones.
Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Ver CART y
CHAID.
Base de datos multidimensional: Base de datos diseada para procesamiento analtico on-
line (OLAP). Estructurada como un hipercubo con un eje por dimensin.
CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada para la
clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un
nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado.
Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparacin de datos
que CHAID .
CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol de
decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que
se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros
darn un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para
crear mltiples divisiones. Antecede, y requiere ms preparacin de datos, que CART.
Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de
tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos
diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto
a variable(s) especfica(s) las cuales se estn tratando de predecir. Por ejemplo, un problema
tpico de clasificacin es el de dividir una base de datos de compaas en grupos que son lo
ms homogneos posibles con respecto a variables como "posibilidades de crdito" con valores
tales como "Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro,
y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con
respecto a todas las variables disponibles.
Computadoras con multiprocesadores: Una computadora que incluye mltiples procesadores
conectados por una red. Ver procesamiento paralelo.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean
consistentes y correctamente registrados.
Data Mining: La extraccin de informacin predecible escondida en grandes bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribucin de cantdades masivas de
datos
Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga)
o que representan eventos inusuales.
Dimensin: En una base de datos relacional o plana, cada campo en un registro representa
una dimensin. En una base de datos multidimensional, una dimensin es un conjunto de
entidades similares; por ej.: una base de datos multidimensional de ventas podra incluir las
dimensiones Producto, Tiempo y Ciudad.
Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un
rbol de decisin es un modelo para la clasificacin de un conjunto de datos
Modelo lineal: Un modelo analtico que asume relaciones lineales entre una variable
seleccionada (dependiente) y sus predictores (variables independientes).
Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los coeficientes de
las variables que son estudiadas.
Pgina 5 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Data Warehouse
Data Warehouse, son parte de las arquitecturas de informacin DSS (Decision Suport
System) y sistemas de informacin diseados especialmente para la realizacin de
consultas y reportes de datos histricos, stos son comunes en toda la organizacin,
la informacin puede estar sumarizada y/o detallada. Los datos que alimentan los
sistemas de Data warehouse los proporcionan los sistemas operacionales, tambin
denominados sistemas de ejecucin de procesos de negocios.
Pgina 6 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Pgina 7 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Opciones de Implementacion
Caracteristicas
1. Orientado al sujeto:
2. Integrados:
Cuando los datos residen en muchas aplicaciones separados por los distintos
entornos operacionales, la descodificacin de los datos es a menudo
inconsistente. Por ejemplo, en una aplicacin, la palabra gender podra
codificarse como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un
entorno operacional a un entorno de almacn de datos o de data warehouse,
ellos asumen una codificacin consistente, por ejemplo gender siempre se
transformara a "m" y "f".
Pgina 8 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
3. Variacin-temporal:
El almacn de datos contiene un lugar para guardar datos con una antiguedad
de 5 a diez aos, o incluso ms antiguos, para poder ser usados en
comparaciones, tendencias y previsiones. Estos datos no se modificarn.
4. No son inestables:
Los datos no sern modificados o cambiados de ninguna manera una vez ellos
han sido introducidos en el almacn de datos, solamente podrn ser cargados,
ledos y/o accedidos
Proceso de Scrubbing
El repositorio sirve como un sitio para almacenar los datos de los activos de
informacin de una organizacin. Abarca todos lo datos de la organizacin, sin
importar cual es la fuente original y facilita el entendimiento de toda la empresa y
controla la existencia de los recursos de datos existentes.
El repositorio sirve como una gua para definir un ambiente de migracin de datos y
contiene:
Pgina 9 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Existen facilidades para lograr que los usuarios no tcnicos puedan accesar la
informacin a nivel de metadatos con herramientas intuitivas, fciles de usar y de
hacer anlisis del tipo Drill - Down de tpicos generales a categoras mas especificas
de metadatos predeterminados. Este tipo de herramientas proveen al usuario final de
una cabina virtual de datos que les permite a travs del mouse ir a cajones grficos, a
los folders dentro de los cajones y paginas de apuntes rotuladas.
Una vez que la Bodega de Datos se ha llenado de informacin, los usuarios finales
pueden accesar y analizar los datos. Para satisfacer las necesidades de usuarios
finales en cualquier plataforma, se provee de algunas herramientas especializadas
para hacer reportes y queries, para desarrolladores de aplicaciones de oficina y
usuarios que necesitan revisar datos sumarizados de la Bodega as como crecientes
niveles de detalle
Manejo de Sistemas
Para construir una Bodega de Datos es necesario saber algunos temas generales, que
se agrupan en los siguiente tpicos:
Ambiente actual:
Ambiente de Negocios:
Pgina 10 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Ambiente Tcnico:
Se debe tener un claro concepto desde una perspectiva tcnica de los Sistemas de
Informacin de la Organizacin. En este anlisis se debe tener claridad del ambiente
tcnico actual y futuro a nivel de detalle. Se debe incluir tanto el aspecto de ambiente
hardware: mainframes, servidores, redes, as como aplicativos y herramientas .
Estrategia Recomendada
Piloto
Pgina 11 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Factores de riesgo
DataMart
Un Datamart puede verse como una bodega entre un gran almacn de datos
(Datawarehouse) que almacena data para un propsito especifico. El concepto
Datamart es una extensin natural de Datawarehouse. Cuando se habla de Datamart,
se esta refiriendo ,en pocas palabras ,a un Datawarehouse en pequeo y concentrado
en una sola unidad del negocio, en lugar de en toda una corporacin.
Entre los diferentes tipos de Datamarts prevalecen los Datamarts mviles. Al hablar de
Datamarts mviles, se trata de bodegas personales que pueden cargarse en una
laptop y llevarse a donde quiera que sea.
Pgina 12 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Los Datamarts deben consistir en datos extrados del corazn de la Bodega de Datos
y reorganizados y/o reformateados para hacer ms fcil su uso para diferentes
propsitos. Pero dado que esos propsitos especficos pueden cambiar en el tiempo, los
Datamarts deben ser concebidos con estructuras de Datos temporales. Cuando los usuarios no ven
ms los datos como estn presentados por un Datamart en particular, este Datamart debe ser removido.
Y mientras los usuarios desarrollan nuevas formas de hacer bsquedas y mirar los datos, deben ser
creados nuevos Datamarts para hacer sus bsquedas ms simples y con un mejor desempeo.
Los Datamart pueden incluir una gran variedad de estilos de tablas. Algunas pueden ser simplemente
un subconjunto de datos en la Bodega de Datos, conteniendo solamente datos para una particular zona
geogrfica, un perodo especfico de tiempo, una unidad de negocios. Otros Datamarts pueden ser el
resultado de reunir informacin proveniente de diferentes tablas del corazn de la Bodega de Datos en
una tabla Datamart desnormalizada. O talvz los Datamarts sern construidos para contener elementos
de datos calculados y derivados que no estn explcitamente almacenados en el corazn de la Bodega
de Datos.
Tambin es posible mencionar que el uso de estructuras de datos mutidimensionales debera estar
reservado para Datamarts. Esto es, datos que estn en el corazn de la Bodega de Datos deberan
almacenarse en forma relacional y luego ser extrados en un Datamart multidimensional si es requerido.
Hay diferentes estilos de usuarios finales cada uno con su propio nivel de conocimiento y necesidades,
para as proveer de apropiados mecanismos de acceso para cada clase de usuarios.
La primera diferencia es que los primeros sistemas de bases de datos tenan un propsito transaccional,
en un Datamart se manejan grandes cantidades de datos, y se enfocan a contestar preguntas del tipo
"Que pasara si." Por lo que requieren mayor flexibilidad. Una base de datos tradicional se optimiza
para transacciones y un Datamart se optimiza para queries con grandes volmenes de datos.
Productos de Aplicacin
Data Warehouse
1. Centricity Solution for Marketin Automation: www.cognos.com
2. DataSage iCRM : www.datasage.com
3. Influence Knowledge Warehouse for SAP : www.influencesw.com
4. Oracle Warehouse Builder : www.oracle.com/go/?TDWI2000
5. One-by-One Suite : www.paragren.com
6. VITAL MEASURES : www.prismsolutions.com
7. Prism Customer Relationship Management System : www.rtms.com
8. Sybase Industry Solutions : www.sybase.com
DataMart
1. Cognos DecisionStream 6.0 : www..cognos.com/dwirg
2. Oracle Data Mart Suite : www.oracle.com/go/?TDWI2000
3. DecisionPoint Producto Family : www.dpapplications.com
4. Sybase Industry Warehouse Studio : www.sybase.com/bi
5. SalesMan Pre-Built Data Mart : www.taurus.com
6. DataStage : www.ardentsoftware.com
7. Alue Decision Supportware : www.decisionism.com
8. DataDesigns : www.g1.com
9. MIS solution : www.mis.de
Pgina 13 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE
Datamining
1. KnowledgeSUITE: www.angoss.com
2. Neugents : www.ca.com
3. Cognitive Engine and Advisor Toolkit from CSI : www.csi.cc
4. S-PLUS : www.splus.mathsoft.com
5. PolyAnalyst Family : www.megaputer.com
6. SAS Data Mining Solution : www.sas.com
7. Darwin : www.oracle.com/go/?TDWI2000
8. Clementine : www.spss.com/clementine/downloads.htm
Pgina 14 de 14