Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EN SISTEMAS DE INFORMACIÓN
ALMACENES DE DATOS Y MINERÍA DE DATOS
Trabajo monográfico de adscripción realizado por Griselda E. Bressán.
Julio - 2003
CONTENIDO
Data Warehouse
Metas de KDD
Técnicas de KDD
Data Marts
Aplicaciones de MD
Técnicas de MD
Conclusiones
Características
Según, Bill Inmon, existen generalmente cuatro características que describen un almacén
de datos:
1.orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de la aplicación, por
ejemplo, una compañía de seguros usando un almacén de datos podría organizar sus datos por
cliente, premios, y reclamaciones, en lugar de por diferentes productos (automóviles, vida, etc.).
Los datos organizados por sujetos contienen solo la información necesaria para los procesos de
soporte para la toma de decisiones.
2.integrados: cuando los datos residen en muchas aplicaciones separados por los distintos
entornos operacionales, la descodificación de los datos es a menudo inconsistente. Por ejemplo,
en una aplicación, la palabra gender podría codificarse como "m" y "f" en otra como "0" y "1".
Cuando los datos fluyen de un entorno operacional a un entorno de almacén de datos o de data
warehouse, ellos asumen una codificación consistente, por ejemplo gender siempre se
transformaría a "m" y "f".
3.variación-temporal: el almacén de datos contiene un lugar para guardar datos con una
antigüedad de 5 a diez años, o incluso más antiguos, para poder ser usados en comparaciones,
tendencias y previsiones. Estos datos no se modificarán.
4. no son inestables: los datos no serán modificados o cambiados de ninguna manera una vez
ellos han sido introducidos en el almacén de datos, solamente podrán ser cargados, leídos y/o
accedidos.
En 1993, Susan Osterfeldt [MicroSt96] publica una definición que sin duda acierta en la
clave del DW: “Yo considero al DW como algo que provee dos beneficios empresariales
reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y
no deseados, como también el procesamiento desde el ambiente operacional
clásico”. Ir a Contenido
Data Warehouse
Es el sistema para el almacenamiento y distribución de cantidades masivas de datos. El
Data Warehouse analítico resultante puede ser aplicado para mejorar procesos de
negocios en toda la organización, en áreas tales como manejo de campañas
promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que contenga una combinación de datos
de seguimiento interno de todos los clientes junto con datos externos de mercado acerca
de la actividad de los competidores. Información histórica sobre potenciales clientes
también provee una excelente base para prospecting. Este warehouse puede ser
implementado en una variedad de sistemas de bases relacionales y debe ser optimizado
para un acceso a los datos flexible y rápido.
Ir a Contenido
Objetivos del Data Warehouse
Proveer una visión única de los clientes en toda la empresa
Poner tanta información comercial como sea posible en manos de tantos usuarios
diferentes como sea posible
Mejorar el tiempo de espera que insumen los informes habituales
Monitorear el comportamiento de los clientes
Predecir compras de productos
Mejorar la capacidad de respuesta a problemas comerciales
Incrementar la precisión de las mediciones
Aumentar la productividad
Incrementar y distribuir las responsabilidades. Ir a Contenido
eficiente. Ir a Contenido
¿En qué se lo puede usar?
o Manejo de relaciones de marketing.
o Análisis de rentabilidad.
o Reducción de costos. Ir a Contenido
Olap - procesamiento analítico on-line (On Line Analitic prossesing)
Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios
ver, navegar, manipular y analizar bases de datos multidimensionales.
Un server multidimensional OLAP permite que un modelo de negocios más sofisticado
pueda ser aplicado cuando se navega por el data warehouse. Las estructuras
multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera
mirar el negocio, por línea de producto, u otras perspectivas claves para su negocio. El
server de Data Mining debe estar integrado con el data warehouse y el server OLAP
para insertar el análisis de negocios directamente en esta infraestructura. Un avanzado,
metadato centrado en procesos define los objetivos del Data Mining para resultados
específicos tales como manejos de campaña, prospecting, y optimización de
promociones. La integración con el data warehouse permite que decisiones
operacionales sean implementadas directamente y monitoreadas.
Ir a Contenido
Sistemas de Data Warehouse y Oltp
Una base de datos para soportar procesos transaccionales en línea (OLTP), puede no ser
adecuada para el Data Warehouse ya que ha sido diseñada para maximizar la capacidad
transaccional de sus datos y típicamente tiene cientos de tablas la gran mayoría
normalizadas. Su diseño también ha sido condicionado por los procesos operacionales
que deberá soportar para la óptima actualización de sus datos, normalmente muchas de
sus tablas en constantes y continuos cambios. Los sistemas Data Warehouse están
orientados a procesos de consultas en contraposición con los procesos transaccionales.
Ir a Contenido
Metas de KDD
procesar automáticamente grandes cantidades de datos crudos,
identificar los patrones más significativos y relevantes, y
presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Ir a Contenido
Técnicas de KDD
Los algoritmos de aprendizaje son una parte integral de KDD. Las técnicas de
aprendizaje podrán ser supervisadas o no supervisadas. En general, las técnicas de
aprendizaje dirigidas disfrutan de un rango de éxito definido por la utilidad del
descubrimiento del conocimiento. Los algoritmos de aprendizaje son complejos y
generalmente considerados como la parte más difícil de cualquier técnica KDD.
El descubrimiento de la máquina es uno de los campos más recientes que han
contribuido para KDD. Mientras el descubrimiento de la máquina confía solamente en
métodos autónomos para el descubrimiento de la información, KDD típicamente
combina métodos automatizados con la interacción humana para asegurar resultados
exactos, útiles, y entendibles.
Hay muchos métodos diferentes que son clasificados como las técnicas de KDD. Hay
métodos cuantitativos, como los probabilísticos y los estadísticos. Hay métodos que
utilizan las técnicas de visualización. Hay métodos de clasificación como la clasificación
de Bayesian, lógica inductiva, descubrimiento de modelado de datos y análisis de
decisión. Otros métodos incluyen la desviación y tendencia al análisis, algoritmos
genéticos, redes neuronales y los métodos híbridos que combinan dos o más técnicas.
Debido a las maneras en que estas técnicas pueden usarse y combinarse, hay una falta
de acuerdos de cómo estas técnicas deben categorizarse. Por ejemplo, el método de
Bayesian puede agruparse lógicamente con los métodos probabilísticos, de clasificación
o de visualización. Por causa de la organización, cada método descrito aquí es incluido
en el grupo que mejor encaje. Sin embargo, esta selección no implica una categorización
estricta.
Método Probabilístico. Esta familia de técnicas KDD utiliza modelos de representación
gráfica para comparar las diferentes representaciones del conocimiento.
Estos modelos están basados en las probabilidades e independencias de
los datos. Estos son útiles para aplicaciones que involucran incertidumbre
y aplicaciones estructuradas tal que una probabilidad puede asignarse a
cada uno de los “resultados” o pequeña cantidad del descubrimiento del
conocimiento. Las técnicas probabilísticas pueden usarse en los sistemas
de diagnóstico, planeación y sistemas de control. Las herramientas del
probabilidad automatizadas están disponibles en el dominio público y
comercial.
Método estadístico. El método estadístico usa la regla del descubrimiento y se basa en
las relaciones de los datos. El “algoritmo de aprendizaje inductivo puede
seleccionar automáticamente trayectorias útiles y atributos para construir
las reglas de una base de datos con muchas relaciones''. Este tipo de
inducción es usado para generalizar los modelos en los datos y construir
las reglas de los modelos nombrados. El proceso analítico en línea (OLAP)
es un ejemplo de un método orientado a la estadística. Las herramientas
estadísticamente automatizadas están disponibles en el dominio público y
comercial.
Método de clasificación. La clasificación es probablemente el método más viejo y
mayormente usado de todos los métodos de KDD. Este método agrupa los
datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificación
de técnicas y numerosas herramientas disponible que son automatizadas.
Método Bayesian de KDD "es un modelo gráfico que usa directamente los arcos
exclusivamente para formar una gráfica acíclica". Aunque el método Bayesian usa los medios
probabilísticos y gráficos de representación, también es considerado un tipo de clasificación.
Se usan muy frecuentemente las redes de Bayesian cuando la incertidumbre se asocia
con un resultado puede expresarse en términos de una probabilidad. Este método
cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas
de diagnóstico. Ir a Contenido
Data Marts
Es un pequeño Data Warehouse, para un determinado numero de usuarios, para un
arrea funcional, especifica de la compañía. También podemos definir que un Data Marts
es un subconjunto de una bodega de datos para un propósito especifico. Su función es
apoyar a otros sistemas para la toma de decisiones.
Los procesos que conforma el datawarehouse son:
1-Extracción
2-Elaboración
3-Carga
4-Explotación
Minería de Datos
Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en
grandes volúmenes de datos. Está muy ligada a las bodegas de datos que proporcionan la
información histórica con la cual los algoritmos de minería de datos tienen la información
necesaria para la toma de decisiones.
La md puede ser dividida en:
minería de datos predictiva (mdp): usa primordialmente técnicas estadísticas.
minería de datos para descubrimiento de conocimiento (mddc): usa
principalmente técnicas de inteligencia artificial
"La minería de datos es un proceso no trivial de identificación válida, novedosa,
potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos
en los datos" (Fayyad y otros, 1996).
"Es la integración de un conjunto de áreas que tienen como propósito la identificación de
un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la
toma de decisión" (Molina y otros, 2001).
Se denomina minería de datos (data mining) al análisis de archivos y bitácoras de
transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones,
relaciones, reglas, asociaciones o incluso excepciones útiles para la toma de decisiones.
Por ejemplo, qué productos se comercializan mejor en la temporada navideña, en qué
regiones es productivo sembrar café, qué áreas de una zona urbana incrementarán su
demanda de escuelas primarias.
Por eso la minería de datos revela patrones o asociaciones que usualmente nos eran
desconocidas, se la ha llamado también Descubrimiento de Conocimiento, este tiene sus
inicios en el Aprendizaje Automático o la Estadística.
Un proceso de apoyo a la toma de decisiones de negocio debe incluir 2 componentes: el
de verificación, y el de descubrimiento.
El análisis de verificación nos permite obtener conclusiones basadas en el
comportamiento pasado.
La minería de datos con enfoque en el descubrimiento, puede ayudar a descubrir
nuevas oportunidades de negocio.
El análisis de verificación nos ayuda a confirmar o rechazar los "descubrimientos"
obtenidos con el nuevo enfoque.
La minería es un tema para grandes bases de datos, ayuda a descubrir a estas bases
información rápida. Es una herramienta relacionada directamente al negocio.
Se empieza a hablar de minería de datos cuando en el mercado se pone atención en el
producto y el cliente. Esta herramienta existe hace varios años, el problema es que
trabaja con grandes bases de datos.
La minería de datos forma parte de un proceso integrado desde el 'Data Warehouse'
hasta la presentación. Ir a
Contenido
Aplicaciones de MD
En la actualidad, existe una gran cantidad de aplicaciones, en áreas tales como:
astronomía: clasificación de cuerpos celestes.
aspectos climatológicos: predicción de tormentas, etc.
medicina: caracterización y predicción de enfermedades, probabilidad de respuesta
satisfactoria a tratamiento médico.
industria y manufactura: diagnóstico de fallas.
mercadotécnia: identificar clientes susceptibles de responder a ofertas de productos y servicios
por correo, fidelidad de clientes, selección de sitios de tiendas, afinidad de productos, etc.
inversión en casas de bolsa y banca: análisis de clientes, aprobación de prestamos,
determinación de montos de crédito, etc.
detección de fraudes y comportamientos inusuales: telefónicos, seguros, en tarjetas de
crédito, de evasión fiscal, electricidad, etc.
análisis de canastas de mercado para mejorar la organización de tiendas, segmentación de
mercado (clustering)
determinación de niveles de audiencia de programas televisivos
normalización automática de bases de datos Ir a Contenido
Técnicas de MD
Análisis Preliminar de datos usando Query tools: el primer paso en un proyecto de data mining
sería siempre un análisis de los datos usando query tools, aplicando una consulta SQL a un
conjunto de datos, para rescatar algunos aspectos visibles antes de aplicar las técnicas. La gran
mayoría de la información (un 80 %) puede obtenerse con SQL. El 20 % restante, mas
importante, la información oculta requiere técnicas avanzadas.
Este primer análisis en SQL es para saber cual es la distribución de los valores posibles
de los atributos. Recién después podemos ver la performance del algoritmo
correspondiente.
Técnicas de Visualización: estas son buenas para ubicar patrones en un conjunto de datos y
puede ser usado al comienzo de un proceso de data mining para tomar un feeling de la calidad
del conjunto de datos.
Árbol de Decisión: son estructuras en forma de árbol que representan conjuntos de decisiones.
Estas decisiones generan reglas para la clasificación de un conjunto de datos. Para poder
predecir el comportamiento de un cliente es necesario poder contar con una clasificación previa
esto implica una predicción de que un cliente pertenece a cierto grupo de clientes. La
complejidad es de n (Log n).
Redes Bayesianas: buscan determinar relaciones causales que expliquen un fenómeno en base a
los datos contenidos en una base de datos. Se han usado principalmente para realizar
predicción.
Procesamiento Analítico en Línea (OLAP): estas herramientas ofrecen un mayor poder para
revisar, graficar y visualizar información multidimensional, en características temporales,
espaciales o propias. Se valen de lenguajes menos restringidos y estructurados como lo es SQL.
Requieren todavía de una alta participación de un usuario humano, pues son interactivas y
requieren la guía del experto.
Redes neuronales artificiales: son modelos predecibles, no lineales que aprenden a través
del entrenamiento y semejan la estructura de una red neuronal biológica.
Método del vecino más cercano: una técnica que clasifica cada registro en un conjunto de
datos basado en una combinación de las clases de k registro/s más similar/es a él en un
conjunto de datos históricos. Algunas veces se llama la técnica del vecino k-más cercano.
Ir a Contenido
Ir a Contenido