Está en la página 1de 23

Unidad 2.

Base de Datos para la


Toma de Decisiones

2.1. Base de Datos Multidimensionales.


2.1.1. Datawarehouse
2.1.2. Data Mart
2.1.3. Sistemas OLTP
2.1.4. Sistemas OLAP
2.1.5. Operaciones Analticas Bsicas de los Sistemas OLAP
2.1.6. Vista de Datos de los sistemas OLAP
2.1.7. Modelo de Datos de los sistemas OLAP.
2.2. Sistemas de Gestin del conocimiento.
2.2.1. Preparacin de los Datos.
2.2.2. Minera de Datos.
2.2.3. Patrones.
2.2.4. Evaluacin / Interpretacin / Visualizacin.
2.1 BASES DE DATOS MULTIDIMIENCIONALES
2.1 BASE DE DATOS MULTIDIMENSIONAL

Las bases de datos multidimensionales son una variacin del modelo relacional que
utiliza cubos OLAP para organizar los datos y expresar las relaciones entre ellos. Las
principales ventajas de este tipo de bases de datos son la versatilidad para cruzar
informacin y la alta velocidad de respuesta. Esto las convierte en herramientas bsicas
para soluciones de Business Intelligence o de Big Data, donde el anlisis de los datos
resulta crucial.

Este tipo de base de datos se aplica sobre el sistema OLAP tambin llamado cubo
multidimensional o hipervnculo. Se compone de hechos numricos llamados medidas
que se clasifican por dimensiones. El cubo de metadatos es creado tpicamente apartar
de un esquema en estrella o copo de nieve y utilizando tablas de una base de datos
relacional.
Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones de
cuadros.

Una base de datos multidimensional, es aquella que almacena sus datos con varias
dimensiones, es decir que en vez de un valor, encontramos varios dependiendo de los
"ejes" definidos o una base de datos de estructura basada en dimensiones orientada a
consultas complejas y alto rendimiento. Puede utilizar un SGBDR en estrella (Base de
datos Multidimensional a nivel lgico) o SGBDM (Base de datos Multidimensional a
niveles lgico y fsico o Base de datos Multidimensional Pura).

En una base de datos multidimensional, la informacin se representa como matrices


multidimensionales, cuadros de mltiples entradas o funciones de varias variables sobre
conjuntos finitos. Cada una de estas matrices se denomina cubo.

OLAP: On-Line Analytical Processing

Los sistemas OLAP son bases de datos orientadas al procesamiento analtico. Este
anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para
llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de
comportamiento de los consumidores, elaboracin de informes complejos etc.

Representando la informacin: los cubos OLAP

Un cubo OLAP no es ms que un vector de varias dimensiones. Desde un punto de vista


relacional, puede verse como una tabla de hechos (fact table) que tiene dos tipos de
columnas:

Indicadores: tambin denominados mtricas o ratios, son los valores numricos


con los que se opera. Por ejemplo: n de clientes, n de proveedores, importe de las
ventas, n de ventas, importe de las compras, n de compras etc.

Dimensiones: son las caractersticas por las que se pueden filtrar y cruzar los
indicadores. Por ejemplo: tiempo (fijando un determinado da, mes o ao), geografa
(fijando un determinado pas, regin o ciudad), proveedor, cliente, modo de pago etc.

Las columnas correspondientes a las dimensiones tienen claves forneas a tablas de


dimensin, que generalmente son tablas de maestros con clave-valor (esquema en
estrella) o tablas organizadas en jerarquas (esquema en copo de nieve) como: ciudad
provincia pas.

En general suele resultar necesario dimensionar la volumetra de los cubos para


conseguir que generen los informes deseados, y monitorizar su tamao para garantizar
que los resultados se obtienen en el tiempo esperado. En este sentido suele resultar
fundamental tener en cuenta dos caractersticas bsicas: la cardinalidad del cubo,
posibles combinaciones de todos los valores de todas las dimensiones, y
la granularidad del cubo, nivel de detalle mximo de los datos, o lo que es lo mismo,
nivel de agregacin mnimo de la informacin.

Propiedades de las bases de datos OLAP

As como los sistemas OLTP son tpicos para bases de datos convencionales y data
warehouses, los sistemas OLAP son propios de los datamarts.

Optimizadas para operaciones de lectura: dado que la accin ms comn es


la consulta, estas bases de datos disponen de valores agregados y resultados
precalculados que les permiten responder en tiempo rcord. Evitar las restricciones
ACID les da agilidad.

Organizadas segn las necesidades analticas: los datos estn estructurados


segn las reas de negocio, y los formatos de los datos estn integrados de manera
uniforme en toda la organizacin. Se busca evitar islas de datos.

Asncronas: no siempre se actualizan en tiempo real, sino que se suelen


alimentar con informacin procedente de las bases de datos relacionales mediante un
proceso deextraccin, transformacin y carga (ETL).

Consultas realizadas en MDX: este lenguaje, MDX (MultiDimensional


eXpressions) fue desarrollado inicialmente por Microsoft y adoptado posteriormente
como estndar para leer cubos OLAP. Un cliente puede manipular el cubo de distintas
formas: rotarlo, rebanarlo cortarlo en dados etc.

Gestin de datos histricos a largo plazo: una de las exigencias analticas


consiste en realizar estudios de evolucin a lo largo del tiempo, esto requiere que estas
bases de datos mantengan un histrico a largo plazo, normalmente no inferior a cinco
aos.

TIPOS DE OLAP

Tradicionalmente los sistemas OLAP se clasifican en las siguientes categoras:


ROLAP
La implementacin OLAP almacena los datos en un botn relacional llamado ROLAP los
datos son detallados evitando las agregaciones y las tablas que se encuentran
normalizadas, los esquemas ms comunes son de estrella y copo de nieve aunque es
posible de trabajar sobre cualquier base de datos relacional. La arquitectura de esta se
compone de un servidor de banco de datos relacional y el botn OLAP se encuentra en
el servidor dedicado. La principal ventaja de esta arquitectura es que permite el anlisis
de

Una enorme cantidad de datos.

La arquitectura ROLAP excede a los datos relacionados para proporcionar los anlisis
OLAP. La primicia de los sistemas ROLAP es que las capacidades OLAP se ejecutan
mejor contra las bases de datos relacionales
Utiliza una arquitectura de tres niveles:

Nivel Base De Datos: Usa base de datos relacionales para el manejo, acceso y
obtencin de datos.
Nivel de Aplicacin: Ejecuta las consultas multidimensionales de los usuarios
Motor Rolap: Se integra con niveles de presentacin atreves de los cuales los
usuarios realizan un anlisis OLAP.

MOLAP
Esta almacena los datos de una base de datos multidimensional. Para utilizar los
tiempos de respuesta, hacer resmenes de informacin calculados por adelantado y un
sinfn de operaciones utilizadas de forma multidimensional para proporcionar el anlisis
su principal premisa es que OLAP esta mejor implantado almacenando los datos
multidimensionales.
El sistema MOLAP utiliza una arquitectura de 2 niveles, la base de datos
multidimensional y el motor analtico.

MOLAP VS ROLAP

Cuando se comparan estas dos estructuras se pueden realizar las siguientes:

ROLAP delega la negociacin entre el tiempo de respuesta entre el tiempo de respuesta


y procesa en Bach. Mientras que MOLAP requiere que sus bases de datos se compilen
para conseguir un rendimiento aceptable.

Los sistemas con alta volatilidad de datos requieren de una arquitectura


que pueda realizar esta consideracin.
Los sistemas ROLAP soportan esta consolidacin dinmica mientras que
MOLAP estn orientados a una consolidacin Bach.
Los ROLAP pueden crecer un gran nmero de dimensiones mientras que MOLAP
generalmente son adecuados para 10 o menos dimensiones.

Los ROLAP soportan anlisis OLAP contra grandes volmenes de datos mientras que
los MOLAP se comportan relacionalmente en volmenes ms reducidos (-5gb).

Existen otros modelos OLAP como son:


WOLAP (basado y orientado para web)
DOLAP (Basado en escritorio)
RTOLAP (o Real Time, basado en tiempo real)
SOLAP (o especial Solap, Basado en OLAP especiales)

BIBLIOGRAFIA:

http://topicos-1.wikispaces.com/1.2+Bases+de+datos+multidimensionales+
(BDM).
http://www.buenastareas.com/ensayos/Base-De-Datos-
Multidimensionales/190823.html
http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-vs-
oltp/
2.1.1 DATAWAREHOUSE
Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades
informacionales, surge el concepto de Data Warehouse, como solucin a las
necesidades informacionales globales de la empresa. Este trmino acuado por Bill
Inmon, se traduce literalmente como Almacn de Datos. No obstante si el Data
Warehouse fuese exclusivamente un almacn de datos, los problemas seguiran siendo
los mismos que en los Centros de Informacin.

La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la


estructura de la informacin. Este concepto significa el almacenamiento de
informacin homognea y fiable, en una estructura basada en la consulta y el
tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas
operacionales. Segn defini Bill Inmon, el Data Warehouse se caracteriza por ser:
Integrado, Temtico, Histrico, No voltil

Las diferencias de un Data Warehouse con un sistema tradicional las podramos resumir
en el siguiente esquema:
Una de las claves del xito en la construccin de un Data Warehouse es el desarrollo de
forma gradual, seleccionando a un departamento usuario como piloto y expandiendo
progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir
este usuario inicial o piloto, siendo importante que sea un departamento con pocos
usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se pueda
obtener y medir resultados a corto plazo.

La arquitectura general de un DW es la que se muestra en la figura, este diagrama


muestra como primera componente dentro de la arquitectura de DW a las fuentes desde
las cuales se extrae la informacin necesaria para poblar la base de datos. Conectada a
cada una de las fuentes se encuentran los siguientes componentes bsicos de la
arquitectura los wrapper o extractos, los cuales extraen y transforman la informacin de
las fuentes. Posteriormente atraves de un integrador dicha informacin se carga a la
base de datos, la cual constituye el siguiente componente bsico de la arquitectura.
Modelo multidimensional
Para facilitar el anlisis de los datos, un DW representa los datos que contiene
usando modelos multidimensionales. De manera general, un modelo multidimensional
provee dos conceptos principales: medida y dimensin. Una medida es un valor en un
espacio multidimensional definido por dimensiones ortogonales. As el cubo es el
concepto central del modelo de datos multidimensional.
Dentro del modelo multidimensional las medidas o atributos numricos describen un
cierto proceso del mundo real el cual va a ser objeto de un anlisis. Estos atributos
dependen de ciertas dimensiones las cuales proveen el contexto a travs del cual van a
ser interpretadas las medidas. Dichas dimensiones regularmente se encuentran en
orden jerrquico. Las medidas pueden ser agregadas a lo largo de las dimensiones lo
cual resulta en un cubo el cual es la base para el uso de las operaciones OLAP.

Bibliografa: http//: www.capitulo2.Datawarehouse.pdf.com


2.1.2 DATA MART
Un Data mart es una versin especial de almacn de datos (data warehouse).
Son subconjuntos de datos con el propsito de ayudar a que un rea especfica
dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este
contexto pueden ser agrupados, explorados y propagados de mltiples formas
para que diversos grupos de usuarios realicen la explotacin de los mismos de la
forma ms conveniente segn sus necesidades.
El Data mart es un sistema orientado a la consulta, en el que se producen
procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es
consultado mediante herramientas OLAP (On line Analytical Processing -
Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la
informacin. Sobre estas bases de datos se pueden construir EIS (Executive
Information Systems, Sistemas de Informacin para Directivos) y DSS (Decision
Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte,
se conoce como Data Mining al proceso no trivial de anlisis de grandes
cantidades de datos con el objetivo de extraer informacin til, por ejemplo para
realizar clasificaciones o predicciones.
En sntesis, se puede decir que los data Mart son pequeos data
warehouse centrados en un tema o un rea de negocio especfico dentro de una
organizacin.

Fuente de informacin:
http://es.wikipedia.org/wiki/Data_mart

2.1.3 SISTEMAS OLTP


OLTP - On-Line Transactional Processing
Los sistemas OLTP son bases de datos orientadas al procesamiento de
transacciones. Una transaccin genera un proceso atmico (que debe ser
validado con un commit, o invalidado con un rollback), y que puede involucrar
operaciones de insercin, modificacin y borrado de datos. El proceso
transaccional es tpico de las bases de datos operacionales.
El acceso a los datos est optimizado para tareas frecuentes de lectura y
escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que
soportar las BD de bancos o hipermercados diariamente).
Los datos se estructuran segn el nivel aplicacin (programa de gestin a
medida, ERP o CRM implantado, sistema de informacin departamental...).
Los formatos de los datos no son necesariamente uniformes en los diferentes
departamentos (es comn la falta de compatibilidad y la existencia de islas de
datos).
El historial de datos suele limitarse a los datos actuales o recientes.

Fuente de informacin:
http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx

2.1.4 SISTEMAS OLAP


OLAP - On-Line Analytical Processing
Los sistemas OLAP son bases de datos orientadas al procesamiento analtico.
Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de
datos para llegar a extraer algn tipo de informacin til: tendencias de ventas,
patrones de comportamiento de los consumidores, elaboracin de informes
complejos etc. Este sistema es tpico de los datamarts.
El acceso a los datos suele ser de slo lectura. La accin ms comn es la
consulta, con muy pocas inserciones, actualizaciones o eliminaciones.
Los datos se estructuran segn las reas de negocio, y los formatos de los datos
estn integrados de manera uniforme en toda la organizacin.
El historial de datos es a largo plazo, normalmente de dos a cinco aos.
Las bases de datos OLAP se suelen alimentar de informacin procedente de los
sistemas operacionales existentes, mediante un proceso de extraccin,
transformacin y carga (ETL).

Fuente de informacin:
http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx

2.1.5 OPERACIONES ANALTICAS BSICAS DE SISTEMAS OLAP


Los sistemas OLAP soportan las siguientes operaciones

Consolidacin: este comprende el conjunto de datos. Esto puede involucrar


acumulaciones simples o agrupaciones complejas que incluyen datos
interrelacionados.

Drill-Down: OLAP puede moverse en la direccin contraria y presentar


automticamente datos detallados que abarcan datos consolidados.

Slicing and Dicing: se refiere a la capacidad de visualizar a la BD desde


diferentes puntos de vista. Tambin se la conoce como operacin
de Pivotaje.
Vistas de Datos
La vista de datos como cubos es una extensin de la manera normal en que los
usuarios de negocios interactan con los datos. Por Ejemplo: la mayora de los
usuarios deseara ver cmo se desarrollan las ventas a lo largo del tiempo. Para
ello se necesitara ver varas planillas de clculo.

Debido a su representacin pueden ser tomadas rebanadas de datos de las


mismas, para responder diversas preguntas.

Herramientas de Mineo de Datos


Mineo de datos es el proceso de descubrir nuevas correlaciones significativas,
patrones y tendencias por medio del mineo de grandes cantidades de datos
almacenados en un Datawarehouse o en un data mart, usando tcnicas
estadsticas, reconocimiento de patrones y algoritmos de aprendizaje para
identificar relaciones entre los elementos de datos.

Fuente de informacin:

http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=datawarehouse3

2.1.6. VISTA DE DATOS DE LOS SISTEMAS OLAP


Las herramientas OLAP proporcionan a las compaas un sistema confiable para
procesar datos que luego sern utilizados para llevar a cabo anlisis e informes que
permitan mejorar las operaciones productivas, tomar decisiones inteligentes y optimizar
la competitividad en el mercado.

Para funcionar, las aplicaciones OLAP utilizan un tipo de base de datos que posee la
peculiaridad de ser multidimensional, denominada comnmente Cubo OLAP.

Bsicamente, el Cubo OLAP, es una base de datos que posee diversas dimensiones,
ampliando las posibilidades que hasta el momento ofrecan las conocidas hojas de
clculo.

Mediante la incorporacin de estos vectores o cubos, se han ampliado las posibilidades


de las bases de datos relacionales, permitiendo el procesamiento de importantes
volmenes de informacin, que de lo contrario sera imposible realizar.

Cada una de las dimensiones que posee la base de datos incorpora un campo
determinado para un tipo de dato especfico, que luego podr ser comparado con la
informacin contenida en el resto de dimensiones, para hacer posible la evaluacin y
posteriores informes de la informacin realmente relevante para una compaa.

Una base de datos multidimensional puede contener varios cubos o vectores que
extendern las posibilidades del sistema OLAP con el cual se trabaja.

Por ello, si bien en general los sistemas OLAP suelen estar compuestos por tres
dimensiones, lo cierto es que existe la posibilidad de que el sistema OLAP albergue ms
de tres dimensiones mediante la utilizacin de estos Cubos OLAP.

Para tener una idea ms simple de la funcin de los Cubos OLAP dentro de una base de
datos multidimensional, cabe destacar que cada una de las dimensiones o escalas del
cubo corresponde bsicamente a una jerarqua de datos.

Caractersticas

En este modelo los datos son vistos como cubos los cuales consisten
en categora descriptivas (dimensiones) y valores cuantitativos (medidas).
Es un modelo multidimensional de datos, que simplifica a los usuarios
realizar consultas complejas, arreglar datos en un reporte, cambiar de datos
resumidos a datos detallados, etc.

Los Cubos OLAP son vectores en los cuales se dispone la informacin, y gracias
a esta ordenada jerarqua es posible llevar a cabo un anlisis rpido de los datos.

Existen tres tipos de modelos OLAP ellos son:

MOLAP: en estos sistemas se encuentran almacenados los datos en una estructura de


datos multidimensional (OLAP Multidimensional)

ROLAP: son sistemas en los cuales los datos se encuentran almacenados en una base
de datos relacional (OLAP Relacional)

HOLAP: estos sistemas mantienen los registros detallados en la base de datos


relacional, mientras que los datos resumidos o agregados se almacenan en una base de
datos multidimensional separada.

BIBLIOGRAFIA:

http://www.ecured.cu/index.php/Cubos_OLAP

2.1.7 MODELO DE DATOS DE LOS SISTEMAS OLAP


Los sistemas OLAP son bases de datos orientadas al procesamiento analtico.
Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de
datos para llegar a extraer algn tipo de informacin til: tendencias de ventas,
patrones de comportamiento de los consumidores, elaboracin de informes
complejos, etc.. Este sistema es tpico de los datamarts. Los sistemas de ayuda
a la toma de decisiones se presentan en varios formatos, incluidos los sistemas
OLAP y los sistemas de recopilacin de datos.
En un modelo de datos OLAP, la informacin es vista como cubos, los cuales
consisten de categoras descriptivas (dimensiones) y valores cuantitativos
(medidas). El modelo de datos multidimensional simplifica a los usuarios formular
consultas complejas, arreglar datos en un reporte, cambiar de datos resumidos a
datos detallados y filtrar o rebanar los datos en subconjuntos significativos.

Visualizacin de los datos. Las herramientas de procesamiento analtico en


lnea (online analytical processing, OLAP) ayudan a los analistas a ver los datos
resumidos de diferentes maneras, de manera que puedan obtener una
perspectiva del funcionamiento de la organizacin

.Se ve a un problema de negocios en trminos de un cierto nmero de


componentes (dimensiones) tales como productos, tiempo, regiones, fabricantes,
o artculos. Los usuarios de negocios desean poder analizar un conjunto de
nmeros usando cualquier par de estos componentes, como as tambin poder
intercambiarlos para lograr distintas vistas.

Implementacin de OLAP.

Los primeros sistemas de OLAP utilizaban arrays de memoria multidimensionales


para almacenar los cubos de datos y se denominaban sistemas OLAP
multidimensionales (Multidimensional OLAP, MOLAP). Posteriormente, los
servicios OLAP se integraron en los sistemas relacionales y los datos se
almacenaron en las bases de datos relacionales. Estos sistemas se denominan
sistemas OLAP relacionales (Relational OLAP, ROLAP). Los sistemas hbridos,
que almacenan algunos resmenes en la memoria y los datos bsicos y otros
resmenes en bases de datos relacionales, se denominan sistemas OLAP
hbridos (Hybrid OLAP, HOLAP).

Fuente de informacin:

http://tallerbd.wikispaces.com/OLAP
2.2 SISTEMAS DE GESTIN DEL CONOCIMIETO
Se define como herramientas para llevar a cabo la gestin del conocimiento.
La gestin del conocimiento: Es el proceso que continuamente asegura el
desarrollo y la aplicacin de todo tipo de conocimientos pertinentes de una
empresa con objeto de mejorar su capacidad de resolucin de problemas y as
contribuir a la sostenibilidad de sus ventajas competitivas
Estn manifestados en una variedad de implementaciones (por ejemplo):
Repositorios de documentos
Bases de datos de experticia
Listas de discusin
Sistemas de recuperacin especficos del contexto

Objetivos:
EN GENERAL
Apoyar los procesos de creacin, almacenamiento, recuperacin,
transferencia y aplicacin del conocimiento.
EN LA ORGANIZACIN
Hacer visible el conocimiento y mostrar a las personas el rol del
conocimiento en la organizacin usando herramientas tales como
mapas de conocimiento, pginas amarillas e hipertextos.
Desarrollar una cultura intensiva en conocimiento, fomentando
conductas que propicien el compartirlo y sean proactivas a pedirlo y
ofrecerlo.
Construir una infraestructura de conocimiento. No solo un sistema
tcnico, sino toda una red de conexiones entre personas, facilitndoles
espacio, tiempo y herramientas para que interacten y colaboren.

BIBLIOGRAFIA:
http://es.slideshare.net/difagram/sistemas-de-gestion-del-conocimiento

2.2.1 PREPARACIN DE DATOS


El propsito fundamental de la preparacin de los datos es la manipulacin y
transformacin de los datos sin refinar para que la informacin contenida en el
conjunto de datos pueda ser Descubierta o estar accesible de forma ms fcil.

Los datos reales pueden ser impuros, pueden conducir a la extraccin de


patrones/reglas poco tiles.
Esto se puede deber a: Datos Incompletos: falta de valores de atributos,
Datos con Ruido.
Datos inconsistentes (incluyendo discrepancias).

Pre procesamiento de Datos


Importancia de la preparacin de datos
2. La preparacin de datos puede generar un conjunto de
Datos ms pequeo que el original, lo cual puede mejorar la eficiencia del
proceso de Minera de Datos.
Esta actuacin incluye:
Seleccin relevante de datos: eliminando registros
Duplicados, eliminando anomalas,
Reduccin de Datos: Seleccin de caractersticas,
Muestreo o seleccin de instancias, desratizacin.

3. La preparacin de datos genera datos de calidad, los cuales pueden conducir


a patrones/reglas de calidad.
Por ejemplo, se puede:
Recuperar informacin incompleta.
Eliminar outliers
Resolver conflictos,
Datos de baja calidad puede llevar a modelos de minera de datos de baja
calidad.
Decisiones de calidad deben ser basadas en datos de calidad.

Fuente de informacin
http://sci2s.ugr.es/docencia/in/pdf/Tema05-PreparacionDeDatos-v2.pdf

CUESTIONARIO
1. El propsito fundamental de la preparacin de los datos es?
La manipulacin y transformacin de los datos
2. La preparacin de datos puede generar un conjunto de?
Datos ms pequeo que el original, lo cual puede mejorar la eficiencia del

proceso de Minera de Datos


3. La preparacin de datos genera?
Datos de calidad
4. Los datos de calidad, los cuales pueden conducir a patrones/reglas

de calidad se puede?
Recuperar informacin incompleta.
Eliminar outliers
Resolver conflictos.

1.2.2. MINERA DE DATOS.

El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten


explorar grandes bases de datos, de manera automtica o semiautomtica, con el
objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto.
Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un
repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos
casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes
neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario
les atribuye algn significado especial pasan a convertirse en informacin. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que
surge entre la informacin y ese modelo represente un valor agregado, entonces nos
referimos al conocimiento. Vea ms diferencias entre datos, informacin y conocimiento.

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el
proceso comn a todos ellos se suele componer de cuatro etapas principales:

Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el


cliente desea bajo la orientacin del especialista en data mining.

Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el


enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total de
un proyecto de data mining.

Determinacin del modelo. Se comienza realizando unos anlisis estadsticos


de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos
para tener una primera aproximacin. Segn los objetivos planteados y la tarea
que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en
diferentes reas de la Inteligencia Artificial.

Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y


los coteja con los obtenidos por los anlisis estadsticos y de visualizacin
grfica. El cliente determina si son novedosos y si le aportan un nuevo
conocimiento que le permita considerar sus decisiones.

Un proyecto de minera de datos tiene varias fases necesarias que son,


esencialmente:
Comprensin: del negocio y del problema que se quiere resolver.

Determinacin, obtencin y limpieza: de los datos necesarios.

Creacin de modelos matemticos.

Validacin, comunicacin: de los resultados obtenidos.

Integracin: si procede, de los resultados en un sistema transaccional o similar.

La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho
ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia
acumulada en proyectos de minera de datos se han ido desarrollando metodologas que
permiten gestionar esta complejidad de una manera ms o menos uniforme.

BIBLIOGRAFIA:

http://www.sinnexus.com/business_intelligence/datamining.aspx

http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

2.2.3 PATRONES
La tarea de minera de datos real es el anlisis automtico o semi-automtico de
grandes cantidades de datos para extraer patrones interesantes hasta ahora
desconocidos, como los grupos de registros de datos (anlisis cluster), registros
poco usuales (la deteccin de anomalas) y dependencias (minera por reglas de
asociacin). Esto generalmente implica el uso de tcnicas de bases de datos
como los ndices espaciales. Estos patrones pueden entonces ser vistos como
una especie de resumen de los datos de entrada, y pueden ser utilizados en el
anlisis adicional o, por ejemplo, en la mquina de aprendizaje y anlisis
predictivo. Por ejemplo, el paso de minera de datos podra identificar varios
grupos en los datos, que luego pueden ser utilizados para obtener resultados
ms precisos de prediccin por un sistema de soporte de decisiones. Ni la
recoleccin de datos, preparacin de datos, ni la interpretacin de los resultados
y la informacin son parte de la etapa de minera de datos, pero que pertenecen
a todo el proceso KDD como pasos adicionales.

Los trminos relacionados con la obtencin de datos, la pesca de datos y


espionaje de los datos se refieren a la utilizacin de mtodos de minera de datos
a las partes de la muestra de un conjunto de datos de poblacin ms grandes
establecidas que son (o pueden ser) demasiado pequeas para las inferencias
estadsticas fiables que se hizo acerca de la validez de cualquier patrn
descubierto. Estos mtodos pueden, sin embargo, ser utilizados en la creacin
de nuevas hiptesis que se prueban contra poblaciones de datos ms grandes.

Patrones de fuga

Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas


industrias como la banca, las telecomunicaciones, etc. existe un
comprensible inters en detectar cuanto antes aquellos clientes que puedan
estar pensando en rescindir sus contratos para, posiblemente, pasarse a la
competencia. A estos clientes y en funcin de su valor se les podran hacer
ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo
ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los
ms proclives a darse de baja estudiando sus patrones de comportamiento y
comparndolos con muestras de clientes que, efectivamente, se dieron de baja
en el pasado.
Fuente de informacin: http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

Cuestionario

1. La tarea de minera de datos real es el anlisis automtico o semi-


automtico de grandes cantidades de datos sirve para extraer?
Patrones como los grupos de registro.
2. Estos patrones pueden entonces ser vistos como una especie de?
Resumen de los datos de entrada, y pueden ser utilizados en el anlisis
adicional.
3. En qu forma ayuda a la minera de datos en los patrones de fuga?
A Determinar qu clientes son los ms proclives a darse de baja
estudiando sus patrones de comportamiento y comparndolos con
muestras de clientes que, efectivamente, se dieron de baja en el pasado.

También podría gustarte