Está en la página 1de 20

Es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemticamente para su posterior uso.

En este sentido; una biblioteca puede considerarse una base de datos compuesta en su mayora por documentos y textos impresos en papel e indexados para su consulta. Actualmente, y debido al desarrollo tecnolgico de campos como la informtica y la electrnica, la mayora de las bases de datos estn en formato digital (electrnico), y por ende se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos .

Proceso de extraer conocimiento til y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos (Witten y
Frank, 2000)

Las tcnicas de data mining pueden redituar los

beneficios de automatizacin en las plataformas de hardware y software existentes y pueden ser implementadas en sistemas nuevos a medidas que las plataformas existentes se actualicen y nuevos productos sean desarrollados. HOY EN DIA EL DATA MINING SE USA PARA : Conocer a los clientes. Detectar segmentos. Calcular perfiles. Detectar buenos clientes. Deteccin de morosidad. Campaas de captacin de clientes.

REDES NEURONALES ARTIFICIALES

Son modelos predecibles no lineales que comprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica . ARBOLES DE DECISION : Estructuras de forma de rbol que representan conjuntos de decisiones .Estas decisiones generan reglas para clasificacin de un conjunto de datos ALGORITMOS GENTICOS: Tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccin natural en un diseo basada en los conceptos de evolucin .

METODO DEL VECINO MAS CERCANO:

Una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del que los registro REGLA DE INDUCCION: Es la extraccin de reglas basados en significado esttico. Muchas de estas tecnologas han estado en uso por mas de una dcada en herramientas de anlisis especializadas que trabajan con volmenes de datos relativamente pequeos

La tcnica mas usada para realizar estas hazaas en

data mining se llama modelado. Modelado es simplemente el acto de construir un modelo en una situacin donde usted conoce la respuesta . Por ejemplo: si busca un galen espaol hundido en los mares lo primero que podra hacer es investigar otros tesoros espaoles que ya fueron encontrados en el pasado. Notaria que esos barcos frecuentemente fueron encontrados fuera de las costas de bermuda y que hay ciertas caractersticas respecto de las corrientes ocenicas y ciertas rutas que probablemente tomara el capitn del barco en esa poca.

Para aplicar mejor estas tcnicas avanzadas Data Mining,

stas deben estar totalmente integradas con el data warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos, etc. El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores.

Es un re positivo de datos de muy fcil acceso,

alimentado de numerosas fuentes, transformadas en grupos de informacin sobre temas especficos de negocios, para permitir nuevas consultas anlisis y decisiones.

Si tienen montaas de datos en la campaa, pero no

podemos llegar a ellos adecuadamente Nada enloquece ms a los ejecutivos que dos personas presentando el mismo resultado de operacin pero con diferentes nmeros y los ejecutivos lo que buscan es ver la informacin pero de diferentes ngulos, mostrando nicamente la que es importante para tomar una decisin en la empresa.

LOS SISTEMAS OPERACIONALES DATA WAREHOUSE

Crudamente hablando, el sistema operacional de registros es donde los datos son depositados y el data warehouse es de donde se extraen esos datos .
LOS OBJETIVOS FUNDAMENTALES DEL DATA WAREHOUSE

Hace que la informacin de la organizacin sea accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempo de espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

Hacer que la informacin de la organizacin sea consistente: la

informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es informacin adaptable y elstica: el Data WareHouse esta diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. El diseo de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es un seguro baluarte que protege los valores de la informacin: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el Data WareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

Sistema fuente: sistemas operacionales de registros donde sus funciones son

capturar las transacciones del negocio. A los sistemas fuentes tambin se le conoce como Legacy System.rea de trafico de datos: es un rea de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse. Servidor de presentacin: la maquina fsica objetivo en donde los datos del Data WareHouse son organizados y almacenados para quieres directos por los usuarios finales, reportes y otras aplicaciones. Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad relacin. Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse. Data Mart: un subgrupo lgico del Data WareHouse completo. Data WareHouse: bsquedas fuentes de datos de la empresa. Y es la unin de todos los data marts que la constituyen. Almacenamiento operacional de datos: es el punto de integracin por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos.

OLAP: actividad general de bsquedas para presentacin

de texto y nmeros del Data WareHouse, tambin un estilo dimensional especifico de bsquedas y presentacin de informacin y que es ejemplificada por vendedores de OLAP.ROLAP: un grupo de interfaces de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional.MOLAP: un grupo de interfaces de usuarios, aplicaciones y propietarios de tecnologa de bases de datos que tienen un fuerte estilo dimensional. Aplicaciones para usuarios finales: una coleccin de herramientas que hacen los que analizan y presentan la informacin objetivo para el soporte de las necesidades del negocio. Herramientas de acceso a datos por usuarios finales: un cliente de Data WareHouse.Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones. Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analticas que transforma o digiere las salidas del Data WareHouse. Meta Data: toda la informacin en el ambiente del Data WareHouse que no son as mismo los datos actuales.

Extraccin: este es el primer paso de obtener la informacin

hacia el ambiente del Data WareHouse. Transformacin: una vez que la informacin es extrada hacia el rea de trafico de datos, hay posibles paso de transformacin como; limpieza de la informacin, tirar la basura que no nos sirve, seleccionar nicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, hacindolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensin. Carga: al final del proceso de transformacin, los datos estn en forma para ser cargados.

Para realizar tareas en los servidores y discos, asociados a

queries y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones. Muchas de las empresas quieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean ms rpidas en menores tiempos dado a que los queries y reportes consumen mucho ms de su lmite permitido en los recursos de servidores y discos, por tal motivo las empresas han implementado una arquitectura de Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes.

Para utilizar modelos de datos o tecnologas de servidores que agilizan los queries y reportes, y que no son apropiados para los procesos de transacciones. Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para los procesos de transacciones porque la tcnica de modelado bajara el rendimiento y complicara el proceso de transacciones. Tambin existen tecnologas que aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de transacciones (ejemplo: la indexacin de bitmaps) y tecnologa de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnologa de recuperacin de transacciones). Todo esto entonces esta en el cmo se hacen los modelos de datos y que tecnologa se utiliza, inclusive que productos se adquieren para el impacto de los procesos de queries y reportes. Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos tcnicos de tecnologa de bases de datos es requerida para escribir y mantener queries y reportes. Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personal sin tanto conocimiento tcnico, lo que hace que su mantenimiento y construccin se haga sin ms complejidad. Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones. El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace ms sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones. Para hacer los queries y reportes de datos bsicamente ms fcil de los mltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propsito de hacer queries y reportes. Desde hace mucho tiempo que las compaas necesitan reportes con informacin de mltiples sistemas y han hecho extracciones de datos para despus correrlos bajo la lgica de bsqueda combinando la informacin de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las bsquedas se vuelven muy pesadas y despus limpiar la bsqueda, entonces lo apropiado sera un Data WareHouse.

M y SQL cluster es una tecnologa que permite el

clustering de bases de datos en memoria en un ambiente de no comparticin La arquitectura de no comparticin permite que el sistema gestor de base de datos SGBD funcione utilizando hardware no muy costoso y con requerimientos mnimos como software como de hardware

MOTOR DE ALMACENAMIENTO NDB

Este es un motor de almacenamiento en memoria que ofrece alta disponibilidad y persistencia de datos .Es altamente configurable ofreciendo un gran numero de opciones para manejar el balanceo de carga y la tolerancia a fallos NODO DE ADMINISTRACION(Nodo MGM) Este tipo de nodo cumple con la funcin de manejar , controlar u coordinar los otro nodos dentro del clster. Implementa funciones de configuracin de datos , iniciar o detener otros nodos dentro del clster.

Este tipo de nodo almacena los datos. La cantidad de

nodos de este tipo dentro del cluster es igual a a la cantidad de replicas por la cantidad de fragmentos. Es decir, si se manejan 4 replicas de los datos con 2 fragmentos, se necesitaran 8 nodos de datos. No es necesario manejar ms de una rplica. Este tipo de nodo se levanta utilizando el comando ndbd.