Proyecto 1

PONTIFICIA UNIVERSIDAD CATLICA DE VALPARASO
FACULTAD DE INGENIERA
ESCUELA DE INGENIERA INFORMTICA
APLICACIN DE TCNICAS DE MINERA DE

DATOS PARA UN SUPERMERCADO REAL
JUAN NDRES JEREZ BALMACEDA
PROFESOR GUA: PAMELA HERMOSILLA

PROFESOR CO-REFERENTE: RODOLFO VILLAROEL
CARRERA: INGENIERA CIVIL INFORMTICA
VALPARAISO, JUNIO 2014
ndice
Resumen .................................................................................................................................. IV
Abstract ..................................................................................................................................... V
Lista de Figuras ...................................................................................................................... VI
Lista de Tablas ....................................................................................................................... VII
1
Introduccin........................................................................................................................ 1
Descripcin del Problema .................................................................................................. 2
Objetivos ............................................................................................................................. 3
3.1
Objetivo del proyecto .................................................................................................. 3
3.2
Objetivos Especficos .................................................................................................. 3
Planificacin del Trabajo.................................................................................................. 4

4.1
Plan de Trabajo ........................................................................................................... 5
Marco Terico .................................................................................................................... 6

5.1
Elementos bsicos de la investigacin ....................................................................... 6
5.1.1
Datos ..................................................................................................................... 6
5.1.2
Informacin .......................................................................................................... 7
5.1.3
Conocimiento ....................................................................................................... 7
5.2
Inteligencia de Negocios ............................................................................................. 8
5.2.1
5.3
Componentes de la BI. ........................................................................................ 9
Data Warehouse .......................................................................................................... 9
5.3.1
Metodologas para la creacin de Data Warehouse ....................................... 10
5.3.1.1 Paradigma Bill Inmon. .................................................................................. 10

5.3.2
5.4
Paradigma Ralph Kimball. ............................................................................... 12
Minera de datos........................................................................................................ 13
5.4.1
Principales caractersticas y objetivos de la minera de datos ...................... 13
5.4.2
Etapas del proceso de la minera de datos ....................................................... 15
5.4.3
Carga de trabajo en las fases de un proyecto de Data Mining ...................... 15
5.4.4
Metodologas de minera de datos .................................................................... 16
5.4.4.1 Metodologa SEMMA .................................................................................... 17

5.4.4.2 Metodologa CRISP-DM ............................................................................... 17
5.4.4.3 Metodologa Catalyst ..................................................................................... 17
II
5.4.4.4 Modelo de proceso KDD............................................................................... 18

5.5
El proceso de KDD .................................................................................................... 18

5.5.1.1 Tcnicas de minera de datos ........................................................................ 20
5.5.1.1.1 Reglas de asociacin ................................................................................. 20
5.5.1.1.2 Evaluacin de las Reglas .......................................................................... 22
5.5.2
Modelos de minera de datos ............................................................................ 23
5.5.2.1 Clasificacin ................................................................................................... 23

5.5.2.2 Estimacin ...................................................................................................... 23
5.5.2.3 Asociacin ....................................................................................................... 24
5.5.2.4 Agrupacin ..................................................................................................... 24
5.5.2.5 Modelo dirigido de Minera de datos ........................................................... 24
5.5.2.6 Clasificacin de los algoritmos...................................................................... 25
5.5.2.6.1 Mtodos de clasificacin de datos ........................................................... 25
5.5.2.6.2 Algoritmos de reglas de asociacin ......................................................... 25
5.5.2.6.3 Algoritmo Apriori .................................................................................... 26
5.5.2.6.4 Algoritmo distribuido/paralelo ............................................................... 27
5.5.2.6.5 Anlisis secuencial .................................................................................... 27
5.5.2.6.6 Algoritmos para encontrar patrones secuenciales ................................ 28
5.6
Herramientas ............................................................................................................. 28
5.6.1
6
Herramientas para la Minera de Datos. ......................................................... 28
Eleccin propuesta ........................................................................................................... 31

6.1
Metodologa escogida para la construccin de Data Warehouse ......................... 31
6.2
Herramienta de DM escogida. ................................................................................. 31
6.3
Metodologa de minera de datos propuesta........................................................... 32
Conclusin ......................................................................................................................... 36
Referencias .................................................................................................................................. 37
III
Resumen
La disminucin de la infraestructura para las tecnologas de la informacin tales como
dispositivos de almacenamiento y el software han tenido como resultado un aumento en la
informacin. Producto de este aumento ha ocurrido que se generan datos sin mayor
relevancia, contexto ni utilidad. La falta de conocimiento en una era que se hace cada vez ms
relevante al momento de tomar decisiones.
Existen variadas tcnicas para generar conocimiento, sin embargo la minera de datos ha
sido pionera, ya que esta propone un conjunto de tcnicas que generan patrones previamente
desconocidos y que generan conocimiento til para distintos mbitos. En especfico para este
trabajo se trabaja con las reglas de asociacin que permiten formar relaciones de tipo
implicancia.
Palabras Clave: Minera de datos, Reglas de asociacin, Metodologas de minera de datos,

base de datos, Aplicacin de tcnicas de minera de datos.
IV
Abstract
Decreasing the infrastructure for information technologies such as storage devices and
software, have resulted in an increase in information. Result of this increase has occurred that
data is generated without much relevance, context and use. Lack of knowledge in an age that
is increasingly important when making decisions.
There are various techniques to generate knowledge, though data mining has been a
pioneer, because this proposes a set of techniques that generate previously unknown patterns
and generate useful knowledge for different fields. Specifically for this job working with
association rules that allow such form relationships of implication.
Keywords: Data Mining, Association Rules, Data Mining Methodologies, Database,

Application of data mining techniques.
Lista de Figuras
Figura 1: Carta Gantt ................................................................................................................................ 5
Figura 2: Jerarquizacin entre datos, informacin y conocimiento ......................................................... 6
Figura 3: Inteligencia de negocios el puente entre SI y los procesos de negocio..................................... 8
Figura 4: Enfoque Inmon - DW Corporativo ......................................................................................... 11
Figura 5: Enfoque Kimball - Arquitectura Bus del DW ........................................................................ 12
Figura 6: Proceso de KDD ..................................................................................................................... 18
Figura 7: Algoritmo A priori .................................................................................................................. 26
VI
Lista de Tablas
Tabla 1: Metodologa de Trabajo ........................................................................................... 4
Tabla 2: Ejemplo de registros de la base de datos ................................................................ 21
VII
1 Introduccin
Dentro de los ltimos aos, se ha desarrollado una tendencia de crecimiento
exponencial al momento de recolectar y generar datos, causado por el gran poder de
procesamiento de las mquinas y de su bajo costo de almacenamiento. Sin embargo, una de
los desafos actuales es generar informacin y posterior conocimiento desde un gran almacn
de datos. Adems dentro de estas enormes masas de datos existe una gran cantidad de
informacin "oculta", de gran importancia estratgica, a la que no se puede acceder por las
tcnicas clsicas de recuperacin de la informacin.
El descubrimiento de esta informacin "oculta" es posible gracias a la Minera de
Datos (Data Mining), que entre otras sofisticadas tcnicas aplica la inteligencia artificial para
encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es
decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento
(KDD, por sus siglas en ingls) que se encarga de la preparacin de los datos y la
interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones
encontrados. As el valor real de los datos reside en la informacin que se puede extraer de
ellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensin de los
fenmenos que nos rodean.
Es por esto que una de las estrategias ampliamente utilizadas por los negocios exitosos
son los mtodos de anlisis avanzados. Su finalidad en el negocio es incrementar las
ganancias, maximizar la eficiencia operativa, reducir los costos y mejoran la satisfaccin del
cliente.
El presente informe pretende entregar informacin sobre el trabajo de investigacin
para tesis profesional. El objeto de estudio es el anlisis de la informacin recopilada durante
un ao que posteriormente ser analizada mediante un conjunto de tcnicas de minera de
datos, que capaces de extraer conocimiento til, comprensible y previamente desconocido. En
este caso particular esta ser extrado desde la fuente de datos de un retail cuya identidad ser
protegida (ya que la data es de alta significancia). La finalidad de cumplir los objetivos
planteados, donde lo recabado sea herramienta til de mejoramiento para la empresa en el
mbito de marketing administrativo.
2 Descripcin del Problema

Una de las problemticas de la empresa en cuestin es el crecimiento exponencial de la
data en volumen y en variedad en las ltimos Aos. Gran parte de esta, es histrica, es decir
representa transacciones o situaciones que se han producido. Esta enorme cantidad de datos
generan adems ciertos problemas asociados tales como:
Sobrecarga de informacin
Exceso de informacin genrica
Ausencia de informacin personalizada y/o Relevante para los distintos perfiles
que existen en el negocio.
Falta de retroalimentacin oportuna para la mejora del negocio
Ellos poseen algunos sistemas de informacin capaces de generar informacin, en especfico

se trata de una herramienta de inteligencia de negocios la cual les provee de informacin
relevante. Sin embargo el sistema tiene ciertas limitaciones, como por ejemplo no es capaz de
encontrar relaciones existentes entre productos.
Una de las oportunidades propuestas por el administrador fue trabajar en uno de las
arista del data base marketing el cual buscar relaciones del tipo de implicancia entre los
distintos tipos de producto con el fin de incrementar las ventas. Existen variados ejemplos
como el del pan y la mantequilla. Sin embargo, gracias a estudios posteriores se logr
encontrar relaciones entre productos que aparentemente no cumplan con reglas claras. Es el
conocido caso de los paales y la cerveza, en donde el pblico que los adquira tenia ciertas
caractersticas y cumpla ciertos patrones de comportamiento. La finalidad del descubrimiento
de este vnculo es, principalmente apoyar la toma de decisiones de los ejecutivos en relacin a
la organizacin completa o parcial del supermercado. Esta distribucin ayudara promover
venta, con simples estrategias tales como, ubicar productos relacionados en un mismo pasillo,
crear descuentos, promociones o packs. Todo con el fin de aumentar la probabilidad que los
clientes compren dichas configuraciones de productos.
Para el siguiente trabajo de investigacin se propuso tomar toda la data de un ao
contenida en los almacenes de datos y procesarla para generar relaciones ocultas.
3 Objetivos
3.1 Objetivo del proyecto
Aplicacin de minera de tcnicas de minera de datos para el Supermercado en cuestin
con el fin de apoyar la toma de decisiones
3.2 Objetivos Especficos

1. Por medio de la investigacin, determinar la tcnica, metodologa y modelo de
minera de datos a utilizar para la problemtica escogida.
2. Eleccin de la metodologa de Data Warehouse para el almacn de datos.
3. Escoger la herramienta informtica para el desafo plateado.
4. Aplicacin la herramienta escogida para la solucin propuesta
5. Encontrar relaciones entre productos existentes utilizando la tcnica de minera de
datos escogida
6. Analizar los resultados obtenidos y verificar sin son tiles para la empresa
4 Planificacin del Trabajo

Para desarrollar de mejor manera la investigacin propuesta se seguir una
metodologa de trabajo que permitir cumplir las actividades involucradas, asociadas a cada
fase. Uno de los procesos presentes es la planificacin la cual permite un control de las tareas,
que posibilita el control de avance del proyecto completo.
Para comenzar, se realizara una investigacin del tema especfico, consultando y
recopilando informacin de distintas fuentes para su posterior anlisis y comprensin. Con se
podr definir el marco terico de la Minera de datos.
Luego con la informacin recopilada, se seleccionar el modelo que mejor se ajuste a
la solucin para su posterior utilizacin.
Posteriormente a esto se utilizara el modelo seleccionado con la herramienta
seleccionada para obtener resultados.
Tabla 1 : Metodologa de Trabajo
Fase
Fase 1
Fase 2
Fase 3
Actividades
Definicin del proyecto
Formalizacin
Tericas
de
Puesta en prctica
las
Bases
Introduccin en el tema
Definicin del problema
Definicin de los objetivos
Formulacin del plan de trabajo
Anlisis de tcnicas, Metodologas y modelos

actuales de DM y Data Warehouse
Propuesta de la Metodologas y modelos a

implementar.
Definicin del algoritmo y herramienta
Instalacin de herramienta a utilizar
proponer y modelar la base de datos para el

problema
Extraer datos desde el archivo llenar la base de

datos.
Implementacin de la herramienta a utilizar
Periodo de pruebas del modelo
Recoleccin de resultados y estadsticas.
Fase 4
Validacin
Anlisis de resultados obtenidos
Ajustes del modelo
Conclusiones y trabajos futuros
4.1 Plan de Trabajo

El plan de trabajo se calendarizara mediante a una Carta Gantt, para facilitar su
comprensin. De esta manera se puede planear tiempos entrega y dependencia entre
actividades. Para efectos prcticos se dej la calendarizacin de Proyecto 2 al momento de
recibir las fechas de dicho evento. El calendario se muestra a continuacin.
Figura 1: Carta Gantt
5 Marco Terico
A continuacin se describirn los conceptos necesarios para sustentar la forma como se
solucionara la problemtica existente. Para ello se realizara una etapa de investigacin que
permitir definir bases tericas. Adems esta indagacin cumple un propsito mayor que es
analizar el estado del arte completo de lo desarrollado hasta el momento. Los conceptos sern
presentados en orden y relevancia.
5.1 Elementos bsicos de la investigacin

Para comenzar la investigacin se empezara por definir la materia prima de este
trabajo, la informacin, datos y conocimiento. Generalmente se les suele confundir como
sinnimos y en la vida cotidiana se les trata indistintamente. Sin embargo en la prctica
difieren en volumen y en relevancia. A medida que se aumenta de nivel, se va aumentando la
importancia de la informacin para la toma de decisiones al contrario del volumen, ya que al
bajar niveles, el volumen es mucho mayor. Para comenzar se definir cada uno por separado.
Figura 2: Jerarquizacin entre datos, informacin y conocimiento
Para entender con mayor profundidad sus diferencias, se definirn por separado cada
una.
5.1.1 Datos
Los datos son la mnima unidad semntica, y se corresponden con elementos primarios
de informacin que por s solos son irrelevantes como apoyo a la toma de decisiones. Tambin
se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el porqu de las
cosas y no son orientativos para la accin.
Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un
propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una
decisin. Un dato solo no sirve de mucho porque carece de un escenario claro, que le permita
contextualizarse en un tiempo y espacio.
5.1.2 Informacin
La informacin se puede definir como un conjunto de datos procesados y que tienen un
significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin
debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en
informacin aadindoles valor:
Contextualizando: se sabe en qu contexto y para qu propsito se generaron.
Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.
Calculando: los datos pueden haber sido procesados matemtica o
estadsticamente.
Corrigiendo: se han eliminado errores e inconsistencias de los datos.
Condensando: los datos se han podido resumir de forma ms concisa (agregacin).
Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es
capaz de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de
valor y sus comportamientos.
Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)
5.1.3 Conocimiento
El conocimiento es una mezcla de experiencia, valores, informacin y know-how que
sirve como marco para la incorporacin de nuevas experiencias e informacin, y es til para la
accin. Se origina y aplica en la mente de los conocedores. En las organizaciones con
frecuencia no slo se encuentra dentro de documentos o almacenes de datos, sino que tambin
est en rutinas organizativas, procesos, prcticas, y normas.
El conocimiento se deriva de la informacin, as como la informacin se deriva de los
datos. Para que la informacin se convierta en conocimiento es necesario realizar acciones
como:
Comparacin con otros elementos.

Prediccin de consecuencias.
Bsqueda de conexiones.
Conversacin con otros portadores de conocimiento.
5.2 Inteligencia de Negocios

Se puede definir como el proceso de analizar los bienes o datos acumulados en la
empresa y extraer una cierta inteligencia o conocimiento de ellos. Debe entenderse que bienes
pueden incluir ventas personales, base de datos de clientes, informacin de la cadena de
suministro y cualquier fuente de informacin relevante para la empresa.
La Inteligencia del Negocio (BI) puede representar herramientas y sistemas que juegan
un papel clave en el proceso estratgico de la planificacin de una compaa. Estos sistemas
permiten reunir, almacenar, y analizarlos datos corporativos siendo una importante ayuda en la
toma de decisiones.
En un amplio sentido la inteligencia de negocios es el puente entre los sistemas de
informacin y los procesos relevantes para el negocio, en los cuales se manejan volmenes de
datos importantes y poseen un potencial para ser trabajados.
Hay una gran variedad de aplicaciones o software que brindan a la empresa la habilidad
de analizar de una forma rpida por qu pasan las cosas y enfocarse a patrones y amenazas.
Figura 3: Inteligencia de negocios el puente entre SI y los procesos de negocio
5.2.1 Componentes de la BI.

Multidimensionalidad: la informacin multidimensional se puede encontrar en hojas
de clculo, bases de datos, etc. Una herramienta de BI debe de ser capaz de reunir
informacin dispersa en toda la empresa e incluso en diferentes fuentes para as
proporcionar a los departamentos la accesibilidad, poder y flexibilidad que necesitan
para analizar la informacin.
Data Mining: Pueden identificar tendencias y comportamientos, no slo para extraer
informacin, sino tambin para descubrir las relaciones en bases de datos que pueden
identificar comportamientos que no muy evidentes.
Agentes: Los agentes son programas que piensan. Ellos pueden realizar tareas a un
nivel muy bsico sin necesidad de intervencin humana.
Data Warehouse: Es la respuesta de la tecnologa de informacin a la
descentralizacin en la toma de decisiones. Coloca informacin de todas las reas
funcionales de la organizacin en manos de quien toma las decisiones. Tambin
proporciona herramientas para bsqueda y anlisis.
Se abordaran cada trmino con mayor detalle para desarrollar de mejor manera el tema
tratado.
5.3 Data Warehouse

Como se mencion anteriormente Un almacn de datos (Data Warehouse) es una
coleccin de datos que contiene datos necesarios o tiles para una organizacin. Un
almacn de datos debe entregar la informacin correcta a la gente indicada en el momento
ptimo y en el formato adecuado. Los datos almacenados poseen ciertas caractersticas
nombradas a continuacin:
Estn orientado a un determinado mbito (empresa, organizacin, etc.)

Integrados
No voltiles
Variable en el tiempo
Esto ayuda a la toma de decisiones en la entidad en la que se utiliza. Es una estructura de

datos donde la informacin contenida est diseada para favorecer el anlisis y la divulgacin
eficiente de datos.
Los almacenes de datos contienen a menudo grandes cantidades de informacin que se
subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la
entidad del que procedan o para el que sea necesario. Dichas unidades se denominan Data
Marts.
5.3.1 Metodologas para la creacin de Data Warehouse

Para la construccin de un buen sistema de inteligencia de negocios es importante es
relevante la eleccin de una buena metodologa de construccin del almacn de datos. Existen
variadas metodologas, sin embargo abordaremos las ms conocidas, que son el Ralph Kimball
y el Will Inmon. Para entender las diferencias entre ambos enfoques, es necesario en primer
lugar tener claro la diferencia entre Data Warehouse y Data Mart. Esto ser expuesto a
continuacin:
Definicin de Data Warehouse: Un Data Warehouse proporciona una visin global,

comn e integrada de los datos de la organizacin, independiente de cmo se vayan a
utilizar posteriormente por los consumidores o usuarios.
Definicin de Data Mart: Podemos entender un Data Mart como un subconjunto de

los datos del Data Warehouse con el objetivo de responder a un determinado anlisis,
funcin o necesidad y con una poblacin de usuarios especfica.
En resumen la diferencia entre ambos es su alcance. El Data Mart est pensado para cubrir
las necesidades de un grupo de trabajo o de un determinado departamento dentro de la
organizacin mientras que el Data Warehouse est pensado para los datos de la organizacin
en su conjunto.
Teniendo en cuenta esto, vamos a intentar realizar un resumen de los aspectos ms
importantes de cada una de las metodologas:
5.3.1.1 Paradigma Bill Inmon.

Bill Inmon ve la necesidad de transferir la informacin de los diferentes OLTP (Sistemas
Transaccionales) de las organizaciones a un lugar centralizado donde los datos puedan ser
utilizados para el anlisis (sera el CIF o Corporate Information Factory). Insiste adems en
que ha de tener las siguientes caractersticas:
10
Orientado a temas.- Los datos en la base de datos estn organizados de manera que
todos los elementos de datos relativos al mismo evento u objeto del mundo real queden
unidos entre s.
Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de
la organizacin, y dichos datos deben ser consistentes.
No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato,
ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas.
Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
La informacin ha de estar a los mximos niveles de detalle. Los DW departamentales o

Data Marts son tratados como subconjuntos de este DW corporativo, que son construidos para
cubrir las necesidades individuales de anlisis de cada departamento, y siempre a partir de este
DW Central (del que tambin se pueden construir los ODS (Operational Data Stores) o
similares).
Figura 4: Enfoque Inmon - DW Corporativo
El enfoque Inmon tambin se referencia normalmente como Top-down. Los datos son
extrados de los sistemas operacionales por los procesos ETL y cargados en las reas de stage,
donde son validados y consolidados en el DW corporativo, donde adems existen los llamados
metadatos que documentan de una forma clara y precisa el contenido del DW. Una vez
realizado este proceso, los procesos de refresco de los Data Mart departamentales obtienen la
informacin de l, y con las consiguientes transformaciones, organizan los datos en las
estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.
La metodologa para la construccin de un sistema de este tipo es la habitual para
11
construir un sistema de informacin, utilizando las herramientas habituales (esquema Entidad

Relacin, DIS (Data Item Sets, etc). Para el tratamiento de los cambios en los datos, usa la
Continue and Discrete Dimension Management (inserta fechas en los datos para determinar su
validez para las Continue Dimension o bien mediante el concepto de snapshot o foto para las
Discrete Dimension).
Al tener este enfoque global, es ms difcil de desarrollar en un proyecto sencillo (pues
estamos intentando abordar el todo, a partir del cual luego iremos al detalle).
5.3.2 Paradigma Ralph Kimball.

El Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa,
siendo una copia de los datos transaccionales estructurados de una forma especial para el
anlisis, de acuerdo al Modelo Dimensional (no normalizado), que incluye, como ya vimos,
las dimensiones de anlisis y sus atributos, su organizacin jerrquica, as como los diferentes
hechos de negocio que se quieren analizar. Por un lado tenemos tablas para las representar las
dimensiones y por otro lado tablas para los hechos (las facts tables). Los diferentes Data Marts
estn conectados entre s por la llamada bus structure, que contiene los elementos
anteriormente citados a travs de las dimensiones conformadas (que permiten que los usuarios
puedan realizar querys conjuntos sobre los diferentes Data Marts, pues este bus contiene los
elementos en comn que los comunican). Una dimensin conformada puede ser, por ejemplo,
la dimensin cliente, que incluye todos los atributos o elementos de anlisis referentes a los
clientes y que puede ser compartida por diferentes data Marts (ventas, pedidos, gestin de
cobros, etc.).
Figura 5: Enfoque Kimball - Arquitectura Bus del DW
12
Este enfoque tambin se referencia como Bottom-up, pues al final el Data Warehouse
Corporativo no es ms que la unin de los diferentes Data Marts, que estn estructurados de
una forma comn a travs de la bus structure. Esta caracterstica le hace ms flexible y
sencillo de implementar, pues podemos construir un Data Marts como primer elemento del
sistema de anlisis, y luego ir aadiendo otros que comparten las dimensiones ya definidas o
incluyen otras nuevas. En este sistema, los procesos ETL extraen la informacin de los
sistemas operacionales y los procesan igualmente en el rea stage, realizando posteriormente
el llenado de cada uno de los Data Marts de una forma individual, aunque siempre respetando
la estandarizacin de las dimensiones (dimensiones conformadas).
La metodologa para la construccin del Dw incluye las 4 fases que son:
Seleccin del proceso de negocio
Definicin de la granularidad de la informacin
Eleccin de las dimensiones de anlisis
Identificacin de los hechos o mtricas.
5.4 Minera de datos

Es un paso dentro de todo el proceso de KDD. Su objetivo es descubrir tendencias,
situaciones anmalas y/o interesantes, padrones y secuencias en los datos. Esta intenta obtener
patrones o modelos a partir de los datos recopilados. Aunque desde un punto de vista
acadmico el trmino data mining es una etapa dentro de un proceso mayor llamado
extraccin de conocimiento en bases de datos, en el entorno comercial, as como en este
trabajo, ambos trminos se usan de manera indistinta.
Minera de Datos toma este proceso de evolucin ms all del acceso y
navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva.
La Minera de Datos est lista para su aplicacin en la comunidad de negocios porque est
soportado por tres tecnologas que ya estn suficientemente maduros:
Recoleccin masiva de datos.
Potentes computadoras con multiprocesadores.
Algoritmos de Data Mining
5.4.1 Principales caractersticas y objetivos de la minera de datos

Explorar los datos se encuentran en las profundidades de las bases de datos, como los
almacenes de datos, que algunas veces contienen informacin almacenada durante
varios aos.
13
En algunos casos, los datos se consolidan en un almacn de datos y en

mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El
entorno de la minera de datos suele tener una arquitectura cliente servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral de la
informacin enterrado en archivos corporativos o en registros pblicos,
archivados.
El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programacin, facultado por barrenadoras de datos y otras poderosas herramientas
indagatorias para efectuar preguntas ad-hoc y obtener rpidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e
inesperados.
Las herramientas de la minera de datos se combinan fcilmente y pueden
analizarse y procesarse rpidamente.
Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minera de datos.
La aplicacin de tcnicas de data Mining en grandes bases de datos persiguen los siguientes
resultados:
1. Clasificacin: Se trata de obtener un modelo que permita asignar un caso de clase
desconocida a una clase concreta (seleccionada de un conjunto redefinido de clases),
como son los rboles de clasificacin (CART), cuyos resultados pueden expresarse
mediante reglas ejecutables directamente del SQL o el mtodo de Bayesiano.
2. Regresin: Se persigue la obtencin de un modelo que permita predecir el valor
numrico de alguna variable (modelos de regresin logstica).
3. Agrupamiento (clustering): Hace corresponder cada caso a una clase, con la
peculiaridad de que las clases se obtienen directamente de los datos de entrada
utilizando medidas de similitud. Es decir, agrupan a los datos bajo diferentes mtodos
y criterios. Las tcnicas ms usadas son las clsicas (distancia mnima) y las redes
neuronales (mtodo de Kohonen o mtodo de Neural-Gas)
4. Resumen: Se obtienen representaciones compactas para subconjuntos de los datos de
entrada (anlisis interactivo de datos, generacin automtica de informes, visualizacin
de datos).
5. Anlisis de Secuencias: Se intenta modelar la evolucin temporal de alguna variable,
con fines descriptivos o predictivos (redes neuronales multicapas)
6. Descubrimiento de reglas de asociacin: en la que se obtiene conocimiento
interesante para los usuarios en forma de reglas de asociacin que reflejan relaciones
entre los atributos presentes en los datos. Reglas de asociacin
14
5.4.2 Etapas del proceso de la minera de datos

Las principales etapas del proceso de minera de datos son:
1. Determinacin de los objetivos: delimitar los objetivos que el cliente desea bajo la
orientacin del especialista en Data Mining.
2. Pre-procesamiento de los datos: se refiere a la seleccin, limpieza, enriquecimiento,
reduccin y la transformacin de las bases de datos.
3. Determinacin del modelo: se comienza con un anlisis estadstico de los datos, y
luego se lleva a cabo una visualizacin grfica de los mismos para tener una primera
aproximacin.
4. Anlisis de los resultados: verifica si los resultados obtenidos son coherentes y los
compara con los obtenidos por el anlisis estadstico y de visualizacin grfica.
5.4.3 Carga de trabajo en las fases de un proyecto de Data Mining

Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables
objetivo (aquellas que se quiere predecir, calcular o inferir), como a las
variables independientes (las que sirven para hacer el clculo o proceso), como
posiblemente al muestreo de los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de
dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de diversas
formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar
la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este
paso tambin se le conoce como pre-procesamiento de los datos.
4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo
predictivo, de clasificacin o segmentacin.
5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se
obtiene un modelo de conocimiento, que representa patrones de comportamiento
observados en los valores de las variables del problema o relaciones de
asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para
generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.
6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe
proceder a su validacin comprobando que las conclusiones que arroja son vlidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante
el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se
ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si el
15
modelo final no superara esta evaluacin el proceso se podra repetir desde el

principio o, si el experto lo considera oportuno, a partir de cualquiera de los
pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se
considere necesario hasta obtener un modelo vlido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o
con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos
obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de
anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales.
En este sentido cabe destacar los esfuerzos del Data Mining Group, que est
estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que
los modelos de minera de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales fabricantes
de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de
este estndar.
Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin
contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han
creado y alimentan bases de datos especialmente diseadas para proyectos de minera de
datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No
obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos
desestructurados como informacin contenida en ficheros de texto, en Internet, etc.
5.4.4 Metodologas de minera de datos

Las metodologas permiten llevar a cabo el proceso de mimera de datos en forma
sistemtica y no trivial. Ayudan a entender el proceso de descubrimiento de conocimiento y
proveen un gua para la planificacin y ejecucin de los proyectos.
Algunos modelos conocidos como metodologas son en realidad modelo de proceso, es
decir un conjunto de actividades y tareas organizadas para llevar a cabo un trabajo. La
diferencia fundamental entre metodologa y modelo de proceso radica en que el modelo de
proceso establece que hacer y la metodologa especifica cmo hacerlo. Una metodologa no
solo define fases de un proceso sino tambin tareas que decidan realizarse y como llevar a
cabo las mismas.
En los principios del ao 1996, el modelo KDD, constituyo el primer modelo aceptado en
la comunidad cientfica que estableci las etapas principales de un proyecto de explotacin de
informacin. En su versin completa, KDD est formado por nueve etapas, donde la primera
es el entendimiento del negocio. Formalmente el modelo establece que la minera de datos es
la etapa dentro del proceso en la cual se realiza la extraccin de patrones a partir de los datos.
Sin embargo actualmente, la comunidad cientfica y en la literatura, el trmino KDD y minera
de datos se utiliza indistintamente para hacer referencia al proceso completo de
descubrimiento de conocimiento. En el ao 2000, surgen 2 nuevas metodologas que plantean
16
un enfoque sistemtico para llevar a cabo el proceso, estos son Catalyst, CRISP-DM y
SEMMA. Estas se explicaran a continuacin:
5.4.4.1 Metodologa SEMMA

SEMMA (Sample , Explore, Modify, Model, Assess) fue creada especialmente para
trabajar con el software de la empresa SAS, y se define como el proceso de seleccin,
exploracin y modelado de grandes volmenes de datos para descubrir patrones de negocio
desconocidos. La metodologa SEMMA se encuentra enfocada especialmente en
aspectos tcnicos, excluyendo actividades de anlisis y comprensin del problema que se est
abordando.
5.4.4.2 Metodologa CRISP-DM

CRISP- DM fue creada por el grupo de empresas SPSS, NCR y Daimer Chrysler en el ao
2000, es actualmente la gua de referencia ms utilizada en el desarrollo de proyectos de
minera de datos. Divide el proceso en seis fases o entregables:
Comprensin del negocio

Comprensin de los datos
Preparacin de los datos
Modelado
Evaluacin
Implantacin.
La sucesin de fases, no es necesariamente rgida. Cada fase se descompone en varias

tareas generales de segundo nivel. CRISP-DM establece un conjunto de tareas y actividades
para cada fase del proyecto pero no especifica cmo llevarlas a cabo.
5.4.4.3 Metodologa Catalyst

La metodologa Catalyst, conocida como P3TQ (Product, Place, Price, Time, Quantity), es
una metodologa plantea la formulacin de dos modelos: el Modelo de Negocio y el Modelo
de Explotacin de Informacin.
El Modelo de Negocio (MII), proporciona una gua de pasos para identificar un problema
(o la oportunidad del mismo) y los requerimientos reales de la organizacin. El foco
que propone la metodologa Catalyst en su Modelo de Negocio sobre la cadena de valor
organizacional, hizo que sea difundida en la comunidad cientfica como metodologa P3TQ,
aunque sta no sea su denominacin original.
17
5.4.4.4 Modelo de proceso KDD

El concepto KDD se define como la extraccin no trivial de informacin potencialmente
til a partir de un gran volumen de datos, en el cual la informacin est implcita, donde se
trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones, para
conseguirlo har falta tcnicas de aprendizaje, estadstica y bases de datos. Ms que una
metodologa (Como) KDD est pensado como un modelo de proceso (Que) que incluye la
minera de datos como un paso dentro de la ejecucin completa. Sin embargo igual se incluy
dentro del anlisis, ya que sigue siendo una manera eficaz de extraer conocimiento. A
continuacin se explicara el proceso de KDD.
5.4.4.4.1
El proceso de KDD
El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos) para

extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificacin de
ciertos parmetros usando una base de datos junto con pre-procesamientos y postprocesamientos. Se estima que la extraccin de patrones (minera) de los datos ocupa solo el
15% - 20% del esfuerzo total del proceso de KDD. El proceso de descubrimiento de
conocimiento en bases de datos involucra varios pasos:
Figura 6: Proceso de KDD
Determinar las fuentes de informacin: que pueden ser tiles y dnde

conseguirlas.
Disear el esquema de un almacn de datos (Data Warehouse): que consiga
unificar de manera operativa toda la informacin recogida.
18
Seleccin, limpieza y transformacin de los datos que se van a analizar: la

seleccin incluye tanto una criba o fusin horizontal (filas) como vertical
(atributos).La limpieza y pre-procesamiento de datos se logra diseando una
estrategia adecuada para manejar ruido, valores incompletos, secuencias de
tiempo, casos extremos (si es necesario), etc.
Implantacin del almacn de datos: que permita la navegacin y
visualizacin previa de sus datos, para discernir qu aspectos puede interesar
que sean estudiados. Esta es la etapa que puede llegar a consumir el mayor
tiempo.
Seleccionar y aplicar el mtodo de minera de datos apropiado: esto incluye
la seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasificacin,
agrupamiento o clustering, regresin, etc. La seleccin de l o de los algoritmos
a utilizar. La transformacin de los datos al formato requerido por el algoritmo
especfico de minera de datos. Y llevar a cabo el proceso de minera de datos,
se buscan patrones que puedan expresarse como un modelo o simplemente que
expresen dependencias de los datos, el modelo encontrado depende de su
funcin (clasificacin) y de su forma de representarlo (rboles de decisin,
reglas, etc.), se tiene que especificar un criterio de preferencia para seleccionar
un modelo dentro de un conjunto posible de modelos, se tiene que especificar la
estrategia de bsqueda a utilizar (normalmente est predeterminada en el
algoritmo de minera)
Evaluacin, interpretacin, transformacin y representacin de los
patrones extrados: Interpretar los resultados y posiblemente regresar a los
pasos anteriores. Esto puede involucrar repetir el proceso, quizs con otros
datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial
en donde se requiere tener conocimiento del dominio. La interpretacin puede
beneficiarse de procesos de visualizacin, y sirve tambin para borrar patrones
redundantes O irrelevantes.
Difusin y uso del nuevo conocimiento: Incorporar el conocimiento descubierto al
sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos
potenciales con el conocimiento existente. El conocimiento se obtiene para realizar
acciones, ya sea incorporndolo dentro de un sistema de desempeo o simplemente
para almacenarlo y reportarlo a las personas interesadas. En este sentido, KDD
implica un proceso interactivo e iterativo involucrando la aplicacin de varios
algoritmos de minera de datos.
19
5.4.4.5 Tcnicas de minera de datos

Como ya es conocido, las tcnicas de la minera de datos provienen de la inteligencia
artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos
sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las
tcnicas ms representativas son:
Redes Neuronales: Son un paradigma de aprendizaje automtico. inspirado en
la forma en que funciona el funcionamiento de los animales
Regresin lineal: Es la ms utilizada para formar relaciones entre datos.
Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan
relacionarse ms de 2 variables.
rboles de decisin: Un rbol de decisin es un modelo de prediccin
utilizado en el mbito de la IA, dada una base de datos se construyen estos
diagramas de construcciones lgicas, muy similares a los sistemas de
prediccin basados en reglas,
Modelos Estadsticos: Es una expresin simblica en forma de igualdad o
ecuacin que se emplea en todos los diseos experimentales y en la regresin
para indicar los diferentes factores que modifican la variable de respuesta.
Agrupacin o Clustering: Es un procedimiento de agrupacin de una serie de
vectores segn criterios habitualmente de distancia
Reglas de Asociacin: Se utilizan para descubrir hechos que ocurren en comn
dentro de un determinado conjunto de datos.
Para el caso especfico se desarrollara de manera extendida las reglas de asociacin, ya
que estas ayudan a encontrar relaciones de tipo implicancia en una transaccin a la hora de
hacer una compra.
5.4.4.5.1
Reglas de asociacin
La minera de Reglas de Asociacin es una tcnica importante en la Minera de Datos

y consiste en encontrar las asociaciones interesantes en forma de relaciones de implicacin
entre los valores de los atributos de los objetos de bases de datos transaccionales, relacionales
o Data Warehouse.
Numerosos y recientes estudios avalan su actualidad e importancia y aplicacin en
reas como:
El mercadeo
Medicina seguridad en redes
Anlisis de informacin de ventas
o Diseo de catlogos
o Distribucin de mercancas en tiendas
o Segmentacin de clientes en base a patrones compra.
20
Una regla de asociacin es una expresin de la forma X Z donde X y Z son

conjuntos de elementos.
Formalmente se define como:
=> Un conjunto de n atributos binarios llamados tems.
=> Un conjunto de transacciones almacenadas en una base de datos.
Cada transaccin en
tiene un ID (identificador) nico y contiene un subconjunto de
tems de . Una regla se define como una implicacin de la forma:
Dnde:
y
Los conjuntos de tems
se denominan respectivamente "antecedente"
Soporte, s, es la probabilidad de que una transaccin contenga {X , Z }

Confianza, c, es la probabilidad condicional de que una transaccin que contenga {X}
tambin contenga {Z}.
Por ejemplo dada la siguiente tabla:

Tabla 2: Ejemplo de registros de la base de datos
Transacciones
N
Productos comprados
Leche, Pan
Pan, Mantequilla
Cerveza
Leche, Pan, Mantequilla
Pan
Leche, Pan, Mantequilla
Se pueden encontrar las siguientes reglas de asociacin interesante para el

administrador. Utilizando la tabla puedo extraer por ejemplo si compro pan y leche,
entonces tambin comprare mantequilla, formalmente.
21
(Pan leche) (Mantequilla)
5.4.4.5.2
Evaluacin de las Reglas
En minera de datos con reglas de asociacin en BD transaccionales evaluamos las reglas de

acuerdo al soporte y la confianza de las mismas.
En reglas de asociacin, la cobertura se llama soporte y la precisin se llama confianza.
Se pueden leer como:
Soporte(X Z) = P (X Z)
Confianza(X Z) = P (Z |X) =
Esto se puede representar utilizando el ejemplo antes visto de la siguiente manera:

Supp ((Pan leche) (Mantequilla))= Supp (Pan leche
Conf ((Pan leche) (Mantequilla))=
mantequilla) =
=
En realidad estamos interesados nicamente en reglas que tienen mucho soporte

(soporte sop min y confianza conf min), por lo que buscamos (independientemente de que
lado aparezcan), pares atributo-valor que cubran una gran cantidad de instancias.
A estos, se les llama tem-sets y a cada par atributo-valor tem. Un ejemplo tpico de
reglas de asociacin es el anlisis de la canasta de mercado.
Bsicamente, encontrar asociaciones entre los productos de los clientes, las cuales
pueden impactar a las estrategias mercadotecnias. Ya que tenemos todos los conjuntos, los
transformamos en reglas con la confianza mnima requerida. Algunos tems producen ms de
una regla y otros no producen ninguna.
.
22
5.4.5 Modelos de minera de datos

La construccin de un modelo de minera de datos consiste en la seleccin de un
algoritmo de minera de datos que se ajuste a las metas que se desean obtener al evaluar el
conjunto de casos. Este, a su vez, genera un conjunto de valores que reflejan unas o ms vistas
estadsticas con el comportamiento del conjunto de casos. Esta vista estadstica se utiliza
posteriormente para proporcionar posibles patrones en conjuntos de casos similares con
resultados desconocidos. Esto puede sonar simple, pero la construccin del modelo de minera
de datos es mucho ms compleja. El enfoque que se utiliza puede decidir la diferencia entre
Minera de datos una herramienta para la toma de decisiones un modelo de minera de datos
exacto pero intil y un modelo de minera de datos exacto y muy til La persona experta en el
campo, que proporciona la gua en los datos que se estn modelando, debe ser capaz de
proporcionar suficiente informacin para poder tomar decisiones en una minera de datos
exacta. La aproximacin, a su vez, es esencial para decidir el algoritmo y casos que van a ser
modelados. Se debe observar, el proceso de construccin del modelo de minera de datos,
como un proceso de exploracin y descubrimiento. No existe ninguna frmula para construir
un modelo de minera de datos; experimentacin y evaluacin son pasos claves en el proceso
de construccin, y en el proceso de minera de datos para un escenario especfico se deben
examinar cuidadosamente varias iteraciones antes de la construccin de un modelo de minera
de datos efectivo.
Despus que los datos se han seleccionado, la minera de datos se divide en las siguientes
tareas:
5.4.5.1 Clasificacin
La clasificacin es el proceso de usar los atributos de un caso para asignarlo a una clase
predefinida. Por ejemplo, los clientes pueden ser clasificados en varios niveles de riesgo para
las aplicaciones de prstamos hipotecarios. La clasificacin tiene un mejor resultado cuando
un conjunto finito de clases puede definirse como clases de alto riesgo, medio riesgo o bajo
riesgo.
5.4.5.2 Estimacin
Mientras que la clasificacin se utiliza para responder preguntas de un conjunto finito de
clases, la estimacin es usada para responder datos ficticios dentro de un conjunto de
respuestas. Por ejemplo, usando informacin de censos para predecir los ingresos de las
familias. Tcnicas de clasificacin y estimacin son a menudo combinadas para un modelo de
minera de datos.
23
5.4.5.3 Asociacin
La asociacin es el proceso de determinar la afinidad de casos dentro de un conjunto de
casos, basado en la similitud de atributos. Simplemente se pone una, asociacin cuando se
determina que los casos pertenecen a un conjunto de casos. La asociacin puede ser utilizada
para determinar qu productos deben. Agruparse en un almacn, o que servicios son ms
utilizados para empacar.
5.4.5.4 Agrupacin
La agrupacin es el proceso de encontrar grupos en casos esparcidos, dividindolos en
conjuntos ms sencillos, distintos conjuntos de casos en varios subconjuntos se basan en la
similitud de atributos. La agrupacin es similar a la clasificacin, excepto que la agrupacin
no requiere de un conjunto finito de las clases predefinidas; la agrupacin simplemente agrupa
los datos segn las reglas y patrones inherentes en los datos que se basan en la similitud de sus
atributos.
5.4.5.5 Modelo dirigido de Minera de datos

Minera de datos dirigida, es el uso de tcnicas de clasificacin y estimacin para derivar
un modelo de datos con resultados conocidos, que entonces se utiliza para llenar un escenario
especfico. El modelo se compara entonces contra los datos de un resultado desconocido para
determinar la probabilidad de tales datos para satisfacer el mismo escenario. Por ejemplo, una
ilustracin comn de minera de datos dirigida, es la tendencia de usuarios para cambiar o
suprimir las cuentas. Hablando en trminos generales, los modelos de minera de datos
manejan el proceso en minera de datos dirigida ejemplar. Clasificacin y estimacin son
tpicamente categorizadas como tcnicas de minera de datos dirigidas. Esta aproximacin se
emplea mejor en un escenario claro y puede ser empleado contra un grupo grande de datos
histricos conocidos para construir un modelo de datos predictivo. Si se tiene una buena idea
de escenario para ser modelado, y se poseen datos slidos que ilustran tal escenario, pero no
est seguro sobre el propio resultado o las relaciones que llevan a este resultado entonces no se
tiene el modelo correcto. La minera de datos dirigida es tratada como una "caja negra", en que
el usuario se preocupa cada vez menos sobre el modelo y ms sobre los resultados que se
pueden obtener mirando los datos a travs del modelo.
24
5.4.5.6 Clasificacin de los algoritmos

En la clasificacin de datos, se desarrolla una descripcin o modelo para cada clase en
una base de datos, basado en las caractersticas presentes en un conjunto de datos de prueba.
Existen muchos mtodos de clasificacin de datos, incluyendo los mtodos de rboles de
decisin, mtodos estadsticos, redes neuronales, conjuntos speros, base de datos orientados a
objetos, etc.
5.4.5.6.1
Mtodos de clasificacin de datos
Algoritmos estadsticos: Sistemas de anlisis estadstico tales como SAS y SPSS, han
sido usados por analizadores para detectar patrones inusuales y explicarlos, utilizando
modelos estadsticos tales como modelos lineales. Tales sistemas tienen su lugar y
continuarn siendo usados.
Redes neuronales: Las redes neuronales artificiales imitan la capacidad del cerebro
humano para encontrar patrones y por lo tanto ciertos investigadores han sugerido
aplicar los algoritmos de redes neuronales para el mapeo de patrones. Las redes
neuronales se han aplicado con muy buen resultado en aplicaciones que requieren de
clasificaciones.
Algoritmos genticos: Las tcnicas de optimizacin de algoritmos utilizan procesos
como combinaciones genticas, mutacin, y la seleccin natural en un diseo basado
en los conceptos de evolucin natural.
Mtodo del vecino ms prximo: Esta es una tcnica que clasifica cada registro, en
un conjunto de datos basado en una combinacin de las clases en el k(s) registro ms
similar para a ello en un conjunto de datos histricos.
Regla de induccin: Es la extraccin de reglas tiles if-then de datos basados en
significacin estadstica.
Visualizacin de datos: Es la interpretacin de complejas relaciones visuales en datos
multidimensionales.
5.4.5.6.2
Algoritmos de reglas de asociacin
Una regla de asociacin es una regla que implica ciertas relaciones de asociacin entre
un conjunto de objetos en una base de datos. De un conjunto de transacciones, donde cada
transaccin es un conjunto de literales (llamados tems), una regla de asociacin es una
expresin de la forma X Y, donde X y Y son conjuntos de datos. El significado intuitivo de tal
regla es que las transacciones de la base de datos que contiene la X tiende a contener Y. Un
ejemplo de una regla de asociacin es: ''el 30% de transacciones que contienen cerveza
tambin contenga paales; 2% de todas las transacciones contenga ambos de estos tems. Aqu
25
30% es llamado la confianza de la regla, y 2% el apoyo de la regla. El problema es encontrar

todas las reglas de asociacin que satisfaga un mnimo de usuarios especficos.
5.4.5.6.3
Algoritmo Apriori
Un algoritmo de regla de asociacin Apriori se ha desarrollado para reglas de minera

de datos para grandes transacciones sobre bases de datos por el equipo de IBM Quest.
Este algoritmo divide el problema de las reglas de asociacin en dos partes:
1. Primero se debe encontrar todas las combinaciones de tems que tienen soporte
de transaccin. Esas combinaciones se denominan frecuencia de conjunto de
tems.
2. Utilizar las frecuencias de los conjuntos de tems para generar las reglas que se
desean. La idea general es que si, por ejemplo, ABCD y AB son las frecuencias
conjuntos de tems, entonces podemos determinar si la regla AB CD se
mantiene al computar el radio R = Minera de datos una herramienta para la
toma de decisiones Captulo 360soporte (ABCD) /soporte (AB). La regla se
mantiene slo si R >= mnimo de confianza. La regla tendr el mnimo de
soporte porque ABCD tiene ms frecuencia. El algoritmo de Apriori usado en
la bsqueda para encontrar la frecuencia de todos los conjuntos de tems se
describe a continuacin:
Figura 7: Algoritmo A priori
26
5.4.5.6.4
Algoritmo distribuido/paralelo
Las bases de datos o los data warehouse pueden almacenar una cantidad enorme de
datos que pueden ser minados. Las reglas de asociacin en tales bases de datos pueden
requerir poder de procesamiento substancial. Una posible solucin a este problema puede ser
un sistema distribuido. Adems, muchas bases de datos grandes son distribuidas lo que hace
ms factible el uso de algoritmos distribuidos. Minera de datos una herramienta para la toma
de decisiones Los costos principales de las reglas de asociacin es la manipulacin de los
conjuntos de registros demasiado grandes en la base de datos. Un problema es que se puede
manipular los conjuntos fcilmente si es localmente, pero un conjunto de registros localmente
grande no puede ser un conjunto a nivel mundial. Dado esto resulta muy caro emitir la
manipulacin entera de otros sitios, una opcin es emitir todas las cuentas de todos los
conjuntos de registros, sin importar si son grandes o pequeos, a otros sitios. Sin embargo, una
base de datos puede contener combinaciones enormes de conjuntos de registros, y ello
supondr pasar un nmero enorme de mensajes.
Un algoritmo distribuido de minera de datos es el FDM (reglas de asociacin minera
rpidamente distribuidos) por sus siglas en ingls, tienen las caractersticas siguientes:
1. La generacin de los conjuntos candidatos es en el mismo espritu de Apriori. Sin
embargo, ciertas relaciones entre conjuntos localmente grandes y mundialmente
grandes se exploran para generar un conjunto ms pequeo del candidato propuesto
para cada iteracin y as reducir el nmero de mensajes para que pueda ser pasado.
2. Despus de que el conjunto candidato se haya generado, dos tcnicas de depuracin,
depuracin local y depuracin global, son desarrolladas para poder depurar ciertos
conjuntos de cada grupo individual.
3. A fin de determinar si un conjunto candidato es grande, este algoritmo requiere solo
(n) mensajes enviados para el soporte de intercambio, donde la n es el nmero de sitios
en la red. Esto es mucho menos que una adaptacin recta de Apriori, que requiera n2
mensajes enviados.
5.4.5.6.5
Anlisis secuencial
Los datos de entrada son un conjunto de las sucesiones, llamadas sucesiones de datos.
Cada sucesin de datos es una lista ordenada de transacciones o conjunto de datos, donde cada
transaccin es un conjunto de registros. Tpicamente existe un tiempo asociado con cada
transaccin. Un patrn secuencial tambin consiste de una lista de conjuntos de registros. El
problema es encontrar todos los patrones secuenciales con mnimo de soporte de un usuario
especializado, donde el soporte de un patrn secuencial es el porcentaje de sucesiones de datos
que contiene el modelo. Por ejemplo, en el campo mdico, una sucesin de datos puede
corresponder a los sntomas o enfermedades de un paciente, se puede diagnosticar que los
sntomas expuestos son la causa una enfermedad durante una visita al mdico. Los patrones
27
pueden descubrir que usando estos datos en la investigacin de enfermedades pueden ayudar a
identificar los sntomas que preceden ciertas enfermedades.
5.4.5.6.6
Algoritmos para encontrar patrones secuenciales
Varios grupos que se encuentran trabajando en este campo sugieren algoritmos de

patrones consecutivos para la minera de datos. Los que se listan a continuacin son
algoritmos propuestos por equipo Quest de IBM.
5.5 Herramientas
Una herramienta en cualquier mbito es un objeto elaborado con el fin de facilitar la
realizacin de una tarea que requiere de una aplicacin correcta. Para la minera de datos estas
herramientas nos ayudan a aplicar de manera correcta la metodologa y tcnica de minera de
datos. En esta seccin se describirn algunas herramientas investigadas para posteriormente
elegir las ms adecuadas para la solucin.
5.5.1 Herramientas para la Minera de Datos.

Existen variadas herramientas en el mercado que nos permitirn aplicar diferentes
tcnicas de minera de datos para el descubrimiento de patrones novedosos. Sin embargo se
explicaran y desarrollaran las ms relevantes y que adems poseen las funcionalidad que nos
permitan llevar a cabo las tcnicas, metodologas y resolver la problemtica. Estas pueden ser
categorizadas en Librerias y en Herramientas propiamente tal.
Las libreras de Minera de datos son un conjunto de mtodos que implementan
funcionalidades y utilidades bsicas como el acceso a datos, modelos de redes neuronales,
mtodos bayesianos, exportacin de resultado. Las libreras se encargan principalmente de
facilitar el desarrollo de las tareas de Minera de Datos que son ms complejas, como el
diseo de experimentos. El problema de las libreras, es que es precisa la comprensin de
conocimientos de programacin.
Algunas de las Libreras las investigadas son:
WEKA (Waikato environment for knowledge analysis): Es una herramienta visual

de libre distribucin desarrollada por los investigadores de la Universidad de Waikato
en Nueva Zelanda. Sus principales caractersticas son:
28
Acceso a los datos desde un archivo en formato ARFF(es un archivo de

texto plano organizado en filas y columnas)
Pre-procesado de datos (seleccin, transformacin de atributos)
Modelos de Aprendizaje (reglas de asociacin, modelos de agrupamiento,
modelos combinados)
Visualizacin del entorno
SAS ENTERPRISE MINER: Es uno de los sitios comerciales que proporciona el

SAS Institute para tareas de Minera de Datos. sta herramienta se centra en la Minera
de Datos (de forma tradicional) y no en su funcionalidad (es el caso de SAS Text
Miner) Posee una arquitectura distribuida, es decir, tiene una potente interfaz grfica
de usuario. Las tareas que realiza esta herramienta son:
Pre-procesado de datos: tratamiento estadstico, filtros, tareas de
muestreo.
Modelos: rboles de decisin, regresin lineal, redes neuronales,
construccin de mtodos de ensamblaje.
Evaluacin: para comprobar la eficacia y eficiencia de dicha herramienta.
Visualizacin de resultados: a travs de grficos, diagramas, informes en
formato HTML.
Como se mencion anteriormente tambin estn las herramientas propiamente tal las
cuales se caracterizadas por centrarse en un nico modelo (redes neuronales, modelos
estadsticos) Su principal ventaja es que no es necesario poseer grandes conocimientos de
programacin. Algunas de estas herramientas investigadas estn:
NEUROSHELL: son un conjunto de herramientas grficas para trabajar con modelos
de aprendizaje basados en redes neuronales
SEE 5 / C5.0: herramienta de fcil manejo, centrada en la construccin de modelos de
clasificacin basados en rboles de decisin y conjuntos de reglas. El inconveniente es
que ha sido diseada para trabajar con grandes volmenes de datos
KNIME: es una plataforma de minera de datos que permite el desarrollo de modelos
en un entorno visual. KNIME est desarrollado en la plataforma eclipse y programado
principalmente en java. Est concebido con una herramienta grfica y dispone de una
serie de nodos (Que encapsulan distintos algoritmos) y flechas (Que representan flujos
de datos) que se despliegan y combinan de manera grfica e interactiva. Los nodos
implementan distintos tipos de acciones que pueden ejecutarse sobre una tabla de
datos:
o Manipulacin de filas y columnas, como muestreos, transformacin y
agrupaciones.
o Visualizacin(Histogramas)
o Creacin de modelos estadsticos y de minera de datos, como arboles de
decisin, mquina de soporte de vectores y regresiones
o Aplicacin de dichos modelos sobre conjunto de nuevos datos
29
o Por ltimo y lo ms importante al ser una herramienta cdigo libre posibilita su

extensin mediante la creacin de nuevos nodo que implementen algoritmos a
la medida del usuario. Adems existe la posibilidad de utilizar de manera
directa y transparente a WEKA y /o de incorporar de manera sencilla cdigo
desarrollado de R Python. KNINE es una herramienta con licencia OPENGL,
lo que permite descargarla y utilizarla de manera gratuita.
30
6 Eleccin propuesta
Finalmente despus del marco terico las cuales asentaron las bases tericas slidas para
una buena eleccin de la solucin a la problemtica. En esta fase se eligi:
La herramienta para la minera de datos.

La Metodologa de :
Minera de datos
Construccin del Data Warehouse
6.1 Metodologa escogida para la construccin de Data

Warehouse
Si bien antes del diseo de un almacn de datos, primero hay que mirar a sus objetivos
de negocio, a corto plazo y largo plazo. Adems se debe analizar las fuentes de datos de
cantidad y calidad. Por ltimo, evaluar su nivel de recursos, plazos y presupuesto. Esto
le ayuda a llegar a qu mtodo adoptar Inmon de Kimball o de o una combinacin de
ambos.
En este caso particular, se trata de los datos y la informacin de solo un departamento,
Es decir, lo que surja de este estudio, afectara positivamente al rea ventas. Por otro
lado los recursos destinados a esta investigacin son los puestos a disposicin por el
estudiante. En relacin con el tiempo, se hace relevante destacar que es un estudio
pensado en el corto plazo.
Tomando en consideracin todo lo anterior, como la optimizacin local es lo
suficientemente bueno y la atencin se centra en la victoria rpida, es aconsejable ir por
el enfoque de Kimball. Adems este tipo de metodologa bottom-up permite que,
partiendo de cero, podamos empezar a obtener informacin til en cuestin de das y
despus de los prototipos iniciales
6.2 Herramienta de DM escogida.

Para la eleccin de la herramienta se tomaron varios criterios en consideracin a la hora de
tomar la decisin. Los criterios discutidos fueron:
Facilidad de uso
Con los algoritmos necesarios
Que permita la integracin de diferentes mdulos
Flexible
Limpieza y transformacin de los datos.
Entrega de resultados de manera grfica.
31
Siguiendo la pauta establecida las herramientas que cumplen con lo nombrado son KNINE
y el mdulo WEKA. Se eligen bsicamente por su alto reconocimiento y usabilidad. Adems
WEKA posee la capacidad de trabajar con reglas de asociacin que es lo referente al caso.
Otro de los criterios cumplidos fue que KNIME es una muy buena herramienta de
manipulacin de los datos, ya que permite, limpiarlos, extraerlos, cargarlos desde una base de
datos, leerlos, manejarlos de columnas (cambiar filas y mover columnas).
Posee una extensin especial de WEKA que permite aplicar los algoritmos necesarios.
Ambas, fueron escogidas ya que la combinacin de ellas puede dar los resultados esperados.
En resumen, KNIME ser utilizada para limpiar los datos, enviarlos a la base de datos y
estructurarlos para aplicar los algoritmos y WEKA ser utilizado para aplicar algoritmos que
den resultados grficos.
6.3 Metodologa de minera de datos propuesta

Para llegar a una determinacin de que metodologa utilizar, se realizara un anlisis
comparativo de las metodologas, evaluando distintos criterios y cuales se adecuan al
proyecto especfico. Se definirn 4 criterios para la eleccin final, estas se mencionan a
continuacin:
a. Escenarios y puntos de partida considerados para el proyecto: Segn el punto de

partida del proceso, es posible clasificarlos en:
1. Escenarios donde se aborda desde la minera de datos una situacin
organizacional (un problema o una oportunidad), buscando patrones y
relaciones que puedan colaborar con la misma.
2. Escenarios donde el proyecto comienza con un conjunto de datos y el objetivo
es explorarlos para encontrar relaciones interesantes que puedan ser tiles en
el dominio de aplicacin.
b. Estructura de las fases del proceso: Se analiza la estructura de cada modelo, en

funcin de las siguientes fases generales comunes en los proyectos de minera de
datos:
Comprensin del negocio, evaluando el problema que se abordar y el contexto
organizacional.
Seleccin y preparacin de los datos, limpieza y transformaciones necesarias
para crear la vista.
Aplicacin de las tcnicas de minera (anlisis de regresin, rboles de
decisin, redes neuronales, etc.) y modelado de los nuevos patrones.
32
Evaluacin de los resultados obtenidos, analizando la posibilidad de

implementarlos o bien de llevar a cabo nuevamente el proceso.
Implementacin y difusin del nuevo conocimiento dentro de la organizacin.
c. Nivel de detalle en las tareas de cada fase: Se evala el grado de profundidad con el
que se describen las actividades y tareas en cada una de las fases del proceso. Algunos
modelos describen slo las fases generales, mientras que otros establecen las tareas
especficas a llevar a cabo en cada una de ellas.
d. Actividades incorporadas para la gestin del proyecto: Los proyectos de minera
de datos, al igual que en otras reas como la Ingeniera del Software, requieren la
ejecucin de una serie de actividades que posibiliten el cumplimiento del objetivo del
mismo. El PMBOK (Project Managment Body Of Knowdlege) es una coleccin de
procesos y reas de conocimiento generalmente aceptadas como las mejores prcticas
dentro de la gestin de proyectos. El PMBOK es un estndar reconocido
internacionalmente (IEEE Std 1490-2003) que provee los fundamentos de la gestin de
proyectos que son aplicables a un amplio rango de proyectos, incluyendo construccin,
software, ingeniera, etc. El PMBOK reconoce distintas reas de conocimiento
comunes a la mayora de los proyectos. Entre ellas podemos destacar:
Gestin del Tiempo: rea de conocimiento que propone una serie de
actividades cuyo objetivo es la conclusin en tiempo del proyecto. En ste rea
se incluye la estimacin de la duracin de las tareas y el desarrollo/control del
cronograma del proyecto.
Gestin de Costos: incluye los procesos involucrados en la planificacin,
estimacin, preparacin del presupuesto y control de costos, de forma que el
proyecto se pueda completar dentro del presupuesto aprobado.
Gestin del Riesgo: su objetivo es identificar, controlar y eliminar las fuentes
de riesgo antes de que empiecen a afectar al cumplimiento de los objetivos del
proyecto. Se busca disminuir la probabilidad y el impacto de los eventos
adversos para el proyecto.
Gestin de Recursos Humanos: se refiere a todos aquellos procesos que
organizan y dirigen al equipo del proyecto. El equipo del proyecto est formado
por las personas a las que se le han asignado roles y responsabilidades para
llevar adelante y concluir el proyecto.
Gestin del Alcance: se refiere a la identificacin de todas las tareas
necesarias para completar el proyecto exitosamente. Cuando hablamos de
alcance del proyecto, no nos referimos al alcance del producto, sino al
conjunto de tareas necesarias para entregar el producto. Una actividad frecuente
en esta etapa es la creacin de una WBS (Work Breakdown Structure) donde se
detallan las tareas a menor nivel de detalle.
Las actividades que se llevan a cabo dentro de cada categora pueden ser de
planificacin o bien de control. Las actividades de planificacin incluyen la identificacin de
las tareas a realizar en el proyecto, estimacin de la duracin de las mismas, estimacin de los
33
recursos afectados y la definicin del curso de accin. Las actividades de control tienen por
objetivo el monitoreo del estado actual del proyecto para su comparacin con lo planificado.
Tomando en consideracin los puntos expuestos anteriormente, podemos hacer un anlisis
esperado desde los puntos hablados anteriormente. Estos sern expuestos de la forma que
fueron presentados. A continuacin el anlisis:
a. Escenarios y puntos de partida considerados para el proyecto. Entre los cuatro

modelos analizados, slo SEMMA inicia el proyecto de minera a partir del conjunto
de datos (la primera fase es el muestreo de los datos). CRISP-DM y KDD (en su
versin completa de nueve pasos) comienzan con un anlisis del negocio y del
problema organizacional. Catalyst es la metodologa ms completa en este aspecto, ya
que considera cinco escenarios posibles como punto de partida, entre los cuales se
encuentra el inicio desde un problema u oportunidad de negocio.
b. Estructura de fases del proceso.
KDD, CRISP-DM y Catalyst contemplan el anlisis y comprensin del problema
antes de comenzar el proceso de minera. SEMMA excluye esta actividad del modelo.
En todos los modelos se contempla la seleccin y preparacin de los datos. Esta
situacin se repite para la fase de modelado, donde se aplican las tcnicas de minera
para obtener los nuevos patrones. La fase de evaluacin de los patrones obtenidos est
presente tambin en todas las metodologas. En SEMMA, la evaluacin e
interpretacin de estos patrones se realiza sobre el desempeo del modelo, mientras
que en las otras metodologas la evaluacin se realiza en funcin de la utilidad que se
aporta al dominio de aplicacin o problema organizacional. La implementacin de los
resultados obtenidos es una fase que no est incluida en el modelo SEMMA. En
CRISP-DM, se propone adems una planificacin para el control futuro y un anlisis
de cierre del proyecto (anlisis postmortem). El anlisis postmortem consiste en
encontrar informacin objetiva acerca de la trayectoria de un proyecto, con la finalidad
de poder hacer una evaluacin abierta del equipo de trabajo, de las decisiones tomadas
a lo largo del mismo, de las tecnologas empleadas y sus consecuencias, con el objetivo
de incorporar lo aprendido en proyectos futuros.
c. Nivel de detalle en las tareas de cada fase.

Los modelos KDD y SEMMA proponen slo los pasos generales del proyecto de
minera de datos, sin especificar puntualmente las tareas que deben llevarse a cabo en
cada una de sus fases. En cambio, los modelos CRISP-DM y Catalyst, especifican con
34
mayor detalle las actividades del proceso, aunque Catalyst seala adems cmo
realizarlas. KDD y SEMMA se acercan ms a un modelo de proceso que a una
metodologa, ya que slo definen las fases generales. En proyectos donde se desee
aplicar los mismos, cada organizacin deber establecer las tareas y las actividades que
implementar en cada etapa. Si bien los modelos CRISP-DM y Catalyst no llegan a
especificar con un alto nivel de detalle cmo realizar todas las tareas, podran ser
considerados una metodologa ya que describen y puntualizan las actividades
especficas a realizar en cada fase del proceso.
d. Actividades para la gestin del proyecto

En la tabla 2, podemos observar que tanto la metodologa CRISP-DM como la
metodologa Catalyst proponen actividades de planificacin para las distintas reas de
la gestin del proyecto, pero no explicitan tareas de control y monitoreo. KDD y
SEMMA no incluyen actividades de gestin del proyecto.
35
7 Conclusin
Gracias a primera fase de tesis, relacionada con la investigacin, se puede concluir que
efectivamente es una etapa necesaria dentro del proceso completo, ya que posibilita al
estudiante interiorizarse en los conceptos desarrollados a lo largo de la investigacin. El
objetivo de la investigacin es, por medio de alguna metodologa y/o modelo propuesto
resolver el QUE y el COMO dentro del proyecto, para proponer una solucin eficiente y eficaz
el problema.
Se ha procurado fundamentar cada decisin en siguiendo una metodologa de trabajo,
para llegar a una propuesta de desarrollo e implementacin posterior. Todo esto con el
propsito de sentar las bases slidas de ejecucin de los entregables.
De la investigacin se desprende que ha sido una etapa desafiante, al contar de una fase
de evolutiva, pasando de un periodo en donde la curva de aprendizaje es mucho menos
pronunciada, es decir ms lenta. Sin embargo a medida que pasaron los das el proceso se fue
agilizando, para pasar una etapa donde el esfuerzo invertido y lo devuelto ha sido de manera
proporcional y rpida.
El prximo ciclo, ser la aplicacin de la metodologa y modelo de minera de datos,
por medio de la herramienta nombrada dentro de la exploracin. Con el fin de entregar
conocimiento til y valioso a la institucin en cuestin. Por motivos de confidencialidad de la
institucin, no fue nombrada, sin embargo est a disposicin los contactos del encargado.
Contrariamente como se puede pensar, el prximo ciclo ser iterativo, ya que cada
investigacin posterior podr seguir retroalimentando lo anterior, sin embargo ya no es parte
del eje principal.
En sntesis, lo desarrollado marca la antesala de lo por venir y ser medula espinal, es por eso
que fue revisado con minuciosidad.
36
8 Referencias
[1] Hipp, J., Guntzer, U., y Nakhaeizadeh, G., Algorithms for Association Rule Mining: A
General Survey and Comparison, SIGKDD Explorations, 2 (1), 5864, 2000.
[2] Cano, J., Herrera, F., Lozano, M, Extraccin de modelos predictivos e interpretables en
conjuntos de datos de tamao grande mediante la seleccin de conjuntos de entrenamiento,
TAMIDA2005, pp.145-152, ISBN: 84-9732-449-8.
[3] Westphal, C.,Blacton, T.,Data Mining Solutions, Methodos and Tools for Solving RealWork Problems.
[4] Witten, H.,Frank, E., Practical Machine Learning Tools and Techniques with Java
Implementations.
[5]grawal, R., Imielinski, T. y Swami, A. (1993). Mining association rules between sets of
items in large databases. Proceedings of the 1993 ACM-SIGMOD International Conference on
Management of Data, 207-216.
[6] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H. y Verkamo, A. I. (1996). Fast
Discovery of Association Rules. In U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth y R.
Uthurusamy (Eds.), Advances in Knowledge Discovery and Data Mining (pp. 307-328).
AAAI/MIT Press.
[7]Bigus, J.P. (1996). Data mining with neural networks: solving business problems from
application development to decision support. New York: McGraw-Hill.
[8] Agrawal, R., and Psaila, G. 1995. Active Data Mining. In Proceedings of the First
International Conference on Knowledge Discovery and Data Mining (KDD-95), 38. Menlo
Park, Calif.: American Association for Artificial Intelligence.
[9] Apte, C., and Hong, S. J. 1996. Predicting Equity Returns from Securities Data with
Minimal Rule Generation. In Advances in Knowledge Discovery and Data Mining, eds. U.
Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 514560. Menlo Park, Calif.:
AAAI Press.
[10] Cheeseman, P. 1990. On Finding the Most Probable Model. In Computational Models of
Scientific Discovery and Theory Formation, eds. J. Shrager and P. Langley, 7395. San
Francisco, Calif.: Morgan Kaufmann.
[11] Dasarathy, B. V. 1991. Nearest Neighbor (NN) Norms: NN Pattern Classification
Techniques.Washington, D.C.: IEEE Computer Society
[12] Mannila, H.; Toivonen, H.; and Verkamo, A. I. 1995. Discovering Frequent Episodes in
Sequences. In Proceedings of the First International Conference on Knowledge Discovery and
Data Mining (KDD-95), 210215.
[13] Howso, C. Successful Business Intelligence, Secrest to Making BI a Killer App, ISBN: 007-159614-3.
37
[14] Vercellis C. Business Intelligence: Data Mining and Optimization for Decision Making.
2009. ISBN: 978-0-470-51138-1
[15] Rivadera G. La metodologa de Kimball para el diseo de almacenes de datos. 2010
[16] Azevedo, A., Santos, M. F. (2008). KDD, SEMMA and CRISP-DM: a parallel overview.
IADIS 2008. Britos, P. (2008). Procesos de Explotacin de Informacin.
[17] Camaro H., Silva M. Two paths in seach of patterns through Data Mining: SEMMA and
CRISP. 2010.
[18] SAS Enterprise Miner: SEMMA. 2008. http://tinyurl.com/ semmaSAS
[19] Chapman, P., Clinton, J., Keber, R., et al.. CRISP-DM 1.0 Step by step BI guide.
Edited by SPSS. 2000. http://tinyurl.com/ crispDM
[20] Berrios G., Guia Metodologica para la definicin y desarrollo de un Data Warehouse.
Nicaragua 2003.
[21] Inmon, W.H. Building the Data Warehouse (Third Edition), New York: John Wiley &
Sons, (2002).
38

Proyecto 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proyecto 1

Cargado por

Copyright:

Formatos disponibles

PONTIFICIA UNIVERSIDAD CATLICA DE VALPARASO

APLICACIN DE TCNICAS DE MINERA DE

JUAN NDRES JEREZ BALMACEDA

PROFESOR GUA: PAMELA HERMOSILLA

VALPARAISO, JUNIO 2014

Descripcin del Problema .................................................................................................. 2

Objetivo del proyecto .................................................................................................. 3

Objetivos Especficos .................................................................................................. 3

Planificacin del Trabajo.................................................................................................. 4

Plan de Trabajo ........................................................................................................... 5

Marco Terico .................................................................................................................... 6

Elementos bsicos de la investigacin ....................................................................... 6

Inteligencia de Negocios ............................................................................................. 8

Componentes de la BI. ........................................................................................ 9

Data Warehouse .......................................................................................................... 9

Metodologas para la creacin de Data Warehouse ....................................... 10

5.3.1.1 Paradigma Bill Inmon. .................................................................................. 10

Paradigma Ralph Kimball. ............................................................................... 12

Principales caractersticas y objetivos de la minera de datos ...................... 13

Etapas del proceso de la minera de datos ....................................................... 15

Carga de trabajo en las fases de un proyecto de Data Mining ...................... 15

Metodologas de minera de datos .................................................................... 16

5.4.4.1 Metodologa SEMMA .................................................................................... 17

5.4.4.4 Modelo de proceso KDD............................................................................... 18

El proceso de KDD .................................................................................................... 18

Modelos de minera de datos ............................................................................ 23

5.5.2.1 Clasificacin ................................................................................................... 23

Herramientas para la Minera de Datos. ......................................................... 28

Eleccin propuesta ........................................................................................................... 31

Metodologa escogida para la construccin de Data Warehouse ......................... 31

Herramienta de DM escogida. ................................................................................. 31

Metodologa de minera de datos propuesta........................................................... 32

Palabras Clave: Minera de datos, Reglas de asociacin, Metodologas de minera de datos,

Keywords: Data Mining, Association Rules, Data Mining Methodologies, Database,

2 Descripcin del Problema

Ellos poseen algunos sistemas de informacin capaces de generar informacin, en especfico

3.2 Objetivos Especficos

4 Planificacin del Trabajo

Tabla 1 : Metodologa de Trabajo

Definicin del proyecto

Definicin del problema

Definicin de los objetivos

Formulacin del plan de trabajo

Anlisis de tcnicas, Metodologas y modelos

Propuesta de la Metodologas y modelos a

Definicin del algoritmo y herramienta

Instalacin de herramienta a utilizar

proponer y modelar la base de datos para el

Extraer datos desde el archivo llenar la base de

Implementacin de la herramienta a utilizar

Periodo de pruebas del modelo

Recoleccin de resultados y estadsticas.

Anlisis de resultados obtenidos

Ajustes del modelo

Conclusiones y trabajos futuros

4.1 Plan de Trabajo

Figura 1: Carta Gantt

5.1 Elementos bsicos de la investigacin

Figura 2: Jerarquizacin entre datos, informacin y conocimiento

Comparacin con otros elementos.

5.2 Inteligencia de Negocios

Figura 3: Inteligencia de negocios el puente entre SI y los procesos de negocio

5.2.1 Componentes de la BI.