Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD DE INGENIERA
ESCUELA DE INGENIERA INFORMTICA
ndice
Resumen .................................................................................................................................. IV
Abstract ..................................................................................................................................... V
Lista de Figuras ...................................................................................................................... VI
Lista de Tablas ....................................................................................................................... VII
1
Introduccin........................................................................................................................ 1
Objetivos ............................................................................................................................. 3
3.1
3.2
5.1.1
Datos ..................................................................................................................... 6
5.1.2
Informacin .......................................................................................................... 7
5.1.3
Conocimiento ....................................................................................................... 7
5.2
5.2.1
5.3
5.3.1
Minera de datos........................................................................................................ 13
5.4.1
5.4.2
5.4.3
5.4.4
II
5.5.2
Herramientas ............................................................................................................. 28
5.6.1
6
6.2
6.3
Conclusin ......................................................................................................................... 36
Referencias .................................................................................................................................. 37
III
Resumen
La disminucin de la infraestructura para las tecnologas de la informacin tales como
dispositivos de almacenamiento y el software han tenido como resultado un aumento en la
informacin. Producto de este aumento ha ocurrido que se generan datos sin mayor
relevancia, contexto ni utilidad. La falta de conocimiento en una era que se hace cada vez ms
relevante al momento de tomar decisiones.
Existen variadas tcnicas para generar conocimiento, sin embargo la minera de datos ha
sido pionera, ya que esta propone un conjunto de tcnicas que generan patrones previamente
desconocidos y que generan conocimiento til para distintos mbitos. En especfico para este
trabajo se trabaja con las reglas de asociacin que permiten formar relaciones de tipo
implicancia.
IV
Abstract
Decreasing the infrastructure for information technologies such as storage devices and
software, have resulted in an increase in information. Result of this increase has occurred that
data is generated without much relevance, context and use. Lack of knowledge in an age that
is increasingly important when making decisions.
There are various techniques to generate knowledge, though data mining has been a
pioneer, because this proposes a set of techniques that generate previously unknown patterns
and generate useful knowledge for different fields. Specifically for this job working with
association rules that allow such form relationships of implication.
Lista de Figuras
Figura 1: Carta Gantt ................................................................................................................................ 5
Figura 2: Jerarquizacin entre datos, informacin y conocimiento ......................................................... 6
Figura 3: Inteligencia de negocios el puente entre SI y los procesos de negocio..................................... 8
Figura 4: Enfoque Inmon - DW Corporativo ......................................................................................... 11
Figura 5: Enfoque Kimball - Arquitectura Bus del DW ........................................................................ 12
Figura 6: Proceso de KDD ..................................................................................................................... 18
Figura 7: Algoritmo A priori .................................................................................................................. 26
VI
Lista de Tablas
Tabla 1: Metodologa de Trabajo ........................................................................................... 4
Tabla 2: Ejemplo de registros de la base de datos ................................................................ 21
VII
1 Introduccin
Dentro de los ltimos aos, se ha desarrollado una tendencia de crecimiento
exponencial al momento de recolectar y generar datos, causado por el gran poder de
procesamiento de las mquinas y de su bajo costo de almacenamiento. Sin embargo, una de
los desafos actuales es generar informacin y posterior conocimiento desde un gran almacn
de datos. Adems dentro de estas enormes masas de datos existe una gran cantidad de
informacin "oculta", de gran importancia estratgica, a la que no se puede acceder por las
tcnicas clsicas de recuperacin de la informacin.
El descubrimiento de esta informacin "oculta" es posible gracias a la Minera de
Datos (Data Mining), que entre otras sofisticadas tcnicas aplica la inteligencia artificial para
encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es
decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento
(KDD, por sus siglas en ingls) que se encarga de la preparacin de los datos y la
interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones
encontrados. As el valor real de los datos reside en la informacin que se puede extraer de
ellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensin de los
fenmenos que nos rodean.
Es por esto que una de las estrategias ampliamente utilizadas por los negocios exitosos
son los mtodos de anlisis avanzados. Su finalidad en el negocio es incrementar las
ganancias, maximizar la eficiencia operativa, reducir los costos y mejoran la satisfaccin del
cliente.
El presente informe pretende entregar informacin sobre el trabajo de investigacin
para tesis profesional. El objeto de estudio es el anlisis de la informacin recopilada durante
un ao que posteriormente ser analizada mediante un conjunto de tcnicas de minera de
datos, que capaces de extraer conocimiento til, comprensible y previamente desconocido. En
este caso particular esta ser extrado desde la fuente de datos de un retail cuya identidad ser
protegida (ya que la data es de alta significancia). La finalidad de cumplir los objetivos
planteados, donde lo recabado sea herramienta til de mejoramiento para la empresa en el
mbito de marketing administrativo.
3 Objetivos
3.1 Objetivo del proyecto
Aplicacin de minera de tcnicas de minera de datos para el Supermercado en cuestin
con el fin de apoyar la toma de decisiones
Fase
Fase 1
Fase 2
Fase 3
Actividades
Formalizacin
Tericas
de
Puesta en prctica
las
Bases
Introduccin en el tema
Fase 4
Validacin
5 Marco Terico
A continuacin se describirn los conceptos necesarios para sustentar la forma como se
solucionara la problemtica existente. Para ello se realizara una etapa de investigacin que
permitir definir bases tericas. Adems esta indagacin cumple un propsito mayor que es
analizar el estado del arte completo de lo desarrollado hasta el momento. Los conceptos sern
presentados en orden y relevancia.
Para entender con mayor profundidad sus diferencias, se definirn por separado cada
una.
5.1.1 Datos
Los datos son la mnima unidad semntica, y se corresponden con elementos primarios
de informacin que por s solos son irrelevantes como apoyo a la toma de decisiones. Tambin
se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el porqu de las
cosas y no son orientativos para la accin.
Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un
propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una
decisin. Un dato solo no sirve de mucho porque carece de un escenario claro, que le permita
contextualizarse en un tiempo y espacio.
5.1.2 Informacin
La informacin se puede definir como un conjunto de datos procesados y que tienen un
significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin
debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en
informacin aadindoles valor:
Contextualizando: se sabe en qu contexto y para qu propsito se generaron.
Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.
Calculando: los datos pueden haber sido procesados matemtica o
estadsticamente.
Corrigiendo: se han eliminado errores e inconsistencias de los datos.
Condensando: los datos se han podido resumir de forma ms concisa (agregacin).
Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es
capaz de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de
valor y sus comportamientos.
Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)
5.1.3 Conocimiento
El conocimiento es una mezcla de experiencia, valores, informacin y know-how que
sirve como marco para la incorporacin de nuevas experiencias e informacin, y es til para la
accin. Se origina y aplica en la mente de los conocedores. En las organizaciones con
frecuencia no slo se encuentra dentro de documentos o almacenes de datos, sino que tambin
est en rutinas organizativas, procesos, prcticas, y normas.
El conocimiento se deriva de la informacin, as como la informacin se deriva de los
datos. Para que la informacin se convierta en conocimiento es necesario realizar acciones
como:
Se abordaran cada trmino con mayor detalle para desarrollar de mejor manera el tema
tratado.
En resumen la diferencia entre ambos es su alcance. El Data Mart est pensado para cubrir
las necesidades de un grupo de trabajo o de un determinado departamento dentro de la
organizacin mientras que el Data Warehouse est pensado para los datos de la organizacin
en su conjunto.
Teniendo en cuenta esto, vamos a intentar realizar un resumen de los aspectos ms
importantes de cada una de las metodologas:
10
Orientado a temas.- Los datos en la base de datos estn organizados de manera que
todos los elementos de datos relativos al mismo evento u objeto del mundo real queden
unidos entre s.
Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de
la organizacin, y dichos datos deben ser consistentes.
No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato,
ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas.
Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
El enfoque Inmon tambin se referencia normalmente como Top-down. Los datos son
extrados de los sistemas operacionales por los procesos ETL y cargados en las reas de stage,
donde son validados y consolidados en el DW corporativo, donde adems existen los llamados
metadatos que documentan de una forma clara y precisa el contenido del DW. Una vez
realizado este proceso, los procesos de refresco de los Data Mart departamentales obtienen la
informacin de l, y con las consiguientes transformaciones, organizan los datos en las
estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.
La metodologa para la construccin de un sistema de este tipo es la habitual para
11
12
Este enfoque tambin se referencia como Bottom-up, pues al final el Data Warehouse
Corporativo no es ms que la unin de los diferentes Data Marts, que estn estructurados de
una forma comn a travs de la bus structure. Esta caracterstica le hace ms flexible y
sencillo de implementar, pues podemos construir un Data Marts como primer elemento del
sistema de anlisis, y luego ir aadiendo otros que comparten las dimensiones ya definidas o
incluyen otras nuevas. En este sistema, los procesos ETL extraen la informacin de los
sistemas operacionales y los procesan igualmente en el rea stage, realizando posteriormente
el llenado de cada uno de los Data Marts de una forma individual, aunque siempre respetando
la estandarizacin de las dimensiones (dimensiones conformadas).
La metodologa para la construccin del Dw incluye las 4 fases que son:
Seleccin del proceso de negocio
Definicin de la granularidad de la informacin
Eleccin de las dimensiones de anlisis
Identificacin de los hechos o mtricas.
13
La aplicacin de tcnicas de data Mining en grandes bases de datos persiguen los siguientes
resultados:
1. Clasificacin: Se trata de obtener un modelo que permita asignar un caso de clase
desconocida a una clase concreta (seleccionada de un conjunto redefinido de clases),
como son los rboles de clasificacin (CART), cuyos resultados pueden expresarse
mediante reglas ejecutables directamente del SQL o el mtodo de Bayesiano.
2. Regresin: Se persigue la obtencin de un modelo que permita predecir el valor
numrico de alguna variable (modelos de regresin logstica).
3. Agrupamiento (clustering): Hace corresponder cada caso a una clase, con la
peculiaridad de que las clases se obtienen directamente de los datos de entrada
utilizando medidas de similitud. Es decir, agrupan a los datos bajo diferentes mtodos
y criterios. Las tcnicas ms usadas son las clsicas (distancia mnima) y las redes
neuronales (mtodo de Kohonen o mtodo de Neural-Gas)
4. Resumen: Se obtienen representaciones compactas para subconjuntos de los datos de
entrada (anlisis interactivo de datos, generacin automtica de informes, visualizacin
de datos).
5. Anlisis de Secuencias: Se intenta modelar la evolucin temporal de alguna variable,
con fines descriptivos o predictivos (redes neuronales multicapas)
6. Descubrimiento de reglas de asociacin: en la que se obtiene conocimiento
interesante para los usuarios en forma de reglas de asociacin que reflejan relaciones
entre los atributos presentes en los datos. Reglas de asociacin
14
15
16
un enfoque sistemtico para llevar a cabo el proceso, estos son Catalyst, CRISP-DM y
SEMMA. Estas se explicaran a continuacin:
17
5.4.4.4.1
El proceso de KDD
18
19
5.4.4.5.1
Reglas de asociacin
20
Dnde:
y
Transacciones
N
Productos comprados
Leche, Pan
Pan, Mantequilla
Cerveza
Pan
21
5.4.4.5.2
mantequilla) =
=
22
5.4.5.1 Clasificacin
La clasificacin es el proceso de usar los atributos de un caso para asignarlo a una clase
predefinida. Por ejemplo, los clientes pueden ser clasificados en varios niveles de riesgo para
las aplicaciones de prstamos hipotecarios. La clasificacin tiene un mejor resultado cuando
un conjunto finito de clases puede definirse como clases de alto riesgo, medio riesgo o bajo
riesgo.
5.4.5.2 Estimacin
Mientras que la clasificacin se utiliza para responder preguntas de un conjunto finito de
clases, la estimacin es usada para responder datos ficticios dentro de un conjunto de
respuestas. Por ejemplo, usando informacin de censos para predecir los ingresos de las
familias. Tcnicas de clasificacin y estimacin son a menudo combinadas para un modelo de
minera de datos.
23
5.4.5.3 Asociacin
La asociacin es el proceso de determinar la afinidad de casos dentro de un conjunto de
casos, basado en la similitud de atributos. Simplemente se pone una, asociacin cuando se
determina que los casos pertenecen a un conjunto de casos. La asociacin puede ser utilizada
para determinar qu productos deben. Agruparse en un almacn, o que servicios son ms
utilizados para empacar.
5.4.5.4 Agrupacin
La agrupacin es el proceso de encontrar grupos en casos esparcidos, dividindolos en
conjuntos ms sencillos, distintos conjuntos de casos en varios subconjuntos se basan en la
similitud de atributos. La agrupacin es similar a la clasificacin, excepto que la agrupacin
no requiere de un conjunto finito de las clases predefinidas; la agrupacin simplemente agrupa
los datos segn las reglas y patrones inherentes en los datos que se basan en la similitud de sus
atributos.
24
5.4.5.6.1
Algoritmos estadsticos: Sistemas de anlisis estadstico tales como SAS y SPSS, han
sido usados por analizadores para detectar patrones inusuales y explicarlos, utilizando
modelos estadsticos tales como modelos lineales. Tales sistemas tienen su lugar y
continuarn siendo usados.
Redes neuronales: Las redes neuronales artificiales imitan la capacidad del cerebro
humano para encontrar patrones y por lo tanto ciertos investigadores han sugerido
aplicar los algoritmos de redes neuronales para el mapeo de patrones. Las redes
neuronales se han aplicado con muy buen resultado en aplicaciones que requieren de
clasificaciones.
Algoritmos genticos: Las tcnicas de optimizacin de algoritmos utilizan procesos
como combinaciones genticas, mutacin, y la seleccin natural en un diseo basado
en los conceptos de evolucin natural.
Mtodo del vecino ms prximo: Esta es una tcnica que clasifica cada registro, en
un conjunto de datos basado en una combinacin de las clases en el k(s) registro ms
similar para a ello en un conjunto de datos histricos.
Regla de induccin: Es la extraccin de reglas tiles if-then de datos basados en
significacin estadstica.
Visualizacin de datos: Es la interpretacin de complejas relaciones visuales en datos
multidimensionales.
5.4.5.6.2
Una regla de asociacin es una regla que implica ciertas relaciones de asociacin entre
un conjunto de objetos en una base de datos. De un conjunto de transacciones, donde cada
transaccin es un conjunto de literales (llamados tems), una regla de asociacin es una
expresin de la forma X Y, donde X y Y son conjuntos de datos. El significado intuitivo de tal
regla es que las transacciones de la base de datos que contiene la X tiende a contener Y. Un
ejemplo de una regla de asociacin es: ''el 30% de transacciones que contienen cerveza
tambin contenga paales; 2% de todas las transacciones contenga ambos de estos tems. Aqu
25
5.4.5.6.3
Algoritmo Apriori
26
5.4.5.6.4
Algoritmo distribuido/paralelo
Las bases de datos o los data warehouse pueden almacenar una cantidad enorme de
datos que pueden ser minados. Las reglas de asociacin en tales bases de datos pueden
requerir poder de procesamiento substancial. Una posible solucin a este problema puede ser
un sistema distribuido. Adems, muchas bases de datos grandes son distribuidas lo que hace
ms factible el uso de algoritmos distribuidos. Minera de datos una herramienta para la toma
de decisiones Los costos principales de las reglas de asociacin es la manipulacin de los
conjuntos de registros demasiado grandes en la base de datos. Un problema es que se puede
manipular los conjuntos fcilmente si es localmente, pero un conjunto de registros localmente
grande no puede ser un conjunto a nivel mundial. Dado esto resulta muy caro emitir la
manipulacin entera de otros sitios, una opcin es emitir todas las cuentas de todos los
conjuntos de registros, sin importar si son grandes o pequeos, a otros sitios. Sin embargo, una
base de datos puede contener combinaciones enormes de conjuntos de registros, y ello
supondr pasar un nmero enorme de mensajes.
Un algoritmo distribuido de minera de datos es el FDM (reglas de asociacin minera
rpidamente distribuidos) por sus siglas en ingls, tienen las caractersticas siguientes:
1. La generacin de los conjuntos candidatos es en el mismo espritu de Apriori. Sin
embargo, ciertas relaciones entre conjuntos localmente grandes y mundialmente
grandes se exploran para generar un conjunto ms pequeo del candidato propuesto
para cada iteracin y as reducir el nmero de mensajes para que pueda ser pasado.
2. Despus de que el conjunto candidato se haya generado, dos tcnicas de depuracin,
depuracin local y depuracin global, son desarrolladas para poder depurar ciertos
conjuntos de cada grupo individual.
3. A fin de determinar si un conjunto candidato es grande, este algoritmo requiere solo
(n) mensajes enviados para el soporte de intercambio, donde la n es el nmero de sitios
en la red. Esto es mucho menos que una adaptacin recta de Apriori, que requiera n2
mensajes enviados.
5.4.5.6.5
Anlisis secuencial
Los datos de entrada son un conjunto de las sucesiones, llamadas sucesiones de datos.
Cada sucesin de datos es una lista ordenada de transacciones o conjunto de datos, donde cada
transaccin es un conjunto de registros. Tpicamente existe un tiempo asociado con cada
transaccin. Un patrn secuencial tambin consiste de una lista de conjuntos de registros. El
problema es encontrar todos los patrones secuenciales con mnimo de soporte de un usuario
especializado, donde el soporte de un patrn secuencial es el porcentaje de sucesiones de datos
que contiene el modelo. Por ejemplo, en el campo mdico, una sucesin de datos puede
corresponder a los sntomas o enfermedades de un paciente, se puede diagnosticar que los
sntomas expuestos son la causa una enfermedad durante una visita al mdico. Los patrones
27
pueden descubrir que usando estos datos en la investigacin de enfermedades pueden ayudar a
identificar los sntomas que preceden ciertas enfermedades.
5.4.5.6.6
5.5 Herramientas
Una herramienta en cualquier mbito es un objeto elaborado con el fin de facilitar la
realizacin de una tarea que requiere de una aplicacin correcta. Para la minera de datos estas
herramientas nos ayudan a aplicar de manera correcta la metodologa y tcnica de minera de
datos. En esta seccin se describirn algunas herramientas investigadas para posteriormente
elegir las ms adecuadas para la solucin.
28
29
30
6 Eleccin propuesta
Finalmente despus del marco terico las cuales asentaron las bases tericas slidas para
una buena eleccin de la solucin a la problemtica. En esta fase se eligi:
Facilidad de uso
Con los algoritmos necesarios
Que permita la integracin de diferentes mdulos
Flexible
Limpieza y transformacin de los datos.
Entrega de resultados de manera grfica.
31
Siguiendo la pauta establecida las herramientas que cumplen con lo nombrado son KNINE
y el mdulo WEKA. Se eligen bsicamente por su alto reconocimiento y usabilidad. Adems
WEKA posee la capacidad de trabajar con reglas de asociacin que es lo referente al caso.
Otro de los criterios cumplidos fue que KNIME es una muy buena herramienta de
manipulacin de los datos, ya que permite, limpiarlos, extraerlos, cargarlos desde una base de
datos, leerlos, manejarlos de columnas (cambiar filas y mover columnas).
Posee una extensin especial de WEKA que permite aplicar los algoritmos necesarios.
Ambas, fueron escogidas ya que la combinacin de ellas puede dar los resultados esperados.
En resumen, KNIME ser utilizada para limpiar los datos, enviarlos a la base de datos y
estructurarlos para aplicar los algoritmos y WEKA ser utilizado para aplicar algoritmos que
den resultados grficos.
32
33
recursos afectados y la definicin del curso de accin. Las actividades de control tienen por
objetivo el monitoreo del estado actual del proyecto para su comparacin con lo planificado.
Tomando en consideracin los puntos expuestos anteriormente, podemos hacer un anlisis
esperado desde los puntos hablados anteriormente. Estos sern expuestos de la forma que
fueron presentados. A continuacin el anlisis:
34
mayor detalle las actividades del proceso, aunque Catalyst seala adems cmo
realizarlas. KDD y SEMMA se acercan ms a un modelo de proceso que a una
metodologa, ya que slo definen las fases generales. En proyectos donde se desee
aplicar los mismos, cada organizacin deber establecer las tareas y las actividades que
implementar en cada etapa. Si bien los modelos CRISP-DM y Catalyst no llegan a
especificar con un alto nivel de detalle cmo realizar todas las tareas, podran ser
considerados una metodologa ya que describen y puntualizan las actividades
especficas a realizar en cada fase del proceso.
35
7 Conclusin
Gracias a primera fase de tesis, relacionada con la investigacin, se puede concluir que
efectivamente es una etapa necesaria dentro del proceso completo, ya que posibilita al
estudiante interiorizarse en los conceptos desarrollados a lo largo de la investigacin. El
objetivo de la investigacin es, por medio de alguna metodologa y/o modelo propuesto
resolver el QUE y el COMO dentro del proyecto, para proponer una solucin eficiente y eficaz
el problema.
Se ha procurado fundamentar cada decisin en siguiendo una metodologa de trabajo,
para llegar a una propuesta de desarrollo e implementacin posterior. Todo esto con el
propsito de sentar las bases slidas de ejecucin de los entregables.
De la investigacin se desprende que ha sido una etapa desafiante, al contar de una fase
de evolutiva, pasando de un periodo en donde la curva de aprendizaje es mucho menos
pronunciada, es decir ms lenta. Sin embargo a medida que pasaron los das el proceso se fue
agilizando, para pasar una etapa donde el esfuerzo invertido y lo devuelto ha sido de manera
proporcional y rpida.
El prximo ciclo, ser la aplicacin de la metodologa y modelo de minera de datos,
por medio de la herramienta nombrada dentro de la exploracin. Con el fin de entregar
conocimiento til y valioso a la institucin en cuestin. Por motivos de confidencialidad de la
institucin, no fue nombrada, sin embargo est a disposicin los contactos del encargado.
Contrariamente como se puede pensar, el prximo ciclo ser iterativo, ya que cada
investigacin posterior podr seguir retroalimentando lo anterior, sin embargo ya no es parte
del eje principal.
En sntesis, lo desarrollado marca la antesala de lo por venir y ser medula espinal, es por eso
que fue revisado con minuciosidad.
36
8 Referencias
[1] Hipp, J., Guntzer, U., y Nakhaeizadeh, G., Algorithms for Association Rule Mining: A
General Survey and Comparison, SIGKDD Explorations, 2 (1), 5864, 2000.
[2] Cano, J., Herrera, F., Lozano, M, Extraccin de modelos predictivos e interpretables en
conjuntos de datos de tamao grande mediante la seleccin de conjuntos de entrenamiento,
TAMIDA2005, pp.145-152, ISBN: 84-9732-449-8.
[3] Westphal, C.,Blacton, T.,Data Mining Solutions, Methodos and Tools for Solving RealWork Problems.
[4] Witten, H.,Frank, E., Practical Machine Learning Tools and Techniques with Java
Implementations.
[5]grawal, R., Imielinski, T. y Swami, A. (1993). Mining association rules between sets of
items in large databases. Proceedings of the 1993 ACM-SIGMOD International Conference on
Management of Data, 207-216.
[6] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H. y Verkamo, A. I. (1996). Fast
Discovery of Association Rules. In U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth y R.
Uthurusamy (Eds.), Advances in Knowledge Discovery and Data Mining (pp. 307-328).
AAAI/MIT Press.
[7]Bigus, J.P. (1996). Data mining with neural networks: solving business problems from
application development to decision support. New York: McGraw-Hill.
[8] Agrawal, R., and Psaila, G. 1995. Active Data Mining. In Proceedings of the First
International Conference on Knowledge Discovery and Data Mining (KDD-95), 38. Menlo
Park, Calif.: American Association for Artificial Intelligence.
[9] Apte, C., and Hong, S. J. 1996. Predicting Equity Returns from Securities Data with
Minimal Rule Generation. In Advances in Knowledge Discovery and Data Mining, eds. U.
Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 514560. Menlo Park, Calif.:
AAAI Press.
[10] Cheeseman, P. 1990. On Finding the Most Probable Model. In Computational Models of
Scientific Discovery and Theory Formation, eds. J. Shrager and P. Langley, 7395. San
Francisco, Calif.: Morgan Kaufmann.
[11] Dasarathy, B. V. 1991. Nearest Neighbor (NN) Norms: NN Pattern Classification
Techniques.Washington, D.C.: IEEE Computer Society
[12] Mannila, H.; Toivonen, H.; and Verkamo, A. I. 1995. Discovering Frequent Episodes in
Sequences. In Proceedings of the First International Conference on Knowledge Discovery and
Data Mining (KDD-95), 210215.
[13] Howso, C. Successful Business Intelligence, Secrest to Making BI a Killer App, ISBN: 007-159614-3.
37
[14] Vercellis C. Business Intelligence: Data Mining and Optimization for Decision Making.
2009. ISBN: 978-0-470-51138-1
[15] Rivadera G. La metodologa de Kimball para el diseo de almacenes de datos. 2010
[16] Azevedo, A., Santos, M. F. (2008). KDD, SEMMA and CRISP-DM: a parallel overview.
IADIS 2008. Britos, P. (2008). Procesos de Explotacin de Informacin.
[17] Camaro H., Silva M. Two paths in seach of patterns through Data Mining: SEMMA and
CRISP. 2010.
[18] SAS Enterprise Miner: SEMMA. 2008. http://tinyurl.com/ semmaSAS
[19] Chapman, P., Clinton, J., Keber, R., et al.. CRISP-DM 1.0 Step by step BI guide.
Edited by SPSS. 2000. http://tinyurl.com/ crispDM
[20] Berrios G., Guia Metodologica para la definicin y desarrollo de un Data Warehouse.
Nicaragua 2003.
[21] Inmon, W.H. Building the Data Warehouse (Third Edition), New York: John Wiley &
Sons, (2002).
38