Está en la página 1de 13

MDSI_5_1

UD 13

APLICACIONES Data Mining


DE ANÁLISIS

BI

I. INTRODUCCIÓN AL DATA MINING

II. FASES DE DATA MINING

III. TÉCNICAS DE DATA MINING

IV. APLICACIONES DE DATA MINING

V. RESUMEN

VI. BIBLIOGRAFÍA

AUTOEVALUACIÓN
AUTOEVALUACIÓN - Solución
UD 13. DATA MINING

I. INTRODUCCIÓN AL DATA MINING

Actualmente nos encontramos en un momento histórico que se ha


denominado como la “era de la información”. Las organizaciones
acumulan y generan una cantidad enorme de información,
incorporando cada día más.
Para poder manejar estos volúmenes de datos, nos apoyamos en
los sistemas y medios de almacenamiento masivo que son los que
facilitan la clasificación y el almacenamiento de esta información.
Sin embargo, el continuo crecimiento de datos, provenientes de
orígenes dispares y con estructuras diferentes, hizo que los sistemas
iniciales se vieran desbordados, por lo que fue necesaria la creación
de sistemas más complejos. De esta manera surgieron las bases de
datos estructuradas y los Sistemas de Gestión de Bases de Datos o
DBMS (siglas de su denominación en inglés: Database Management
Systems). Estos se han convertido en activos muy eficaces para la
gestión de datos, especialmente para la recuperación eficaz de la
información, incluso dentro de grandes volúmenes.
Pero, como se indicaba al inicio de este apartado, hoy en día,
tenemos mucha más información de lo que podemos manejar:
transacciones comerciales, datos científicos, imágenes de satélite,
informes de texto, inteligencia militar, datos empresariales... En este
entorno, la sola recuperación de la información no es suficiente para
la toma efectiva de decisiones.
Frente a estas enormes colecciones de datos surgen nuevas
necesidades que ayuden en la toma de decisiones. Entre estas
podemos encontrar el resumen automático de datos, la extracción de
la "esencia" de la información almacenada y el descubrimiento de
patrones en los datos brutos.
A menudo, vemos como cada transacción es "memorizada" a
perpetuidad. Por ejemplo, las operaciones que se encuentran
fuertemente vinculadas con el tiempo o el momento de su realización,
como pueden ser órdenes de compras, actividades bancarias… Los
grandes almacenes, gracias al uso generalizado de los códigos de
barras, almacenan diariamente un gran número de transacciones que
finalmente representan terabytes de datos.
Con el precio del almacenamiento físico disminuyendo y la
posibilidad de contratar capacidad en la nube, el espacio no es el
mayor problema. Sin duda este es el uso eficaz y rápido (o, al menos,
en un plazo de tiempo razonable) de estos datos para la toma de

253

BI ÁREA DE SISTEMAS

MDSI_5_1
UD 13. DATA MINING

decisiones que ayuden a la gestión de las empresas en un marco tan


competitivo como el actual.
Este aumento de la cantidad de datos que tienen que analizar las
organizaciones dio lugar a la aparición tanto del Data Mining como,
de forma paralela, al Data Warehouse. Siendo este un repositorio
integrado y no volátil empleado para dar soporte de datos y los
procesos empleados en la toma de decisiones.
La minería de datos o Data Mining forman parte del proceso de
descubrimiento del conocimiento (también conocido como KDD,
Knowledge Discovery in Databases), y se refiere a la extracción no
trivial de información implícita, previamente desconocida y
potencialmente útil de los datos que se encuentran en las bases de
datos. Aunque la minería de datos y el descubrimiento de
conocimiento en bases de datos (o KDD) son considerados a menudo
como sinónimos, la minería de datos es en realidad parte del proceso
de descubrimiento de conocimiento.
Dentro del proceso reiterativo de búsqueda o descubrimiento del
conocimiento la minería de datos es el paso más importante.

Gráfica 1. Data Mining como parte de KDD
Fuente: DREIBELBIS, A. An SOA Approach to Managing Core Information (2007) 

Se considera un resultado del proceso como interesante si es


comprensible por el cliente, es válido con cierto grado de certeza, es
potencialmente útil y es novedoso o sirve para validar una hipótesis

254

ÁREA DE SISTEMAS BI

MDSI_5_1
UD 13. DATA MINING

El interés de los resultados se puede evaluar objetivamente de


acuerdo a criterios estadísticos o subjetivamente de acuerdo a la
perspectiva del usuario.

II. FASES DE DATA MINING

Como se ha comentado en el punto anterior, Data Mining es una


parte de un proceso de rango superior: el descubrimiento del
conocimiento. Sin embargo, Data Mining es un proceso en sí mismo,
que a su vez consta de varias fases.
Vamos a tomar como referencia el modelo CRISP (se denomina así
por sus siglas en inglés Cross Industry Standard Process) de proceso
de Data Mining.
Este modelo proporciona la descripción del ciclo de vida del
proyecto de Data Mining, las fases de este proyecto, las tareas
respectivas a cada fase y las distintas relaciones entre ellas.
El ciclo de vida del proyecto de minería de datos consiste en seis
fases: comprensión del negocio, comprensión de los datos,
preparación de datos, modelado, evaluación y despliegue.

Gráfica 2. Ciclo de vida del Data Mining
Fuente: DREIBELBIS, A. An SOA Approach to Managing Core Information (2007) 

255

BI ÁREA DE SISTEMAS

MDSI_5_1
UD 13. DATA MINING

En este nivel de descripción, no es posible identificar todas las


relaciones, sin embargo es importante señalar que el movimiento
reiterativo entre fases diferentes es importante para asegurar una
visión de conjunto, es decir, como existe una dependencia entre las
fase y los resultados producidos en ellas, tras completar las tareas de
cada fase es necesario comprobar su impacto en el resto para
mantener la coherencia del proceso.
Las relaciones pueden existir entre cualquier fase o tarea del
proceso de minería de datos, variando de acuerdo a los objetivos del
proceso, el contexto del mismo o por el interés del usuario sobre los
datos.
De forma similar a lo comentado anteriormente, la minería de
datos no se termina una vez que la solución es desplegada. Las
informaciones ocultas que se han descubierto durante el proceso y la
propia solución pueden provocar nuevas preguntas que llevan a
reiniciar todas las fases en un proceso de mejora, por lo que los
procesos de minería subsecuentes se beneficiarán de las experiencias
previas.

Tabla 1. Minería de datos
Fuente: DREIBELBIS, A. An SOA Approach to Managing Core Information (2007) 

256

ÁREA DE SISTEMAS BI

MDSI_5_1
UD 13. DATA MINING

A continuación veremos un pequeño detalle de cada fase del


proceso:

2.1. Comprensión del negocio

Esta es la fase con la que se abre el proceso. Se encuentra


enfocada en la comprensión de los objetivos y exigencias de proyecto
partiendo desde la perspectiva del negocio.
Tras ello, es necesario adquirir este conocimiento de los datos
(repetimos, siempre desde el punto de vista del negocio) y convertirlo
en la definición de un problema de minería de datos, trazando un
plan preliminar de acuerdo a los objetivos planificados.

2.2. Comprensión de los datos

La fase de comprensión de datos comienza con la colección de


datos inicial para continuar con las actividades que permiten alcanzar
una familiaridad con ellos que permita identificar los problemas de
calidad de datos.
La calidad de datos tiene varias dimensiones: exactitud (que se
refleje lo que está pasando), totalidad (que se encuentren los datos
completos en el sistema), oportunidad (accesible cuando sea
necesario), relevancia, nivel de detalle y consistencia (mismos datos
en todas las áreas o sistemas), por lo que será necesario comprobar
como son los datos en cada una de estas dimensiones.
De esta manera ya se puede empezar a descubrir los primeros
conocimientos en los datos, detectar aquellos conjuntos o
subconjuntos de información interesantes para formar hipótesis que
permitan avanzar en el descubrimiento de información oculta.

2.3. Preparación de datos

En esta fase de preparación de datos se quieren cubrir todas las


actividades necesarias para adaptar los datos origen en bruto y
aproximarlos al conjunto de datos final (los datos que serán fuente de
las herramientas de modelado).
Las tareas de preparación o de limpieza de datos van a ser
realizadas repetidas veces y no en cualquier orden. Entre estas tareas
tenemos la selección de tablas, registros y atributos, así como la

257

BI ÁREA DE SISTEMAS

MDSI_5_1
UD 13. DATA MINING

transformación y la limpieza de datos para su preparación para las


herramientas de modelado.

2.4. Modelado

Como veremos en el próximo apartado, existen múltiples técnicas


de modelado de datos, siendo en esta fase del proceso cuando, tras
el conocimiento adquirido, se seleccionan las adecuadas (siempre de
acuerdo a los objetivos de negocio y del proyecto) y se aplican.
En esta fase se buscan los siguientes cuatro tipos de relaciones:
 Clases: las observaciones se asignan a grupos
predeterminados.
 Clusters: se construyen grupos de observaciones similares
según un criterio prefijado.
 Asociaciones: las observaciones son usadas para identificar
asociaciones entre variables.
 Patrones secuenciales: se trata de identificar patrones de
comportamiento y tendencias.
Entre estas técnicas podemos encontrar: la caracterización o
resumen, la discriminación o contraste, el análisis de asociación, la
clasificación, la predicción, el clustering o la detección de
agrupamientos, la detección de anomalías, el análisis de la evolución
y de la desviación… También existen diferentes técnicas para resolver
el mismo tipo de problema de minería de datos.
Algunas técnicas tienen requerimientos específicos sobre la forma
de datos. Por lo tanto, volver a la fase de preparación de datos para
adecuar estos a la técnica pues ser necesario.

2.5. Evaluación

Como resultado de la fase anterior, en esta etapa en el proyecto ya


se ha construido un modelo. Para asegurarnos de que se cumple con
los estándares de calidad propuestos para el proyecto es necesario
evaluarlo desde una perspectiva de análisis de datos. Es decir, antes
del proceder al despliegue final y su puesta en producción, es
importante realizar una batería de pruebas junto con la revisión de
cada paso ejecutados en la creación del modelo, que ayude a
comparar el modelo obtenido con los objetivos de negocio.

258

ÁREA DE SISTEMAS BI

MDSI_5_1
UD 13. DATA MINING

Un objetivo clave es determinar si se han cubierto todas las


expectativas de negocio, asegurando que no hay “gaps” o lagunas
que no hayan sido cubiertas.

2.6. Despliegue o Explotación

En esta fase se realiza la explotación y uso de los resultados del


proceso de Data Mining lo que, dependiendo de los requerimientos,
puede ser tan sencillo como la generación de un informe o tan
complejo como la realización repetida de un proceso cruzado de
minería de datos a través de la empresa. Por lo que, en muchos
casos, es el propio cliente y no el analista de datos, quien realiza la
explotación.
Data Mining es un proceso iterativo, por lo que, la creación del
modelo no implica el final del proyecto. El conocimiento ganado como
resultado del proceso es perfectamente utilizable de nuevo como
información de entrada para volver a realizar otro ciclo del proceso
KKD completo.
Es decir, una vez que el conocimiento descubierto se presenta al
usuario, las medidas de evaluación pueden mejorarse, la minería
puede ser refinado, los nuevos datos se pueden seleccionar o
transformado de nuevo o agregar nuevas fuentes de datos…, todo
esto para obtener resultados diferentes o más apropiados.

III. TÉCNICAS DE DATA MINING

Existe una relación entre los tipos de patrones que se pueden


descubrir y las tareas empleadas en el proceso de Data Mining o
minería de datos.
Se puede decir que existen dos tipos de tareas de minería de
datos: aquellas orientadas a describir las propiedades generales de
los datos existentes, y las tareas orientadas a la predicción, estas
intentada realizar predicciones basadas en la inferencia de los datos
disponibles.
A continuación presentaremos una breve lista donde se describen
estas técnicas.
Caracterización o resumen. La caracterización de datos consiste
en la realización de un resumen de las características generales de
los objetos de una clase y produce lo que se denomina normas
259

BI ÁREA DE SISTEMAS

MDSI_5_1
UD 13. DATA MINING

características. Los datos correspondientes a una clase especificada


por el usuario son normalmente recuperadas por una consulta de
base de datos y ejecutada a través de un módulo de integración para
extraer la esencia de los datos para los distintos niveles de
abstracción.
Discriminación o contraste. La discriminación de datos produce
lo que se denomina normas discriminantes, que consiste básicamente
en la comparación de las características generales de los objetos
entre dos clases, referidas como clase de objetivo y clase de
contraste.
Análisis de asociación. Análisis de asociación es la búsqueda de
lo que comúnmente se llama como reglas de asociación. Se estudia la
frecuencia con la que los dos o más elementos aparecen juntos en las
bases de datos transaccionales, y sobre la base de un umbral
denominado apoyo, identifica los conjuntos de elementos frecuentes.
Otro umbral, la confianza, que es la probabilidad condicional con la
que un elemento aparece en una transacción cuando otro elemento
aparece, se utiliza para determinar las reglas de asociación. Esta
técnica es ampliamente en empresas de comercio electrónico para
analizar la cesta de la compra de sus clientes que ayude a identificar
los gustos de los clientes.
Clasificación. La clasificación se basa en el análisis de la
organización de los datos dentro de las clases. También se conoce
como clasificación supervisada, la clasificación usa las etiquetas de la
clase para ordenar los objetos dentro de la colección de datos.
El procedimiento normal consiste en la utilización de un grupo de
aprendizaje o de testeo donde todos los objetos ya se encuentran
asociados a las etiquetas de clase conocidas. Posteriormente el
algoritmo de clasificación aprende de este conjunto de testeo y
construye un modelo con el que se clasifican los objetos nuevos.
Predicción. La predicción es una técnica muy interesante en un
contexto de negocios por su alto potencial y las implicaciones en caso
de pronóstico exitoso. Existen dos grandes tipos de predicciones:
unos pueden tratar de predecir algunos valores de datos no
disponibles o tendencias dentro de estos datos, el otro puede predecir
una etiqueta de clase para algunos datos. Este último está vinculado
a la técnica vista anteriormente, la clasificación.
Una vez que se construye un modelo de clasificación sobre la base
de un conjunto de testeo, la clase etiqueta de un objeto puede ser
deducida sobre la base de los valores de atributo del objeto y los
valores de los atributos de las clases. Sin embargo, la predicción se

260

ÁREA DE SISTEMAS BI

MDSI_5_1
UD 13. DATA MINING

refiere más frecuentemente como deducción de valores numéricos


inexistentes, o el incremento / disminución de las tendencias en un
plazo.
La idea principal es utilizar un gran número de valores pasados
para determinar posibles valores futuros.
Clustering o detección de agrupamientos. Similar a la
clasificación, el clustering consiste en la organización de los datos
dentro de clases. Sin embargo, la diferencia se encuentre en que, en
esta técnica, se desconocen las etiquetas de las clases, por lo que es
el algoritmo de “clusterización” o agrupamiento el que se encarga de
descubrir clases aceptables. La “clusterización” también se conoce
como su clasificación sin supervisión puesto que no se realiza o no
está dictada por las etiquetas de clase dadas.
Existen distintas maneras de aproximación a la “clusterización”,
todos ellas basadas en el principio de maximizar la similitud entre los
objetos de una misma clase (similitud intra-clase) y minimizar la
similitud entre los objetos de clases diferentes (similitud inter-clase).
Outlier analysis o detección de anomalías. Los valores atípicos
son elementos de datos que no pueden ser agrupados dentro de una
clase dada o clúster. También se conocen como excepciones,
sorpresas o anomalías y a menudo son muy importantes de
identificar. Mientras que los valores atípicos suelen considerarse como
ruido y ser desechado en algunas aplicaciones; en otros dominios,
estos valores pueden revelar un conocimiento muy importante, por lo
tanto su análisis puede ser muy valioso aportando gran información a
la organización.
Evolución y análisis de desviación. La evolución y el análisis de
desviación se refieren al estudio de los datos y sus cambios dentro de
una escala temporal.
La evolución analiza los modelos de tendencias en los datos, a
través de la caracterización, comparación, clasificación o agrupación
de los datos dentro del marco temporal.
Por otro lado, el análisis de la desviación observa las diferencias
entre los valores medidos y los valores esperados, intentando
determinar la causa de estas desviaciones.

261

BI ÁREA DE SISTEMAS

MDSI_5_1
UD 13. DATA MINING

IV. APLICACIONES DE DATA MINING

Entre las distintas aplicaciones del Data Mining podemos encontrar


las siguientes:

 Comercio/Marketing, donde, a través del proceso KDD,


podemos descubrir patrones de compra o gustos de los clientes,
que a su vez pueden ser utilizados para realizar
recomendaciones.
También se pueden descubrir patrones de compra de acuerdo a
su edad, estado civil…, relacionar las compras de los clientes de
acuerdo a características comunes…
 Banca/Seguros, la identificación de la capacidad adquisitiva
de los clientes, perfil del cliente de acuerdo a su grado de
riesgo, medición del grado de lealtad o riesgo de fuga,
detección de patrones de uso fraudulento de tarjetas de
crédito…
Se utiliza ampliamente en Seguros para señalar el uso
fraudulento, la posibilidad de incrementar la venta cruzada de
acuerdo al perfil del cliente, determinar el grado de riesgo…
 Salud. En este campo se están descubriendo nuevos usos cada
día, siendo muy útil para, por ejemplo, la segmentación de
pacientes, la identificación de terapias médicas adecuadas para
diferentes enfermedades, la asociación de síntomas y la
clasificación diferencial de patologías, el estudio de factores de
riesgo (genéticos, precedentes, hábitos, alimenticios, etc.), en
estudios epidemiológicos, análisis de rendimientos de campañas
de información, prevención, sustitución de fármacos, etc.
Sin embargo, todo lo enumerado anteriormente son solo
ejemplos, existen innumerables aplicaciones del KDD, desde
ayuda a la logística hasta la salud. Queda en manos del alumno
la conceptualización de otros ejemplos dentro de su
experiencia.

262

ÁREA DE SISTEMAS BI

MDSI_5_1
UD 13. DATA MINING

V. RESUMEN

En esta unidad didáctica hemos visto:

 Introducción al proceso de descubrimiento del


conocimiento o Knowledge Discovery in Databases, como
proceso reiterativo en el que las fases se encuentran
relacionadas.
 Fases del proceso de Data Mining: comprensión del
negocio, comprensión de los datos, preparación de datos,
modelado, evaluación y despliegue.
 Principales técnicas de Data Mining.
 Ejemplo de usos de Data Mining.

VI. BIBLIOGRAFÍA

ENLACES DE INTERÉS

La importancia de Business intelligence. CorpSolutions.


http://www.corp-solutions.com.ar/briefs/Business_Intelligence.pdf

SHEARER C. The CRISP-DM model: the new blueprint for data mining.
J Data Warehousing.
http://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-
model-the-new-blueprint-for-data-mining-shearer-colin.pdf

http://www.dataprix.com/es/el-modelo-referencia-crisp-dm

http://www.gestiopolis1.com/recursos7/Docs/ger/inteligencia-de-
negocios-como-estrategia-competitiva.pdf

http://dataminingcafe.blogspot.com.es/2012/10/astroml-aprendizaje-
automatico-y.html

263

BI ÁREA DE SISTEMAS

MDSI_5_1
UD 13. DATA MINING

http://dataminingcafe.blogspot.com.es/2012/11/una-analisis-de-
grafos-de-redes.html

http://dataminingcafe.blogspot.com.es/2012/10/probablemente-tu-e-
book-te-esta-leyendo.html

PUBLICACIONES

CONTEL RICO, B. Desarrollo de una solución Business intelligence en


una empresa del sector de alimentación. Universidad Politécnica de
Valencia. 2008.

DURÁ SUBIELA, S. Sistemas de información BI: estado actual y


herramientas de software libre. UOC. 2008.
 
DREIBELBIS, A., HECHLER, E., MILMAN, I., OBERHOFER, M., VAN
RUN, P. y WOLFSON, D. Enterprise Master Data Management: An
SOA Approach to Managing Core Information. IBM Press. Jun 5, 2008.

LACHLAN, J. A Business Intelligence Renaissance: 2012 wisdom of


crowds BI market study. 2012.

MOLINA, L. C. Relación entre dato, información y conocimiento. UOC.


1998.

PANG-NING TAN, STEINBACH, M. y KUMAR, V. Introduction to Data Mining.


Addison-Wesley. 2006.

RANJAN, J. Business justification with business intelligence. Institute


of Management Technology. India, 2008.

The Balanced ScoreCard: Translating Strategy into Action. Harvard


Business School Press. Boston, 1996.

Business Intelligence. Técnicas de análisis para la toma de decisiones


estratégicas. McGrawHill. 2002.

Business intelligence (BI). How to build successful BI strategy.


Deloitte.

Ibermatica: Business intelligence: Evolución hacia la Empresa


Inteligente.

264

ÁREA DE SISTEMAS BI

MDSI_5_1

También podría gustarte