Está en la página 1de 30

INTRODUCIN

Los mtodos de tratamiento de la informacin en la empresa se iniciaron hace


muchos aos con la automatizacin de los procesos repetitivos y administrativos.
Los sistemas informticos centralizados se difundieron en las dcadas de los
sesenta y setenta en las grandes corporaciones. La aparicin de los mini-
ordenadores permiti la incorporacin en medianas empresas de procesos
automatizados, y finalmente la difusin masiva de los ordenadores personales
en los ochenta y de las redes de comunicacin generalizaron el uso de los
procesos informticos y obligaron a cambiar las estructuras centralizadas de los
centros de proceso de datos. Las tecnologas de la informacin estn orientadas
hoy da, no slo a los procesos de tratamiento administrativo, sino tambin hacia
la gestin de datos y el soporte en los procesos de toma de decisiones. La
difusin de redes de ordenadores, incluyendo los equipos personales, origina
una descentralizacin de la informacin que dificulta la integracin en su uso en
la gestin de la empresa. Por otra parte la aparicin de nuevas herramientas est
facilitando esta integracin y uso ms eficiente a travs de dos tipos de
desarrollos tecnolgicos: los denominados Data Warehouse (DW) o almacn de
datos, y Data Mining (DM) o minera de datos. Varios factores han permitido
estos desarrollos: la reduccin continua de los costes de almacenamiento y
proceso de la informacin, el incremento de la potencia de clculo a travs de
varias tecnologas (SMP o Symmetric Multi Processing, en el que en un solo
sistema varios procesadores se reparten en el trabajo, SMC, cluster o conjunto
de ordenadores que comparten los mismos sistemas de almacenamiento de
datos, o los MPP o multiprocesadores masivamente paralelos interconectados
por canales muy rpidos que permiten considerarlos como un nico sistema), y
las necesidades derivadas del incremento de productividad y de tratamiento
individualizado del cliente.

El presente trabajo de investigacin consiste en brindar informacin acerca del


tema de minera de datos, que es muy importante en el uso de un administrador
de base de datos, veremos en el trabajo de investigacin acerca de la definicin,
historia, ventajas, desventajas, tipos, etapas, campos de accin y entre otras
disciplinas de la minera de datos.

NDICE
INTRODUCIN........................................................................................................................... 1
1. MINERA DE DATOS ........................................................................................................ 5
1.1. DEFINICIN ................................................................................................................ 5
1.2. HISTORIA .................................................................................................................... 6
1.3. VENTAJAS Y DESVENTAJAS ............................................................................... 7
1.3.1. Ventajas .............................................................................................................. 7
1.3.2. Desventajas........................................................................................................ 8
3. TIPOS DE MINERA DE DATOS .................................................................................. 13
3.1. MINERA DE DATOS ESPACIALES .................................................................... 13
3.2. BASES DE DATOS GEOGRFICAS................................................................... 13
3.3. DATOS GEOGRFICOS ........................................................................................ 13
4. ETAPAS O FASE DE UN PROYECTO DE MINERA DE DATOS ......................... 14
4.1. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING ................ 14
4.2. PRINCIPALES FASES............................................................................................ 15
4.2.1. Entendimiento de negocios ......................................................................... 15
4.2.2. Comprensin de Datos ................................................................................. 16
4.2.3. Preparacin de datos .................................................................................... 16
4.2.4. Modelado .......................................................................................................... 16
4.2.5. Evaluacin ........................................................................................................ 17
4.2.6. Despliegue........................................................................................................ 17
5. CAMPOS DE ACCIN DE LA MINERA DE DATOS ............................................... 18
5.1. GOBIERNOS ............................................................................................................ 19
5.2. UNIVERSIDAD ......................................................................................................... 20
5.3. INVESTIGACION ESPACIAL ................................................................................ 21
5.4. INTERNET ................................................................................................................. 21
5.5. NEGOCIOS ............................................................................................................... 22
5.5.1. Hbitos de compra en supermercados .................................................... 22
5.5.2. Patrones de fuga ............................................................................................ 23
5.5.3. Fraudes ............................................................................................................. 23
5.5.4. Recursos humanos ........................................................................................ 24
5.6. TERRORISMO .......................................................................................................... 24
5.7. JUEGOS .................................................................................................................... 24
5.8. CIENCIA E INGENIERA ........................................................................................ 25
5.9. GENTICA ................................................................................................................ 25
5.10. INGENIERA ELCTRICA.................................................................................. 25
6. MINERA DE DATOS Y OTRAS DISCIPLINAS ANLOGAS ................................. 26
6.1. DE LA ESTADSTICA ............................................................................................. 26
6.2. LA INFORMTICA .................................................................................................. 27
1. MINERA DE DATOS

1.1. DEFINICIN

La minera de datos o exploracin de datos (es la etapa de anlisis


de "Knowledge Discovery in Databases" o KDD) es un campo de
las ciencias de la computacin referido al proceso que intenta
descubrir patrones en grandes volmenes de conjuntos de
datos, Utiliza los mtodos de la inteligencia artificial, aprendizaje
automtico, estadstica y sistemas de bases de datos. El objetivo
general del proceso de minera de datos consiste en extraer
informacin de un conjunto de datos y transformarla en una
estructura comprensible para su uso posterior.
El trmino es una palabra de moda, y es frecuentemente mal
utilizado para referirse a cualquier forma de datos a gran escala o
procesamiento de la informacin (recoleccin, extraccin,
almacenamiento, anlisis y estadsticas), pero tambin se ha
generalizado a cualquier tipo de sistema de apoyo informtico
decisin, incluyendo la inteligencia artificial, aprendizaje automtico
y la inteligencia empresarial. En el uso de la palabra, el trmino clave
es el descubrimiento, comnmente se define como "la deteccin de
algo nuevo". Incluso el popular libro "La minera de datos: sistema
de prcticas herramientas de aprendizaje y tcnicas con Java" (que
cubre todo el material de aprendizaje automtico) originalmente iba
a ser llamado simplemente "la mquina de aprendizaje prctico", y
el trmino "minera de datos" se aadi por razones de marketing.
La tarea de minera de datos real es el anlisis automtico o semi
automtico de grandes cantidades de datos para extraer patrones
interesantes hasta ahora desconocidos, como los grupos de
registros de datos (anlisis clster), registros poco usuales (la
deteccin de anomalas) y dependencias (minera por reglas de
asociacin). Esto generalmente implica el uso de tcnicas de bases
de datos como los ndices espaciales. Estos patrones pueden
entonces ser vistos como una especie de resumen de los datos de
entrada, y pueden ser utilizados en el anlisis adicional o, por
ejemplo, en la mquina de aprendizaje y anlisis predictivo. Por
ejemplo, el paso de minera de datos podra identificar varios grupos
en los datos, que luego pueden ser utilizados para obtener
resultados ms precisos de prediccin por un sistema de soporte de
decisiones. Ni la recoleccin de datos, preparacin de datos, ni la

5
interpretacin de los resultados y la informacin son parte de la etapa
de minera de datos, pero que pertenecen a todo el proceso KDD
como pasos adicionales.

1.2. HISTORIA
Aunque desde un punto de vista acadmico el trmino data mining
es una etapa dentro de un proceso mayor llamado extraccin de
conocimiento en bases de datos (Knowledge Discovery in
Databases o KDD) en el entorno comercial, ambos trminos se usan
de manera indistinta. Lo que en verdad hace el data mining es reunir
las ventajas de varias reas como la Estadstica, la Inteligencia
Artificial, la Computacin Grfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima
las bases de datos. Una definicin tradicional es la siguiente: "Un
proceso no trivial de identificacin vlida, novedosa, potencialmente
til y entendible de patrones comprensibles que se encuentran
ocultos en los datos". Desde otro punto de vista se define como "la
integracin de un conjunto de reas que tienen como propsito la
identificacin de un conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de decisin. La idea de
data mining no es nueva. Ya desde los aos sesenta los estadsticos
manejaban trminos como data fishing, data mining o data

6
archaeology con la idea de encontrar correlaciones sin una hiptesis
previa en bases de datos con ruido. A principios de los aos ochenta,
Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-
Shapiro, entre otros, empezaron a consolidar los trminos de data
mining y KDD. A finales de los aos ochenta slo existan un par de
empresas dedicadas a esta tecnologa; y en 2002 existan ms de
100 empresas en el mundo que ofrecan alrededor de 300
soluciones. Las listas de discusin sobre este tema las forman
investigadores de ms de ochenta pases. Esta tecnologa ha sido
un buen punto de encuentro entre personas pertenecientes al mbito
acadmico y al de los negocios. El data mining es una tecnologa
compuesta por etapas que integra varias reas y que no se debe
confundir con un gran software. Durante el desarrollo de un proyecto
de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadsticas, de visualizacin de datos o de
inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de data mining muy
poderosas que facilitan el desarrollo de un proyecto. Sin embargo,
casi siempre acaban complementndose con otra herramienta.

1.3. VENTAJAS Y DESVENTAJAS

1.3.1. Ventajas
Enormes bases de datos pueden ser analizadas.
Enormes bases de datos pueden ser analizadas mediante la
tecnologa del Data Mining. Estas Bases de datos pueden ser
enormes tanto en largo como en ancho. Por ejemplo, para
cada cliente se puede tener cientos de atributos que
contienen informacin detallada; y adems tener miles de
registros de clientes.

El Data Mining descubre informacin que no se esperaba


obtener.

7
Como muchos modelos diferentes son validados, algunos
resultados inesperados tienden a aparecer. En muchos
estudios, se ha descubierto que combinaciones particulares
de factores entregan efectos inesperados que entregan valor
a la compaa. (Paales y cerveza).

Los Modelos Son Confiables


El modelo es probado y comprobado usando tcnicas
estadsticas antes de ser usado, luego las predicciones que
se obtienen por el modelo son vlidas y confiables.
Los modelos se construyen de manera rpida
La minera de datos permite construir y generar modelos en
slo uno minutos u horas. El modelado se torna mucho ms
fcil puesto que muchos algoritmos son probados y slo el
mejor modelo es entregado al usuario.

La Minera de Datos es una herramienta eficaz para dar


respuestas a preguntas complejas de Inteligencia de
Negocios.
Las herramientas disponibles permiten automatizar gran
parte de la tarea de encontrar los patrones de
comportamiento ocultos en los datos.
Es una buena manera de convertir datos en informacin,
y esta a su vez en conocimiento, para la correcta toma
de decisiones.

1.3.2. Desventajas
Dificultad de recopilacin de los datos
Dependiendo del tipo de datos que se quieran recopilar puede
conllevar mucho trabajo o la necesidad de tecnologa de
elevado coste.

8
El pre procesamiento de datos puede llevar demasiado
tiempo
No est asegurada la obtencin de un modelo vlido

Que los productos a comercializar son


significativamente costosos.
Que se requiera de experiencia para utilizar
herramientas de tecnologa.
Que sea fcil de hallar patrones equvocos triviales o no
interesantes.
La Privacidad.

2. PROTOCOLOS DE UN PROYECTO DE MINERA DE DATOS

Un proyecto de minera de datos tiene varias fases necesarias que son,


esencialmente:
Comprensin: del negocio y del problema que se quiere resolver.
Determinacin, obtencin y limpieza: de los datos necesarios.
Creacin de modelos matemticos.
Validacin, comunicacin: de los resultados obtenidos.
Integracin: si procede, de los resultados en un sistema
transaccional o similar.
La relacin entre todas estas fases slo es lineal sobre el papel. En
realidad, es mucho ms compleja y esconde toda una jerarqua de
subfases. A travs de la experiencia acumulada en proyectos de minera
de datos se han ido desarrollando metodologas que permiten gestionar
esta complejidad de una manera ms o menos uniforme.

Tcnicas de minera de datos


Las tcnicas de la minera de datos provienen de la Inteligencia artificial y
de la estadstica. Dichas tcnicas, no son ms que algoritmos, ms o
menos sofisticados que se aplican sobre un conjunto de datos para
obtener unos resultados.

9
El hecho es, que en la prctica la totalidad de los modelos y algoritmos de
uso general en minera de datos Redes neuronales, decisin, regresin y
clasificacin, modelos logsticos, anlisis de componentes principales, etc.
gozan de una tradicin relativamente larga en otros campos.
Las tcnicas ms representativas de la estadstica y la informtica
son:

Redes neuronales
Son un paradigma de aprendizaje y procesamiento automtico inspirado
en la forma en que funciona el sistema nervioso de los animales. Se trata
de un sistema de interconexin de neuronas en una red que colabora para
producir un estmulo de salida. Genricamente, son mtodos de proceso
numrico en paralelo, en el que las variables interactan mediante
transformaciones lineales o no lineales, hasta obtener unas salidas. Estas
salidas se contrastan con los que tenan que haber salido, basndose en
unos datos de prueba, dando lugar a un proceso de retroalimentacin
mediante el cual la red se reconfigura, hasta obtener un modelo
adecuado.

Regresin lineal
Es la ms utilizada para formar relaciones entre datos. Es rpida y eficaz,
pero insuficiente en espacios multidimensionales donde puedan
relacionarse ms de 2 variables. Define la relacin entre una o ms
variables y un conjunto de variables predictores de las primeras.

rboles de decisin
Es un modelo de prediccin utilizado en el mbito de la inteligencia
artificial. Dada una base de datos se construyen estos diagramas de
construcciones lgicas, muy similares a los sistemas de prediccin
basados en reglas, que sirven para representar y categorizar una serie de
condiciones que suceden de forma sucesiva, para la resolucin de un
problema.

10
Modelos estadsticos
Es una expresin simblica en forma de igualdad o ecuacin que se
emplea en todos los diseos experimentales y en la regresin para indicar
los diferentes factores que modifican la variable de respuesta.

Agrupamiento o Clustering
Es un procedimiento de agrupacin de una serie de vectores segn
criterios habitualmente de distancia. Permite la clasificacin de una
poblacin de individuos caracterizados por mltiples atributos (binarios,
cualitativos o cuantitativos) en un nmero determinado de grupos, con
base en las semejanzas o diferencias de los individuos. Se tratar de
disponer los vectores de entrada de forma que estn ms cercanos
aquellos que tengan caractersticas comunes.

Anlisis de varianza
Evala la existencia de diferencias significativas entre las medias de una
o ms variables continas en poblaciones distintos.

Prueba chi-cuadrado
Por medio de la cual se realiza el contraste la hiptesis de dependencia
entre variables.

Anlisis discriminante
Permite la clasificacin de individuos en grupos que previamente se han
establecido. Tambin posibilita encontrar la regla de clasificacin de los
elementos de estos grupos, y por tanto una mejor identificacin de cules
son las variables que definan la pertenencia al grupo.

Series de tiempo
Permite el estudio de la evolucin de una variable a travs del tiempo,
para poder realizar predicciones, a partir de ese conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales.

11
Algoritmos genticos
Son mtodos numricos de optimizacin, en los que aquella variable o
variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de informacin. Aquellas configuraciones de las
variables de anlisis que obtengan mejores valores para la variable de
respuesta, correspondern a segmentos con mayor capacidad
reproductiva. A travs de la reproduccin, los mejores segmentos
perduran y su proporcin crece de generacin en generacin. Se puede
adems introducir elementos aleatorios para la modificacin de las
variables (mutaciones). Al cabo de cierto nmero de iteraciones, la
poblacin estar constituida por buenas soluciones al problema de
optimizacin, pues las malas soluciones han ido descartndose, iteracin
tras iteracin.

Inteligencia artificial
Mediante un sistema informtico que simula un sistema inteligente, se
procede al anlisis de los datos disponibles. Entre los sistemas de
Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes
Neuronales.

Sistemas Expertos
Son sistemas que han sido creados a partir de reglas prcticas extradas
del conocimiento de expertos. Principalmente a base de inferencias o de
causa-efecto.

Sistemas Inteligentes
Son similares a los sistemas expertos, pero con mayor ventaja ante
nuevas situaciones desconocidas para el experto.

12
3. TIPOS DE MINERA DE DATOS

3.1. MINERA DE DATOS ESPACIALES


Este trmino se refiere a la extraccin de conocimiento, relaciones
espaciales, u otros patrones interesantes que no se ven de forma
explcita en una base de datos geogrfica [Data Mining]. Este tipo de
minera puede usarse para para un mejor entendimiento de datos
espaciales, para descubrir relaciones entre datos espaciales o entre
datos espaciales con no espaciales, etc. Estos datos pueden ser
usados en cualquier campo que requiera informacin geogrfica,
como navegacin, astronoma, control de trfico, expansin de
ciudades, etc.

3.2. BASES DE DATOS GEOGRFICAS

Una base de datos geogrfica o espacial contiene una gran cantidad


de (obviamente) datos geogrficos, como mapas, imgenes
mdicas, etc.
Bsicamente, una base de datos geogrfica es una base de datos
que contiene informacin geogrfica acerca de un rea y materia en
particular [Geo Inf Sys &Sci].
Una base de datos geogrfica se organiza en capas (o clases de
objetos), que es una coleccin de datos sobre un tema en especfico.
Por ejemplo, puede existir una capa de las tuberas de agua, otra
que contenga los polgonos del relieve del lecho de un ro, otra con
valores de altitud, etc [ ]. Cada una de estas capas est almacenada
en una tabla de la base de datos. Obviamente, una base de datos
geogrfica es usada por un Sistema de Informacin Geogrfica (GIS,
por sus siglas en ingls).

3.3. DATOS GEOGRFICOS

Un dato geogrfico, tambin llamado dato espacial, tiene la


caracterstica de ocupar un lugar (real o virtual) en el espacio. Este
lugar en el espacio puede ser un ro, una montaa, otro planeta o

13
incluso un rgano humano dentro de un mapa de imgenes mdicas.
Bsicamente, un dato geogrfico representa informacin topolgica
de algn tipo.
Existen varios tipos de datos geogrficos, desde los ms simples
que podran ser un punto y una lnea, hasta tipos complejos que
representen toda la informacin de una regin: su forma; regiones
vecinas; temperatura promedio; nmero de habitantes; relieve
topogrfico; etc.

4. ETAPAS O FASE DE UN PROYECTO DE MINERA DE DATOS

4.1. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING

Proceso Cruz estndar de la industria para la minera de datos,


conocido comnmente por sus siglas en CRISP-DM, fue una minera
de datos modelo de proceso que describe los enfoques de uso
comn que expertos en minera de datos utilizan para hacer frente a
los problemas. Encuestas realizadas en un mismo sitio web
(KDNuggests) en 2002, 2004, 2007 y 2014 muestran que fue la
metodologa que conduce utilizado por los mineros de datos de la
industria que decidi responder a la encuesta. La nica otra norma
de minera de datos denominado en estas encuestas fue SEMMA.
Sin embargo, 3-4 veces ms personas reportaron el uso de CRISP-
DM. Una revisin y crtica de los modelos de procesos de minera de
datos en 2009 llamado el CRISP-DM el "estndar de facto para el
desarrollo de proyectos de descubrimiento de conocimiento y
minera de datos." [6] Otras crticas de los modelos de procesos de
minera de datos CRISP-DM e incluyen Kurgan y Musilek de 2006
revisin, y Azevedo y Santos 2008 comparacin de CRISP-DM y
SEMMA. Los esfuerzos para actualizar la Metodologa se inici en
2006, pero que tienen Al 30 de junio de 2015 no condujo a una nueva
versin, y el "Inters Especial Grupo "(SIG), responsable junto con
el sitio web ha desaparecido larga (ver Historia de CRISP-DM).

14
4.2. PRINCIPALES FASES

CRISP-DM rompe el proceso de minera de datos en seis fases


principales.1

La secuencia de las fases no es estricta y movindose hacia atrs y


adelante entre las diferentes fases siempre se requiere. Las flechas
en el diagrama de proceso indican las dependencias ms
importantes y frecuentes entre fases. El crculo exterior en el
diagrama simboliza la naturaleza cclica de la minera de datos en
s. Un proceso de minera de datos contina despus de una
solucin se ha desplegado. Las lecciones aprendidas durante el
proceso pueden desencadenar nuevas cuestiones de negocios a
menudo ms centradas y procesos de minera de datos posteriores
se beneficiarn de las experiencias de los anteriores.

Diagrama de proceso que muestra la relacin entre las diferentes


fases de CRISP-DM

4.2.1. Entendimiento de negocios


Esta fase inicial se centra en la comprensin de los objetivos
y requisitos del proyecto desde una perspectiva empresarial,

1 Harper, Gavin; Stephen D. Pickett (agosto de 2006). "Los mtodos para datos HTS mineras". Drug
Discovery Today 11 (15-16): 694-699. Doi: 10.1016 / j.drudis.2006.06.006. PMID16846796

15
y luego convertir este conocimiento en una definicin del
problema de minera de datos, y un plan preliminar diseado
para alcanzar los objetivos. Un modelo
de decisin, especialmente una construida utilizando
el Modelo de Decisin y notacin estndar se puede utilizar.
4.2.2. Comprensin de Datos
La fase de comprensin de datos comienza con una coleccin
de datos inicial y contina con las actividades con el fin de
familiarizarse con los datos, para identificar los problemas de
calidad de datos, para descubrir las primeras ideas sobre los
datos, o para detectar subconjuntos interesantes para formar
hiptesis de informacin oculta.

4.2.3. Preparacin de datos


La fase de preparacin de datos abarca todas las actividades
para construir el ltimo conjunto de datos (datos que se
introduce en la herramienta (s) de modelado) de los datos en
bruto inicial. Tareas de preparacin de datos son susceptibles
de ser realizado mltiples veces, y no en cualquier orden
prescrito. Las tareas incluyen tabla, registro, y la seleccin de
atributos, as como la transformacin y la limpieza de datos
de herramientas de modelado.

4.2.4. Modelado
En esta fase, se seleccionan varias tcnicas de modelado y
se aplican, y sus parmetros estn calibrados para valores
ptimos. Tpicamente, existen varias tcnicas para el mismo
tipo de problema de minera de datos. Algunas tcnicas tienen
requerimientos especficos en forma de datos. Por lo tanto,
dar un paso atrs a la fase de preparacin de datos es a
menudo necesaria.

16
4.2.5. Evaluacin
En esta etapa en el proyecto que ha construido un modelo (o
modelos) que parece tener gran calidad, desde una
perspectiva de anlisis de datos. Antes de proceder a la
implementacin final del modelo, es importante para evaluar
ms a fondo el modelo, y revisar los pasos ejecutados para
construir el modelo, para estar seguro de que logra
adecuadamente los objetivos de negocio. Un objetivo clave es
determinar si hay algn problema de negocios importante que
no se ha considerado suficientemente. Al final de esta fase,
se debe alcanzar una decisin sobre el uso de los resultados
de minera de datos.

4.2.6. Despliegue
Creacin del modelo generalmente no es el final del
proyecto. Aunque el propsito del modelo es aumentar el
conocimiento de los datos, tendr que ser organizada y
presentada de una manera que sea til para el cliente los
conocimientos adquiridos. Dependiendo de los requisitos, la
fase de despliegue puede ser tan simple como la generacin
de un informe o tan complejo como la implementacin de una
puntuacin repetible de datos (por ejemplo, la asignacin de
segmento) o el proceso de minera de datos. En muchos
casos, ser el cliente, no el analista de datos, que llevar a
cabo los pasos de implementacin. Incluso si el analista
despliega el modelo es importante para el cliente para
entender por adelantado las acciones que debern llevarse a
cabo con el fin de hacer realidad el uso de los modelos
creados.

17
5. CAMPOS DE ACCIN DE LA MINERA DE DATOS
El data mining surge como una tecnologa que intenta ayudar a comprender
el contenido de una base de datos. De forma general, los datos son la
materia prima bruta. En el momento que el usuario les atribuye algn
significado especial pasan a convertirse en informacin. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la
interpretacin conjunta entre la informacin y ese modelo represente un
valor agregado, entonces nos referimos al conocimiento. En la figura 1 se
ilustra la jerarqua que existe en una base de datos entre dato, informacin
y conocimiento. Se observa igualmente el volumen que presenta en cada
nivel y el valor que los responsables de las decisiones le dan en esa
jerarqua. El rea interna dentro del tringulo representa los objetivos que
se han propuesto. La separacin del tringulo representa la estrecha unin
entre dato e informacin, no as entre la informacin y el conocimiento. El
data mining trabaja en el nivel superior buscando patrones,
comportamientos, agrupaciones, secuencias, tendencias o asociaciones
que puedan generar algn modelo que nos permita comprender mejor el
dominio para ayudar en una posible toma de decisin.
Sistemas parcialmente desconocidos: Si el modelo del sistema que
produce los datos es bien conocido, entonces no necesitamos de la minera
de datos ya que todas las variables son de alguna manera predecibles. Este
no es el caso del comercio electrnico, debido a los efectos del
comportamiento humano, el clima y de decisiones polticas entre otros. En
estos casos habr una parte del sistema que es conocida y habr una parte
aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir
de una gran cantidad de datos asociada con el sistema, existe la posibilidad
de encontrar nuevos aspectos previamente desconocidos del modelo.
Enorme cantidad de datos: Al contar con mucha informacin en algunas
bases de datos es importante para una empresa encontrar la forma de
analizar "montaas" de informacin (lo que para un humano sera
imposible) y que ello le produzca algn tipo de beneficio.
Potente hardware y software: Muchas de las herramientas presentes en
la minera de datos estn basadas en el uso intensivo de la computacin,
en consecuencia, un equipo conveniente y un software eficiente, con el cual

18
cuente una compaa, aumentar el desempeo del proceso de buscar y
analizar informacin, el cual a veces debe vrselas con producciones de
datos del orden de los Gbytes/hora ( repetimos, algo humanamente
imposible). El uso del data mining puede ser provechoso en el caso de
poseer datos sobre sus procesos productivos, datos de seguimiento de
clientes, datos externos de mercado, datos sobre la actividad de
competidores, etc.
Entre las aplicaciones de la minera de datos tenemos:

5.1. GOBIERNOS
El FBI analizar las bases de datos comerciales para detectar
terroristas. A principios del mes de julio de 2002, el director del FBI
en Estados Unidos, John Aschcroft, anunci que el Departamento
de Justicia comenzara a introducirse en la enorme cantidad de
datos comerciales en los que se revelan hbitos y costumbres de la
poblacin, con el fin de poder identificar a potenciales terroristas con
antelacin a que puedan cometer un atentado. Algunos expertos
aseguran que, con esta informacin, el FBI unir todas las bases de
datos mediante el nmero de la Seguridad Social y permitir saber
si una persona fuma, qu talla y tipo de ropa usa, si ha sido arrestado
y cuantas veces, el barrio donde vive, si en este se cometen ms o
menos delitos, su salario, las revistas a las que est suscrito, su
altura y peso, sus contribuciones a la Iglesia, grupos polticos u
organizaciones no gubernamentales, sus enfermedades crnicas,
los libros que lee, los productos de supermercado que compra, si
tom clases de vuelo o si tiene cuentas de banco abiertas, entre
otros. La inversin inicial ronda los 70 millones de $ estadounidenses
para consolidar los almacenes de datos, desarrollar redes de
seguridad que sean capaces de compartir la informacin e
implementar nuevo software analtico y de visualizacin. Con este
tipo de aplicaciones sale de nuevo el tema tico de la privacidad y
libertad de los individuos. En el fondo la aplicacin es un gran

19
hermano que observa cualquier movimiento que se haga, pudiendo
estos ser utilizados para otros fines distintos a los que fue diseado.

5.2. UNIVERSIDAD
Se realiz un estudio sobre los recin titulados de la carrera de
Ingeniera en Sistemas Computacionales del Instituto Tecnolgico
de Chihuahua II en Mjico. Se quera observar si los recin titulados
se insertaban en actividades profesionales relacionadas con sus
estudios y, en caso negativo, se buscaba saber el perfil que
caracteriz a los ex-alumnos durante su estancia en la universidad.
Se deseaba concluir si con los planes de estudio de la universidad y
el rendimiento del alumno se haca una buena insercin laboral o si
existan otras variables que participaban en el proceso. Dentro de la
informacin considerada estaba el sexo, la edad, la escuela de
procedencia, el desempeo acadmico, la zona econmica donde
tena su vivienda y la actividad profesional, entre otras variables.
Mediante la aplicacin de conjuntos aproximados se descubri que
existan cuatro variables que determinaban la adecuada insercin
laboral, que son citadas de acuerdo con su importancia:

Zona econmica donde habitaba el estudiante


Colegio de dnde provena
Nota al ingresar
Promedio final al salir de la carrera

A partir de estos resultados, la universidad obtuvo como resultado


que las tres caractersticas ms importantes no tenan relacin con
la universidad, y si de la economa de la zona donde provena el
estudiante. Por lo que poda plantearse nuevas soluciones de tipo
socioeconmico, como becas en empresas u otras.

20
5.3. INVESTIGACION ESPACIAL
Durante seis aos, el Second Palomar Observatory Sky Survey
(POSS-II) coleccion tres terabytes de imgenes que contenan
aproximadamente dos millones de objetos en el cielo. Tres mil
fotografas fueron digitalizadas a una resolucin de 16 bits por pxel
con 23040 x 23040 pxeles por imagen. El objetivo era formar un
catlogo de todos esos objetos. El sistema Sky Image Cataloguing
and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin
(clustering) y rboles de decisin para poder clasificar los objetos en
estrellas, planetas, sistemas, galaxias, etc. con una alta
confiabilidad. Los resultados han ayudado a los astrnomos a
descubrir diecisis nuevos qusares (seales radiales lejanas) con
corrimiento hacia el rojo que los incluye entre los objetos ms lejanos
del universo y, por consiguiente, ms antiguos. Los qusares son
fuentes de Rayos X, radiacin ultravioleta, luz visible y tambin
infrarroja; en otras palabras, la emisin de radiacin de los qusares
resulta intensa en todo el espectro electromagntico. Estos
qusares son difciles de encontrar y permiten saber ms acerca de
los orgenes del universo.

5.4. INTERNET
Una de las aplicaciones de la minera de datos consiste en aplicar
sus tcnicas a documentos y servicios Web, lo que se denomina
comnmente con el trmino ingls web mining (minera de Web).
Cada vez que un usuario visita un sitio Web va dejando todo tipo de
huellas Web (direcciones de IP, navegador, galletas, etc.) que los
servidores automticamente almacenan en una base de datos (log).
Las herramientas de web mining analizan y procesan esta
abundante cantidad de datos para producir informacin significativa,
por ejemplo, cmo es la navegacin de un cliente antes de hacer
una compra en lnea. Debido a que los contenidos de Internet
consisten en varios tipos de datos, como texto, imagen, vdeo,
metadatos o hiperligas, investigaciones recientes usan el trmino
multimedia data mining (minera de datos multimedia) como una

21
instancia del web mining para tratar ese tipo de datos. Los accesos
totales por dominio, horarios de accesos ms frecuentes y visitas por
da, entre otros datos, son registrados por herramientas estadsticas
que complementan todo el proceso de anlisis del web mining.
Tambin es un rea en boga el del anlisis del comportamiento de
los visitantes sobre todo, cuando son clientes potenciales en una
pgina de internet. O la utilizacin de la informacin obtenida por
medios ms o menos legtimos sobre ellos para ofrecerles
propaganda adaptada especficamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qu
otro ofrecerle teniendo en cuenta la informacin histrica disponible
acerca de los clientes que han comprado el primero.

5.5. NEGOCIOS
La minera de datos puede contribuir significativamente en las
aplicaciones de administracin empresarial basada en la relacin
con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a travs de un centro de llamadas o enviando cartas,
slo se contactar con aquellos que se perciba que tienen una mayor
probabilidad de responder positivamente a una determinada oferta o
promocin. Por lo general, las empresas que emplean minera de
datos ven rpidamente el retorno de la inversin, pero tambin
reconocen que el nmero de modelos predictivos desarrollados
puede crecer muy rpidamente.
En lugar de crear modelos para predecir qu clientes pueden
cambiar, la empresa podra construir modelos separados para cada
regin y/o para cada tipo de cliente. Tambin puede querer
determinar que clientes van a ser rentables durante una ventana de
tiempo (una quincena, un mes,...) y slo enviar las ofertas a las
personas que es probable que sean rentables. Para mantener esta
cantidad de modelos, es necesario gestionar las versiones de cada
modelo y pasar a una minera de datos lo ms automatizada posible.
5.5.1. Hbitos de compra en supermercados

22
El ejemplo clsico de aplicacin de la minera de datos tiene
que ver con la deteccin de hbitos de compra en
supermercados. Un estudio muy citado detect que los
viernes haba una cantidad inusualmente elevada de clientes
que adquiran a la vez paales y cerveza. Se detect que se
deba a que dicho da solan acudir al supermercado padres
jvenes cuya perspectiva para el fin de semana consista en
quedarse en casa cuidando de su hijo y viendo la televisin
con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a
los paales para fomentar las ventas compulsivas.

5.5.2. Patrones de fuga


Un ejemplo ms habitual es el de la deteccin de patrones de
fuga. En muchas industrias como la banca, las
telecomunicaciones, etc. existe un comprensible inters en
detectar cuanto antes aquellos clientes que puedan estar
pensando en rescindir sus contratos para, posiblemente,
pasarse a la competencia. A estos clientes y en funcin de su
valor se les podran hacer ofertas personalizadas, ofrecer
promociones especiales, etc., con el objetivo ltimo de
retenerlos. La minera de datos ayuda a determinar qu
clientes son los ms proclives a darse de baja estudiando sus
patrones de comportamiento y comparndolos con muestras
de clientes que, efectivamente, se dieron de baja en el
pasado.

5.5.3. Fraudes
Un caso anlogo es el de la deteccin de transacciones de
blanqueo de dinero o de fraude en el uso de tarjetas de crdito
o de servicios de telefona mvil e, incluso, en la relacin de
los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones
caractersticos que permiten, con cierto grado de

23
probabilidad, distinguirlas de las legtimas y desarrollar as
mecanismos para tomar medidas rpidas frente a ellas.

5.5.4. Recursos humanos


La minera de datos tambin puede ser til para los
departamentos de recursos humanos en la identificacin de
las caractersticas de sus empleados de mayor xito. La
informacin obtenida puede ayudar a la contratacin de
personal, centrndose en los esfuerzos de sus empleados y
los resultados obtenidos por stos. adems, la ayuda ofrecida
por las aplicaciones para direccin estratgica en una
empresa se traducen en la obtencin de ventajas a nivel
corporativo, tales como mejorar el margen de beneficios o
compartir objetivos; y en la mejora de las decisiones
operativas, tales como desarrollo de planes de produccin o
gestin de mano de obra.

5.6. TERRORISMO
La minera de datos ha sido citada como el mtodo por el cual la
unidad able danger del ejrcito de los EE.UU. haba identificado al
lder de los atentados del 11 de septiembre de 2001, mohammed
atta, y a otros tres secuestradores del "11-s" como posibles
miembros de una clula de al ALQEDA que operan en los EE.UU.
ms de un ao antes del ataque. Se ha sugerido que tanto la agencia
central de inteligencia y sus homloga canadiense, servicio de
inteligencia y seguridad canadiense, tambin han empleado este
mtodo.

5.7. JUEGOS
Desde comienzos de la dcada de 1960, con la disponibilidad de
orculos para determinados juegos combi nacionales, tambin
llamados finales de juego de tablero (por ejemplo, para las tres en
raya o en finales de ajedrez) con cualquier configuracin de inicio,
se ha abierto una nueva rea en la minera de datos que consiste en

24
la extraccin de estrategias utilizadas por personas para estos
orculos. Los planteamientos actuales sobre reconocimiento de
patrones, no parecen poder aplicarse con xito al funcionamiento de
estos orculos. En su lugar, la produccin de patrones perspicaces
se basa en una amplia experimentacin con bases de datos sobre
esos finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien diseados y con
conocimiento de la tcnica (datos previos sobre el final del juego).
Ejemplos notables de investigadores que trabajan en este campo
son berlekamp en el juego de puntos y cajas (o timbiriche) y john
nunn en finales de ajedrez.

5.8. CIENCIA E INGENIERA


En los ltimos aos la minera de datos se est utilizando
ampliamente en diversas reas relacionadas con la ciencia y la
ingeniera. Algunos ejemplos de aplicacin en estos campos son:

5.9. GENTICA
En el estudio de la gentica humana, el objetivo principal es entender
la relacin cartografa entre las partes y la variacin individual en las
secuencias del humano y la variabilidad en la susceptibilidad a las
enfermedades. En trminos ms llanos, se trata de saber cmo los
cambios en la secuencia de un individuo afectan al riesgo de
desarrollar enfermedades comunes (como por ejemplo el cncer).
Esto es muy importante para ayudar a mejorar el diagnstico,
prevencin y tratamiento de las enfermedades. La tcnica de minera
de datos que se utiliza para realizar esta tarea se conoce como
"reduccin de dimensional dad multifactorial".

5.10. INGENIERA ELCTRICA


En el mbito de la ingeniera elctrica, las tcnicas minera de datos
han sido ampliamente utilizadas para monitorizar las condiciones de las
instalaciones de alta tensin. La finalidad de esta monitorizacin es
obtener informacin valiosa sobre el estado del aislamiento de los

25
equipos. Para la vigilancia de las vibraciones o el anlisis de los
cambios de carga en transformadores se utilizan ciertas tcnicas para
agrupacin de datos tales como los mapas auto-organizativos. Estos
mapas sirven para detectar condiciones anormales y para estimar la
naturaleza de dichas anomalas.

6. MINERA DE DATOS Y OTRAS DISCIPLINAS ANLOGAS


Suscita cierta polmica el definir las fronteras existentes entre la minera de
datos y disciplinas anlogas, como pueden serlo la estadstica, la
inteligencia artificial, etc. Hay quienes sostienen que la minera de datos no
es sino estadstica envuelta en una jerga de negocios que la conviertan en
un producto vendible. Otros, en cambio, encuentran en ella una serie de
problemas y mtodos especficos que la hacen distinta de otras disciplinas.
El hecho es, que en la prctica la totalidad de los modelos y algoritmos de
uso general en minera de datos redes neuronales, rboles de regresin
y clasificacin, modelos logsticos, anlisis de componentes principales,
etc. gozan de una tradicin relativamente larga en otros campos.

6.1. DE LA ESTADSTICA
Ciertamente, la minera de datos bebe de la estadstica, de la que toma
las siguientes tcnicas:

Anlisis de varianza, mediante el cual se evala la existencia de


diferencias significativas entre las medias de una o ms variables
continas en poblaciones distintas.

Regresin: define la relacin entre una o ms variables y un conjunto


de variables predictoras de las primeras.
Prueba chi-cuadrado: por medio de la cual se realiza el contraste la
hiptesis de dependencia entre variables.

Anlisis de agrupamiento o clustering: permite la clasificacin de


una poblacin de individuos caracterizados por mltiples atributos

26
(binarios, cualitativos o cuantitativos) en un nmero determinado de
grupos, con base en las semejanzas o diferencias de los individuos.

Anlisis discriminante: permite la clasificacin de individuos en


grupos que previamente se han establecido, permite encontrar la regla
de clasificacin de los elementos de estos grupos, y por tanto una mejor
identificacin de cules son las variables que definan la pertenencia al
grupo.

Series de tiempo: permite el estudio de la evolucin de una variable a


travs del tiempo para poder realizar predicciones, a partir de ese
conocimiento y bajo el supuesto de que no van a producirse cambios
estructurales.

6.2. LA INFORMTICA
De la informtica toma las siguientes tcnicas:

Algoritmos genticos: Son mtodos numricos de optimizacin, en


los que aquella variable o variables que se pretenden optimizar junto
con las variables de estudio constituyen un segmento de informacin.
Aquellas configuraciones de las variables de anlisis que obtengan
mejores valores para la variable de respuesta, correspondern a
segmentos con mayor capacidad reproductiva. A travs de la
reproduccin, los mejores segmentos perduran y su proporcin crece
de generacin en generacin. Se puede adems introducir elementos
aleatorios para la modificacin de las variables (mutaciones). Al cabo
de cierto nmero de iteraciones, la poblacin estar constituida por
buenas soluciones al problema de optimizacin, pues las malas
soluciones han ido descartndose, iteracin tras iteracin.
Inteligencia Artificial: Mediante un sistema informtico que simula
un sistema inteligente, se procede al anlisis de los datos disponibles.
Entre los sistemas de Inteligencia Artificial se encuadraran los
Sistemas Expertos y las Redes Neuronales.

27
Sistemas Expertos: Son sistemas que han sido creados a partir de
reglas prcticas extradas del conocimiento de expertos.
Principalmente a base de inferencias o de causa-efecto.

Sistemas Inteligentes: Son similares a los sistemas expertos, pero


con mayor ventaja ante nuevas situaciones desconocidas para el
experto.

Redes neuronales: Genricamente, son mtodos de proceso


numrico en paralelo, en el que las variables interactan mediante
transformaciones lineales o no lineales, hasta obtener unas salidas.
Estas salidas se contrastan con los que tenan que haber salido,
basndose en unos datos de prueba, dando lugar a un proceso de
retroalimentacin mediante el cual la red se reconfigura, hasta obtener
un modelo adecuado.
Ejemplo
El ejemplo clsico aparte de algo rancio y, posiblemente, apcrifo
de aplicacin de la minera de datos tiene que ver con la deteccin de
hbitos de compra en supermercados. Un estudio muy citado detect
que los viernes haba una cantidad inusualmente elevada de clientes
que adquiran a la vez paales y cerveza. Se detect que se deba a
que dicho da solan acudir al supermercado padres jvenes cuya
perspectiva para el fin de semana consista en quedarse en casa
cuidando de su hijo y viendo la televisin con una cerveza en la mano.
El supermercado pudo incrementar sus ventas de cerveza
colocndolas prximas a los paales para fomentar las ventas
compulsivas.
Un ejemplo ms habitual es el de la deteccin de patrones de fuga.
En muchas industrias como la banca, las telecomunicaciones, etc.
existe un comprensible inters en detectar cuanto antes aquellos
clientes que puedan estar pensando en rescindir sus contratos para,
posiblemente, pasarse a la competencia. A estos clientes y en
funcin de su valor se les podran hacer ofertas personalizadas,
ofrecer promociones especiales, etc., con el objetivo ltimo de

28
retenerlos. La minera de datos ayuda a determinar qu clientes son
los ms proclives a darse de baja estudiando sus patrones de
comportamiento y comparndolos con muestras de clientes que,
efectivamente, se dieron de baja en el pasado.
Un caso anlogo es el de la deteccin de transacciones de blanqueo
de dinero o de fraude en el uso de tarjetas de crdito o de servicios
de telefona mvil e, incluso, en la relacin de los contribuyentes con
el fisco. Generalmente, estas operaciones fraudulentas o ilegales
suelen seguir patrones caractersticos que permiten, con cierto grado
de probabilidad, distinguirlas de las legtimas y desarrollar as
mecanismos para tomar medidas rpidas frente a ellas.
Tambin es un rea en boga el del anlisis del comportamiento de los
visitantes sobre todo, cuando son clientes potenciales en una
pgina de internet. O la utilizacin de la informacin obtenida por
medios ms o menos legtimos sobre ellos para ofrecerles
propaganda adaptada especficamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qu
otro ofrecerle teniendo en cuenta la informacin histrica disponible
acerca de los clientes que han comprado el primero

29
BIBLIOGRAFIA

[1] Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and OLAP.
USA, 1997.

[2] Mc Graw Hill Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining
and OLAP. USA, 1997.

[3] Mara Jos Ramrez Quintana Jos Hernndez Orallo. Extraccin Automtica
de Conocimiento en Bases de Datos e Ingeniera del Software. Espaa, 2003.

FUENTES

1. MINERIA DE DATOS [Consultado 13 de diciembre del 2015]


http://helvia.uco.es/xmlui/bitstream/handle/10396/6657/braco1
41_2001_8.pdf?sequence=1
http://exa.unne.edu.ar/informatica/SO/IM_2006.pdf
http://www.it.uc3m.es/jvillena/irc/practicas/06-07/22.pdf

2. MINERIA DE DATOS Y OTRAS DISCIPLINAS (Consultados 13


diciembre 2015)

https://marquina88.wordpress.com/2012/06/06/mineria-de-datos

http://wiki.abogadourbanista.com/index.php?title=Data_mining

30

También podría gustarte