Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de
conjuntos
de
datos.1 Utiliza
los
mtodos
de
la inteligencia
de
la
complejidad
computacional,
de
post-procesamiento
de
las
minera de datos, pero que pertenecen a todo el proceso KDD como pasos
adicionales.
Los trminos relacionados con la obtencin de datos, la pesca de datos y espionaje
de los datos se refieren a la utilizacin de mtodos de minera de datos a las partes
de la muestra de un conjunto de datos de poblacin ms grandes establecidas que
son (o pueden ser) demasiado pequeas para las inferencias estadsticas fiables
que se hizo acerca de la validez de cualquier patrn descubierto. Estos mtodos
pueden, sin embargo, ser utilizados en la creacin de nuevas hiptesis que se
prueban contra poblaciones de datos ms grandes.
Proceso[editar]
Un proceso tpico de minera de datos consta de los siguientes pasos generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las
variables objetivo (aquellas que se quiere predecir, calcular o inferir),
como a las variables independientes (las que sirven para hacer el clculo
o proceso), como posiblemente al muestreo de los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial
los histogramas, diagramas de dispersin, presencia de valores
atpicos y ausencia de datos (valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de
diversas formas en funcin del anlisis previo, con el objetivo de
prepararlo para aplicar la tcnica de minera de datos que mejor se
adapte a los datos y al problema, a este paso tambin se le conoce
como preprocesamiento de los datos.
4. Seleccionar y aplicar la tcnica de minera de datos, se construye
el modelo predictivo, de clasificacin o segmentacin.
5. Extraccin de conocimiento, mediante una tcnica de minera de
datos, se obtiene un modelo de conocimiento, que representa patrones
de comportamiento observados en los valores de las variables del
problema o relaciones de asociacin entre dichas variables. Tambin
pueden usarse varias tcnicas a la vez para generar distintos modelos,
aunque generalmente cada tcnica obliga a un preprocesado diferente
de los datos.
6. Interpretacin y evaluacin de datos, una vez obtenido el modelo,
se debe proceder a su validacin comprobando que las conclusiones que
La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es
mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la
experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de una
manera ms o menos uniforme.
El perceptrn.
El perceptrn multicapa.
Algoritmo ID3.
Algoritmo C4.5.
Algoritmo K-means.
Algoritmo K-medoids.
Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren
Negocios[editar]
La minera de datos puede contribuir significativamente en las aplicaciones
de administracin empresarial basada en la relacin con el cliente. En lugar de contactar
con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando emails, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad
de responder positivamente a una determinada oferta o promocin.
Las empresas que emplean minera de datos ven habitualmente el retorno de la inversin,
pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer
muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar,
la empresa podra construir modelos separados para cada regin y/o para cada tipo de
cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una
ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que
es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario
gestionar las versiones de cada modelo y pasar a una minera de datos lo ms
automatizada posible.
En un entorno tan cambiante donde el volmenes de datos medibles crece
exponencialmente gracias al marketing digital 2 , "las esperas producidas por
dependencias de departamentos tcnicos y los expertos estadistas consiguen que
finalmente los resultados de los anlisis sean inservibles" a los usuarios de negocio y
decisores 3 . Esto explica que los proveedores de herramientas de minera de datos estn
trabajando en aplicaciones ms fciles de utilizar en lo que se conoce como minera de
datos visual 4 y la demanda de empleo de este tipo de usuario analista de negocio se est
disparando en los ltimos aos. Segn Gartner es previsible que durante 2016-2017 slo
haya "profesionales cualificados para cubrir una tercera parte de los puestos" 5 .
Anlisis de la cesta de la compra[editar]
El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin
de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes
haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y
cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres
jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando
de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las
ventas compulsivas.
Patrones de fuga[editar]
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias
como la banca, las telecomunicaciones, etc. existe un comprensible inters en
detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus
contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de
su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales,
etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu
clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento
y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el
pasado.
Fraudes[editar]
Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o
de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la
relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas
o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de
probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar
medidas rpidas frente a ellas.
Recursos humanos[editar]
La minera de datos tambin puede ser til para los departamentos de recursos
humanos en la identificacin de las caractersticas de sus empleados de mayor xito. La
informacin obtenida puede ayudar a la contratacin de personal, centrndose en los
esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda
ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en
la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o
compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de
planes de produccin o gestin de mano de obra.
Comportamiento en Internet[editar]
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre
todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la
informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles
propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un
determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la
informacin histrica disponible acerca de los clientes que han comprado el primero.
Terrorismo[editar]
La minera de datos ha sido citada como el mtodo por el cual la unidad Able Danger del
Ejrcito de los EE. UU. haba identificado al lder de los atentados del 11 de septiembre de
2001,Mohammed Atta, y a otros tres secuestradores del "11-S" como posibles miembros
de una clula de Al Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se
ha sugerido que tanto la Agencia Central de Inteligencia y su homloga
canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin han empleado este
mtodo.6
Juegos[editar]
Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para
determinados juegos combinacionales, tambin llamados finales de juego de tablero (por
ejemplo, para lastres en raya o en finales de ajedrez) con cualquier configuracin de inicio,
se ha abierto una nueva rea en la minera de datos que consiste en la extraccin de
estrategias utilizadas por personas para estos orculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con xito al funcionamiento
de estos orculos. En su lugar, la produccin de patrones perspicaces se basa en una
amplia experimentacin con bases de datos sobre esos finales de juego, combinado con
un estudio intensivo de los propios finales de juego en problemas bien diseados y con
conocimiento de la tcnica (datos previos sobre el final del juego). Ejemplos notables de
investigadores que trabajan en este campo son Berlekampen el juego de puntos-ycajas (o Timbiriche) y John Nunn en finales de ajedrez.
Ciencia e Ingeniera[editar]
En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas
relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos
campos son:
Gentica[editar]
En el estudio de la gentica humana, el objetivo principal es entender la
relacin cartogrfica entre las partes y la variacin individual en las secuencias
del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos
ms llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo
afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cncer).
Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y tratamiento de
las enfermedades. La tcnica de minera de datos que se utiliza para realizar esta tarea se
conoce como "reduccin de dimensionalidad multifactorial".7
Ingeniera elctrica[editar]
En el mbito de la ingeniera elctrica, las tcnicas de minera de datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta
tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado
del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los
cambios de carga en transformadores se utilizan ciertas tcnicas para agrupacin de
datos (clustering) tales como los mapas auto-organizativos (SOM: Self-organizing map).
Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de
dichas anomalas.8
Anlisis de gases[editar]
Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases
disueltos (DGA: Dissolved gas analysis) en transformadores elctricos. El anlisis de
gases disueltos se conoce desde hace mucho tiempo como la herramienta para
diagnosticar transformadores. Los mapas auto-organizativos (SOM) se utilizan para
analizar datos y determinar tendencias que podran pasarse por alto utilizando las tcnicas
clsicas (DGA).