Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La minería de datos o exploración de datos (es la eta- luego pueden ser utilizados para obtener resultados más
pa de análisis de “Knowledge Discovery in Databases” o precisos de predicción por un sistema de soporte de deci-
KDD) es un campo de las ciencias de la computación re- siones. Ni la recolección de datos, preparación de datos,
ferido al proceso que intenta descubrir patrones en gran- ni la interpretación de los resultados y la información son
des volúmenes de conjuntos de datos.[1] Utiliza los mé- parte de la etapa de minería de datos, pero que pertene-
todos de la inteligencia artificial, aprendizaje automático, cen a todo el proceso KDD como pasos adicionales.
estadística y sistemas de bases de datos. El objetivo gene-
Los términos relacionados con la obtención de datos, la
ral del proceso de minería de datos consiste en extraer in- pesca de datos y espionaje de los datos se refieren a la
formación de un conjunto de datos y transformarla en una utilización de métodos de minería de datos a las partes
estructura comprensible para su uso posterior. Además de de la muestra de un conjunto de datos de población más
la etapa de análisis en bruto, que involucra aspectos de ba- grandes establecidas que son (o pueden ser) demasiado
ses de datos y de gestión de datos, de procesamiento de pequeñas para las inferencias estadísticas fiables que se
datos, del modelo y de las consideraciones de inferencia, hizo acerca de la validez de cualquier patrón descubierto.
de métricas de Intereses, de consideraciones de la Teoría Estos métodos pueden, sin embargo, ser utilizados en la
de la complejidad computacional, de post-procesamiento creación de nuevas hipótesis que se prueban contra po-
de las estructuras descubiertas, de la visualización y de la blaciones de datos más grandes.
actualización en línea.
El término es una palabra de moda, y es frecuentemente
mal utilizado para referirse a cualquier forma de datos a 1 Proceso
gran escala o procesamiento de la información (recolec-
ción, extracción, almacenamiento, análisis y estadísticas),
Un proceso típico de minería de datos consta de los si-
pero también se ha generalizado a cualquier tipo de sis-
guientes pasos generales:
tema de apoyo informático decisión, incluyendo la inteli-
gencia artificial, aprendizaje automático y la inteligencia
empresarial. En el uso de la palabra, el término clave es el 1. Selección del conjunto de datos, tanto en lo que se
descubrimiento, comúnmente se define como “la detec- refiere a las variables objetivo (aquellas que se quie-
ción de algo nuevo”. Incluso el popular libro “La minería re predecir, calcular o inferir), como a las variables
de datos: sistema de prácticas herramientas de aprendi- independientes (las que sirven para hacer el cálculo
zaje y técnicas con Java” (que cubre todo el material de o proceso), como posiblemente al muestreo de los
aprendizaje automático) originalmente iba a ser llama- registros disponibles.
do simplemente “la máquina de aprendizaje práctico”, y 2. Análisis de las propiedades de los datos, en espe-
el término “minería de datos” se añadió por razones de cial los histogramas, diagramas de dispersión, pre-
marketing. A menudo, los términos más generales "(gran sencia de valores atípicos y ausencia de datos (valo-
escala) el análisis de datos”, o “análisis” −. o cuando se res nulos).
refiere a los métodos actuales, la inteligencia artificial y
aprendizaje automático, son más apropiados. 3. Transformación del conjunto de datos de entra-
da, se realizará de diversas formas en función del
La tarea de minería de datos real es el análisis automá-
análisis previo, con el objetivo de prepararlo para
tico o semi-automático de grandes cantidades de datos
aplicar la técnica de minería de datos que mejor se
para extraer patrones interesantes hasta ahora desconoci-
adapte a los datos y al problema, a este paso también
dos, como los grupos de registros de datos (análisis clús-
se le conoce como preprocesamiento de los datos.
ter), registros poco usuales (la detección de anomalías)
y dependencias (minería por reglas de asociación). Esto 4. Seleccionar y aplicar la técnica de minería de da-
generalmente implica el uso de técnicas de bases de da- tos, se construye el modelo predictivo, de clasifica-
tos como los índices espaciales. Estos patrones pueden ción o segmentación.
entonces ser vistos como una especie de resumen de los
datos de entrada, y pueden ser utilizados en el análisis 5. Extracción de conocimiento, mediante una técni-
adicional o, por ejemplo, en la máquina de aprendizaje ca de minería de datos, se obtiene un modelo de
y análisis predictivo. Por ejemplo, el paso de minería de conocimiento, que representa patrones de compor-
datos podría identificar varios grupos en los datos, que tamiento observados en los valores de las variables
del problema o relaciones de asociación entre dichas
1
2 3 TÉCNICAS DE MINERÍA DE DATOS
variables. También pueden usarse varias técnicas a • Determinación, obtención y limpieza: de los datos
la vez para generar distintos modelos, aunque ge- necesarios.
neralmente cada técnica obliga a un preprocesado
diferente de los datos. • Creación de modelos matemáticos.
6. Interpretación y evaluación de datos, una vez ob- • Validación, comunicación: de los resultados obteni-
tenido el modelo, se debe proceder a su validación dos.
comprobando que las conclusiones que arroja son • Integración: si procede, de los resultados en un sis-
válidas y suficientemente satisfactorias. En el caso tema transaccional o similar.
de haber obtenido varios modelos mediante el uso
de distintas técnicas, se deben comparar los mode-
La relación entre todas estas fases sólo es lineal sobre el
los en busca de aquel que se ajuste mejor al proble-
papel. En realidad, es mucho más compleja y esconde to-
ma. Si ninguno de los modelos alcanza los resultados
da una jerarquía de subfases. A través de la experiencia
esperados, debe alterarse alguno de los pasos ante-
acumulada en proyectos de minería de datos se han ido
riores para generar nuevos modelos.
desarrollando metodologías que permiten gestionar esta
complejidad de una manera más o menos uniforme.
Si el modelo final no superara esta evaluación el proce-
so se podría repetir desde el principio o, si el experto lo
considera oportuno, a partir de cualquiera de los pasos
anteriores. Esta retroalimentación se podrá repetir cuan- 3 Técnicas de minería de datos
tas veces se considere necesario hasta obtener un modelo
válido. Como ya se ha comentado, las técnicas de la minería
de datos provienen de la inteligencia artificial y de la
Una vez validado el modelo, si resulta ser aceptable (pro-
estadística, dichas técnicas, no son más que algoritmos,
porciona salidas adecuadas y/o con márgenes de error
más o menos sofisticados que se aplican sobre un con-
admisibles) éste ya está listo para su explotación. Los
junto de datos para obtener unos resultados.
modelos obtenidos por técnicas de minería de datos se
aplican incorporándolos en los sistemas de análisis de in- Las técnicas más representativas son:
formación de las organizaciones, e incluso, en los siste-
mas transaccionales. En este sentido cabe destacar los es- • Redes neuronales.- Son un paradigma de
fuerzos del Data Mining Group, que está estandarizando aprendizaje y procesamiento automático inspirado
el lenguaje PMML (Predictive Model Markup Langua- en la forma en que funciona el sistema nervioso
ge), de manera que los modelos de minería de datos sean de los animales. Se trata de un sistema de interco-
interoperables en distintas plataformas, con independen- nexión de neuronas en una red que colabora para
cia del sistema con el que han sido construidos. Los prin- producir un estímulo de salida. Algunos ejemplos
cipales fabricantes de sistemas de bases de datos y pro- de red neuronal son:
gramas de análisis de la información hacen uso de este
estándar. • El perceptrón.
• El perceptrón multicapa.
Tradicionalmente, las técnicas de minería de datos se
aplicaban sobre información contenida en almacenes de • Los mapas autoorganizados, también conoci-
datos. De hecho, muchas grandes empresas e institucio- dos como redes de Kohonen.
nes han creado y alimentan bases de datos especialmente
diseñadas para proyectos de minería de datos en las que • Regresión lineal.- Es la más utilizada para formar
centralizan información potencialmente útil de todas sus relaciones entre datos. Rápida y eficaz pero insufi-
áreas de negocio. No obstante, actualmente está cobran- ciente en espacios multidimensionales donde pue-
do una importancia cada vez mayor la minería de datos dan relacionarse más de 2 variables.
desestructurados como información contenida en fiche-
ros de texto, en Internet, etc. • Árboles de decisión.- Un árbol de decisión es un
modelo de predicción utilizado en el ámbito de la
inteligencia artificial y el análisis predictivo, dada
2 Protocolo de un proyecto de mi- una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas
nería de datos de predicción basados en reglas, que sirven para re-
presentar y categorizar una serie de condiciones que
Un proyecto de minería de datos tiene varias fases ne- suceden de forma sucesiva, para la resolución de un
cesarias que son, esencialmente: problema. Ejemplos:
• Modelos estadísticos.- Es una expresión simbólica mantener esta cantidad de modelos, es necesario gestio-
en forma de igualdad o ecuación que se emplea en nar las versiones de cada modelo y pasar a una minería
todos los diseños experimentales y en la regresión de datos lo más automatizada posible.
para indicar los diferentes factores que modifican la En un entorno tan cambiante donde el volúmenes de da-
variable de respuesta. tos medibles crece exponencialmente gracias al marke-
ting digital [2] , “las esperas producidas por dependencias
• Agrupamiento o Clustering.- Es un procedimiento de departamentos técnicos y los expertos estadistas con-
de agrupación de una serie de vectores según crite- siguen que finalmente los resultados de los análisis sean
rios habitualmente de distancia; se tratará de dispo- inservibles” a los usuarios de negocio y decisores [3] . Esto
ner los vectores de entrada de forma que estén más explica que los proveedores de herramientas de minería
cercanos aquellos que tengan características comu- de datos estén trabajando en aplicaciones más fáciles de
nes. Ejemplos: utilizar en lo que se conoce como minería de datos visual
[4]
y la demanda de empleo de este tipo de usuario ana-
• Algoritmo K-means.
lista de negocio se esté disparando en los últimos años.
• Algoritmo K-medoids. Según Gartner es previsible que durante 2016-2017 sólo
haya “profesionales cualificados para cubrir una tercera
• Reglas de asociación.- Se utilizan para descubrir parte de los puestos”[5] .
hechos que ocurren en común dentro de un deter-
minado conjunto de datos.
4.1.1 Análisis de la cesta de la compra
Según el objetivo del análisis de los datos, los algoritmos El ejemplo clásico de aplicación de la minería de datos
utilizados se clasifican en supervisados y no supervisados tiene que ver con la detección de hábitos de compra en
(Weiss y Indurkhya, 1998): supermercados. Un estudio muy citado detectó que los
viernes había una cantidad inusualmente elevada de clien-
• Algoritmos supervisados (o predictivos): predicen tes que adquirían a la vez pañales y cerveza. Se detectó
un dato (o un conjunto de ellos) desconocido a prio- que se debía a que dicho día solían acudir al supermerca-
ri, a partir de otros conocidos. do padres jóvenes cuya perspectiva para el fin de semana
consistía en quedarse en casa cuidando de su hijo y viendo
• Algoritmos no supervisados (o del descubrimiento la televisión con una cerveza en la mano. El supermerca-
del conocimiento): se descubren patrones y tenden- do pudo incrementar sus ventas de cerveza colocándolas
cias en los datos. próximas a los pañales para fomentar las ventas compul-
sivas.
patrones característicos que permiten, con cierto grado Los planteamientos actuales sobre reconocimiento de pa-
de probabilidad, distinguirlas de las legítimas y desarro-trones, no parecen poder aplicarse con éxito al funciona-
llar así mecanismos para tomar medidas rápidas frente a miento de estos oráculos. En su lugar, la producción de
ellas. patrones perspicaces se basa en una amplia experimen-
tación con bases de datos sobre esos finales de juego,
combinado con un estudio intensivo de los propios finales
4.1.4 Recursos humanos de juego en problemas bien diseñados y con conocimien-
to de la técnica (datos previos sobre el final del juego).
La minería de datos también puede ser útil para los de- Ejemplos notables de investigadores que trabajan en este
partamentos de recursos humanos en la identificación de campo son Berlekamp en el juego de puntos-y-cajas (o
las características de sus empleados de mayor éxito. La Timbiriche) y John Nunn en finales de ajedrez.
información obtenida puede ayudar a la contratación de
personal, centrándose en los esfuerzos de sus empleados
y los resultados obtenidos por éstos. Además, la ayuda 4.5 Ciencia e Ingeniería
ofrecida por las aplicaciones para Dirección estratégi-
ca en una empresa se traducen en la obtención de ven- En los últimos años la minería de datos se está utilizando
tajas a nivel corporativo, tales como mejorar el margen ampliamente en diversas áreas relacionadas con la ciencia
de beneficios o compartir objetivos; y en la mejora de las y la ingeniería. Algunos ejemplos de aplicación en estos
decisiones operativas, tales como desarrollo de planes de campos son:
producción o gestión de mano de obra.
4.5.1 Genética
4.2 Comportamiento en Internet
En el estudio de la genética humana, el objetivo principal
También es un área en boga el del análisis del comporta- es entender la relación cartográfica entre las partes y la
miento de los visitantes —sobre todo, cuando son clientes variación individual en las secuencias del ADN humano
potenciales— en una página de Internet. O la utilización y la variabilidad en la susceptibilidad a las enfermedades.
de la información —obtenida por medios más o menos En términos más llanos, se trata de saber cómo los cam-
legítimos— sobre ellos para ofrecerles propaganda adap- bios en la secuencia de ADN de un individuo afectan al
tada específicamente a su perfil. O para, una vez que ad- riesgo de desarrollar enfermedades comunes (como por
quieren un determinado producto, saber inmediatamente ejemplo el cáncer). Esto es muy importante para ayudar
qué otro ofrecerle teniendo en cuenta la información his- a mejorar el diagnóstico, prevención y tratamiento de las
tórica disponible acerca de los clientes que han comprado enfermedades. La técnica de minería de datos que se uti-
el primero. liza para realizar esta tarea se conoce como "reducción de
dimensionalidad multifactorial".[7]
• Reglas de asociación
• Web mining
• Weka (aprendizaje automático)
10 Referencias
[1] Oded Maimon and Lior Rokach (2010). Data Mining and
Knowledge Discovery Handbook. Springer, New York.
ISBN 978-0-387-09823-4.
11 Enlaces externos
• Programa de Minería de Datos, University of Cen-
tral Florida
• Proyecto Medical Miner. Integración de minería de
texto y de datos en biomedicina
• Daia Intelligent Solutions
12.2 Imágenes
• Archivo:Mergefrom.svg Fuente: https://upload.wikimedia.org/wikipedia/commons/0/0f/Mergefrom.svg Licencia: Public domain Cola-
boradores: ? Artista original: ?