Está en la página 1de 8

Minería de datos

La minería de datos o exploración de datos (es la eta- luego pueden ser utilizados para obtener resultados más
pa de análisis de “Knowledge Discovery in Databases” o precisos de predicción por un sistema de soporte de deci-
KDD) es un campo de las ciencias de la computación re- siones. Ni la recolección de datos, preparación de datos,
ferido al proceso que intenta descubrir patrones en gran- ni la interpretación de los resultados y la información son
des volúmenes de conjuntos de datos.[1] Utiliza los mé- parte de la etapa de minería de datos, pero que pertene-
todos de la inteligencia artificial, aprendizaje automático, cen a todo el proceso KDD como pasos adicionales.
estadística y sistemas de bases de datos. El objetivo gene-
Los términos relacionados con la obtención de datos, la
ral del proceso de minería de datos consiste en extraer in- pesca de datos y espionaje de los datos se refieren a la
formación de un conjunto de datos y transformarla en una utilización de métodos de minería de datos a las partes
estructura comprensible para su uso posterior. Además de de la muestra de un conjunto de datos de población más
la etapa de análisis en bruto, que involucra aspectos de ba- grandes establecidas que son (o pueden ser) demasiado
ses de datos y de gestión de datos, de procesamiento de pequeñas para las inferencias estadísticas fiables que se
datos, del modelo y de las consideraciones de inferencia, hizo acerca de la validez de cualquier patrón descubierto.
de métricas de Intereses, de consideraciones de la Teoría Estos métodos pueden, sin embargo, ser utilizados en la
de la complejidad computacional, de post-procesamiento creación de nuevas hipótesis que se prueban contra po-
de las estructuras descubiertas, de la visualización y de la blaciones de datos más grandes.
actualización en línea.
El término es una palabra de moda, y es frecuentemente
mal utilizado para referirse a cualquier forma de datos a 1 Proceso
gran escala o procesamiento de la información (recolec-
ción, extracción, almacenamiento, análisis y estadísticas),
Un proceso típico de minería de datos consta de los si-
pero también se ha generalizado a cualquier tipo de sis-
guientes pasos generales:
tema de apoyo informático decisión, incluyendo la inteli-
gencia artificial, aprendizaje automático y la inteligencia
empresarial. En el uso de la palabra, el término clave es el 1. Selección del conjunto de datos, tanto en lo que se
descubrimiento, comúnmente se define como “la detec- refiere a las variables objetivo (aquellas que se quie-
ción de algo nuevo”. Incluso el popular libro “La minería re predecir, calcular o inferir), como a las variables
de datos: sistema de prácticas herramientas de aprendi- independientes (las que sirven para hacer el cálculo
zaje y técnicas con Java” (que cubre todo el material de o proceso), como posiblemente al muestreo de los
aprendizaje automático) originalmente iba a ser llama- registros disponibles.
do simplemente “la máquina de aprendizaje práctico”, y 2. Análisis de las propiedades de los datos, en espe-
el término “minería de datos” se añadió por razones de cial los histogramas, diagramas de dispersión, pre-
marketing. A menudo, los términos más generales "(gran sencia de valores atípicos y ausencia de datos (valo-
escala) el análisis de datos”, o “análisis” −. o cuando se res nulos).
refiere a los métodos actuales, la inteligencia artificial y
aprendizaje automático, son más apropiados. 3. Transformación del conjunto de datos de entra-
da, se realizará de diversas formas en función del
La tarea de minería de datos real es el análisis automá-
análisis previo, con el objetivo de prepararlo para
tico o semi-automático de grandes cantidades de datos
aplicar la técnica de minería de datos que mejor se
para extraer patrones interesantes hasta ahora desconoci-
adapte a los datos y al problema, a este paso también
dos, como los grupos de registros de datos (análisis clús-
se le conoce como preprocesamiento de los datos.
ter), registros poco usuales (la detección de anomalías)
y dependencias (minería por reglas de asociación). Esto 4. Seleccionar y aplicar la técnica de minería de da-
generalmente implica el uso de técnicas de bases de da- tos, se construye el modelo predictivo, de clasifica-
tos como los índices espaciales. Estos patrones pueden ción o segmentación.
entonces ser vistos como una especie de resumen de los
datos de entrada, y pueden ser utilizados en el análisis 5. Extracción de conocimiento, mediante una técni-
adicional o, por ejemplo, en la máquina de aprendizaje ca de minería de datos, se obtiene un modelo de
y análisis predictivo. Por ejemplo, el paso de minería de conocimiento, que representa patrones de compor-
datos podría identificar varios grupos en los datos, que tamiento observados en los valores de las variables
del problema o relaciones de asociación entre dichas

1
2 3 TÉCNICAS DE MINERÍA DE DATOS

variables. También pueden usarse varias técnicas a • Determinación, obtención y limpieza: de los datos
la vez para generar distintos modelos, aunque ge- necesarios.
neralmente cada técnica obliga a un preprocesado
diferente de los datos. • Creación de modelos matemáticos.

6. Interpretación y evaluación de datos, una vez ob- • Validación, comunicación: de los resultados obteni-
tenido el modelo, se debe proceder a su validación dos.
comprobando que las conclusiones que arroja son • Integración: si procede, de los resultados en un sis-
válidas y suficientemente satisfactorias. En el caso tema transaccional o similar.
de haber obtenido varios modelos mediante el uso
de distintas técnicas, se deben comparar los mode-
La relación entre todas estas fases sólo es lineal sobre el
los en busca de aquel que se ajuste mejor al proble-
papel. En realidad, es mucho más compleja y esconde to-
ma. Si ninguno de los modelos alcanza los resultados
da una jerarquía de subfases. A través de la experiencia
esperados, debe alterarse alguno de los pasos ante-
acumulada en proyectos de minería de datos se han ido
riores para generar nuevos modelos.
desarrollando metodologías que permiten gestionar esta
complejidad de una manera más o menos uniforme.
Si el modelo final no superara esta evaluación el proce-
so se podría repetir desde el principio o, si el experto lo
considera oportuno, a partir de cualquiera de los pasos
anteriores. Esta retroalimentación se podrá repetir cuan- 3 Técnicas de minería de datos
tas veces se considere necesario hasta obtener un modelo
válido. Como ya se ha comentado, las técnicas de la minería
de datos provienen de la inteligencia artificial y de la
Una vez validado el modelo, si resulta ser aceptable (pro-
estadística, dichas técnicas, no son más que algoritmos,
porciona salidas adecuadas y/o con márgenes de error
más o menos sofisticados que se aplican sobre un con-
admisibles) éste ya está listo para su explotación. Los
junto de datos para obtener unos resultados.
modelos obtenidos por técnicas de minería de datos se
aplican incorporándolos en los sistemas de análisis de in- Las técnicas más representativas son:
formación de las organizaciones, e incluso, en los siste-
mas transaccionales. En este sentido cabe destacar los es- • Redes neuronales.- Son un paradigma de
fuerzos del Data Mining Group, que está estandarizando aprendizaje y procesamiento automático inspirado
el lenguaje PMML (Predictive Model Markup Langua- en la forma en que funciona el sistema nervioso
ge), de manera que los modelos de minería de datos sean de los animales. Se trata de un sistema de interco-
interoperables en distintas plataformas, con independen- nexión de neuronas en una red que colabora para
cia del sistema con el que han sido construidos. Los prin- producir un estímulo de salida. Algunos ejemplos
cipales fabricantes de sistemas de bases de datos y pro- de red neuronal son:
gramas de análisis de la información hacen uso de este
estándar. • El perceptrón.
• El perceptrón multicapa.
Tradicionalmente, las técnicas de minería de datos se
aplicaban sobre información contenida en almacenes de • Los mapas autoorganizados, también conoci-
datos. De hecho, muchas grandes empresas e institucio- dos como redes de Kohonen.
nes han creado y alimentan bases de datos especialmente
diseñadas para proyectos de minería de datos en las que • Regresión lineal.- Es la más utilizada para formar
centralizan información potencialmente útil de todas sus relaciones entre datos. Rápida y eficaz pero insufi-
áreas de negocio. No obstante, actualmente está cobran- ciente en espacios multidimensionales donde pue-
do una importancia cada vez mayor la minería de datos dan relacionarse más de 2 variables.
desestructurados como información contenida en fiche-
ros de texto, en Internet, etc. • Árboles de decisión.- Un árbol de decisión es un
modelo de predicción utilizado en el ámbito de la
inteligencia artificial y el análisis predictivo, dada
2 Protocolo de un proyecto de mi- una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas
nería de datos de predicción basados en reglas, que sirven para re-
presentar y categorizar una serie de condiciones que
Un proyecto de minería de datos tiene varias fases ne- suceden de forma sucesiva, para la resolución de un
cesarias que son, esencialmente: problema. Ejemplos:

• Comprensión: del negocio y del problema que se • Algoritmo ID3.


quiere resolver. • Algoritmo C4.5.
4.1 Negocios 3

• Modelos estadísticos.- Es una expresión simbólica mantener esta cantidad de modelos, es necesario gestio-
en forma de igualdad o ecuación que se emplea en nar las versiones de cada modelo y pasar a una minería
todos los diseños experimentales y en la regresión de datos lo más automatizada posible.
para indicar los diferentes factores que modifican la En un entorno tan cambiante donde el volúmenes de da-
variable de respuesta. tos medibles crece exponencialmente gracias al marke-
ting digital [2] , “las esperas producidas por dependencias
• Agrupamiento o Clustering.- Es un procedimiento de departamentos técnicos y los expertos estadistas con-
de agrupación de una serie de vectores según crite- siguen que finalmente los resultados de los análisis sean
rios habitualmente de distancia; se tratará de dispo- inservibles” a los usuarios de negocio y decisores [3] . Esto
ner los vectores de entrada de forma que estén más explica que los proveedores de herramientas de minería
cercanos aquellos que tengan características comu- de datos estén trabajando en aplicaciones más fáciles de
nes. Ejemplos: utilizar en lo que se conoce como minería de datos visual
[4]
y la demanda de empleo de este tipo de usuario ana-
• Algoritmo K-means.
lista de negocio se esté disparando en los últimos años.
• Algoritmo K-medoids. Según Gartner es previsible que durante 2016-2017 sólo
haya “profesionales cualificados para cubrir una tercera
• Reglas de asociación.- Se utilizan para descubrir parte de los puestos”[5] .
hechos que ocurren en común dentro de un deter-
minado conjunto de datos.
4.1.1 Análisis de la cesta de la compra

Según el objetivo del análisis de los datos, los algoritmos El ejemplo clásico de aplicación de la minería de datos
utilizados se clasifican en supervisados y no supervisados tiene que ver con la detección de hábitos de compra en
(Weiss y Indurkhya, 1998): supermercados. Un estudio muy citado detectó que los
viernes había una cantidad inusualmente elevada de clien-
• Algoritmos supervisados (o predictivos): predicen tes que adquirían a la vez pañales y cerveza. Se detectó
un dato (o un conjunto de ellos) desconocido a prio- que se debía a que dicho día solían acudir al supermerca-
ri, a partir de otros conocidos. do padres jóvenes cuya perspectiva para el fin de semana
consistía en quedarse en casa cuidando de su hijo y viendo
• Algoritmos no supervisados (o del descubrimiento la televisión con una cerveza en la mano. El supermerca-
del conocimiento): se descubren patrones y tenden- do pudo incrementar sus ventas de cerveza colocándolas
cias en los datos. próximas a los pañales para fomentar las ventas compul-
sivas.

4 Ejemplos de uso de la minería de


4.1.2 Patrones de fuga
datos
Un ejemplo más habitual es el de la detección de patro-
4.1 Negocios nes de fuga. En muchas industrias —como la banca, las
telecomunicaciones, etc.— existe un comprensible inte-
La minería de datos puede contribuir significativamente rés en detectar cuanto antes aquellos clientes que puedan
en las aplicaciones de administración empresarial basada estar pensando en rescindir sus contratos para, posible-
en la relación con el cliente. En lugar de contactar con mente, pasarse a la competencia. A estos clientes —y en
el cliente de forma indiscriminada a través de un centro función de su valor— se les podrían hacer ofertas per-
de llamadas o enviando e-mails, sólo se contactará con sonalizadas, ofrecer promociones especiales, etc., con el
aquellos que se perciba que tienen una mayor probabili- objetivo último de retenerlos. La minería de datos ayuda
dad de responder positivamente a una determinada oferta a determinar qué clientes son los más proclives a darse de
o promoción. baja estudiando sus patrones de comportamiento y com-
parándolos con muestras de clientes que, efectivamente,
Las empresas que emplean minería de datos ven habitual- se dieron de baja en el pasado.
mente el retorno de la inversión, pero también reconocen
que el número de modelos predictivos desarrollados pue-
de crecer muy rápidamente. En lugar de crear modelos 4.1.3 Fraudes
para predecir qué clientes pueden cambiar, la empresa
podría construir modelos separados para cada región y/o Un caso análogo es el de la detección de transacciones
para cada tipo de cliente. También puede querer determi- de lavado de dinero o de fraude en el uso de tarjetas de
nar qué clientes van a ser rentables durante una ventana de crédito o de servicios de telefonía móvil e, incluso, en la
tiempo (una quincena, un mes, ...) y sólo enviar las ofer- relación de los contribuyentes con el fisco. Generalmen-
tas a las personas que es probable que sean rentables. Para te, estas operaciones fraudulentas o ilegales suelen seguir
4 4 EJEMPLOS DE USO DE LA MINERÍA DE DATOS

patrones característicos que permiten, con cierto grado Los planteamientos actuales sobre reconocimiento de pa-
de probabilidad, distinguirlas de las legítimas y desarro-trones, no parecen poder aplicarse con éxito al funciona-
llar así mecanismos para tomar medidas rápidas frente a miento de estos oráculos. En su lugar, la producción de
ellas. patrones perspicaces se basa en una amplia experimen-
tación con bases de datos sobre esos finales de juego,
combinado con un estudio intensivo de los propios finales
4.1.4 Recursos humanos de juego en problemas bien diseñados y con conocimien-
to de la técnica (datos previos sobre el final del juego).
La minería de datos también puede ser útil para los de- Ejemplos notables de investigadores que trabajan en este
partamentos de recursos humanos en la identificación de campo son Berlekamp en el juego de puntos-y-cajas (o
las características de sus empleados de mayor éxito. La Timbiriche) y John Nunn en finales de ajedrez.
información obtenida puede ayudar a la contratación de
personal, centrándose en los esfuerzos de sus empleados
y los resultados obtenidos por éstos. Además, la ayuda 4.5 Ciencia e Ingeniería
ofrecida por las aplicaciones para Dirección estratégi-
ca en una empresa se traducen en la obtención de ven- En los últimos años la minería de datos se está utilizando
tajas a nivel corporativo, tales como mejorar el margen ampliamente en diversas áreas relacionadas con la ciencia
de beneficios o compartir objetivos; y en la mejora de las y la ingeniería. Algunos ejemplos de aplicación en estos
decisiones operativas, tales como desarrollo de planes de campos son:
producción o gestión de mano de obra.
4.5.1 Genética
4.2 Comportamiento en Internet
En el estudio de la genética humana, el objetivo principal
También es un área en boga el del análisis del comporta- es entender la relación cartográfica entre las partes y la
miento de los visitantes —sobre todo, cuando son clientes variación individual en las secuencias del ADN humano
potenciales— en una página de Internet. O la utilización y la variabilidad en la susceptibilidad a las enfermedades.
de la información —obtenida por medios más o menos En términos más llanos, se trata de saber cómo los cam-
legítimos— sobre ellos para ofrecerles propaganda adap- bios en la secuencia de ADN de un individuo afectan al
tada específicamente a su perfil. O para, una vez que ad- riesgo de desarrollar enfermedades comunes (como por
quieren un determinado producto, saber inmediatamente ejemplo el cáncer). Esto es muy importante para ayudar
qué otro ofrecerle teniendo en cuenta la información his- a mejorar el diagnóstico, prevención y tratamiento de las
tórica disponible acerca de los clientes que han comprado enfermedades. La técnica de minería de datos que se uti-
el primero. liza para realizar esta tarea se conoce como "reducción de
dimensionalidad multifactorial".[7]

4.3 Terrorismo 4.5.2 Ingeniería eléctrica


La minería de datos ha sido citada como el método por el En el ámbito de la ingeniería eléctrica, las técnicas de mi-
cual la unidad Able Danger del Ejército de los EE. UU. nería de datos han sido ampliamente utilizadas para mo-
había identificado al líder de los atentados del 11 de sep- nitorizar las condiciones de las instalaciones de alta ten-
tiembre de 2001, Mohammed Atta, y a otros tres secues- sión. La finalidad de esta monitorización es obtener infor-
tradores del "11-S" como posibles miembros de una célu- mación valiosa sobre el estado del aislamiento de los equi-
la de Al Qaeda que operan en los EE. UU. más de un año pos. Para la vigilancia de las vibraciones o el análisis de
antes del ataque. Se ha sugerido que tanto la Agencia Cen- los cambios de carga en transformadores se utilizan cier-
tral de Inteligencia y su homóloga canadiense, Servicio de tas técnicas para agrupación de datos (clustering) tales
Inteligencia y Seguridad Canadiense, también han em- como los mapas auto-organizativos (SOM: Self-organizing
pleado este método.[6] map). Estos mapas sirven para detectar condiciones anor-
males y para estimar la naturaleza de dichas anomalías.[8]
4.4 Juegos
4.5.3 Análisis de gases
Desde comienzos de la década de 1960, con la disponibi-
lidad de oráculos para determinados juegos combinacio- También se han aplicado técnicas de minería de datos
nales, también llamados finales de juego de tablero (por para el análisis de gases disueltos (DGA: Dissolved gas
ejemplo, para las tres en raya o en finales de ajedrez) con analysis) en transformadores eléctricos. El análisis de ga-
cualquier configuración de inicio, se ha abierto una nueva ses disueltos se conoce desde hace mucho tiempo como
área en la minería de datos que consiste en la extracción la herramienta para diagnosticar transformadores. Los
de estrategias utilizadas por personas para estos oráculos. mapas auto-organizativos (SOM) se utilizan para analizar
5.2 De la informática 5

datos y determinar tendencias que podrían pasarse por 5.2 De la informática


alto utilizando las técnicas clásicas (DGA).
De la informática toma las siguientes técnicas:

5 Minería de datos y otras discipli- • Algoritmos genéticos: Son métodos numéricos de


nas análogas optimización, en los que aquella variable o varia-
bles que se pretenden optimizar junto con las va-
riables de estudio constituyen un segmento de infor-
Suscita cierta polémica el definir las fronteras existentes
mación. Aquellas configuraciones de las variables de
entre la minería de datos y las disciplinas análogas, co-
análisis que obtengan mejores valores para la varia-
mo pueden serlo la estadística, la inteligencia artificial,
ble de respuesta, corresponderán a segmentos con
etc. Hay quienes sostienen que la minería de datos no es
mayor capacidad reproductiva. A través de la re-
sino estadística envuelta en una jerga de negocios que la
producción, los mejores segmentos perduran y su
conviertan en un producto vendible. Otros, en cambio,
proporción crece de generación en generación. Se
encuentran en ella una serie de problemas y métodos es-
puede además introducir elementos aleatorios para
pecíficos que la hacen distinta de otras disciplinas.
la modificación de las variables (mutaciones). Al ca-
El hecho es que, en la práctica la totalidad de los mo- bo de cierto número de iteraciones, la población es-
delos y algoritmos de uso general en minería de datos tará constituida por buenas soluciones al problema
—redes neuronales, árboles de regresión y clasificación, de optimización, pues las malas soluciones han ido
modelos logísticos, análisis de componentes principales, descartándose, iteración tras iteración.
etc.— gozan de una tradición relativamente larga en otros
campos.
• Inteligencia Artificial: Mediante un sistema infor-
mático que simula un sistema inteligente, se proce-
5.1 De la estadística de al análisis de los datos disponibles. Entre los sis-
temas de Inteligencia Artificial se encuadrarían los
Ciertamente, la minería de datos bebe de la estadística, Sistemas Expertos y las Redes Neuronales.
de la que toma las siguientes técnicas:
• Sistemas Expertos: Son sistemas que han sido crea-
• Análisis de varianza, mediante el cual se evalúa la dos a partir de reglas prácticas extraídas del conoci-
existencia de diferencias significativas entre las me- miento de expertos. Principalmente a base de infe-
dias de una o más variables continuas en poblaciones rencias o de causa-efecto.
distintas.
• Regresión: define la relación entre una o más varia- • Sistemas Inteligentes: Son similares a los sistemas
bles y un conjunto de variables predictoras de las expertos, pero con mayor ventaja ante nuevas situa-
primeras. ciones desconocidas para el experto.
• Prueba chi-cuadrado: por medio de la cual se reali-
za el contraste de la hipótesis de dependencia entre • Redes neuronales: Genéricamente, son métodos de
variables. proceso numérico en paralelo, en el que las variables
• Análisis de agrupamiento o clustering: permite la interactúan mediante transformaciones lineales o no
clasificación de una población de individuos carac- lineales, hasta obtener unas salidas. Estas salidas se
terizados por múltiples atributos (binarios, cualitati- contrastan con los que tenían que haber salido, ba-
vos o cuantitativos) en un número determinado de sándose en unos datos de prueba, dando lugar a un
grupos, con base en las semejanzas o diferencias de proceso de retroalimentación mediante el cual la red
los individuos. se reconfigura, hasta obtener un modelo adecuado.

• Análisis discriminante: permite la clasificación de


individuos en grupos que previamente se han esta-
blecido, permite encontrar la regla de clasificación 6 Minería de datos basada en teo-
de los elementos de estos grupos, y por tanto una ría de la información
mejor identificación de cuáles son las variables que
definan la pertenencia al grupo.
Todas las herramientas tradicionales de minería de datos
• Series de tiempo: permite el estudio de la evolución asumen que los datos que usarán para construir los mo-
de una variable a través del tiempo para poder reali- delos contienen la información necesaria para lograr el
zar predicciones, a partir de ese conocimiento y ba- propósito buscado: obtener suficiente conocimiento que
jo el supuesto de que no van a producirse cambios pueda ser aplicado al negocio (o problema) para obtener
estructurales. un beneficio (o solución).
6 9 VÉASE TAMBIÉN

El inconveniente es que esto no es necesariamente cierto. los pasos previos.


Además, existe otro problema mayor aún. Una vez cons-
truido el modelo no es posible conocer si el mismo ha
capturado toda la información disponible en los datos. 7 Tendencias
Por esta razón la práctica común es realizar varios mo-
delos con distintos parámetros para ver si alguno logra
La Minería de Datos ha sufrido transformaciones en los
mejores resultados.
últimos años de acuerdo con cambios tecnológicos, de
Un enfoque relativamente nuevo al análisis de datos so- estrategias de marketing, la extensión de los modelos de
luciona estos problemas haciendo que la práctica de la compra en línea, etc. Los más importantes de ellos son:
minería de datos se parezca más a una ciencia que a un
arte. • La importancia que han cobrado los datos no es-
En 1948 Claude Shannon publicó un trabajo llamado tructurados (texto, páginas de Internet, etc.).
“Una teoría matemática de la comunicación”. Posterior-
mente ésta pasó a llamarse Teoría de la información y • La necesidad de integrar los algoritmos y resultados
sentó las bases de la comunicación y la codificación de la obtenidos en sistemas operacionales, portales de In-
información. Shannon propuso una manera de medir la ternet, etc.
cantidad de información a ser expresada en bits. • La exigencia de que los procesos funcionen prácti-
En 1999 Dorian Pyle publicó un libro llamado “Data Pre- camente en línea (por ejemplo, en casos de fraude
paration for Data Mining” en el que propone una manera con una tarjeta de crédito).
de usar la Teoría de la Información para analizar datos.
En este nuevo enfoque, una base de datos es un canal que • Los tiempos de respuesta. El gran volumen de da-
transmite información. Por un lado está el mundo real que tos que hay que procesar en muchos casos para obte-
captura datos generados por el negocio. Por el otro están ner un modelo válido es un inconveniente; esto im-
todas las situaciones y problemas importantes del nego- plica grandes cantidades de tiempo de proceso y hay
cio. Y la información fluye desde el mundo real y a través problemas que requieren una respuesta en tiempo
de los datos, hasta la problemática del negocio. real.

Con esta perspectiva y usando la Teoría de la informa-


ción, es posible medir la cantidad de información dispo-
nible en los datos y qué porción de la misma podrá utili-
8 Herramientas de software
zarse para resolver la problemática del negocio. Como un
ejemplo práctico, podría encontrarse que los datos con- Existen muchas herramientas de software para el desa-
tienen un 65% de la información necesaria para predecir rrollo de modelos de minería de datos tanto libres como
qué cliente rescindirán sus contratos. De esta manera, si el comerciales como, por ejemplo:
modelo final es capaz de hacer predicciones con un 60%
de acierto, se puede asegurar que la herramienta que ge-
neró el modelo hizo un buen trabajo capturando la infor- 9 Véase también
mación disponible. Ahora, si el modelo hubiese tenido
un porcentaje de aciertos de sólo el 10%, por ejemplo, • Almacén operacional de los datos
entonces intentar otros modelos o incluso con otras he-
rramientas podría valer la pena. • Análisis predictivo
La capacidad de medir información contenida en los da- • Aprendizaje automático
tos tiene otras ventajas importantes.
• Data warehousing o Almacenamiento de datos
Al analizar los datos desde esta nueva perspectiva se ge-
nera un mapa de información que hace innecesario la pre- • Estadística
paración previa de los datos, una tarea absolutamente im-
prescindible si se desea buenos resultados, pero que lleva • Facts and authorities
enorme cantidad de tiempo.
• Inteligencia Empresarial
Es posible seleccionar un grupo de variables óptimo que
contenga la información necesaria para realizar un mode- • Iconografía de las correlaciones
lo de predicción.
• Minería de datos espacial
Una vez que las variables son procesadas con el fin de
crear el mapa de información y luego seleccionadas aque- • Minería de grafos
llas que aportan la mayor información, la elección de la
• Minería de procesos
herramienta que se usará para crear el modelo deja de te-
ner importancia, ya que el mayor trabajo fue realizado en • Minería de textos
7

• Reglas de asociación

• Sistemas de información ejecutiva


• Sistemas de soporte a decisiones

• Web mining
• Weka (aprendizaje automático)

10 Referencias
[1] Oded Maimon and Lior Rokach (2010). Data Mining and
Knowledge Discovery Handbook. Springer, New York.
ISBN 978-0-387-09823-4.

[2] Everything Is Measurable | http://www.cio.com/article/


2438921/it-organization/everything-is-measurable.html

[3] The Driving Need for Analytics in a Big


Data World | http://www.datamashup.info/
the-driving-need-for-analytics-in-a-big-data-world/

[4] Visual Data Mining: Allowing business users to mine


and gain insight into the data | http://birtanalytics.actuate.
com/visual-data-mining

[5] Data Scientist: Evolution of the Business Analyst |


http://www.predictiveanalyticsworld.com/patimes/
data-scientist-evolution-of-the-business-analyst/

[6] Stephen Haag et al. Management Information Systems for


the information age. p. 28. ISBN 0-07-095569-7.

[7] Xingquan Zhu, Ian Davidson (2007). Knowledge Disco-


very and Data Mining: Challenges and Realities. Hershey,
New Your. p. 18. ISBN 978-1-59904-252-7.

[8] Plantilla:Cite Journal.

11 Enlaces externos
• Programa de Minería de Datos, University of Cen-
tral Florida
• Proyecto Medical Miner. Integración de minería de
texto y de datos en biomedicina
• Daia Intelligent Solutions

• Minería de Datos y Almacenamiento Web


8 12 ORIGEN DEL TEXTO Y LAS IMÁGENES, COLABORADORES Y LICENCIAS

12 Origen del texto y las imágenes, colaboradores y licencias


12.1 Texto
• Minería de datos Fuente: https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos?oldid=86853717 Colaboradores: Fposada, Lcgar-
cia, Tony Rotondas, SimónK, Beagle~eswiki, Porao, ManuP, Taragui, M3g4r00t, Emijrp, Orgullobot~eswiki, RobotQuistnix, Yrbot, Fla-
Bot, BOTijo, YurikBot, GermanX, KnightRider, Jesuja, Eskimbot, Zanorte, Er Komandante, Zanaqo, Alfredobi, BOTpolicia, JEDIK-
NIGHT1970, CEM-bot, Pinar~eswiki, Ignacio Icke, Retama, Thijs!bot, Lauranrg, RoyFocker, JovianJake, Isha, Endermuabdib, Cgb,
JAnDbot, TXiKiBoT, Elisardojm, Humberto, Netito777, Amanuense, Idioma-bot, Pólux, Dhidalgo, Cinevoro, VolkovBot, JesusLopezLo-
pezdeLama, Matdrodes, BlackBeast, AlleborgoBot, Lechuck~eswiki, Jkarretero, SieBot, PaintBot, Ensada, Loveless, Drinibot, Bigsus-bot,
Mrfyra, Manwë, Correogsk, Nmerydem, Tirithel, Jarisleif, HUB, Tolarteh, Parausb, Eduardosalg, Pan con queso, Juan Mayordomo, Anto-
nio Peinado, Gelpgim22, SilvonenBot, UA31, AVBOT, A ver, Gizbot, MastiBot, Parra Andrés, Diec123, Diegusjaimes, Jorge.maturana,
Luckas-bot, Nallimbot, El Quinche, Ptbotgourou, FariBOT, Cheesy~eswiki, FarKeld, Elnoidelastra, Gacpro, Udufruduhu, SuperBraulio13,
Simeón el Loco, Jkbw, ManRob, Botarel, MauritsBot, Hprmedina, TobeBot, Niko.villano, Paulgonzalezgarcia, AnselmiJuan, PatruBOT,
Ripchip Bot, Humbefa, Flaticida, Frandzi.rangel, EmausBot, Grillitus, JackieBot, Migdus, Esnasyner, ChuispastonBot, Quiterian, Afraj,
Sebrev, MetroBot, John plaut, Acratta, Raspabill, Ekz4, CapitanPrimate, Keyla Herrera Ruiz, Addbot, Ajqnjqli, Apr14, Augt.pelle, Pa-
bloalbertovk, Grup2UOC, Labotdile y Anónimos: 150

12.2 Imágenes
• Archivo:Mergefrom.svg Fuente: https://upload.wikimedia.org/wikipedia/commons/0/0f/Mergefrom.svg Licencia: Public domain Cola-
boradores: ? Artista original: ?

12.3 Licencia del contenido


• Creative Commons Attribution-Share Alike 3.0

También podría gustarte