Mineria Data

Minerı́a de datos: concepto y aplicaciones
Marvin Coto-Jiménez *
*Universidad Autónoma Metropolitana/Universidad de Costa Rica. marvin.coto@ucr.ac.cr

Minerı́a de datos: concepto y aplicaciones. Marvin Coto-Jiménez. 61
Recibido: 21 de enero de 2013. El proceso de minerı́a de datos es visto como una

Aceptado: 15 de abril de 2013. evolución natural de la tecnologı́a de la información,
en el que la información se extrae de bases y almace-
Resumen
nes de datos. La funcionalidad de los resultados bus-
Se presenta la minerı́a de datos como un conjunto de
cados con ésta se pueden clasificar en dos grandes
técnicas para obtener información útil y no evidente
categorı́as [1]:
en datos de diversos tipos. Primero se revisa el con-
cepto y su evolución, para repasar varias de las apli- 1. Funcionalidades descriptivas: Enfocadas en bus-
caciones actuales y describir su potencial. Especial- car patrones en los datos que puedan ser inter-
mente en Internet. La conclusión principal es la im- pretables por el ser humano. Por ejemplo, carac-
portancia de su desarrollo y la formación de profe- terizaciones (generalidades de los datos), análi-
sionales en esta área. sis de asociaciones (reglas presentes en el conjun-
to) o de agrupamientos (subconjuntos semejan-
Palabras clave: minerı́a de datos, bases de datos,
tes de datos) no evidentes.
inteligencia artificial.
2. Funcionalidades predictivas: Enfocadas en buscar
1. Introducción predicciones basadas en inferencias, generalmen-
En el año 1889, Herman Hollerit patentó en los Es- te sobre modelos abstractos. Por ejemplo, clasifi-
tados Unidos de América una máquina tabuladora cación y regresión (modelos que describan y dis-
automática, que leı́a tarjetas perforadas. Los patro- tingan subconjuntos de datos).
nes registrados en las tarjetas disinguı́an los diferen-
tes aspectos en los registros de personas. El objeti- En la sección 3 se detallan varios ejemplos concretos
vo del invento fue procesar la información del cen- de cada uno de estos tipos.
so de 1890 en ese paı́s, gracias a lo cual fue posi- Una distinción que plantea el obtener datos adicio-
ble realizar esta tarea en un año en lugar de casi nales, a manera de información útil, de tener sola-
una década que se requerı́a en el procesamiento ma- mente los datos, es el valor que éstos tienen. Con-
nual. Esta referencia la podemos considerar como el tar con gran cantidad de datos, por ejemplo un ban-
primer desarrollo de una herramienta maquinal pa- co sobre sus clientes, no garantiza que sea de utili-
ra procesar gran cantidad de datos, lo cual consti- dad para alcanzar o mejorar los objetivos de la en-
tuye uno de los principios fundamentales de la mi- tidad, a menos que se pueda extraer de esa infor-
nerı́a de datos. mación algo útil sobre lo que se pueda tomar deci-
Como concepto, la minerı́a de datos se utiliza de la siones y después evaluarlas. La cantidad de informa-
manera que se entiende en la actualidad hasta princi- ción puede ser más bien un obstáculo si no se cuen-
pios de 1990. Pretende una analogı́a con el proceso de ta con las técnicas y capacidad adecuada para pro-
extraer materiales valiosos en una mina: En ésta hay cesarla para pasar de solo información a conocimien-
gran cantidad de materiales (datos), que se procesan to en la forma de información útil.
de forma extensa para obtener esas menores cantida- 2. Implementación y metodologı́a
des de material precioso buscado y que no era visible Las técnicas utilizadas en minerı́a van desde herra-
en el conjunto original (información útil). En el ca- mientas estadı́sticas hasta herramientas de inteligen-
so de la máquina de Hollerit, la minerı́a, en su estado cia artificial. De estas últimas, cuatro de las princi-
primitivo, consistió en llegar a conclusiones numéri- pales utilizadas son [3]:
cas básicas, con la ventaja del tiempo que fue posible
obtenerlas. La tabla 1 resume la evolución de las tec- 1. Redes Neuronales: Son modelos no-lineales inspi-
nologı́as utilizadas y las caracterı́sticas del concep- rados en las redes de neuronas. En principio con-
to desde 1960. La caracterı́stica actual de ser pros- sisten en un conjunto de nodos organizados en
pectiva se refiere a su utilización para prever resul- capas con determinados enlaces entre ellos. Tan-
tados futuros, lo cual es de sumo interés para la to- to la configuración de los nodos como los valores
ma de decisiones en mercados dinámicos y de al- en sus enlaces se ajustan, buscando una configu-
ta competencia, como los que se desarrollan en In- ración óptima que permita obtener valores acer-
ternet. Como se describirá en la sección 3, los desa- tados en problemas de clasificación y predicción.
rrolladores y empresas que funcionan en la red In- La configuración óptima se realiza en un ajuste
ternet tienen gran interés en los resultados que es- llamado entrenamiento, que utiliza los datos pa-
tas técnicas pueden ofrecer. ra determinar la estructura y caracterı́sticas de
62 ContactoS 91, 60–65 (2014)
Tabla 1: Evolución de la minerı́a de datos 1960 a la actualidad.

Evolución Tecnologı́as presentes Caracterı́sticas
Colecciones de datos (1960-) Computadoras, cintas, discos Manipulación estadı́stica.
Acceso a datos (1980-) Bases de datos relacionales, Resultados dinámicos
lenguajes de búsqueda de búsqueda a nivel
estructurados (SQL) de registros.
Almacenes de datos (1990-) Bases de datos Resultados dinámicos
multidimensionales, de búsqueda en
almacenes de datos múltiples niveles
Minerı́a de datos (2000-) Algoritmos avanzados, Información prospectiva
computadoras multiprocesador. y proactiva.
Fuente: Aldana, 2000 [2]
la red que mejores prestaciones dará al proce- tirı́an en una clasificación -1, +1.
so buscado. Tienen la ventaja de que no preten- 3. Algoritmos genéticos: Son modelos inspirados en
den establecer un modelo cerrado sobre un con- la evolución de las especies y que se aplican ge-
junto de datos, sino un modelo que pueda ajus- neralmente en problemas de optimización. Par-
tarse y que utilice solamente los datos [4]. te de la abstracción de individuos como cade-
2. Arboles de decisión: Son estructuras en forma de nas de números, y se establecen reglas para ca-
árbol, con nodos organizados de forma jerárqui- racterı́sticas como el cruce y mutación. Tienden a
ca, y que representan conjuntos de decisiones ca- la optimización en la búsqueda de los mejores re-
paces de generar reglas para la clasificación de los sultados en búsqueda y obtención de soluciones,
datos. Existen diversas técnicas para construir- pues es análogo a la teorı́a darwinista de la evolu-
los y optimizarlos, pues es crı́tico la eficiencia en ción en el sentido de la supervivencia de los indi-
cuanto al tiempo en que puedan realizar la cla- viduos más aptos (mejores soluciones) como pre-
sificación, la cual depende del algoritmo utiliza- ferencia a los menos aptos [7].
do y el tamaño del árbol [5]. Un ejemplo de árbol 4. Vecinos más cercanos: Se denomina ası́ a la técni-
de decisión se muestra en la figura 1. ca de agrupación de datos que permite clasificar-
los de acuerdo con su similitud, utilizando una
medida de cercanı́a que puede partir de la repre-
sentación de los puntos en una gráfica [8]. Existen
diferentes maneras de realizarlo, y de forma seme-
jante a las anteriores, la intención principal es es-
tablecerlo como algoritmo que pueda ser progra-
mado en computadora, para poder automatizar-
lo. En la figura 2 se muestra un ejemplo de agru-
pamiento por vecinos más cercanos, para el caso
de tres grupos claramente diferenciados en su re-
presentación gráfica en dos dimensiones, pero que
puede no ser evidente a partir del conjunto de da-
tos original. Es posible que el conjunto original
tenga dimensión mayor a dos y que haya sido ne-
cesario aplicar métodos de reducción de dimen-
sión, lo cual agregarı́a complejidad al estableci-
Figura 1: Ejemplo de árbol de decisión. Fuente: Ba- miento de los grupos.
rrientos et al. 2009.[6] 5. Reglas de inducción: Se trata de extraer reglas
de la forma si-entonces de un conjunto de da-
La importancia de los árboles para clasificación de tos, combinadas e incluso utilizando variables ne-
datos radica en que una vez establecidos, un con- gadas. [9]
junto grande de datos puede ser proceso de forma
automática y obtener resultados en tiempos rela- En principio, estas técnicas no son especı́ficas pa-
tivamente cortos. En la figura 1 anterior, consis- ra un tipo de datos, y tienen aplicaciones diversas
nen información geográfica tal como mapas o re-

gistros de posicionamiento global.
Series de tiempo: Contienen datos que provienen
de un flujo continuo de información, tales como
datos de mercados o actividades en sitios web que
evolucionan continuamente con el tiempo.
Internet: Es el repositorio de datos más hete-
rogéneo y dinámico. En general la información
está organizada en documentos interconectados,
de diferentes tipos, por ejemplo texto, audio.
Imágenes. Se puede considerar que esta informa-
ción está compuesta de cuatro niveles: Los con-
Figura 2: Ejemplo de agrupamiento. Fuente: Brendan
2007 [10]. tenidos, la estructura, la relación entre ellos y la
dinámica o evolución de éstos. En la actualidad es
una de las fuentes de datos de mayor interés, tan-
fuera del tema de minerı́a, por lo que usualmen- to por su propia complejidad, como por las venta-
te se prueban varias en varias configuraciones y al- jas que puede representar la extracción de infor-
goritmos para determinar las mejores. No se cuen- mación útil de la gran cantidad de datos, que pue-
ta con un patrón o regla exacta sobre la aplicabi- de ser aprovechada en estudios de mercado, reco-
lidad óptima de cada una, por lo que los algorit- mendaciones a usuarios, predicciones, entre otros.
mos pueden ser diferentes para cada tipo y cada Se vuelve entonces importante desde el punto de
caso. vista social y económico [12].
En este tema, las técnicas son parte de la minerı́a, En cuanto a método, la minerı́a de datos es un pro-
una herramienta de ésta. Su solo uso no identifica ceso que invierte la dinámica del método cientı́fico
un proceso de minerı́a de datos, pues pueden tener [13], pues en éste, primero se formula una hipóte-
objetivos diversos en otras áreas. sis y se diseña un experimento para comprobarla
o rechazarla. En minerı́a de datos, la hipótesis vie-
Por otra parte, es importante considerar cuáles tipos ne después del análisis de los datos, la cual puede
de datos y con qué caracterı́sticas pueden ser sujetos ser comprobada con los datos mismos, lo que no re-
de las técnicas de minerı́a de datos. Algunos de los sultarı́a una comprobación experimentalmente váli-
tipos se describen a continuación [11]: da. Esta consideración es importante para enmar-
car los resultados esperados de la minerı́a y diferen-
Archivos de texto: En la actualidad el tipo de ciarlos de un conocimiento cientı́fico estándar.
datos más común, consiste en texto simple o
en formato binario, con datos que provienen de Además de identificar los tipos de datos sujetos a la
transacciones bancarias, series de tiempo, resulta- minerı́a, es de valor contar un proceso estructurado
dos cientı́ficos experimentales, entre otros. para aplicarla, de valor si se piensa en automatizar su
Bases de datos relacionales: Son tablas que contie- proceso, sobre todo en medios muy dinámicos donde
nen entidades o atributos de estas entidades. Con- se requiere la toma de decisiones y acciones a una
sisten en columnas y filas, que organizan atribu- velocidad cercana a lo que se conoce como tiempo
tos y tuplas, respectivamente. real.
Bases de datos transaccionales: Es un conjunto de
El mencionado proceso, por etapas, se puede siste-
datos que representan transacciones, cada una con
matizar en cuatro fases [13]:
una estampa de tiempo que registra el momento
de la transacción, un identificador y una serie de 1. Filtrado de datos: Se refiere a una distinción y se-
ı́tems. Puede tener asociadas descripciones. lección previa, pues pocas veces es posible aplicar
Multimedia: Incluyen vı́deo, imágenes y audio. Se un algoritmo sobre los datos tal como están re-
pueden almacenar en bases de datos relacionales gistrados. Lo más usual es que se requieran corre-
extendidas u orientadas a objetos. En general se gir, completar y eliminar los no válidos.
caracteriza como datos de alta dimensionalidad. 2. Selección de variables: Dado que la cantidad de
Bases de datos especiales: Además de informa- datos usualmente es muy grande, después del fil-
ción en alguna de las formas anteriores, contie- trado se encuentra ante gran cantidad de regis-
64 ContactoS 91, 60–65 (2014)
tros. Seleccionar variables tiene como objetivo inversiones y créditos es de vital importancia, pues
elegir las variables más importantes en el caso pa- indicadores económicos y ventajas competitivas
ra reducir su tamaño. Para este se eligen los me- dependen de un cálculo adecuado de los riesgos
jores atributos del problema o se utilizan algorit- en las operaciones.
mos heurı́sticos, de distancia o probabilidad pa- Segmentación de clientes: El conocimiento de las
ra buscar variables independientes. caracterı́sticas de los clientes y el establecimien-
3. Algoritmos de extracción de conocimiento: Me- to de grupos que compartan estas caracterı́sti-
diante las técnicas especı́ficas (como las técni- cas permite administrar campañas direccionadas
cas de inteligencia artificial citadas al principio a ciertos grupos que les permita situar mejor sus
de la sección), ya sean individuales o combina- productos.
das, se obtiene un modelo que representa patro- Publicidad dirigida: De especial interés en Inter-
nes en las variables. net, donde es posible registrar las actividades de
4. Interpretación y evaluación: Cuando se obtiene el los clientes en ciertas páginas (como Amazon o
modelo, se somete a un proceso de validación. Facebook), establecer patrones de comportamien-
to y posibles intereses, de manera que se pueda
La intención del proceso es que los resultados pue- ofrecer a los anunciantes garantı́a que sus produc-
dan validarse y representen conclusiones no eviden- tos estarán a la vista de clientes o compradores
tes de los datos. Usualmente estas conclusiones no potenciales.
son detectables en los datos por la gran cantidad de
éstos. La parte de interpretación y evaluación pue- En Internet, además, se rescata el término Minerı́a
de realizarse sin supervisión de seres humanos, por en Web para especificar el interés especı́fico de apli-
ejemplo, en el contexto de Internet si se requiere lle- car estas técnicas ”para el descubrimiento y extrac-
gar a conclusiones inmediatas sobre las acciones que ción automática de informaciones de documentos y
un usuario está realizando y las caracterı́sticas que servicios de la World Wide Web”[15]. Especı́ficamen-
representa. te en aplicaciones como:
3. Aplicaciones Identificar páginas Web de mayor interés.

Una vez analizadas las fases requeridas y los tipos Clasificar documentos.
de datos sobre los que se puede actuar, se procede Clasificar los resultados de los motores de
a revisar qué problemas ha resuelto la minerı́a de búsqueda.
datos, tales que la hacen de interés creciente sobre Identificar y recuperar eficientemente
todo en el plano de investigación empresarial y en documentos.
Internet. Se listan, como ejemplo, los siguientes [14]: Encontrar regularidades en los registros de
actividad.
Generación de recomendaciones: Sugerir un pro- Personalizar las informaciones que se muestran.
ducto después de que el cliente seleccionó uno o Identificar los intereses, preferencias e intenciones
más. El proceso lo requiere debido a la gran can- de usuarios.
tidad de clientes que pueden existir, y a la no Sugerir términos de búsqueda.
evidente relación que existe en la preferencia de Realizar recomendaciones de acuerdo con perfiles
productos, la cual se puede basar en semejanzas de usuarios.
con otros clientes que han realizado más de una Asistir a investigadores en búsquedas.
compra.
Como se mencionó, la cantidad y diversidad de in-
Detección de anomalı́as: La minerı́a de datos pue-
formación son un reto para las técnicas utilizadas,
de detectar un dato anómalo, que puede corres-
pues puede ser necesario otras técnicas como visión
ponder a datos no deseados o incluso peligrosos,
por computador, interpretación de imágenes y pro-
como fraudes en cuentas bancarias.
cesamiento de lenguaje natural.
Análisis de ”separación”: En operaciones financie-
ras y bancarias, se refiere a la detección de un 4. Minerı́a en grandes cantidades de datos
cliente que muestra un comportamiento temprano (big data)
de que puede ser un signo de tendencia a cam- El concepto de Big Data se refiere a cantidades enor-
biar sus preferencias o relaciones comerciales con mes de información que se obtienen, tanto generada
las entidades actuales. por seres humanos o por computadoras, como regis-
Administración de riesgos: Determinar riegos en tros de actividad, transacciones electrónicas, búsque-
das de Internet, datos de correo electrónico, y acti- International Review on Computers and Software
vidades en redes sociales. En el año 2010, por ejem- (I.RE.CO.S.), Vol. 6(3): 336-346 (2011).
plo, se crearon 1.5 × 1021 bytes de estos datos en 2. Aldana, W. Data mining industry: Emerging New
Internet [16]. Debido a lo dinámico de la informa- Trends and New Opportunities. Master Engineering
ción y la velocidad con que se genera, el interés es in Electrical Engineering and Computer Science at the
Massachusetts Institute of Technology, 2000.
poder encontrar tendencias, relaciones y en general
3. Garrido, L. y Latorre, J. Aplicaciones empresaria-
hipótesis válidas que permitan tomar decisiones, es-
les de Data Mining. QUESTIIO, Vol. 25(3): 499-508
trategias de desarrollo y de mercado para obtener (2001).
ventajas. 4. Nirkhi, S. Potential use of artificial neural network
Para las empresas, el aprovechamiento de la minerı́a in data mining. The 2nd International Conference
on Computer and Automation Engineering (ICCAE),
para datos de estas caracterı́sticas representa retos
IEEE. Vol. 2: 339-343 (2010)
tanto en infraestructura de almacenamiento y proce- 5. Grünig, R. y Kühn, R. Successful Decision-making. A
samiento como en la captación de personal capacita- Systematic Approach to Complex Problems. Segunda
do que pueda adaptar e innovar para las aplicaciones edicicón, Springer 2009.
especı́ficas. Solamente en Estados Unidos de Améri- 6. Barrientos, Rocio et al. Árboles de decisión como he-
ca, se estima que en el año 2018 habrá una necesidad rramienta en el diagnóstico médico. Revista Médica
de 140 000 a 190 000 expertos con estos conocimien- UV Vol 9(2): 19-24 (2009).
tos [17]. Los resultados de la minerı́a en Big Data 7. Coello, C. Introducción a la Computación Evo-
pueden tener un impacto tan grande como determi- lutiva. CINVESTAV-IPN. 2012. Disponible en:
nar relaciones de causalidad entre eventos económi- http://delta.cs.cinvestav.mx/ ccoello/genetic.html.
cos y noticias generadas en múltiples campos [18]. 8. Gong, A. y Lui, Y. Improved KNN Classification
Algorithm by Dynamic Obtaining K. Advanced Re-
Se trata entonces de una nueva tendencia con gran- search on Electronic Commerce, Web Application,
des posibilidades de desarrollo e importantes retos and Communicatio. International Conference, EC-
por su complejidad y la velocidad con que requie- WAC (2011).
re los resultados. 9. Grzymala-Busse, J.W.: Rule induction. Data Mining
and Knowledge Discovery Handbook, 2nd edn., pp.
Conclusiones 249-265. Springer, Heidelberg (2010).
La minerı́a de datos es un conjunto de técnicas para 10. Brendan J. y Delbert D. Clustering by Passing Mes-
extraer información útil de grandes cantidades de da- sages Between Data Points, Science. Feb. 2007.
tos en cortos periodos de tiempo. Ha sido de especial 11. Zaı̈ane, O. Principles of Knowledge Discovery in Da-
importancia desde la aparición de las computado- tabases. University of Alberta. Department of Com-
ras, y ha evolucionado de forma paralela a éstas, gra- puting Science. 1999.
12. Baeza-Yates, R. Tendencias en minerı́a de datos de
cias a la facilidad de realizar cálculos cada vez más
la Web. El profesional de la información. Vol 18(1):
rápido, y la creciente cantidad de información gene- 5-10 (2009)
rada en redes de computadoras y entidades financie- 13. Vallejos, S. Minerı́a de Datos. Universidad Nacional
ras, empresariales y comerciales. del Nordeste. Argentina 2006.
14. Tabladillo, M. ¿Por qué utilizar minerı́a de
Se destaca la diversidad de aplicaciones donde ha
datos? The SolidQTM Journal, Julio 2010-
mostrado su utilidad y el interés cada vez mayor por
www.solidq.com/sqj
implementarla y aprovechar las ventajas que ha mos- 15. Pagola, J. Estado del Arte del Web. Centro de Apli-
trado, lo cual la puede colocar entre las áreas priori- caciones de Tecnologı́as de Acanzada, Cuba. 2007.
tarias para la formación de profesionales en el cam- 16. Merian, L. IT looks for new tools to explot ’Big Da-
po de tecnologı́as de la información. ta’. Computer World, 2011.
17. Stackpole, B. Your Big Data To-Do List. Computer
Su uso actual y potencial en Internet plantea re-
World, Feb. 13 2012.
tos de interés para la investigación, con resultados 18. Lamont, J. Big data has big implications for kno-
que podrı́an verse a corto plazo y aportar al cam- wledge management. KmWorld, April 2012.
bio en la utilidad de las redes para fines académi-
cos y comerciales. cs
Referencias
1. Daylan, A.; Bertan, Y; y Badur, O. An Experimen-
tal Study for Extending Data Mining Standards.

Mineria Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria Data

Cargado por

Copyright:

Formatos disponibles

Minerı́a de datos: concepto y aplicaciones

*Universidad Autónoma Metropolitana/Universidad de Costa Rica. marvin.coto@ucr.ac.cr

Recibido: 21 de enero de 2013. El proceso de minerı́a de datos es visto como una

Tabla 1: Evolución de la minerı́a de datos 1960 a la actualidad.

Fuente: Aldana, 2000 [2]

nen información geográfica tal como mapas o re-

3. Aplicaciones Identificar páginas Web de mayor interés.

También podría gustarte