Está en la página 1de 6

Minerı́a de datos: concepto y aplicaciones

Marvin Coto-Jiménez *

*Universidad Autónoma Metropolitana/Universidad de Costa Rica. marvin.coto@ucr.ac.cr


Minerı́a de datos: concepto y aplicaciones. Marvin Coto-Jiménez. 61

Recibido: 21 de enero de 2013. El proceso de minerı́a de datos es visto como una


Aceptado: 15 de abril de 2013. evolución natural de la tecnologı́a de la información,
en el que la información se extrae de bases y almace-
Resumen
nes de datos. La funcionalidad de los resultados bus-
Se presenta la minerı́a de datos como un conjunto de
cados con ésta se pueden clasificar en dos grandes
técnicas para obtener información útil y no evidente
categorı́as [1]:
en datos de diversos tipos. Primero se revisa el con-
cepto y su evolución, para repasar varias de las apli- 1. Funcionalidades descriptivas: Enfocadas en bus-
caciones actuales y describir su potencial. Especial- car patrones en los datos que puedan ser inter-
mente en Internet. La conclusión principal es la im- pretables por el ser humano. Por ejemplo, carac-
portancia de su desarrollo y la formación de profe- terizaciones (generalidades de los datos), análi-
sionales en esta área. sis de asociaciones (reglas presentes en el conjun-
to) o de agrupamientos (subconjuntos semejan-
Palabras clave: minerı́a de datos, bases de datos,
tes de datos) no evidentes.
inteligencia artificial.
2. Funcionalidades predictivas: Enfocadas en buscar
1. Introducción predicciones basadas en inferencias, generalmen-
En el año 1889, Herman Hollerit patentó en los Es- te sobre modelos abstractos. Por ejemplo, clasifi-
tados Unidos de América una máquina tabuladora cación y regresión (modelos que describan y dis-
automática, que leı́a tarjetas perforadas. Los patro- tingan subconjuntos de datos).
nes registrados en las tarjetas disinguı́an los diferen-
tes aspectos en los registros de personas. El objeti- En la sección 3 se detallan varios ejemplos concretos
vo del invento fue procesar la información del cen- de cada uno de estos tipos.
so de 1890 en ese paı́s, gracias a lo cual fue posi- Una distinción que plantea el obtener datos adicio-
ble realizar esta tarea en un año en lugar de casi nales, a manera de información útil, de tener sola-
una década que se requerı́a en el procesamiento ma- mente los datos, es el valor que éstos tienen. Con-
nual. Esta referencia la podemos considerar como el tar con gran cantidad de datos, por ejemplo un ban-
primer desarrollo de una herramienta maquinal pa- co sobre sus clientes, no garantiza que sea de utili-
ra procesar gran cantidad de datos, lo cual consti- dad para alcanzar o mejorar los objetivos de la en-
tuye uno de los principios fundamentales de la mi- tidad, a menos que se pueda extraer de esa infor-
nerı́a de datos. mación algo útil sobre lo que se pueda tomar deci-
Como concepto, la minerı́a de datos se utiliza de la siones y después evaluarlas. La cantidad de informa-
manera que se entiende en la actualidad hasta princi- ción puede ser más bien un obstáculo si no se cuen-
pios de 1990. Pretende una analogı́a con el proceso de ta con las técnicas y capacidad adecuada para pro-
extraer materiales valiosos en una mina: En ésta hay cesarla para pasar de solo información a conocimien-
gran cantidad de materiales (datos), que se procesan to en la forma de información útil.
de forma extensa para obtener esas menores cantida- 2. Implementación y metodologı́a
des de material precioso buscado y que no era visible Las técnicas utilizadas en minerı́a van desde herra-
en el conjunto original (información útil). En el ca- mientas estadı́sticas hasta herramientas de inteligen-
so de la máquina de Hollerit, la minerı́a, en su estado cia artificial. De estas últimas, cuatro de las princi-
primitivo, consistió en llegar a conclusiones numéri- pales utilizadas son [3]:
cas básicas, con la ventaja del tiempo que fue posible
obtenerlas. La tabla 1 resume la evolución de las tec- 1. Redes Neuronales: Son modelos no-lineales inspi-
nologı́as utilizadas y las caracterı́sticas del concep- rados en las redes de neuronas. En principio con-
to desde 1960. La caracterı́stica actual de ser pros- sisten en un conjunto de nodos organizados en
pectiva se refiere a su utilización para prever resul- capas con determinados enlaces entre ellos. Tan-
tados futuros, lo cual es de sumo interés para la to- to la configuración de los nodos como los valores
ma de decisiones en mercados dinámicos y de al- en sus enlaces se ajustan, buscando una configu-
ta competencia, como los que se desarrollan en In- ración óptima que permita obtener valores acer-
ternet. Como se describirá en la sección 3, los desa- tados en problemas de clasificación y predicción.
rrolladores y empresas que funcionan en la red In- La configuración óptima se realiza en un ajuste
ternet tienen gran interés en los resultados que es- llamado entrenamiento, que utiliza los datos pa-
tas técnicas pueden ofrecer. ra determinar la estructura y caracterı́sticas de
62 ContactoS 91, 60–65 (2014)

Tabla 1: Evolución de la minerı́a de datos 1960 a la actualidad.


Evolución Tecnologı́as presentes Caracterı́sticas
Colecciones de datos (1960-) Computadoras, cintas, discos Manipulación estadı́stica.
Acceso a datos (1980-) Bases de datos relacionales, Resultados dinámicos
lenguajes de búsqueda de búsqueda a nivel
estructurados (SQL) de registros.
Almacenes de datos (1990-) Bases de datos Resultados dinámicos
multidimensionales, de búsqueda en
almacenes de datos múltiples niveles
Minerı́a de datos (2000-) Algoritmos avanzados, Información prospectiva
computadoras multiprocesador. y proactiva.

Fuente: Aldana, 2000 [2]

la red que mejores prestaciones dará al proce- tirı́an en una clasificación -1, +1.
so buscado. Tienen la ventaja de que no preten- 3. Algoritmos genéticos: Son modelos inspirados en
den establecer un modelo cerrado sobre un con- la evolución de las especies y que se aplican ge-
junto de datos, sino un modelo que pueda ajus- neralmente en problemas de optimización. Par-
tarse y que utilice solamente los datos [4]. te de la abstracción de individuos como cade-
2. Arboles de decisión: Son estructuras en forma de nas de números, y se establecen reglas para ca-
árbol, con nodos organizados de forma jerárqui- racterı́sticas como el cruce y mutación. Tienden a
ca, y que representan conjuntos de decisiones ca- la optimización en la búsqueda de los mejores re-
paces de generar reglas para la clasificación de los sultados en búsqueda y obtención de soluciones,
datos. Existen diversas técnicas para construir- pues es análogo a la teorı́a darwinista de la evolu-
los y optimizarlos, pues es crı́tico la eficiencia en ción en el sentido de la supervivencia de los indi-
cuanto al tiempo en que puedan realizar la cla- viduos más aptos (mejores soluciones) como pre-
sificación, la cual depende del algoritmo utiliza- ferencia a los menos aptos [7].
do y el tamaño del árbol [5]. Un ejemplo de árbol 4. Vecinos más cercanos: Se denomina ası́ a la técni-
de decisión se muestra en la figura 1. ca de agrupación de datos que permite clasificar-
los de acuerdo con su similitud, utilizando una
medida de cercanı́a que puede partir de la repre-
sentación de los puntos en una gráfica [8]. Existen
diferentes maneras de realizarlo, y de forma seme-
jante a las anteriores, la intención principal es es-
tablecerlo como algoritmo que pueda ser progra-
mado en computadora, para poder automatizar-
lo. En la figura 2 se muestra un ejemplo de agru-
pamiento por vecinos más cercanos, para el caso
de tres grupos claramente diferenciados en su re-
presentación gráfica en dos dimensiones, pero que
puede no ser evidente a partir del conjunto de da-
tos original. Es posible que el conjunto original
tenga dimensión mayor a dos y que haya sido ne-
cesario aplicar métodos de reducción de dimen-
sión, lo cual agregarı́a complejidad al estableci-
Figura 1: Ejemplo de árbol de decisión. Fuente: Ba- miento de los grupos.
rrientos et al. 2009.[6] 5. Reglas de inducción: Se trata de extraer reglas
de la forma si-entonces de un conjunto de da-
La importancia de los árboles para clasificación de tos, combinadas e incluso utilizando variables ne-
datos radica en que una vez establecidos, un con- gadas. [9]
junto grande de datos puede ser proceso de forma
automática y obtener resultados en tiempos rela- En principio, estas técnicas no son especı́ficas pa-
tivamente cortos. En la figura 1 anterior, consis- ra un tipo de datos, y tienen aplicaciones diversas
Minerı́a de datos: concepto y aplicaciones. Marvin Coto-Jiménez. 63

nen información geográfica tal como mapas o re-


gistros de posicionamiento global.
Series de tiempo: Contienen datos que provienen
de un flujo continuo de información, tales como
datos de mercados o actividades en sitios web que
evolucionan continuamente con el tiempo.
Internet: Es el repositorio de datos más hete-
rogéneo y dinámico. En general la información
está organizada en documentos interconectados,
de diferentes tipos, por ejemplo texto, audio.
Imágenes. Se puede considerar que esta informa-
ción está compuesta de cuatro niveles: Los con-
Figura 2: Ejemplo de agrupamiento. Fuente: Brendan
2007 [10]. tenidos, la estructura, la relación entre ellos y la
dinámica o evolución de éstos. En la actualidad es
una de las fuentes de datos de mayor interés, tan-
fuera del tema de minerı́a, por lo que usualmen- to por su propia complejidad, como por las venta-
te se prueban varias en varias configuraciones y al- jas que puede representar la extracción de infor-
goritmos para determinar las mejores. No se cuen- mación útil de la gran cantidad de datos, que pue-
ta con un patrón o regla exacta sobre la aplicabi- de ser aprovechada en estudios de mercado, reco-
lidad óptima de cada una, por lo que los algorit- mendaciones a usuarios, predicciones, entre otros.
mos pueden ser diferentes para cada tipo y cada Se vuelve entonces importante desde el punto de
caso. vista social y económico [12].

En este tema, las técnicas son parte de la minerı́a, En cuanto a método, la minerı́a de datos es un pro-
una herramienta de ésta. Su solo uso no identifica ceso que invierte la dinámica del método cientı́fico
un proceso de minerı́a de datos, pues pueden tener [13], pues en éste, primero se formula una hipóte-
objetivos diversos en otras áreas. sis y se diseña un experimento para comprobarla
o rechazarla. En minerı́a de datos, la hipótesis vie-
Por otra parte, es importante considerar cuáles tipos ne después del análisis de los datos, la cual puede
de datos y con qué caracterı́sticas pueden ser sujetos ser comprobada con los datos mismos, lo que no re-
de las técnicas de minerı́a de datos. Algunos de los sultarı́a una comprobación experimentalmente váli-
tipos se describen a continuación [11]: da. Esta consideración es importante para enmar-
car los resultados esperados de la minerı́a y diferen-
Archivos de texto: En la actualidad el tipo de ciarlos de un conocimiento cientı́fico estándar.
datos más común, consiste en texto simple o
en formato binario, con datos que provienen de Además de identificar los tipos de datos sujetos a la
transacciones bancarias, series de tiempo, resulta- minerı́a, es de valor contar un proceso estructurado
dos cientı́ficos experimentales, entre otros. para aplicarla, de valor si se piensa en automatizar su
Bases de datos relacionales: Son tablas que contie- proceso, sobre todo en medios muy dinámicos donde
nen entidades o atributos de estas entidades. Con- se requiere la toma de decisiones y acciones a una
sisten en columnas y filas, que organizan atribu- velocidad cercana a lo que se conoce como tiempo
tos y tuplas, respectivamente. real.
Bases de datos transaccionales: Es un conjunto de
El mencionado proceso, por etapas, se puede siste-
datos que representan transacciones, cada una con
matizar en cuatro fases [13]:
una estampa de tiempo que registra el momento
de la transacción, un identificador y una serie de 1. Filtrado de datos: Se refiere a una distinción y se-
ı́tems. Puede tener asociadas descripciones. lección previa, pues pocas veces es posible aplicar
Multimedia: Incluyen vı́deo, imágenes y audio. Se un algoritmo sobre los datos tal como están re-
pueden almacenar en bases de datos relacionales gistrados. Lo más usual es que se requieran corre-
extendidas u orientadas a objetos. En general se gir, completar y eliminar los no válidos.
caracteriza como datos de alta dimensionalidad. 2. Selección de variables: Dado que la cantidad de
Bases de datos especiales: Además de informa- datos usualmente es muy grande, después del fil-
ción en alguna de las formas anteriores, contie- trado se encuentra ante gran cantidad de regis-
64 ContactoS 91, 60–65 (2014)

tros. Seleccionar variables tiene como objetivo inversiones y créditos es de vital importancia, pues
elegir las variables más importantes en el caso pa- indicadores económicos y ventajas competitivas
ra reducir su tamaño. Para este se eligen los me- dependen de un cálculo adecuado de los riesgos
jores atributos del problema o se utilizan algorit- en las operaciones.
mos heurı́sticos, de distancia o probabilidad pa- Segmentación de clientes: El conocimiento de las
ra buscar variables independientes. caracterı́sticas de los clientes y el establecimien-
3. Algoritmos de extracción de conocimiento: Me- to de grupos que compartan estas caracterı́sti-
diante las técnicas especı́ficas (como las técni- cas permite administrar campañas direccionadas
cas de inteligencia artificial citadas al principio a ciertos grupos que les permita situar mejor sus
de la sección), ya sean individuales o combina- productos.
das, se obtiene un modelo que representa patro- Publicidad dirigida: De especial interés en Inter-
nes en las variables. net, donde es posible registrar las actividades de
4. Interpretación y evaluación: Cuando se obtiene el los clientes en ciertas páginas (como Amazon o
modelo, se somete a un proceso de validación. Facebook), establecer patrones de comportamien-
to y posibles intereses, de manera que se pueda
La intención del proceso es que los resultados pue- ofrecer a los anunciantes garantı́a que sus produc-
dan validarse y representen conclusiones no eviden- tos estarán a la vista de clientes o compradores
tes de los datos. Usualmente estas conclusiones no potenciales.
son detectables en los datos por la gran cantidad de
éstos. La parte de interpretación y evaluación pue- En Internet, además, se rescata el término Minerı́a
de realizarse sin supervisión de seres humanos, por en Web para especificar el interés especı́fico de apli-
ejemplo, en el contexto de Internet si se requiere lle- car estas técnicas ”para el descubrimiento y extrac-
gar a conclusiones inmediatas sobre las acciones que ción automática de informaciones de documentos y
un usuario está realizando y las caracterı́sticas que servicios de la World Wide Web”[15]. Especı́ficamen-
representa. te en aplicaciones como:

3. Aplicaciones Identificar páginas Web de mayor interés.


Una vez analizadas las fases requeridas y los tipos Clasificar documentos.
de datos sobre los que se puede actuar, se procede Clasificar los resultados de los motores de
a revisar qué problemas ha resuelto la minerı́a de búsqueda.
datos, tales que la hacen de interés creciente sobre Identificar y recuperar eficientemente
todo en el plano de investigación empresarial y en documentos.
Internet. Se listan, como ejemplo, los siguientes [14]: Encontrar regularidades en los registros de
actividad.
Generación de recomendaciones: Sugerir un pro- Personalizar las informaciones que se muestran.
ducto después de que el cliente seleccionó uno o Identificar los intereses, preferencias e intenciones
más. El proceso lo requiere debido a la gran can- de usuarios.
tidad de clientes que pueden existir, y a la no Sugerir términos de búsqueda.
evidente relación que existe en la preferencia de Realizar recomendaciones de acuerdo con perfiles
productos, la cual se puede basar en semejanzas de usuarios.
con otros clientes que han realizado más de una Asistir a investigadores en búsquedas.
compra.
Como se mencionó, la cantidad y diversidad de in-
Detección de anomalı́as: La minerı́a de datos pue-
formación son un reto para las técnicas utilizadas,
de detectar un dato anómalo, que puede corres-
pues puede ser necesario otras técnicas como visión
ponder a datos no deseados o incluso peligrosos,
por computador, interpretación de imágenes y pro-
como fraudes en cuentas bancarias.
cesamiento de lenguaje natural.
Análisis de ”separación”: En operaciones financie-
ras y bancarias, se refiere a la detección de un 4. Minerı́a en grandes cantidades de datos
cliente que muestra un comportamiento temprano (big data)
de que puede ser un signo de tendencia a cam- El concepto de Big Data se refiere a cantidades enor-
biar sus preferencias o relaciones comerciales con mes de información que se obtienen, tanto generada
las entidades actuales. por seres humanos o por computadoras, como regis-
Administración de riesgos: Determinar riegos en tros de actividad, transacciones electrónicas, búsque-
Minerı́a de datos: concepto y aplicaciones. Marvin Coto-Jiménez. 65

das de Internet, datos de correo electrónico, y acti- International Review on Computers and Software
vidades en redes sociales. En el año 2010, por ejem- (I.RE.CO.S.), Vol. 6(3): 336-346 (2011).
plo, se crearon 1.5 × 1021 bytes de estos datos en 2. Aldana, W. Data mining industry: Emerging New
Internet [16]. Debido a lo dinámico de la informa- Trends and New Opportunities. Master Engineering
ción y la velocidad con que se genera, el interés es in Electrical Engineering and Computer Science at the
Massachusetts Institute of Technology, 2000.
poder encontrar tendencias, relaciones y en general
3. Garrido, L. y Latorre, J. Aplicaciones empresaria-
hipótesis válidas que permitan tomar decisiones, es-
les de Data Mining. QUESTIIO, Vol. 25(3): 499-508
trategias de desarrollo y de mercado para obtener (2001).
ventajas. 4. Nirkhi, S. Potential use of artificial neural network
Para las empresas, el aprovechamiento de la minerı́a in data mining. The 2nd International Conference
on Computer and Automation Engineering (ICCAE),
para datos de estas caracterı́sticas representa retos
IEEE. Vol. 2: 339-343 (2010)
tanto en infraestructura de almacenamiento y proce- 5. Grünig, R. y Kühn, R. Successful Decision-making. A
samiento como en la captación de personal capacita- Systematic Approach to Complex Problems. Segunda
do que pueda adaptar e innovar para las aplicaciones edicicón, Springer 2009.
especı́ficas. Solamente en Estados Unidos de Améri- 6. Barrientos, Rocio et al. Árboles de decisión como he-
ca, se estima que en el año 2018 habrá una necesidad rramienta en el diagnóstico médico. Revista Médica
de 140 000 a 190 000 expertos con estos conocimien- UV Vol 9(2): 19-24 (2009).
tos [17]. Los resultados de la minerı́a en Big Data 7. Coello, C. Introducción a la Computación Evo-
pueden tener un impacto tan grande como determi- lutiva. CINVESTAV-IPN. 2012. Disponible en:
nar relaciones de causalidad entre eventos económi- http://delta.cs.cinvestav.mx/ ccoello/genetic.html.
cos y noticias generadas en múltiples campos [18]. 8. Gong, A. y Lui, Y. Improved KNN Classification
Algorithm by Dynamic Obtaining K. Advanced Re-
Se trata entonces de una nueva tendencia con gran- search on Electronic Commerce, Web Application,
des posibilidades de desarrollo e importantes retos and Communicatio. International Conference, EC-
por su complejidad y la velocidad con que requie- WAC (2011).
re los resultados. 9. Grzymala-Busse, J.W.: Rule induction. Data Mining
and Knowledge Discovery Handbook, 2nd edn., pp.
Conclusiones 249-265. Springer, Heidelberg (2010).
La minerı́a de datos es un conjunto de técnicas para 10. Brendan J. y Delbert D. Clustering by Passing Mes-
extraer información útil de grandes cantidades de da- sages Between Data Points, Science. Feb. 2007.
tos en cortos periodos de tiempo. Ha sido de especial 11. Zaı̈ane, O. Principles of Knowledge Discovery in Da-
importancia desde la aparición de las computado- tabases. University of Alberta. Department of Com-
ras, y ha evolucionado de forma paralela a éstas, gra- puting Science. 1999.
12. Baeza-Yates, R. Tendencias en minerı́a de datos de
cias a la facilidad de realizar cálculos cada vez más
la Web. El profesional de la información. Vol 18(1):
rápido, y la creciente cantidad de información gene- 5-10 (2009)
rada en redes de computadoras y entidades financie- 13. Vallejos, S. Minerı́a de Datos. Universidad Nacional
ras, empresariales y comerciales. del Nordeste. Argentina 2006.
14. Tabladillo, M. ¿Por qué utilizar minerı́a de
Se destaca la diversidad de aplicaciones donde ha
datos? The SolidQTM Journal, Julio 2010-
mostrado su utilidad y el interés cada vez mayor por
www.solidq.com/sqj
implementarla y aprovechar las ventajas que ha mos- 15. Pagola, J. Estado del Arte del Web. Centro de Apli-
trado, lo cual la puede colocar entre las áreas priori- caciones de Tecnologı́as de Acanzada, Cuba. 2007.
tarias para la formación de profesionales en el cam- 16. Merian, L. IT looks for new tools to explot ’Big Da-
po de tecnologı́as de la información. ta’. Computer World, 2011.
17. Stackpole, B. Your Big Data To-Do List. Computer
Su uso actual y potencial en Internet plantea re-
World, Feb. 13 2012.
tos de interés para la investigación, con resultados 18. Lamont, J. Big data has big implications for kno-
que podrı́an verse a corto plazo y aportar al cam- wledge management. KmWorld, April 2012.
bio en la utilidad de las redes para fines académi-
cos y comerciales. cs

Referencias
1. Daylan, A.; Bertan, Y; y Badur, O. An Experimen-
tal Study for Extending Data Mining Standards.

También podría gustarte