Está en la página 1de 12

MINERA DE DATOS: REA DE OPORTUNIDADES

Actualmente se vive una poca donde se tiene una enorme cantidad de datos que

se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei,

2012)) ya sea en forma consciente o inconsciente, por ejemplo cuando se registra

la entrada al entorno laboral, cuando se consulta el correo electrnico, cuando se

paga algn bien o servicio por medio de una tarjeta bancaria, cuando se hace la

reservacin para algn espectculo, cuando se conduce por una va donde se

contabilizan los autos que pasan por minuto, cuando se le da seguimiento a la

navegacin realizada por Internet o bien cuando se obtiene una imagen del rostro

sin darse cuenta al momento de transitar por lugares donde se requiere mayor

seguridad como puede ser un aeropuerto u oficina gubernamental. Todos estos

datos se encuentran dispersos en redes de computadoras corporativas, la web,

dispositivos de almacenamiento de datos entre otros, producto de las actividades

de las empresas, sociedad, gobierno, medicina, etc.

Los negocios a nivel mundial crean gigantescos conjuntos de datos, conteniendo

transacciones de ventas, registros de inventarios, descripciones de productos,

promociones de ventas, perfiles y rendimiento de la compaa, retroalimentacin

de los clientes por citar algunos ejemplos. La industria mdica mantiene los

expedientes de los pacientes, servicios de monitoreo preventivo de signos vitales,

imgenes de estudios adems de la propia investigacin del rea. Las

comunidades y medios sociales se han convertido en importantes fuentes de

1
Unidades de capacidad de almacenamiento. En trminos generales, Un Terabyte son mil Gigabytes y Un
Petabyte son mil Terabytes o un milln de Gigabytes.
datos tales como fotografas digitales, videos, blogs y toda clase de contenido en

las redes sociales.

La informacin se ha convertido en pieza clave para obtener una ventaja

competitiva en el mundo de los negocios. Se debe tener acceso a dicha

informacin no solo de manera rpida sino tambin en un formato claro y

entendible por los tomadores de decisiones. Herramientas poderosas y verstiles

se han vuelto muy necesarias dado que se ha excedido la capacidad humana para

descubrir automticamente informacin de valor a partir de la tremenda cantidad

de datos y transformarlos en conocimiento organizado. Esta necesidad ha

permitido el nacimiento de la Minera de Datos. La abundancia de datos, aunado

con la necesidad de poderosas herramientas de anlisis de datos ha sido descrita

como una situacin rica en datos pero pobre en informacin (Han & Kamber, Data

Mining. Concepts and Techniques, 2006).

Cuando se toma una decisin importante, normalmente no se realiza basada en

informacin rica que puede encontrarse en los grandes almacenes de datos sino

en la intuicin del tomador de la decisin debido a la carencia de herramientas

para extraer conocimiento de valor de esos almacenes de datos que se han

generado con el da a da. Esto ha detonado el desarrollo de herramientas de

minera de datos que pueden transformar los enormes contenedores de datos en

pepitas de oro de conocimiento.

Antes de continuar, se vern algunas definiciones sobre la minera de datos que

algunos autores o empresas han propuesto.


Conceptos de Minera de Datos

La minera de datos (Prez Lpez & Santn Gonzlez, 2007) es el proceso

del descubrimiento de nuevas y significativas relaciones, patrones y

tendencias al examinar grandes cantidades de datos.

La minera de datos (Fayyad, Piatetsky-Shapiro, & Smyth, 1996) es la

aplicacin de algoritmos especficos para extraer patrones de datos.

La minera de datos (Microsoft Corporation, 2012) es el proceso de detectar

la informacin procesable de los conjuntos grandes de datos. Utiliza el

anlisis matemtico para deducir los patrones y tendencias que existen en

los datos. Normalmente, estos patrones no se pueden detectar mediante la

exploracin tradicional de los datos porque las relaciones son demasiado

complejas o porque hay demasiados de ellos.

Algunos trminos tienen un significado similar a la minera de datos, motivo por el

cual tambin se les puede encontrar en bibliografa como sinnimos, por ejemplo,

Minera de conocimiento de datos, Extraccin de conocimiento, Anlisis de

datos/patrones, Arqueologa de datos y dragado de datos (Han & Kamber, Data

Mining. Concepts and Techniques, 2006). Esto ha provocado confusin acerca del

significado de los trminos Minera de datos y Descubrimiento de conocimiento

en Bases de Datos (KDD por sus siglas en ingls), KDD fue propuesto en 1995

(Sumathi & Sivanandam, 2006) para describir el proceso completo de extraccin

de conocimiento de datos.

En este contexto, conocimiento significa relaciones y patrones entre los diferentes

datos existentes. Minera de datos debe ser usado exclusivamente para la etapa
de descubrimiento del proceso KDD, sin embargo, comercialmente suelen

emplearse ambos conceptos como sinnimos o de manera indistinta tal como ser

tratado en el presente escrito, dndole un enfoque amplio.

La minera de datos como proceso

Sin intentar cubrir todos los enfoques o puntos de vista, el proceso de

descubrimiento de conocimiento es una secuencia iterativa que comprende los

pasos siguientes (ver Fig. 1):

1. Limpieza de los datos. Se deben remover los datos inconsistentes, es

decir, aquellos que aun siendo los mismos pueden hacer referencia a

distintas cosas.

2. Integracin de datos. Mltiples fuentes de datos pueden ser combinadas.

3. Seleccin de datos. Se recuperan los datos relevantes para su anlisis

posterior.

4. Transformacin de datos. Los datos son transformados y consolidados en

formas apropiadas para las operaciones de resumen y agregacin.

5. Minera de datos. Proceso esencial donde mtodos inteligentes son

aplicados para extraer patrones o modelos entre los datos.

6. Evaluacin de los patrones o modelos. Identificar los patrones o modelos

realmente interesantes que representan conocimiento, basados en medidas

de inters.

7. Presentacin del conocimiento. Tcnicas de representacin de

conocimiento y visualizacin son empleadas para presentar el conocimiento

minado a los usuarios.


Fig. 1. Minera de Datos en el proceso de Descubrimiento de Conocimiento (Han,

Kamber, & Pei, 2012)

Este proceso puede ser aplicado sobre diferentes orgenes de datos (bases de

datos, datawarehouses, la web, otros repositorios de informacin o datos que son

enviados al sistema en forma dinmica en tiempo real) y sobre diversos tipos de

datos (flujos continuos, datos ordenados o en secuencia, datos grficos, datos

espaciales, texto, multimedia entre otros).

Los elementos (como soporte o protagonistas) que hacen posible la minera de

datos han estado bajo desarrollo por muchos aos en reas de investigacin como

Estadstica, Sistemas de Informacin/Bases de Datos, Computacin

Paralela/Distribuida, Interfaces de Lenguaje Natural a Bases de Datos, Inteligencia

Artificial y Aprendizaje de Mquinas. Con el apoyo de estas reas, se puede


producir cinco tipos de informacin: Asociaciones, Secuencias, Clasificaciones,

Agrupamientos y Pronsticos. Esta informacin se obtiene ms especficamente

de un conjunto de tcnicas, las cuales se puede agrupar segn se muestra en la

fig. 2 (Prez Lpez & Santn Gonzlez, 2007).

Regresin

Anlisis de la
varianza
Series
temporales
Predictivas Mtodos Discriminante
bayesianos

Algoritmos rboles de decisin


genticos

Clasificacin ad Redes neuronales


hoc

Clasificacin Clustering
post hoc
Segmentacin
Asociacin

Tcnicas Dependenci
a

Descriptivas Reduccin de la
dimensin

Anlisis
exploratorio

Escalamiento
multidimensional

Proceso Anlitico
de Transacciones
Tcnicas (OLTP)
auxiliares SQL y
(Verificacin herramientas de
) consulta

Reporting

Fig. 2. Clasificacin de las tcnicas de Data Mining.

Las tcnicas predictivas, como su nombre lo indica predicen el valor de un atributo

de un conjunto de datos a partir de otros valores ya conocidos, induciendo una

relacin entre ellos. Esta modalidad se conoce como aprendizaje supervisado y se


genera en dos fases: Entrenamiento y Prueba. Cuando una aplicacin no es lo

suficientemente madura no tiene el potencial necesario para una solucin

predictiva, entonces se debe recurrir a los mtodos no supervisados o del

descubrimiento del conocimiento (tcnicas descriptivas) que descubren patrones y

tendencias en los datos actuales (no utilizan datos histricos).

Las tcnicas auxiliares son herramientas de apoyo ms superficiales y limitadas,

empleadas normalmente para propsitos de verificacin de los resultados

obtenidos con las otras tcnicas (predictivas o descriptivas). En un tratado

posterior se dar mayor nfasis a cada tipo de tcnica.

Aplicaciones de la Minera de Datos

Es crtico para los negocios tener un claro entendimiento del contexto comercial

(clientes, mercado, proveedores, recursos, competencia, etc.) de cada

organizacin. Las tecnologas de Inteligencia de Negocios (BI por sus siglas en

ingls) proporcionan informacin histrica, actual y posibles proyecciones de las

operaciones del negocio, en formato de reportes, procesamiento analtico en lnea

(OLAP por sus siglas en ingls), administracin del comportamiento del negocio,

inteligencia competitiva, benchmarking y anlisis predictivo. Sin la minera de

datos muchas empresas no pudieran ser capaces de hacer un anlisis efectivo del

mercado, analizar la retroalimentacin de los clientes sobre los productos o

servicios, descubrir las fortalezas y debilidades de los competidores, retener a los

clientes ms rentables y tomar decisiones de negocio ms inteligentes. Las

tcnicas de clasificacin y prediccin se emplean frecuentemente en BI, mientras

que las tcnicas de clustering juegan un rol central en los sistemas de


Administracin de la Relacin con el Cliente (CRM por sus siglas en ingls) para

agruparlos y desarrollar programas de recompensa de acuerdo a las

caractersticas de cada grupo.

A continuacin se presentan algunas de las situaciones donde la minera de datos

ha tenido presencia en forma satisfactoria (Hernndez Orallo, Ramirez Quintana,

& Ferri Ramrez, 2004)

Tabla 1. Aplicaciones de la Minera de Datos

rea de Aplicacin Problemas Tipo


Comercio/Marketing Identificar patrones de compra de los clientes.
Buscar asociaciones entre clientes y
caractersticas demogrficas.
Predecir respuesta a campaas de mailing.
Anlisis de la canasta de compra.
Banca Detectar patrones de uso fraudulento de
tarjetas de crdito.
Identificar clientes leales.
Predecir clientes con probabilidad de cambiar
su afiliacin.
Determinar gasto en tarjeta de crdito por
grupos.
Encontrar correlaciones entre indicadores
financieros.
Identificar reglas de mercado de valores a
partir de histricos.
Seguros y Salud Privada Anlisis de procedimientos mdicos solicitados
conjuntamente.
Predecir qu clientes compran nuevas plizas.
Identificar patrones de comportamiento para
clientes con riesgo.
Identificar comportamiento fraudulento.
Transportes Determinar la planificacin de la distribucin
entre tiendas.
Analizar patrones de carga.
Medicina Identificacin de terapias mdicas
satisfactorias para diferentes enfermedades.
Asociacin de sntomas y clasificacin
diferencial de patologas.
Estudio de factores (genticos, precedentes,
hbitos, alimenticios, etc.) de riesgo/salud en
distintas patologas.
Segmentacin de pacientes para una atencin
ms inteligente segn su grupo.
Predicciones temporales de los centros
asistenciales para el mejor uso de recursos,
consultas, salas y habitaciones.
Estudios epidemiolgicos, anlisis de
rendimientos de campaas de informacin,
prevencin, sustitucin de frmacos, etc.

Procesos industriales Extraccin de modelos sobre comportamiento


de compuestos.
Deteccin de piezas con trabas.
Prediccin de fallos
Modelos de calidad.
Estimacin de composiciones ptimas en
mezclas.
Extraccin de modelos de coste.
Extraccin de modelos de produccin.
Simulacin costes/beneficios segn niveles de
calidad.

Gracias a las innovaciones tecnolgicas que se van presentando actualmente, no

se descartan escenarios donde la minera de datos sea tan comn y fcil de usar

como el correo electrnico, sistemas que puedan revelar nuevos tratamientos para

enfermedades o nuevas perspectivas sobre la concepcin del universo solo por

mencionar algunos ejemplos.

Sin embargo, aun existen situaciones en las cuales la investigacin en minera de

datos se encuentra trabajando arduamente, las cuales se pueden clasificar en los

cinco grupos siguentes(Han, Kamber, & Pei, Data Mining. Concepts and

Techniques, 2012):

Metodologa de la minera. Los investigadores han estado desarrollando

nuevas metodologas de minera de datos que involucra la investigacin de

nuevos tipos de conocimientos, minera en espacios multidimensionales,

integracin de mtodos de otras disciplinas. Adems se debe considerar la

incertidumbre, el ruido y la incompletud de los datos.

Interaccin con el usuario. En este sentido se investiga cmo interactuar

con un sistema de minera de datos, cmo incorporar el conocimiento

previo del usuario en la minera y cmo visualizar y comprender los

resultados de la minera de datos.

Eficiencia y escalabilidad. Estos aspectos debe ser considerados cuando se

realizan las comparaciones entre las diferentes propuestas para nuevos

algoritmos o tcnicas de minera de datos.


Diversidad de tipos de datos. La amplia variedad de tipos de bases de

datos trae consigo retos a la minera de datos dado que se tienen datos

estructurados, semi estructurados y no estructurados tales como flujos de

datos dinmicos, secuencias biolgicas, datos de sensores, datos

espaciales, hipertexto, multimedia, etc.

Minera de datos y sociedad. La divulgacin o uso inapropiado de la

informacin y la potencial violacin a la privacidad as como a los derechos

de proteccin de datos son reas de inters que deben ser consideradas.

Conclusin

La minera de datos es todo un proceso que involucra varias tecnologas que dan

un tratamiento a todos los datos histricos que se van generando da con da.

Como resultado, proporciona conocimiento que a simple vista no puede

identificarse con las herramientas normales de trabajo y que puede ser utilizado

para tomar decisiones ms inteligentes enfocadas a objetivos bien definidos que

pueden generar una ventaja competitiva para las empresas y nuevas

oportunidades para desarrollo tecnolgico.

Bibliografa

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in

Databases. AI Magazine , 37-54.

Han, J., & Kamber, M. (2006). Data Mining. Concepts and Techniques. Morgan Kaufmann

Publishers.

Han, J., Kamber, M., & Pei, J. (2012). Data Mining. Concepts and Techniques. Morgan Kaufmann.
Hernndez Orallo, J., Ramirez Quintana, M. J., & Ferri Ramrez, C. (2004). Introduccin a la Minera

de Datos. Madrid: Pearson.

Microsoft Corporation. (2012). Conceptos de Mineria de Datos. SQL Server 2012. Retrieved Abril 5,

2012, from MSDN: http://msdn.microsoft.com/es-es/library/ms174949.aspx

Prez Lpez, C., & Santn Gonzlez, D. (2007). Minera de Datos. Tcnicas y Herramientas. Madrid:

Thomson.

Sumathi, S., & Sivanandam, S. (2006). Introduction to Data Mining and its Applications. Berlin:

Springer.

También podría gustarte