Está en la página 1de 5

Minera de Datos

Hoy en da es muy frecuente, sobre todo en las grandes empresas, la disponibilidad de


grandes volmenes de datos y el uso generalizado de herramientas informticas para la
extraccin adecuada del conocimiento que encierra la informacin. Este hecho ha
transformado el anlisis de datos orientndolo hacia determinadas tcnicas especializadas
englobadas bajo el nombre de Minera de Datos.
La Minera de Datos puede considerarse como un proceso de descubrimiento de nuevas y
significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos.
Las tcnicas de Minera de Datos persiguen el descubrimiento automtico del conocimiento
contenido en la informacin almacenada de modo ordenado en grandes bases de datos.
Estas tcnicas tienen como objetivo descubrir patrones, perfiles y tendencias a travs del
anlisis de los datos utilizando tecnologas de reconocimiento de patrones, redes
neuronales, clustering, clasificacin, prediccion y otras tcnicas avanzadas de anlisis
multivariante de datos. El uso de los patrones descubiertos debera ayudar a tomar
decisiones ms seguras que reporten, por tanto, algn beneficio a la organizacin.
El instituto SAS define el concepto de Minera de Datos como el proceso de Seleccionar
(Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar (Modeling) y Valorar
(Assessment) grandes cantidades de datos con el objetivo de descubrir patrones
desconocidos que puedan ser utilizados como ventaja comparativa respecto a los
competidores.
Objetivo de la minera de datos
La Minera de Datos se distingue de las aproximaciones porque no obtiene informacin
extensional (datos) sino intencional (conocimiento); de una manera simplista pero
ambiciosa, podramos decir que su objetivo es convertir datos en conocimiento.
Retos de la minera de datos

Trabajar con grandes volmenes de datos, procedentes mayoritariamente de


sistemas de informacin, con los problemas que ello conlleva.
Usar tcnicas adecuadas para analizar los datos y extraer conocimiento novedoso
y til.
Fases de la Minera de Datos

La generacin de un modelo de minera de datos forma parte de un proceso mayor que


incluye desde la formulacin de preguntas acerca de los datos y la creacin de un modelo
para responderlas, hasta la implementacin del modelo en un entorno de trabajo. Este
proceso se puede definir mediante los seis pasos bsicos siguientes:
1. Definir el problema: consiste en definir claramente el problema y considerar formas
de usar los datos para proporcionar una respuesta para el mismo.
2. Preparar los datos: consiste en consolidar y limpiar los datos identificados en el
paso anterior
3. Explorar los datos: consiste en explorar los datos preparados. Se deben conocer
los datos para tomar las decisiones adecuadas al crear los modelos de minera de
datos.
4. Generar modelos: consiste en generar el modelo o modelos de minera de datos.
Se usarn los conocimientos adquiridos en el paso anterior para definir y crear los
modelos.
5. Explorar y validar los modelos: consiste en explorar los modelos de minera de datos
que ha generado y comprobar su eficacia.
6. Implementar y actualizar los modelos: consiste en implementar los modelos que
funcionan mejor.

Ventajas y Desventajas
Ventajas
Anlisis de grandes bases de datos.
La probabilidad de obtener informacin importante o que entregue un valor a la
organizacin.
Las tcnicas son casi siempre vlidas y confiables, pues los modelos usados son
modelos del campo de la estadstica, los cuales ya han sido probados y se tiene la
certeza de su correcto funcionamiento.
Rapidez en la construccin y generacin de modelos
Desventajas
Segn el tipo de datos, la extraccin y procesamiento de estos puede ser dificultosa
o costosa.
No siempre se puede asegurar la obtencin de un modelo vlido.
El preprocesamiento de datos puede llevar mucho tiempo.

Aplicaciones

Aplicaciones financieras y banca


o Obtencin de patrones de uso fraudulento de tarjetas de crdito
o Determinacin del gasto en tarjeta de crdito por grupos
o Calculo de correlaciones entre indicadores financieros
o Identificacin de reglas de mercado de valores a partir de histricos
o Anlisis de riesgo en crditos
Anlisis de mercado, distribucin y, en general comercio
o Anlisis de la cesta de la compra (compras conjuntas, secuenciales, ventas
cruzadas, seuelos, etc.)
o Evaluacin de campaas publicitarias
o Anlisis de la fidelidad de los clientes. Reduccin de fuga.
o Segmentacin de clientes
o Estimacin de stocks, de costes, de ventas, etc.
Seguros y salud privada
o Determinacin de los clientes que podran ser potencialmente caros.
o Anlisis de procedimientos mdicos solicitados conjuntamente
o Prediccin de qu clientes contratan nuevas plizas
o Identificacin de patrones de comportamiento para clientes con riesgo
o Identificacin de comportamiento fraudulento
o Prediccin de los clientes que podran ampliar su pliza para incluir
procedimientos extras (dentales, pticos).
Educacin
o Seleccin o captacin de estudiantes
o Deteccin de abandonos y de fracaso
o Estimacin del tiempo de estancia en la institucin
Procesos industriales
o Extraccin de modelos sobre comportamiento de compuestos
o Deteccin de piezas con trabas. Modelos de calidad.
o Prediccin de fallos y accidentes
o Estimacin de composiciones optimas en mezclas
o Extraccin de modelos de coste
o Extraccin de modelos de produccin
Medicina
o Identificacin de patologas. Diagnstico de enfermedades.
o Deteccin de pacientes con riesgo de sufrir una patologa concreta.
o Gestin hospitalaria y asistencial. Predicciones temporales de los centros
asistenciales para el mejor uso de recursos, consultas, salas y habitaciones.
o Recomendacin priorizada de frmacos para una misma patologa
Biologa, bioingeniera y otras ciencias
o Anlisis de secuencias de genes
o Anlisis de secuencias de protenas
o Predecir si un compuesto qumico causa cncer
o Clasificacin de cuerpos celestes
o Prediccin de recorrido y distribucin de inundaciones
o Modelos de calidad de aguas, indicadores ecolgicos.
Telecomunicaciones
o Establecimiento de patrones de llamadas
o Modelos de carga en redes
o Deteccin de fraudes
Otras reas
o Correo electrnico y agendas personales: clasificacin y distribucin
automtica de correo, deteccin de correo spam, gestin de avisos, anlisis
del empleo del tiempo.
o Recursos Humanos: seleccin de empleados.
o Web: anlisis del comportamiento de los usuarios, deteccin de fraude en el
comercio electrnico, anlisis de los logs de un servicio web.
o Turismo: determinar las caractersticas socioeconmicas de los turistas en
un determinado destino o paquete turstico, identificar patrones de reservas,
etc.
o Trfico: modelos de trfico a partir de fuentes diversas: cmaras, GPS
o Hacienda: deteccin de evasin fiscal
o Policiales: identificacin de posibles terroristas en un aeropuerto
o Deportes: estudio de la influencia de jugadores y de cambios. Planificacin
de eventos.
o Poltica: diseo de campaas polticas, estudios de tendencias de grupos,
etc.
Todos estos ejemplos muestran la variedad de aplicaciones donde el uso de la minera de
datos puede ayudar a entender mejor el entorno donde se desenvuelve la organizacin y,
en definitiva, mejorar la toma de decisiones en dicho entorno.
Herramientas de Minera de Datos

Orange es una suite de software para minera de base de datos y aprendizaje


automtico basado en componentes que cuenta con un fcil y potente, rpido y
verstil front-end de programacin visual para el anlisis exploratorio de datos y
visualizacin, y libreras para Python y secuencias de comando. Contiene un
completo juego de componentes para preprocesamiento de datos, caracterstica de
puntuacin y filtrado, modelado, evaluacin del modelo, y tcnicas de exploracin.
Est escrito en C++ y Python, y su interfaz grfica de usuario se basa en la
plataforma cruzada del framework Qt.
RapidMiner es un ambiente de experimentos en aprendizaje automtico que se
utiliza para tareas de minera de datos tanto en investigacin como en el mundo
real. Permite a los experimentos componerse de un gran nmero de operadores
anidables arbitrariamente, que se detallan en archivos XML y se hacen con la
interfaz grfica de usuario de RapidMiner.
Escrito en Java, Weka es una conocida suite de software para mquinas de
aprendizaje que soporta varias tareas tpicas de minera de datos, especialmente
pre procesamiento de datos, agrupamiento, clasificacin, regresin, visualizacin
y caractersticas de seleccin.
Diseado para los cientficos, ingenieros y estudiantes, jHepWork es un framework
para anlisis de datos libre y de cdigo abierto. Contiene bibliotecas cientficas
numricas implementadas en Java para funciones matemticas, nmeros
aleatorios, y otros algoritmos de minera de datos. jHepWork se basa en Jython un
lenguaje de programacin de alto nivel, pero codificacin en Java tambin puede
ser usada para llamar libreras jHepWork numricas y grficas.
KNIME (Konstanz Information Miner) es una plataforma de cdigo abierto de fcil
uso y comprensible para integracin de datos, procesamiento, anlisis, y
exploracin. Ofrece a los usuarios la capacidad de crear de forma visual flujos o
tuberas de datos, ejecutar selectivamente algunos o todos los pasos de anlisis, y
luego estudiar los resultados, modelos y vistas interactivas. KNIME est escrito en
Java.
Prez, C., & Santn, D.. (2006). Data Mining, soluciones con Enterprise Miner.
Mxico: AlfaOmega.
Hernndez, J., Ramrez, M., & Ferri, C.. (2004). Introduccin a la Minera de
Datos. Espaa: Pearson Educacin.

https://msdn.microsoft.com/es-es/library/ms174949(v=sql.120).aspx

(2016). Conceptos de minera de datos. agosto 20, 2017, de Microsoft Sitio web:
https://msdn.microsoft.com/es-es/library/ms174949(v=sql.120).aspx

http://wiki.inf.utfsm.cl/index.php?title=Miner%C3%ADa_de_Datos

(2016). Minera de Datos. agosto 20, 2017, Sitio web:


http://wiki.inf.utfsm.cl/index.php?title=Miner%C3%ADa_de_Datos

http://blog.jmacoe.com/gestion_ti/base_de_datos/5-mejores-software-mineria-datos-codigo-
libre-abierto/

También podría gustarte