Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos
Objetivo General
Conocer la herramienta Data Mining (Minería de Datos) a profundidad y cómo
aplicarla a los Sistemas Inteligentes para negocios (BI)
Objetivos Específicos
• Aprender el concepto de Data Mining
• Conocer cómo se realiza todo el proceso de esta herramienta
• Aplicar este concepto a ejemplos de empresas reales
2
Historia de la minería de datos
La minería de datos es algo que empieza por los alrededores de los años sesenta, ya los
estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data
Archaeology con la idea de encontrar correlaciones sin una Definición previa de bases de
datos.
En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y
Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de
Datos y KDD.
Estas tecnologías han sido una buena herramienta para personas que se desenvuelven en
el ámbito de los negocios y académico.
La evolución de sus etapas en el transcurso del tiempo puede dividirse en cuatro etapas
principales:
• Colección de Datos (1960).
• Acceso de Datos (1980).
• Almacén de Datos y Apoyo a las Decisiones (principios de la década de 1990).
• Minería de Datos Inteligente.(de la década de 1990).
3
Etapas de la minería de datos
El proceso de minería de datos tiene normalmente cuatro etapas principales:
La minería de datos se utiliza sobre todo hoy en día por las empresas con un enfoque
fuerte en los consumidores, comunicaciones, comercio, finanzas, y las organizaciones de
comercialización.
Esto permite que las empresas determinen las relaciones entre los factores "internos"
como el precio, posicionamiento del producto, o las habilidades del personal, y factores
"externos", como los indicadores económicos, la competencia, y la demografía de los
clientes. Y, les permite determinar el impacto en las ventas, la satisfacción del cliente, y
las ganancias corporativas. Por último, les permite "profundizar" en la información
resumida para ver datos detallados de las transacciones.
4
¿Cómo funciona la minería de datos?
Si bien la tecnología de información a gran escala ha ido evolucionando por separado las
transacciones y sistemas de análisis, la minería de datos proporciona un enlace entre los
dos. El software de minería de datos analiza las relaciones y patrones en los datos de
transacción almacenados sobre la base de consultas de los usuarios de composición
abierta.
Clases
Los datos almacenados se utilizan para localizar datos en grupos predeterminados. Por
ejemplo, una cadena de restaurantes podría minar datos de compra del cliente para
determinar cuando los clientes los visitan y lo que normalmente ordenan. Esta
información podría utilizarse para aumentar el tráfico al tener especiales del día.
Grupos
Los elementos de datos se agrupan de acuerdo a las relaciones lógicas o preferencias de
los consumidores. Por ejemplo, los datos pueden ser extraídos para identificar segmentos
de mercado o afinidades de los consumidores.
Asociaciones
Los datos pueden ser minados para identificar asociaciones. El ejemplo de cerveza-pañal
es un ejemplo de minería asociativa.
Patrones secuenciales
Los datos se minan para anticipar patrones de comportamiento y tendencias. Por ejemplo,
un distribuidor especializado en sistemas al aire libre puede predecir la probabilidad de
compra de una mochila basado en la compra de un consumidor de sacos de dormir y
calzado de senderismo.
5
• Proporcionar acceso a datos para los analistas de negocios y profesionales de
tecnologías de la información.
• Analizar los datos por un software de aplicación.
• Presentar los datos en un formato útil, como un gráfico o tabla.
Hoy en día, las organizaciones están acumulando grandes cantidades, y cada vez mayores,
de datos en diferentes formatos y diferentes bases de datos. Esto incluye:
Conocimiento
La información puede ser convertida en conocimiento acerca de los patrones históricos y
las tendencias futuras. Por ejemplo, la información resumida sobre las ventas de
supermercados minoristas puede ser analizada a la luz de los esfuerzos de promoción para
facilitar el conocimiento del comportamiento de compra del consumidor.
Por lo tanto, un fabricante o distribuidor puede determinar qué elementos son los más
susceptibles a los esfuerzos de promoción.
Almacenes de datos
Los dramáticos avances en la captura de datos, potencia de procesamiento, transmisión
de datos y capacidades de almacenamiento están permitiendo a las organizaciones
integrar sus diversas bases de datos en almacenes de datos.
6
El almacenamiento de datos se define como un proceso de gestión de datos centralizado
y con capacidad de recuperación o consulta. El almacenamiento de datos, como la minería
de datos, es un término relativamente nuevo, aunque el concepto en sí ha existido por
años.
Los dramáticos avances tecnológicos hacen que esta visión sea una realidad para muchas
empresas. Y, los avances igualmente espectaculares en el software de análisis de datos,
permite a los usuarios acceder a estos datos libremente. El software de análisis de datos
es lo que apoya la minería de datos.
Algoritmos genéticos
Técnicas de optimización que usan procesos tales como combinación genética, mutación
y selección natural en un diseño basado en los conceptos de evolución natural.
Árboles de decisión
Estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones
generan reglas para la clasificación de un conjunto de datos. Métodos específicos de
árboles de decisión incluyen Árboles de Clasificación y Regresión (CART) y Detección
Automática de Interacción (Chi Cuadrado CHAID).
CART segmenta un conjunto de datos mediante la creación de dos vías dividas, mientras
que CHAID segmenta utilizando pruebas de chi cuadrado para crear divisiones en
múltiples direcciones. CART normalmente requiere menos preparación de datos que
CHAID.
7
Método del vecino más próximo
Una técnica que clasifica cada registro en un conjunto de datos basado en una
combinación de las clases de registro(s) k más similares a él en un conjunto de datos
históricos (donde k 1). A veces se llama técnica del vecino k-más cercano.
Inducción de reglas
La extracción de reglas if-then basadas en la significancia estadística.
Visualización de datos
La interpretación visual de las complejas relaciones de datos multidimensionales.
Entre más datos haya en proceso y siendo mantenidos, más poderoso es el sistema
requerido.
• Complejidad de consultas
Entre más complejas las consultas y mayor el número de consultas en proceso, más
poderoso debe ser el sistema requerido.
Sin embargo, esta infraestructura debe ser significativamente mejorada para soportar
aplicaciones de mayor tamaño. Algunos fabricantes han añadido amplias capacidades de
indexación para mejorar el rendimiento de sus consultas.
8
Otros utilizan nuevas arquitecturas de hardware, tales como procesadores masivos en
paralelo (MPP) para lograr mejoras de magnitud en el tiempo de consulta.
Aparte de estos, la minería de datos también se puede utilizar en las áreas de control de
producción, retención de clientes, exploración científica, deportes, astrología y
navegación web en Internet.
Perfil del cliente: la minería de datos ayuda a determinar qué tipo de personas compran
qué tipo de productos.
Identificación de los requisitos del cliente: la extracción de datos ayuda a identificar los
mejores productos para diferentes clientes. Utiliza la predicción para encontrar los
factores que pueden atraer nuevos clientes.
9
• Planificación de recursos: implica resumir y comparar los recursos y los gastos.
• Competencia: Implica el monitoreo de competidores y tendencias del mercado.
Detección de fraude
La minería de datos también se utiliza en los campos de servicios de tarjetas de crédito y
telecomunicaciones para detectar fraudes.
Presentación de conocimiento
El conocimiento resultante de la evaluación e interpretación ahora tendrá que ser
presentado a los interesados. La presentación se realiza generalmente a través de técnicas
de visualización y otros mecanismos de representación del conocimiento.
Una vez presentado, el conocimiento puede, o será, usado para tomar decisiones
comerciales acertadas.
Ejemplos
• Por ejemplo, una cadena de supermercados utiliza la capacidad de extracción de
datos del software de Oracle para analizar los patrones locales de compra.
Descubrieron que cuando los hombres compran pañales, los jueves y sábados,
también tienden a comprar cerveza. Análisis posteriores mostraron que estos
10
compradores normalmente hacían sus compras semanales los sábados. Los jueves,
sin embargo, compraron sólo algunos artículos.
Por ejemplo, podría mover la cerveza más cerca de los pañales. Y, podría hacer
que la cerveza y los pañales se vendan a precio completo los jueves.
11
Conclusión
La minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes
bases de datos con el objetivo de encontrar patrones que nos puedan aportar información
valiosa en la toma de futuras decisiones
Esta información se puede utilizar para crear modelos que pueden ayudar a hacer
predicciones de cómo las personas o sistemas se computarán para que se puedan anticipar
a él.
Cuantos más datos tengas, mejores serán los modelos que podrás crear utilizando las
técnicas de data mining, lo que resultará en más valor de negocio para tu organización.
12
Bibliografía
https://www.iebschool.com/blog/data-mining-mineria-datos-big-data/
https://economictimes.indiatimes.com/definition/data-mining
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
https://www.sinnexus.com/business_intelligence/datamining.aspx
http://mineriadatos1.blogspot.com/2013/04/historia-de-la-mineria-de-datos.html
https://www.muyinteresante.es/tecnologia/preguntas-respuestas/que-es-la-mineria-de-
datos311477406441
13