MINERIA DE DATOS
BUSINESS INTELLIGENCE GERENCIAL
Antecedentes
La búsqueda tradicional de datos se realiza mediante análisis estadísticos.
A finales de los 80’s la estadística se amplió a técnicas como lógica difusa, razonamiento heurístico y redes
neuronales.
Actualmente, las técnicas anteriores se aprovechan para generar conocimiento.
Minería de datos
La disponibilidad de grandes volúmenes de información y el uso generalizado de
herramientas informáticas ha transformado el análisis de datos orientándolo hacia
determinadas técnicas especializadas englobadas bajo el nombre de minería de
datos o Data Mining.
DEFINICIÓN
1. "La minería de datos es el proceso de detectar información procesable de
grandes conjuntos de datos. Utiliza el análisis matemático para deducir los
patrones y tendencias que existen en los datos. Normalmente, estos patrones no
se pueden detectar mediante la exploración tradicional de los datos porque las
relaciones son demasiado complejas o porque hay demasiado datos.“
DEFINICIÓN
La Minería de Datos estudia métodos y algoritmos que permiten la extracción automática de información
sintetizada que permite caracterizar las relaciones escondidas.
No es una solución a negocios.
Es sólo tecnología.
Encuentra las “gemas pérdidas” en montañas de información.
DEFINICIÓN
En las aplicaciones de la Minería de Datos se hace sobre datos previamente recolectados.
Los datos no cambian mientras están siendo analizados.
Por lo que los datos generados son confiables y consistentes para éstos datos.
DEFINICÓN
El componente principal en la Tecnología de la Minería de Datos ha sido desarrollado en:
a) Estadística
b) Inteligencia Artificial
c) Máquinas de Aprendizaje
Actualmente, existe gran relevancia en:
a) Ambientes de negocios
b) Las descripciones básicas de las arquitecturas de almacenes de datos relativas a las tomas de decisiones empresariales
ELEMENTOS Y DEFINICIONES
Datos: hechos o medidas que describen características de objetos, eventos o personas, es la materia prima de
la que se obtendrá la información.
Información: Datos analizados y presentados en forma adecuada, de interés para un observador en un
momento determinado.
Conocimiento: información procesada para emitir juicios que llevan a conclusiones.
Meta Conocimiento: Reglas que permiten obtener conocimiento.
CARACTERISTICAS
Explorar datos
Realizar predicciones
Encontrar patrones
Usos típicos
Buscar clientes
rentables
Comprender las
Corregir datos
necesidades de
para el ETL
los clientes
Análisis
predictivo
Detectar y Anticipar a la
prevenir el pérdida de
fraude clientes
Desarrollar
campañas de Predecir ventas e
marketing inventarios
efectivas
TÉCNICAS BASE
Redes Neuronales Artificiales.
Modelos que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.
TÉCNICAS BASE
Árboles de Decisión.
TÉCNICAS BASE
Algoritmos Genéticos.
TÉCNICAS BASE
Modelos Lineales.
Vecino más Cercano.
ALGORITMOS USADOS EN DATA MINING
ALGORITMO DESCRIPCIÓN
Arboles de decisión Encuentra las probabilidades de un resultado basado en valores que
pertenecen a un conjunto de entrenamiento, se los representa de manera
visual
Reglas de asociación Identifica relaciones entre casos
Clustering Clasifica los casos en grupos distintos basados en conjuntos de atributos
comunes
Naive Bayes Muestra claramente las diferencias de una variable en particular para varios
elementos de datos
Clustering secuencial Se definen grupos o clusters de datos en base a una secuencia de eventos
anteriores
Series de tiempo Análisis y pronósticos de datos basados en el tiempo que combina el poder
de ARTXP (desarrollado por Microsoft Research) para las predicciones a
corto plazo y con ARIMA para las de precisión a largo plazo.
Redes Neuronales Trata de descubrir relaciones no intuitivas de datos
Regresión lineal Determina la relación entre las columnas con el fin de predecir un resultado
Regresión logística Determina la relación entre las columnas con el fin de evaluar la probabilidad
de que una columna contendrá un estado específico
ALGORITMOS USADOS EN SSAS
Algoritmos de clasificación Microsoft regresión logística
Arboles de decisión de Microsoft Algoritmos de segmentación o agrupación
Microsoft Neural Network Microsoft Clustering
Microsoft Native Bayes Algoritmos de asociación
Algoritmos de regresión Microsoft Asociación
Serie temporal de Microsoft Algoritmos de análisis de la secuencia
Regresión lineal de Microsoft Microsoft clústeres de secuencia
Proceso
Clean, Data Training Data
Collect, Data Data Mining
Preparation
Summarize Warehouse
Verification, Model
Operational Evaluation Patterns
Databases
PROCESO
Los pasos a seguir para llevar a cabo un proyecto de minería de datos son siempre los mismos,
independientemente de la técnica específica de extracción de conocimiento usada.
El proceso parece secuencial con desarrollo lineal, pero en la práctica, en cualquier etapa, según sea el caso
se puede detener y volver atrás.
PROCESO
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idóneo,
y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en
bruto".
Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos,
desconocidos), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del
proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
PROCESO
Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad bastante grande
de datos.
La selección de variables se realiza generalmente de una base de datos operacional. Para facilitar el proceso,
los datos son copiados en otra base de datos denominada analítica. Las principales características de una
Base de Datos Analítica, es que contienen gran cantidad de registros (información corporativa), son
diseñadas para fines específicos y siempre son de consulta.
El principal objetivo de la selección de variables es escoger datos que contengan la información o el
conocimiento que se desea obtener
PROCESO
Mediante una técnica de minería de datos (visualización, verificación y descubrimiento), se obtiene un
modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre dichas variables.
Asimismo pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada
técnica obliga a un preprocesado diferente de los datos.
El problema de la extracción de conocimiento en general se puede reducir a la forma como se manipulan los
diferentes tipos de datos.
PROCESO
Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja
son válidas y suficientemente satisfactorias.
En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
ALGORITMO DE LA MINERIA
Meta
Comprender el dominio de aplicación, y los objetivos de esfuerzo KDD
Selección de datos, adquisición, integración
Limpieza de datos
El ruido, los datos que falta, los valores extremos, etc.
Análisis exploratorio de datos
Reducción de dimensionalidad, transformaciones
Selección de modelo apropiado para el análisis, hipótesis a prueba
La minería de datos
Seleccionar método apropiado que coincidan con los objetivos establecidos (clasificación, regresión, clustering, etc.)
Selección de algoritmo
Prueba y verificación
Interpretación
Consolidación y uso
VENTAJAS
Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un
sentido automatizado para identificar información clave desde volúmenes de
datos generados por procesos tradicionales y de e-Business.
Proporciona poderes de decisión a los usuarios del negocio que mejor entienden
el problema y el entorno y es capaz de medir la acciones y los resultados de la
mejor forma.
VENTAJAS
Genera Modelos descriptivos: permite a empresas, sin tener en cuenta el rubro o el tamaño,
explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el
aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos).
Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del
proceso de Minería de Datos sean expresadas como reglas de negocio o modelos predictivos.
Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes,
información electrónica compartida, etc.) para guiar la estrategia y planificación de la empresa.
VENTAJAS
Extrae información táctica y estratégica.
La búsqueda de patrones la realiza en forma automatizada, generando modelos mediante la aplicación de
diferentes técnicas.
Existe gran diversidad de herramientas de Data Mining en el mercado, lo que facilita la aplicación de este
proceso y aumenta el nivel de confianza de sus resultados.
No requiere de personal experto en ciencias estadísticas o altamente entrenado. Es suficiente un especialista
en análisis de datos y un experto en las áreas de la organización, que tengan conocimientos básicos en áreas
estadísticas que les permita entender y aplicar los resultados.
DESVENTAJAS
Uno de los análisis más conocidos de la minería de datos son las redes neuronales y posiblemente su mayor
desventaja es que no se pueden hacer inferencias estadísticas aunque en la práctica los resultados son muy
similares a los que se obtendrían en una regresión, análisis discriminante o cluster.
Necesariamente el concepto de minería de datos viene ligado al de data warehousing por lo que es necesario
contar con esta infraestructura, por la limpieza de los datos.
Resistencia al cambio por parte de los usuarios
Los beneficios son de mediano y largo plazo
DESVENTAJAS
Atentara contra la privacidad de los clientes y/o proveedores
Poca valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos
Poca valoración del esfuerzo necesario para su diseño y creación.
Subestimación de las capacidades que puedan brindar la correcta utilización de las herramientas
MOMENTO CRÍTICO
Se requiere experiencia.
Fáciles Equivocaciones. Fácil hallar patrones equívocos, triviales o no interesantes.
Relación coste/Beneficio improductiva.
Uso indiscriminado de datos.
No es posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio.
Existe una reacción del publico por el uso indiscriminado de datos personales para ejercicios de Minería de
Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la
tecnología..