0% encontró este documento útil (0 votos)
82 vistas30 páginas

Minería de Datos para Negocios

Cargado por

victor
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
82 vistas30 páginas

Minería de Datos para Negocios

Cargado por

victor
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

MINERIA DE DATOS

BUSINESS INTELLIGENCE GERENCIAL


Antecedentes

 La búsqueda tradicional de datos se realiza mediante análisis estadísticos.


 A finales de los 80’s la estadística se amplió a técnicas como lógica difusa, razonamiento heurístico y redes
neuronales.
 Actualmente, las técnicas anteriores se aprovechan para generar conocimiento.
Minería de datos

 La disponibilidad de grandes volúmenes de información y el uso generalizado de


herramientas informáticas ha transformado el análisis de datos orientándolo hacia
determinadas técnicas especializadas englobadas bajo el nombre de minería de
datos o Data Mining.
DEFINICIÓN

1. "La minería de datos es el proceso de detectar información procesable de


grandes conjuntos de datos. Utiliza el análisis matemático para deducir los
patrones y tendencias que existen en los datos. Normalmente, estos patrones no
se pueden detectar mediante la exploración tradicional de los datos porque las
relaciones son demasiado complejas o porque hay demasiado datos.“
DEFINICIÓN

 La Minería de Datos estudia métodos y algoritmos que permiten la extracción automática de información
sintetizada que permite caracterizar las relaciones escondidas.

 No es una solución a negocios.

 Es sólo tecnología.

 Encuentra las “gemas pérdidas” en montañas de información.


DEFINICIÓN

 En las aplicaciones de la Minería de Datos se hace sobre datos previamente recolectados.

 Los datos no cambian mientras están siendo analizados.

 Por lo que los datos generados son confiables y consistentes para éstos datos.
DEFINICÓN

 El componente principal en la Tecnología de la Minería de Datos ha sido desarrollado en:


a) Estadística
b) Inteligencia Artificial
c) Máquinas de Aprendizaje

 Actualmente, existe gran relevancia en:


a) Ambientes de negocios
b) Las descripciones básicas de las arquitecturas de almacenes de datos relativas a las tomas de decisiones empresariales
ELEMENTOS Y DEFINICIONES

 Datos: hechos o medidas que describen características de objetos, eventos o personas, es la materia prima de
la que se obtendrá la información.

 Información: Datos analizados y presentados en forma adecuada, de interés para un observador en un


momento determinado.

 Conocimiento: información procesada para emitir juicios que llevan a conclusiones.

 Meta Conocimiento: Reglas que permiten obtener conocimiento.


CARACTERISTICAS

Explorar datos
Realizar predicciones

Encontrar patrones
Usos típicos

Buscar clientes
rentables

Comprender las
Corregir datos
necesidades de
para el ETL
los clientes

Análisis
predictivo
Detectar y Anticipar a la
prevenir el pérdida de
fraude clientes

Desarrollar
campañas de Predecir ventas e
marketing inventarios
efectivas
TÉCNICAS BASE

 Redes Neuronales Artificiales.


 Modelos que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.
TÉCNICAS BASE

 Árboles de Decisión.
TÉCNICAS BASE

 Algoritmos Genéticos.
TÉCNICAS BASE

 Modelos Lineales.
 Vecino más Cercano.
ALGORITMOS USADOS EN DATA MINING

ALGORITMO DESCRIPCIÓN
Arboles de decisión Encuentra las probabilidades de un resultado basado en valores que
pertenecen a un conjunto de entrenamiento, se los representa de manera
visual

Reglas de asociación Identifica relaciones entre casos


Clustering Clasifica los casos en grupos distintos basados en conjuntos de atributos
comunes
Naive Bayes Muestra claramente las diferencias de una variable en particular para varios
elementos de datos
Clustering secuencial Se definen grupos o clusters de datos en base a una secuencia de eventos
anteriores
Series de tiempo Análisis y pronósticos de datos basados en el tiempo que combina el poder
de ARTXP (desarrollado por Microsoft Research) para las predicciones a
corto plazo y con ARIMA para las de precisión a largo plazo.

Redes Neuronales Trata de descubrir relaciones no intuitivas de datos


Regresión lineal Determina la relación entre las columnas con el fin de predecir un resultado

Regresión logística Determina la relación entre las columnas con el fin de evaluar la probabilidad
de que una columna contendrá un estado específico
ALGORITMOS USADOS EN SSAS

Algoritmos de clasificación  Microsoft regresión logística


Arboles de decisión de Microsoft  Algoritmos de segmentación o agrupación
Microsoft Neural Network  Microsoft Clustering
Microsoft Native Bayes  Algoritmos de asociación
Algoritmos de regresión  Microsoft Asociación
Serie temporal de Microsoft  Algoritmos de análisis de la secuencia
Regresión lineal de Microsoft  Microsoft clústeres de secuencia
Proceso

Clean, Data Training Data


Collect, Data Data Mining
Preparation
Summarize Warehouse

Verification, Model
Operational Evaluation Patterns
Databases
PROCESO

 Los pasos a seguir para llevar a cabo un proyecto de minería de datos son siempre los mismos,
independientemente de la técnica específica de extracción de conocimiento usada.

 El proceso parece secuencial con desarrollo lineal, pero en la práctica, en cualquier etapa, según sea el caso
se puede detener y volver atrás.
PROCESO

 El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idóneo,
y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en
bruto".

 Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos,
desconocidos), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del
proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
PROCESO

 Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad bastante grande
de datos.
 La selección de variables se realiza generalmente de una base de datos operacional. Para facilitar el proceso,
los datos son copiados en otra base de datos denominada analítica. Las principales características de una
Base de Datos Analítica, es que contienen gran cantidad de registros (información corporativa), son
diseñadas para fines específicos y siempre son de consulta.
 El principal objetivo de la selección de variables es escoger datos que contengan la información o el
conocimiento que se desea obtener
PROCESO

 Mediante una técnica de minería de datos (visualización, verificación y descubrimiento), se obtiene un


modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre dichas variables.

 Asimismo pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada
técnica obliga a un preprocesado diferente de los datos.

 El problema de la extracción de conocimiento en general se puede reducir a la forma como se manipulan los
diferentes tipos de datos.
PROCESO

 Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja
son válidas y suficientemente satisfactorias.

 En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
ALGORITMO DE LA MINERIA

 Meta
 Comprender el dominio de aplicación, y los objetivos de esfuerzo KDD
 Selección de datos, adquisición, integración
 Limpieza de datos
 El ruido, los datos que falta, los valores extremos, etc.
 Análisis exploratorio de datos
 Reducción de dimensionalidad, transformaciones
 Selección de modelo apropiado para el análisis, hipótesis a prueba
 La minería de datos
 Seleccionar método apropiado que coincidan con los objetivos establecidos (clasificación, regresión, clustering, etc.)
 Selección de algoritmo
 Prueba y verificación
 Interpretación
 Consolidación y uso
VENTAJAS

 Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un


sentido automatizado para identificar información clave desde volúmenes de
datos generados por procesos tradicionales y de e-Business.

 Proporciona poderes de decisión a los usuarios del negocio que mejor entienden
el problema y el entorno y es capaz de medir la acciones y los resultados de la
mejor forma.
VENTAJAS

 Genera Modelos descriptivos: permite a empresas, sin tener en cuenta el rubro o el tamaño,
explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el
aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos).

 Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del
proceso de Minería de Datos sean expresadas como reglas de negocio o modelos predictivos.
Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes,
información electrónica compartida, etc.) para guiar la estrategia y planificación de la empresa.
VENTAJAS

 Extrae información táctica y estratégica.


 La búsqueda de patrones la realiza en forma automatizada, generando modelos mediante la aplicación de
diferentes técnicas.
 Existe gran diversidad de herramientas de Data Mining en el mercado, lo que facilita la aplicación de este
proceso y aumenta el nivel de confianza de sus resultados.
 No requiere de personal experto en ciencias estadísticas o altamente entrenado. Es suficiente un especialista
en análisis de datos y un experto en las áreas de la organización, que tengan conocimientos básicos en áreas
estadísticas que les permita entender y aplicar los resultados.
DESVENTAJAS

 Uno de los análisis más conocidos de la minería de datos son las redes neuronales y posiblemente su mayor
desventaja es que no se pueden hacer inferencias estadísticas aunque en la práctica los resultados son muy
similares a los que se obtendrían en una regresión, análisis discriminante o cluster.
 Necesariamente el concepto de minería de datos viene ligado al de data warehousing por lo que es necesario
contar con esta infraestructura, por la limpieza de los datos.
 Resistencia al cambio por parte de los usuarios
 Los beneficios son de mediano y largo plazo
DESVENTAJAS

 Atentara contra la privacidad de los clientes y/o proveedores


 Poca valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos
 Poca valoración del esfuerzo necesario para su diseño y creación.
 Subestimación de las capacidades que puedan brindar la correcta utilización de las herramientas
MOMENTO CRÍTICO

 Se requiere experiencia.
 Fáciles Equivocaciones. Fácil hallar patrones equívocos, triviales o no interesantes.
 Relación coste/Beneficio improductiva.
 Uso indiscriminado de datos.
 No es posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio.
 Existe una reacción del publico por el uso indiscriminado de datos personales para ejercicios de Minería de
Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la
tecnología..

También podría gustarte