0% encontró este documento útil (0 votos)

82 vistas30 páginas

Minería de Datos para Negocios

Cargado por

victor

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

82 vistas30 páginas

Minería de Datos para Negocios

Cargado por

victor

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

MINERIA DE DATOS

BUSINESS INTELLIGENCE GERENCIAL

Antecedentes

 La búsqueda tradicional de datos se realiza mediante análisis estadísticos.

 A finales de los 80’s la estadística se amplió a técnicas como lógica difusa, razonamiento heurístico y redes
neuronales.
 Actualmente, las técnicas anteriores se aprovechan para generar conocimiento.
Minería de datos

 La disponibilidad de grandes volúmenes de información y el uso generalizado de

herramientas informáticas ha transformado el análisis de datos orientándolo hacia
determinadas técnicas especializadas englobadas bajo el nombre de minería de
datos o Data Mining.
DEFINICIÓN

1. "La minería de datos es el proceso de detectar información procesable de

grandes conjuntos de datos. Utiliza el análisis matemático para deducir los
patrones y tendencias que existen en los datos. Normalmente, estos patrones no
se pueden detectar mediante la exploración tradicional de los datos porque las
relaciones son demasiado complejas o porque hay demasiado datos.“
DEFINICIÓN

 La Minería de Datos estudia métodos y algoritmos que permiten la extracción automática de información
sintetizada que permite caracterizar las relaciones escondidas.

 No es una solución a negocios.

 Es sólo tecnología.

 Encuentra las “gemas pérdidas” en montañas de información.

DEFINICIÓN

 En las aplicaciones de la Minería de Datos se hace sobre datos previamente recolectados.

 Los datos no cambian mientras están siendo analizados.

 Por lo que los datos generados son confiables y consistentes para éstos datos.
DEFINICÓN

 El componente principal en la Tecnología de la Minería de Datos ha sido desarrollado en:

a) Estadística
b) Inteligencia Artificial
c) Máquinas de Aprendizaje

 Actualmente, existe gran relevancia en:

a) Ambientes de negocios
b) Las descripciones básicas de las arquitecturas de almacenes de datos relativas a las tomas de decisiones empresariales
ELEMENTOS Y DEFINICIONES

 Datos: hechos o medidas que describen características de objetos, eventos o personas, es la materia prima de
la que se obtendrá la información.

 Información: Datos analizados y presentados en forma adecuada, de interés para un observador en un

momento determinado.

 Conocimiento: información procesada para emitir juicios que llevan a conclusiones.

 Meta Conocimiento: Reglas que permiten obtener conocimiento.

CARACTERISTICAS

Explorar datos
Realizar predicciones

Encontrar patrones
Usos típicos

Buscar clientes
rentables

Comprender las
Corregir datos
necesidades de
para el ETL
los clientes

Análisis
predictivo
Detectar y Anticipar a la
prevenir el pérdida de
fraude clientes

Desarrollar
campañas de Predecir ventas e
marketing inventarios
efectivas
TÉCNICAS BASE

 Redes Neuronales Artificiales.

 Modelos que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.
TÉCNICAS BASE

 Árboles de Decisión.
TÉCNICAS BASE

 Algoritmos Genéticos.
TÉCNICAS BASE

 Modelos Lineales.
 Vecino más Cercano.
ALGORITMOS USADOS EN DATA MINING

ALGORITMO DESCRIPCIÓN
Arboles de decisión Encuentra las probabilidades de un resultado basado en valores que
pertenecen a un conjunto de entrenamiento, se los representa de manera
visual

Reglas de asociación Identifica relaciones entre casos

Clustering Clasifica los casos en grupos distintos basados en conjuntos de atributos
comunes
Naive Bayes Muestra claramente las diferencias de una variable en particular para varios
elementos de datos
Clustering secuencial Se definen grupos o clusters de datos en base a una secuencia de eventos
anteriores
Series de tiempo Análisis y pronósticos de datos basados en el tiempo que combina el poder
de ARTXP (desarrollado por Microsoft Research) para las predicciones a
corto plazo y con ARIMA para las de precisión a largo plazo.

Redes Neuronales Trata de descubrir relaciones no intuitivas de datos

Regresión lineal Determina la relación entre las columnas con el fin de predecir un resultado

Regresión logística Determina la relación entre las columnas con el fin de evaluar la probabilidad
de que una columna contendrá un estado específico
ALGORITMOS USADOS EN SSAS

Algoritmos de clasificación  Microsoft regresión logística

Arboles de decisión de Microsoft  Algoritmos de segmentación o agrupación
Microsoft Neural Network  Microsoft Clustering
Microsoft Native Bayes  Algoritmos de asociación
Algoritmos de regresión  Microsoft Asociación
Serie temporal de Microsoft  Algoritmos de análisis de la secuencia
Regresión lineal de Microsoft  Microsoft clústeres de secuencia
Proceso

Clean, Data Training Data

Collect, Data Data Mining
Preparation
Summarize Warehouse

Verification, Model
Operational Evaluation Patterns
Databases
PROCESO

 Los pasos a seguir para llevar a cabo un proyecto de minería de datos son siempre los mismos,
independientemente de la técnica específica de extracción de conocimiento usada.

 El proceso parece secuencial con desarrollo lineal, pero en la práctica, en cualquier etapa, según sea el caso
se puede detener y volver atrás.
PROCESO

 El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idóneo,
y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en
bruto".

 Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos,
desconocidos), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del
proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
PROCESO

 Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad bastante grande
de datos.
 La selección de variables se realiza generalmente de una base de datos operacional. Para facilitar el proceso,
los datos son copiados en otra base de datos denominada analítica. Las principales características de una
Base de Datos Analítica, es que contienen gran cantidad de registros (información corporativa), son
diseñadas para fines específicos y siempre son de consulta.
 El principal objetivo de la selección de variables es escoger datos que contengan la información o el
conocimiento que se desea obtener
PROCESO

 Mediante una técnica de minería de datos (visualización, verificación y descubrimiento), se obtiene un

modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre dichas variables.

 Asimismo pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada
técnica obliga a un preprocesado diferente de los datos.

 El problema de la extracción de conocimiento en general se puede reducir a la forma como se manipulan los
diferentes tipos de datos.
PROCESO

 Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja
son válidas y suficientemente satisfactorias.

 En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
ALGORITMO DE LA MINERIA

 Meta
 Comprender el dominio de aplicación, y los objetivos de esfuerzo KDD
 Selección de datos, adquisición, integración
 Limpieza de datos
 El ruido, los datos que falta, los valores extremos, etc.
 Análisis exploratorio de datos
 Reducción de dimensionalidad, transformaciones
 Selección de modelo apropiado para el análisis, hipótesis a prueba
 La minería de datos
 Seleccionar método apropiado que coincidan con los objetivos establecidos (clasificación, regresión, clustering, etc.)
 Selección de algoritmo
 Prueba y verificación
 Interpretación
 Consolidación y uso
VENTAJAS

 Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un

sentido automatizado para identificar información clave desde volúmenes de
datos generados por procesos tradicionales y de e-Business.

 Proporciona poderes de decisión a los usuarios del negocio que mejor entienden
el problema y el entorno y es capaz de medir la acciones y los resultados de la
mejor forma.
VENTAJAS

 Genera Modelos descriptivos: permite a empresas, sin tener en cuenta el rubro o el tamaño,
explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el
aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos).

 Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del
proceso de Minería de Datos sean expresadas como reglas de negocio o modelos predictivos.
Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes,
información electrónica compartida, etc.) para guiar la estrategia y planificación de la empresa.
VENTAJAS

 Extrae información táctica y estratégica.

 La búsqueda de patrones la realiza en forma automatizada, generando modelos mediante la aplicación de
diferentes técnicas.
 Existe gran diversidad de herramientas de Data Mining en el mercado, lo que facilita la aplicación de este
proceso y aumenta el nivel de confianza de sus resultados.
 No requiere de personal experto en ciencias estadísticas o altamente entrenado. Es suficiente un especialista
en análisis de datos y un experto en las áreas de la organización, que tengan conocimientos básicos en áreas
estadísticas que les permita entender y aplicar los resultados.
DESVENTAJAS

 Uno de los análisis más conocidos de la minería de datos son las redes neuronales y posiblemente su mayor
desventaja es que no se pueden hacer inferencias estadísticas aunque en la práctica los resultados son muy
similares a los que se obtendrían en una regresión, análisis discriminante o cluster.
 Necesariamente el concepto de minería de datos viene ligado al de data warehousing por lo que es necesario
contar con esta infraestructura, por la limpieza de los datos.
 Resistencia al cambio por parte de los usuarios
 Los beneficios son de mediano y largo plazo
DESVENTAJAS

 Atentara contra la privacidad de los clientes y/o proveedores

 Poca valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos
 Poca valoración del esfuerzo necesario para su diseño y creación.
 Subestimación de las capacidades que puedan brindar la correcta utilización de las herramientas
MOMENTO CRÍTICO

 Se requiere experiencia.
 Fáciles Equivocaciones. Fácil hallar patrones equívocos, triviales o no interesantes.
 Relación coste/Beneficio improductiva.
 Uso indiscriminado de datos.
 No es posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio.
 Existe una reacción del publico por el uso indiscriminado de datos personales para ejercicios de Minería de
Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la
tecnología..

También podría gustarte

Fases Clave en Minería de Datos
Aún no hay calificaciones
Fases Clave en Minería de Datos
10 páginas
Inteligencia de Negocios y Toma de Decisiones
Aún no hay calificaciones
Inteligencia de Negocios y Toma de Decisiones
94 páginas
Aprendizaje Supervisado y Regresión Logística
Aún no hay calificaciones
Aprendizaje Supervisado y Regresión Logística
4 páginas
Máximos y Mínimos en Funciones
Aún no hay calificaciones
Máximos y Mínimos en Funciones
16 páginas
Procesamiento de Mapa de Bits - Tema 1.7
Aún no hay calificaciones
Procesamiento de Mapa de Bits - Tema 1.7
15 páginas
Introducción al Internet de las Cosas (IoT)
Aún no hay calificaciones
Introducción al Internet de las Cosas (IoT)
24 páginas
Máximos y Mínimos en Derivadas
Aún no hay calificaciones
Máximos y Mínimos en Derivadas
32 páginas
Teorema de Weierstrass en Matemáticas
Aún no hay calificaciones
Teorema de Weierstrass en Matemáticas
10 páginas
Análisis y Diseño de Procedimientos
Aún no hay calificaciones
Análisis y Diseño de Procedimientos
23 páginas
Planificacion Micro Fundamentos Matemáticas
Aún no hay calificaciones
Planificacion Micro Fundamentos Matemáticas
21 páginas
Proyección 2030: Salud, Economía y Educación en México
Aún no hay calificaciones
Proyección 2030: Salud, Economía y Educación en México
7 páginas
Introducción a la Graficación 3D
Aún no hay calificaciones
Introducción a la Graficación 3D
20 páginas
Aproximación de Funciones Continuas en Matemáticas
Aún no hay calificaciones
Aproximación de Funciones Continuas en Matemáticas
15 páginas
Introducción a Subprogramas y Funciones
Aún no hay calificaciones
Introducción a Subprogramas y Funciones
3 páginas
Optimización de Algoritmos y Diagramas
Aún no hay calificaciones
Optimización de Algoritmos y Diagramas
20 páginas
Preprocesamiento de Datos en Minería
Aún no hay calificaciones
Preprocesamiento de Datos en Minería
31 páginas
Métodos Numéricos: Instrumentación Didáctica
Aún no hay calificaciones
Métodos Numéricos: Instrumentación Didáctica
28 páginas
Investigacion 6.1 y 6.2
Aún no hay calificaciones
Investigacion 6.1 y 6.2
10 páginas
Sistemas Basados en el Conocimiento
Aún no hay calificaciones
Sistemas Basados en el Conocimiento
45 páginas
1.3 Metodologia de La Simulacion
Aún no hay calificaciones
1.3 Metodologia de La Simulacion
9 páginas
Instituto Tecnológico Superior de Macuspana
Aún no hay calificaciones
Instituto Tecnológico Superior de Macuspana
16 páginas
Evaluación de Sistemas de Archivos
Aún no hay calificaciones
Evaluación de Sistemas de Archivos
7 páginas
Evaluación de Costos y Beneficios en Archivos
Aún no hay calificaciones
Evaluación de Costos y Beneficios en Archivos
5 páginas
Introducción a la Investigación Operativa
Aún no hay calificaciones
Introducción a la Investigación Operativa
39 páginas
XML y SOAP en Servicios Web
Aún no hay calificaciones
XML y SOAP en Servicios Web
20 páginas
Estructuras Dinámicas: Pilas en Java
Aún no hay calificaciones
Estructuras Dinámicas: Pilas en Java
37 páginas
1.5 Representación y Trazo de Líneas y Polígonos para Los Equipos
Aún no hay calificaciones
1.5 Representación y Trazo de Líneas y Polígonos para Los Equipos
26 páginas
Políticas y Controles Aplicables Al Software
100% (1)
Políticas y Controles Aplicables Al Software
3 páginas
Estadística Básica para Negocios
Aún no hay calificaciones
Estadística Básica para Negocios
8 páginas
Historia y Evolución de Bases de Datos
Aún no hay calificaciones
Historia y Evolución de Bases de Datos
16 páginas
Pesca Deportiva
Aún no hay calificaciones
Pesca Deportiva
1 página
Introducción a Métodos Numéricos
Aún no hay calificaciones
Introducción a Métodos Numéricos
22 páginas
Investigación Documental: Objetivos y Técnicas
Aún no hay calificaciones
Investigación Documental: Objetivos y Técnicas
4 páginas
Ejemplos Processing PDF
Aún no hay calificaciones
Ejemplos Processing PDF
26 páginas
Clase 2. Distribución de Frecuencias, Técnicas de Agrupación de Datos, Técnicas de Muestreo e Histogramas - Tere
100% (1)
Clase 2. Distribución de Frecuencias, Técnicas de Agrupación de Datos, Técnicas de Muestreo e Histogramas - Tere
33 páginas
Cuadro Sinoptico Sistema de Informacion Control
100% (2)
Cuadro Sinoptico Sistema de Informacion Control
2 páginas
Razonamiento Lógico: Axiomas y Teoremas
Aún no hay calificaciones
Razonamiento Lógico: Axiomas y Teoremas
10 páginas
Ejercicios de Autómatas Finitos
Aún no hay calificaciones
Ejercicios de Autómatas Finitos
56 páginas
Actividad 4 Programacion Orientada A Objetos
Aún no hay calificaciones
Actividad 4 Programacion Orientada A Objetos
7 páginas
Planificación en Administración
100% (2)
Planificación en Administración
16 páginas
Sesion5 Metodologias
Aún no hay calificaciones
Sesion5 Metodologias
19 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
6 páginas
Instalación y Uso de WampServer y MySQL
Aún no hay calificaciones
Instalación y Uso de WampServer y MySQL
4 páginas
Comparativa de Sistemas Paralelos y Distribuidos
Aún no hay calificaciones
Comparativa de Sistemas Paralelos y Distribuidos
4 páginas
Proceso Administrativo y Decisiones
100% (1)
Proceso Administrativo y Decisiones
4 páginas
SEMANA 06 Pensamiento
Aún no hay calificaciones
SEMANA 06 Pensamiento
37 páginas
Importancia y Errores en Métodos Numéricos
Aún no hay calificaciones
Importancia y Errores en Métodos Numéricos
8 páginas
Principios Utilizados en El Modelado
100% (1)
Principios Utilizados en El Modelado
5 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
7 páginas
Taxonomía de Sistemas: Duro y Blando
Aún no hay calificaciones
Taxonomía de Sistemas: Duro y Blando
16 páginas
Teoremas de Análisis Matemático II
Aún no hay calificaciones
Teoremas de Análisis Matemático II
4 páginas
Análisis y Modelos de Series de Tiempo
Aún no hay calificaciones
Análisis y Modelos de Series de Tiempo
25 páginas
Benchmarking: Mejora Competitiva Empresarial
Aún no hay calificaciones
Benchmarking: Mejora Competitiva Empresarial
109 páginas
Sistemas Dinámicos Discretos y Matrices
Aún no hay calificaciones
Sistemas Dinámicos Discretos y Matrices
8 páginas
Introducción a las Bases de Datos y SQL
Aún no hay calificaciones
Introducción a las Bases de Datos y SQL
16 páginas
Análisis de Series Temporales en R
Aún no hay calificaciones
Análisis de Series Temporales en R
4 páginas
Políticas de Seguridad en Redes
Aún no hay calificaciones
Políticas de Seguridad en Redes
5 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
20 páginas
Minería de Datos y Business Intelligence
Aún no hay calificaciones
Minería de Datos y Business Intelligence
22 páginas
Fundamentos de Data Mining en Negocios
Aún no hay calificaciones
Fundamentos de Data Mining en Negocios
17 páginas
Red Neuronal BAM: Ejemplos y Operaciones
Aún no hay calificaciones
Red Neuronal BAM: Ejemplos y Operaciones
12 páginas
Machine Learning en Mantenimiento Predictivo
Aún no hay calificaciones
Machine Learning en Mantenimiento Predictivo
21 páginas
Ejercicios diarios para mejorar la memoria
Aún no hay calificaciones
Ejercicios diarios para mejorar la memoria
2 páginas
Historia y Evolución de la IA
Aún no hay calificaciones
Historia y Evolución de la IA
21 páginas
Ventajas y Modelos de Redes Neuronales
Aún no hay calificaciones
Ventajas y Modelos de Redes Neuronales
44 páginas
Revista Médica Clínica Las Condes: La Salud en La Era Digital
Aún no hay calificaciones
Revista Médica Clínica Las Condes: La Salud en La Era Digital
6 páginas
Pronóstico de Ventas en PYMES con IA
Aún no hay calificaciones
Pronóstico de Ventas en PYMES con IA
156 páginas
Taller Ia
Aún no hay calificaciones
Taller Ia
2 páginas
Paradigmas de la Inteligencia Artificial
Aún no hay calificaciones
Paradigmas de la Inteligencia Artificial
2 páginas
Control Dual PD para Mesa Esfera
Aún no hay calificaciones
Control Dual PD para Mesa Esfera
71 páginas
Reconocimiento Voz
Aún no hay calificaciones
Reconocimiento Voz
157 páginas
Curso de Inteligencia Artificial Generativa
Aún no hay calificaciones
Curso de Inteligencia Artificial Generativa
18 páginas
Tesis Atributos Sisimicos UNAM
Aún no hay calificaciones
Tesis Atributos Sisimicos UNAM
65 páginas
Impacto de la Inteligencia Artificial en la Sociedad
Aún no hay calificaciones
Impacto de la Inteligencia Artificial en la Sociedad
6 páginas
Sistema de Control para Sillas de Ruedas Eléctricas
Aún no hay calificaciones
Sistema de Control para Sillas de Ruedas Eléctricas
30 páginas
Estructura y Funciones de Redes Neuronales
Aún no hay calificaciones
Estructura y Funciones de Redes Neuronales
6 páginas
OCR para Gestión de Facturas en Chinogas
100% (1)
OCR para Gestión de Facturas en Chinogas
22 páginas
Inteligencia Artificial para Desarrolladores, 2da Edición - Virginie Mathivet
100% (1)
Inteligencia Artificial para Desarrolladores, 2da Edición - Virginie Mathivet
381 páginas
Empuje Gravitacional en Yacimientos
100% (2)
Empuje Gravitacional en Yacimientos
4 páginas
Nuevos Recursos Educativos y Nuevs Formas de Aprender
Aún no hay calificaciones
Nuevos Recursos Educativos y Nuevs Formas de Aprender
37 páginas
Abstract AI
Aún no hay calificaciones
Abstract AI
1 página
Teoría del Conexionismo en Psicología
Aún no hay calificaciones
Teoría del Conexionismo en Psicología
15 páginas
Artificial - La Nueva Inteligencia y El Contorno de Lo Humano
Aún no hay calificaciones
Artificial - La Nueva Inteligencia y El Contorno de Lo Humano
12 páginas
Inteligencia Artificial y Redes Neuronales Fundamentos, Ejercicios y Aplicaciones
Aún no hay calificaciones
Inteligencia Artificial y Redes Neuronales Fundamentos, Ejercicios y Aplicaciones
325 páginas
Innovaciones Tecnológicas 2023
Aún no hay calificaciones
Innovaciones Tecnológicas 2023
3 páginas
Técnicas y Herramientas de IA
Aún no hay calificaciones
Técnicas y Herramientas de IA
7 páginas
Predicción de Demanda de Agua en Piura
Aún no hay calificaciones
Predicción de Demanda de Agua en Piura
76 páginas
Función Gaussiana en Redes Neuronales
100% (1)
Función Gaussiana en Redes Neuronales
8 páginas