Documentos de Académico
Documentos de Profesional
Documentos de Cultura
y Aplicaciones
2
Índice
2.1 Tipos de problemas
2.1.1. Descriptivos o asociación o
clustering
2.1.2. Predictivos o clasificación
2.2 Implicaciones de los datos, dominios,
técnicas en las fases del proceso
2.3 Casos de uso
4
Problemas en Data
Mining.
La definición del problema es el primer paso del proceso
de minería de datos y consiste en definir de forma clara el
problema y considerar maneras de usar los datos para
proporcionar una respuesta para el mismo.
Clasificación
Con el Data Mining,
se buscan los Examinar las características de un nuevo objeto y asignarlo a una
tipos de relaciones: clasificar personas que piden créditos como alto medio o bajo
riesgo, determinar el patrón de las quejas de seguros fraudulentas y
patrón de los clientes que nos dejarán en los próximos 6 meses.
Estimación
Tipos de relaciones:
La clasificación trata con problemas de salidas discretas (sí o no,
alto, medio o bajo riesgo, responderá o no responderá...)
Por ejemplo:
Estimar el número de hijos de una familia.
Asociación
Tipos de relaciones:
Determinar que cosas van juntas.
Por ejemplo: pañales y cerveza se compran juntos los fines de
semana.
Clustering
Tipos de relaciones:
Segmentar una población heterogénea en un número de subgrupos
homogéneos o clusters.
Problemas descriptivos
Problemas predictivos
Problemas
descriptivos
Problemas descriptivos
Problemas predictivos
Problemas
predictivos
Aunque las técnicas aplicadas para la obtención del modelo son técnicas de
inducción sobre los datos de origen, el resultado o modelo será aplicado
para predecir.
13
2.1.1 Descriptivos o
asociación o clustering.
14
Métodos descriptivos
Los métodos descriptivos, llamados también aprendizaje no supervisado,
permiten formar grupos de datos rápidamente. Otras denominaciones qué
reciben son métodos simétricos, no supervisados o indirectos.
Planificación de proyectos
Clasificación: Árboles de
01
decisión.
Para la estimación de
· Pueden procesar variables cuantitativas y
variables descriptivas los
cualitativas a la vez.
métodos más empleados son:
· Técnicas de podado que proporciona árboles
de menor tamaño.
Clasificación neuronal
02
· Basada en redes neurales de propagación
hacia atrás.
Data Mining
La minería de datos es un conjunto de técnicas y
tecnologías que permiten explotar grandes
cantidades de datos de forma casi automática y
obtener patrones entre ellos que permiten crear
modelos predictivos.
19
Objetivo de los
modelos descriptivos
01 02 03 04
Descripción Análisis de Análisis de
de clases asociación clusters
Descripción de clases:
Hay tres formas de ver este punto, la primera se denomina Caracterización de los datos (Data Caracterization),
el cual realiza un resumen de las características generales de una clase particular de datos; los resultados
suelen representarse en términos de reglas de caracterización. La segunda es la discriminación de datos (Data
Discrimination), que es una comparación entre las características generales de los objetos de una clase respecto
a las de otro conjunto contrastante. Finalmente, también se puede aplicar una combinación de ambas.
21
01 02 03 04
Descripción Análisis de Análisis de
de clases asociación clusters
Análisis de asociación:
Es el descubrimiento de reglas de asociación que muestran condiciones del tipo atributo-valor que ocurre
con frecuencia dentro de un conjunto de datos. La minería mediante reglas de asociación es el proceso
de búsqueda interesante de correlaciones entre un conjunto grande de datos. El descubrimiento de
reglas de asociación en grandes volúmenes de transacciones de negocios puede facilitar el proceso de
toma de decisiones.
22
01 02 03 04
Descripción Análisis de Análisis de
de clases asociación clusters
Análisis de Clusters:
Aquí se analizan objetos sin consultar clases conocidas. El proceso trabaja agrupando objetos según el
principio de ”maximizar la similitud dentro de una clase y minimizar la similitud entre clases”. Un cluster
es una colección de objetos de datos mutuamente similares. Clustering es el proceso de agrupamiento
de objetos. El análisis de clustering tiene una gran variedad de aplicaciones, incluyendo procesos de
imágenes, análisis, etc.
23
Análisis de clusters
Hay cuatro aspectos que son considerados relevantes a la hora de aplicar un proceso de
agrupamiento o clustering:
Número de grupos.
Tipos de datos.
Método de agrupamiento.
24
La herramientas de clustering son populares en la extracción de patrones de conjuntos de datos,
principalmente a la hora de analizar el comportamiento humano.
Análisis de clusters Esto se debe a que la formación de grupos de personas con características comunes es una
tendencia natural: comunidades sociales (como pueden ser los países, civilizaciones, en los cuales
las características comunes son la raza, el idioma, la cultura), y dentro de estas comunidades, hay
subgrupos, que, por ejemplo, pueden basarse en antecedentes socio-económicos.
El clustering tiene cantidad de objetivos, pero todos están relacionados con segmentar o agrupar unos objetos en subconjuntos o “clusters”, en
los cuales los objetos dentro de cada cluster tienen una relación cercana.
25
Análisis de clusters
El número de clusters no se conoce de antemano, los grupos se crean en función de la naturaleza
de los datos. Es un método estadístico multivariante de clasificación automática:
2.1.2 Predictivos o
clasificación.
27
Los desarrollos en este tipo de analíticas se dirigen por los datos, lo cual dio
paso a la aparición de las plataformas para tratar grandes volúmenes de datos
sacando provecho del Procesamiento en Paralelo Masivo (MPP: Massively
Parallel Processing).
28
El análisis
predictivo
Data Mining
La minería de datos es un conjunto de técnicas y
tecnologías que permiten explotar grandes
cantidades de datos de forma casi automática y
obtener patrones entre ellos que permiten crear
modelos predictivos.
31
Las técnicas
predictivas de
modelización
Qué haremos
DISTINGUIR ENTRE:
¿Cuál es? Cómo el método ya aprendido con los datos que se le han
facilitado, su respuesta será que eso es un círculo. Estos modelos se
basan en la predicción de lo que será la nueva figura.
38
Objetivo de los
modelos predictivos
Modelos logísticos.
40
En esta tabla generaremos el modelo con algún algoritmo (de redes neurales, árbol de decisión…). En la tabla de testing
aplicaremos el modelo generado para poder medir la calidad de nuestro modelo y saber si esta prediciendo de manera
correcta comprobando la tabla de aprendizaje y la tabla de testing.
41
Tabla de Aprendizaje
Modelo
Id Reembo Estado Ingresos Fraude
lso Civil anuales
5 Sí Casado 125 K No Aplicar el
6 No Casado 95 K No Modelo
7 No Soltero 80 K No Nuevos
individuos
8 No Soltero 120 K Sí
Predicción: Funciones de
01
base radial
Para la estimación de
· Pueden procesar variables cuantitativas y
variables cuantitativas los
cualitativas a la vez.
métodos más empleados son:
· Detecta el número de centroides óptimo.
02 Predicción neuronal
01 02 03 04
Clasificación Árboles Redes
y predicción de decisión neuronales
Clasificación y predicción:
Son dos tipos de análisis de datos, aquellos que pueden ser usados para clasificar datos y los que se
usan para predecir tendencias. La clasificación de datos predice clases de etiquetas mientras la
predicción de datos predice funciones de valores continuos. Aplicaciones típicas incluyen análisis de
riesgo para préstamos y predicciones de crecimiento. Algunas técnicas para clasificación de datos
incluyen: clasificación bayesianas. K-Nearest Neighbor, algoritmos en éticos, entre otros.
45
01 02 03 04
Clasificación Árboles Redes
y predicción de decisión neuronales
Árbol de decisión:
Definen un conjunto de clases, asignando a cada dato de entra da una clase y determina la probabilidad de que
ese registro pertenezca a la clase. Podemos distinguir dos tipos de árboles:
Árbol de decisión de clasificación, donde cada registro a clasificar fluye por una rama del árbol. La rama a seguir es determinada
por una serie de preguntas definidas por los nodos de la rama. Cuando el registro llega a un nodo hoja, se le asigna a la clase del
nodo hoja.
Árbol de decisión de regresión: cuando el registro llega a un nodo hoja, a la variable de salida de ese nodo, se le asigna el
promedio de los valores de la variable de salida de los registros que cayeron en ese nodo hoja durante el proceso de entrenamiento.
46
01 02 03 04
Clasificación Árboles Redes
y predicción de decisión neuronales
Redes neuronales:
Son modelos predictivos no lineales que aprenden a través del entrenamiento. Existen diferentes
tipos de redes neuronales, las más conocidas son las simples y multicapas. Las tareas básicas de las
redes neuronales son: reconocer, clasificar, agrupar, asociar, almacenar patrones, aproximación de
funciones, sistemas, (predicción, control, entre otros) y optimizan. De transacciones comerciales y
reconocimiento de patrones.
47
Esta gran bajada de precio ha hecho posible que los datos supongan
un recurso renovable que se puede combinar con otros conjuntos
de datos y utilizar muchas veces.
49
Análisis de datos
Producción Salud
Es el sector que más almacena datos y esto se transforma Aumento de la esperanza de vida.
en una mayor eficiencia, producto de mayor calidad y
distribución más efectiva. Transporte
Ahorra tiempo y dinero a los viajeros. Un transporte más
Finanzas eficiente supone ahorrar combustible y por ende reducir
Mejora de la eficiencia operativa y disminución de fraudes. las emisiones de CO2.
Agricultura Energía
Producción de mejores alimentos utilizando menos Reducción del consumo energético.
recursos.
52
Las herramientas de big data deben tener un marco arquitectónico especial para
el tratamiento de los datos. Esta estructura se base en capas donde cada una
tendrá una función particular que permite que los datos se vayan canalizando en
función de los requisitos del sistema de procesamiento por lotes o del sistema de
procesamiento de flujo.
55
hincapié en el transporte de datos. Los componentes La función de esta capa será reunir el valor de los datos más útiles para la
están desacoplados con el fin de apoyar el desarrollo de siguiente capa, para ello se llevará a cabo un procesamiento analítico sólido.
Las dos arquitectura más comunes que existen son Arquitectura Lambda y
Kappa. La principal diferencia entre ambas será el flujo del tratamiento de datos
ya que mientras Lambda utiliza procesamiento batch y streaming, Kappa utiliza
solo procesamiento streaming.
Resumiendo, con el procesamiento batch seremos capaces de procesar volúmenes de datos en tiempos espaciados (ej. cada 10 minutos),
mientras que con el procesamiento streaming podremos procesar datos casi al instante en que son producidos.
57
Planificación de proyectos
Técnicas en las fases del proceso
Procesamiento batch:
para lotes de grandes volúmenes de datos
Técnicas principales de
procesamiento de datos
60
Procesamiento batch:
para lotes de grandes volúmenes de datos
Menores latencias.
Procesamiento batch:
para lotes de grandes volúmenes de datos
Técnicas principales de
procesamiento de datos
62
Procesamiento batch:
para lotes de grandes volúmenes de datos
Procesamiento en stream
Técnicas principales de
procesamiento de datos
64
Procesamiento en stream
· La tasa de productividad del sistema a largo plazo debería ser más rápida, o por lo
menos igual, a la tasa de entrada de datos en ese mismo periodo. Si esto no fuese así, el
volumen de almacenamiento del sistema crecería ilimitadamente.
Técnicas principales de
procesamiento de datos
65
Técnicas principales de
procesamiento de datos
66
Técnicas principales de
procesamiento de datos
67
Técnicas principales de
procesamiento de datos
68
De todas maneras, este tipo de técnicas de procesamiento en tiempo real deben ser
consideradas concienzudamente debido a los siguientes aspectos:
Dependiendo de su uso, la mejor opción puede ser una posición intermedia entre
streaming y tiempo real. Por ejemplo, Amazon utiliza este sistema en su web dando
como resultado un procesamiento de todas las solicitudes de clientes en menos de
200ms para el 99% de todas las solicitudes.
Técnicas principales de
procesamiento de datos
69
Planificación de proyectos
Casos de
Big Data en la industria de telecomunicaciones:
uso Data Mining
Casos de
Big Data en la industria de telecomunicaciones:
uso Data Mining
Casos de
Big Data en la banca:
uso Data Mining
Casos de
Big Data en la banca:
uso Data Mining
Fraudes:
Casos de
Big Data en salud:
uso Data Mining
Casos de
Big Data en salud:
uso Data Mining
Genética:
Casos de
Big Data en el sector seguros:
uso Data Mining
Este sector está actualizando sus métodos tradicionales utilizando análisis Big
Data, se persigue obtener una mayor profundidad de información y poder contar
con conclusiones más concluyentes. El objetivo de impulsar sus prioridades de
negocio. Entre otras puntos, se busca combinar datos internos de clientes con
información externa procedente de distintas fuentes para un mejor manejo de
los riesgos.
79
Casos de
Big Data en el sector Retail:
uso Data Mining
Los vendedores retail buscan en el Big Data obtener una visión panorámica de
los clientes para conocer sus necesidades y así mejorar la cifra de negocio.
Por otra parte, en la venta al por menor se está produciendo un movimiento
hacia el modelo multicanal, orientándose a la personalización comercial.
80
Casos de
Big Data en el sector Retail:
uso Data Mining
Una aplicación común tiene que ver con la detección de hábitos de compra en
supermercados. Un estudio muy citado es el de “Pañales y cervezas”, que tuvo lugar
en una cadena de víveres de EEUU. Los viernes por la tarde-noche, los hombres que
compraban pañales, también compraban cerveza. Esta información puede ser
utilizada, por ejemplo, para colocar ambos productos juntos, a modo estratégico.
81
Casos de
Otros ejemplos:
uso Data Mining
Comportamiento en Internet:
Analizar el comportamiento de los visitantes en una página web, sobre todo si son
clientes potenciales, así como la utilización de la información.
Juegos:
Desde comienzos de la década de 1960, con la disponibilidad de oráculos para
determinados juegos combinacionales, con cualquier configuración de inicio, se ha
abierto una nueva área en la minería de datos que consiste en la extracción de
estrategias utilizadas por personas para estos oráculos.
82
Casos de
Otros ejemplos:
uso Data Mining
Ingeniería eléctrica:
Análisis de gases:
También se han aplicado técnicas de minería de datos para el análisis de gases disueltos
en transformadores eléctricos.
83
Anexo:
Business Intelligence.
Presentación de datos.
84
Índice
Anexo 1. Importancia del Business Intelligence
Tipos de información y
Alta dirección
decisiones de empresa Información agregada y desestructurada.
Equipos y empleados
Información estructurada.
Mandos intermedios
Cuenta con información semi-estructurada.
Para definir planes operativos, previsiones, presupuestos.
Así como protocolos y procedimientos de trabajo.
Con indicadores intermedios y su seguimiento.
Equipos y empleados
Disponen de información estructurada.
Para la toma de decisiones dentro de reglas y protocolos.
Seguimiento de objetivos e indicadores operativos.
89
Mandos
intermedios
Así pues, la implantación de un
sistema de BI redundará en beneficio
Equipos y
de cada departamento, escalón y de
empleados
toda la empresa en general.
90
Operativo (Equipos)
¡A continuación, vamos a
ver cada una de ellas!
91
Decisiones estratégicas
Afectan a la directriz a largo plazo de la empresa,
comprometiendo su crecimiento en el tiempo.
Mediante cuadros de mando integrales se analizan
datos para tomar decisiones relacionadas con la
visión de la compañía y su posicionamiento en un
mercado en particular.
Decisiones tácticas
Decisiones operativas
Anexo 2: Herramientas de
Inteligencia de negocios
95 Existen diferentes herramientas que
intervienen en un proceso de BI.
Esquema
Haz clic sobre el botón
03
DASHBOARDS
¡Vamos a ver
04 de que se
trata cada
una de las
herramientas!
97
01
X
Aunque muchas son las herramientas
tecnológicas que forman parte de Business DATA WAREHOUSE
CONSULTAS E
LIMPIEZA, VALIDACIÓN:
INFOMES
Intelligence, podemos centrarnos en estas 4
principales:
Batch 02
Real time ANÁLISIS OLAP (ONLINE ANALYTICAL
EVALUANDO
Antes de profundizar en cada una de las DATA
WAREHOUSE DECISIONES
herramientas veamos el siguiente
PROCESSING).
TOMADAS
MINERÍA DE DATOS
BÚSQUEDA DE
EXCEPCIONES
Esquema
Haz clic sobre el botón
VISTA 03 OLAP
DATA MARTS
MODELANDO
DASHBOARDS
DECISIONES Y ANÁLISIS
VISTA EN TIEMPO REAL PREVISIONES CAUSAL
¡Vamos a ver
04 de que se
trata cada
una de las
herramientas!
98 Herramientas de
INTEGRACIÓN DE DATOS (ETL) inteligencia de
negocios
01 Incluye los procesos y tecnologías para extraer y
recopilar los datos de las diferentes fuentes (ERP,
CRM, ficheros Office, web services, etc…),
limpiarlos y transformarlos a formato estándar y
finalmente cargarlos en una base de datos
central.
CRM
DATA
LOB WAREHOUSE
O BD
ERP
negocios
01
DATA WAREHOUSE
negocios
01
DATA WAREHOUSE
02
ANÁLISIS OLAP (ONLINE ANALYTICAL
ANÁLISIS OLAP.
PROCESSING). MINERÍA DE DATOS MINERÍA DE DATOS
negocios
01
Iremos
viendo más
detalles en
DATA WAREHOUSE
estas y otras
02 herramientas
en los
siguientes
ANÁLISIS OLAP. capítulos.
MINERÍA DE DATOS
03
DASHBOARDS
Anexo 3. Dashboards de
visualización y consulta.
103
Cuadro de Mando permite saber hasta qué punto permite tener una panorámica global del
control
Los dashboards o paneles de control son elementos de primera necesidad, cuya configuración determinará
en gran medida la usabilidad y maniobrabilidad de las herramientas de análisis de datos e informaciones
implementadas en nuestro entorno BI, la correcta gestión de los mismos y, consiguientemente, la mayor o
menor capacitación para una toma de decisiones adecuada y eficaz.
111
El papel de las Traducen datos e informaciones relevantes en
01
herramientas para la conocimiento de un modo gráfico y simple.
visualización de datos en el
panel de control o
dashboard es, pues,
Permiten comparar resultados de métricas y reportes
determinante y 02 personalizados.
fundamental:
01 Sencillez
La consigna menos es más es la premisa fundamental
a la que se debe aferrar cualquier panel de control
que pretenda ser eficiente y efectivo.
02 Potencia
Un panel de control que no sea lo bastante potente como
para mostrar, con la suficiente rapidez y profundidad, el
resultado del análisis de los datos requeridos en cada
momento entorpecerá el proceso de toma de decisiones,
retrasándolo de un modo crítico en según qué
circunstancias y aumentando el riesgo de asentarse en
información incompleta, parcial y sesgada.
03 Compatibilidad
Las actuales exigencias corporativas, sobre todo en
departamentos que basan sus actividades en la itinerancia
y la movilidad de sus miembros, imponen como necesidad
disponer de distintos dispositivos y plataformas con los
cuales las distintas herramientas BI (incluidos los paneles
de control, por supuesto) deben ser perfectamente
compatibles, sin que merme su potencia y funcionalidad.
115
04 Personalización
La posibilidad de personalizar y adaptar un panel de
control a las distintas necesidades operativas y
funcionales de cada departamento o usuario corporativo
es fundamental para que lleve a cabo su tarea en
consonancia con las informaciones de las que se dispone,
las posibilidades reales de la organización y los objetivos
estratégicos fijados.
116