Ciclo de Data Mining

Data Mining: Principios
y Aplicaciones
2
Data Mining: Principios

y Aplicaciones
2. El ciclo de Data Mining

fases y tipos de problemas.
3
Índice
2.1 Tipos de problemas
2.1.1. Descriptivos o asociación o
clustering
2.1.2. Predictivos o clasificación
2.2 Implicaciones de los datos, dominios,
técnicas en las fases del proceso
2.3 Casos de uso
4
2.1 Tipos de problemas.

5
Problemas en Data
Mining.
La definición del problema es el primer paso del proceso
de minería de datos y consiste en definir de forma clara el
problema y considerar maneras de usar los datos para
proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos de la empresa,

definir el ámbito del problema, definir las métricas por las
que se evaluará el modelo y definir los objetivos concretos
del proyecto de Data Mining.
6
Existen múltiples métodos y algoritmos

que se pueden utilizar en el proceso de
Data Mining,
y es por esto, que es importante clasificar los

métodos que existen.
La elección del método que se emplea, depende del problema en el

estudio, o de los tipos de datos. El proceso de extracción de datos, se
rige por las aplicaciones, y por ello los métodos utilizados se pueden
clasificar dependiendo del objetivo del análisis. Distinguimos entre
las técnicas predictivas y las técnicas descriptivas.
Los datos, son la fuente de la que se obtienen las variables, las

relaciones que existen entre ellas, así como el conocimiento o los
patrones de comportamiento, por lo que son el elemento más
importante del análisis.
7
Clasificación
Con el Data Mining,
se buscan los Examinar las características de un nuevo objeto y asignarlo a una
siguientes cuatro clase dentro de un conjunto de clases predefinido. Por ejemplo:
tipos de relaciones: clasificar personas que piden créditos como alto medio o bajo
riesgo, determinar el patrón de las quejas de seguros fraudulentas y
patrón de los clientes que nos dejarán en los próximos 6 meses.
Se ha de disponer de un conjunto de entrenamiento en el que todos

los registros estén clasificados
El problema consiste en construir un modelo que aplicado a un
nuevo ejemplo sin clasificar lo clasifique.
Se tiene siempre un número limitado de clases y se esperar poder
asignar cualquier nuevo objeto en una de esas clases.
8
Estimación
Tipos de relaciones:
La clasificación trata con problemas de salidas discretas (sí o no,
alto, medio o bajo riesgo, responderá o no responderá...)
La estimación trata con problemas donde el valor a clasificar puede

tomar valores en un rango continuo (ingresos, balance de la tarjeta
de crédito, probabilidad de que sea jugador).
Es una clasificación en la que se establece un score.
Por ejemplo:
Estimar el número de hijos de una familia.
Estimar la probabilidad de que alguien conteste a un mailing.
Estimar el tiempo de vida de un cliente.
Estimar los ingresos totales de una familia.

9
Asociación
Determinar que cosas van juntas.
Por ejemplo: pañales y cerveza se compran juntos los fines de
semana.
El ejemplo típico es observar qué productos suelen ir juntos en la

cesta de la compra.
Se puede utilizar para establecer los almacenes, escaparates y

estrategias de cross-selling.
10
Clustering
Segmentar una población heterogénea en un número de subgrupos
homogéneos o clusters.
Por ejemplo: encontrar clientes con hábitos de compra similares.
No hay clases predefinidas.
Registros agrupados en base a su similitud.
Se realiza a menudo antes de otras tareas de descubrimiento.

11
Problemas descriptivos
Problemas predictivos
Problemas
descriptivos
Son problemas de descubrimiento indirecto ya que no existe una meta a

predecir. La meta es encontrar una descripción de los datos de estudio.
Pertenecen a este tipo de problemas el ejemplo de conocer cuales son los

clientes de una organización y sus características o el encontrar los
productos que frecuentemente se compran juntos o síntomas de
enfermedades que se presentan juntos.
12
Problemas descriptivos
Problemas predictivos
Problemas
predictivos
Son problemas de descubrimiento directo. La meta es obtener un modelo

que en un futuro pueda ser aplicado para predecir comportamientos.
Este tipo de problemas son los que se denominan problemas predictivos o

problemas de aprendizaje supervisado en entornos de Inteligencia
Artificial.
Aunque las técnicas aplicadas para la obtención del modelo son técnicas de
inducción sobre los datos de origen, el resultado o modelo será aplicado
para predecir.
13
2.1.1 Descriptivos o
asociación o clustering.
14
Métodos descriptivos
Los métodos descriptivos, llamados también aprendizaje no supervisado,
permiten formar grupos de datos rápidamente. Otras denominaciones qué
reciben son métodos simétricos, no supervisados o indirectos.
Las observaciones son generalmente clasificadas en grupos que no son

conocidos con anterioridad, los elementos de las variables pueden estar
conectados entre sí, a través de vínculos desconocidos, de esta forma,
todas las variables disponibles son tratadas en el mismo nivel y no existen
hipótesis de causalidad.
15
Planificación de proyectos
Los modelos descriptivos cuantifican las relaciones en los datos de

una manera que se utiliza a menudo para clasificar a clientes o
prospectos de grupos. Estos modelos pueden usarse, por ejemplo,
para clasificar clientes según sus preferencias de producto y su
etapa de vida. Las herramientas de modelado descriptivo pueden
ser utilizadas para desarrollar modelos adicionales que puedan
simular un gran número de agentes individualizados y hacer
predicciones.
16
Clasificación: Árboles de
01
decisión.
Para la estimación de
· Pueden procesar variables cuantitativas y
variables descriptivas los
cualitativas a la vez.
métodos más empleados son:
· Técnicas de podado que proporciona árboles
de menor tamaño.
· Son escalables, pudiendo procesar conjuntos

con independencia del número de clases,
atributos y registros.
Las técnicas descriptivas están

orientadas a describir un
conjunto de datos.
17
Clasificación neuronal
02
· Basada en redes neurales de propagación
hacia atrás.
· Detecta automáticamente la topología más

adecuada para cada problema.
· Realiza un análisis de sensibilidad para

detectar las variables más significativas para
cada topología.
18
Data Mining
La minería de datos es un conjunto de técnicas y
tecnologías que permiten explotar grandes
cantidades de datos de forma casi automática y
obtener patrones entre ellos que permiten crear
modelos predictivos.
19
Objetivo de los
modelos descriptivos
El objetivo de resolver problemas descriptivos es encontrar

una descripción de los datos, por ejemplo, es habitual
querer agrupar a los clientes con unas características
semejantes para enviar notificaciones personalizadas, o
por ejemplo, encontrar asociaciones de productos que
suelen venderse juntos.
20
¿Qué tipos de técnicas descriptivas podemos

encontrar en la minería de datos?
01 02 03 04
Descripción Análisis de Análisis de
de clases asociación clusters
Descripción de clases:
Hay tres formas de ver este punto, la primera se denomina Caracterización de los datos (Data Caracterization),
el cual realiza un resumen de las características generales de una clase particular de datos; los resultados
suelen representarse en términos de reglas de caracterización. La segunda es la discriminación de datos (Data
Discrimination), que es una comparación entre las características generales de los objetos de una clase respecto
a las de otro conjunto contrastante. Finalmente, también se puede aplicar una combinación de ambas.
21

01 02 03 04
Análisis de asociación:
Es el descubrimiento de reglas de asociación que muestran condiciones del tipo atributo-valor que ocurre
con frecuencia dentro de un conjunto de datos. La minería mediante reglas de asociación es el proceso
de búsqueda interesante de correlaciones entre un conjunto grande de datos. El descubrimiento de
reglas de asociación en grandes volúmenes de transacciones de negocios puede facilitar el proceso de
toma de decisiones.
22

01 02 03 04
Análisis de Clusters:
Aquí se analizan objetos sin consultar clases conocidas. El proceso trabaja agrupando objetos según el
principio de ”maximizar la similitud dentro de una clase y minimizar la similitud entre clases”. Un cluster
es una colección de objetos de datos mutuamente similares. Clustering es el proceso de agrupamiento
de objetos. El análisis de clustering tiene una gran variedad de aplicaciones, incluyendo procesos de
imágenes, análisis, etc.
23
Análisis de clusters
Hay cuatro aspectos que son considerados relevantes a la hora de aplicar un proceso de
agrupamiento o clustering:
Número de grupos.
Tipos de datos.
Medida de similitud, distancia o diferencia en los datos.
Método de agrupamiento.
24
La herramientas de clustering son populares en la extracción de patrones de conjuntos de datos,
principalmente a la hora de analizar el comportamiento humano.
Análisis de clusters Esto se debe a que la formación de grupos de personas con características comunes es una
tendencia natural: comunidades sociales (como pueden ser los países, civilizaciones, en los cuales
las características comunes son la raza, el idioma, la cultura), y dentro de estas comunidades, hay
subgrupos, que, por ejemplo, pueden basarse en antecedentes socio-económicos.
El clustering tiene cantidad de objetivos, pero todos están relacionados con segmentar o agrupar unos objetos en subconjuntos o “clusters”, en
los cuales los objetos dentro de cada cluster tienen una relación cercana.
25
Análisis de clusters
El número de clusters no se conoce de antemano, los grupos se crean en función de la naturaleza
de los datos. Es un método estadístico multivariante de clasificación automática:
A partir de una tabla de datos, trata de situarlos en

grupos homogéneos, conglomerados o clusters.
Los individuos que pueden considerarse similares

se asignan a un mismo cluster.
Los individuos diferentes se localizan en clusters

distintos.
26
2.1.2 Predictivos o
clasificación.
27
¿En qué consiste?
Analítica predictiva (Analítica 2.0 - la era del “Big Data”):
Se centra en determinar con cierto nivel de precisión lo que puede suceder.
Inicia con el surgimiento de la minería de datos (Data Mining), para

posteriormente complementarse con los modelos de predicción apoyados por
las matemáticas, la estadística y el aprendizaje de máquina (Machine Learning)
e incluyen por ejemplo la identificación de patrones.
Los desarrollos en este tipo de analíticas se dirigen por los datos, lo cual dio
paso a la aparición de las plataformas para tratar grandes volúmenes de datos
sacando provecho del Procesamiento en Paralelo Masivo (MPP: Massively
Parallel Processing).
28
El análisis
predictivo
abarca una variedad de técnicas estadísticas para

hacer predicciones sobre eventos futuros. En los
negocios los modelos predictivos explotan
patrones encontrados en datos históricos y
transaccionales para identificar riesgos y
oportunidades. Los modelos captan las relaciones
entre muchos factores para permitir la evaluación
del riesgo o potencial asociado con un conjunto
particular de condiciones, guiando la toma de
decisiones para las transacciones candidatas.
29
Un ejemplo de uso de análisis predictivo es la optimización de

los sistemas de gestión de relaciones con los clientes. Pueden
ayudar a permitir que una organización analice todos los datos
de los clientes, exponiendo así los patrones que predicen el
comportamiento del cliente.
Otro ejemplo es para una organización que ofrece múltiples

productos, la analítica predictiva puede ayudar a analizar el
gasto, el uso y otros comportamientos de los clientes, lo que
conduce a ventas cruzadas eficaces o vende productos
adicionales a los clientes actuales. Esto conduce directamente
a una mayor rentabilidad por cliente y a relaciones más
fuertes con los clientes.
30
Data Mining
La minería de datos es un conjunto de técnicas y
tecnologías que permiten explotar grandes
cantidades de datos de forma casi automática y
obtener patrones entre ellos que permiten crear
modelos predictivos.
31
Los métodos predictivos

O aprendizaje supervisado, se basan en entrenar a un
modelo por medio de diferentes datos para poder
predecir una variable partiendo de los mismos datos.
Con lo que el método aprendió, su respuesta estará

basada en lo aprendido con los datos anteriores. Por
ello se llama aprendizaje supervisado o modelo
predictivo, porque lo que queremos es predecir.
32
El análisis predictivo consiste en extraer información que

contienen los datos, para utilizarla con el fin de predecir
tendencias y patrones de comportamiento, se puede aplicar al
pasado, al presente o al futuro.
Este análisis, se fundamenta en la identificación de relaciones

entre variables del pasado, para predecir posibles resultados del
futuro, con dichas variables.
La precisión de los resultados
depende de cómo se haya realizado el análisis y de la

calidad de las suposiciones.
Para llevar a cabo el análisis predictivo, es muy

importante contar con una gran cantidad de datos,
tanto del pasado como actuales para poder establecer
las tendencias o patrones de comportamiento.
33
Las técnicas
predictivas de
modelización
Son técnicas estadísticas que predicen el comportamiento

futuro. Las soluciones basadas en estos modelos utilizan
técnicas de Data mining para analizar información histórica
y generar un modelo que sirva para predecir casos futuros.
34
De dónde viene este concepto:

La Minería de Datos estudia métodos y algoritmos
que permiten la extracción automática de
información sintetizada que permite caracterizar las
relaciones escondidas en la gran cantidad de datos;
también pretende que la información obtenida posea
capacidad predictiva, facilitando el análisis de los
datos de forma eficiente. Bajo la denominación de
"minería de datos" se han agrupado diversas técnicas
estadísticas y del aprendizaje automático
(Inteligencia Artificial) enfocadas a la visualización,
análisis y modelización de información de bases de
datos masivas.
35
Qué haremos
Una vez recolectados los datos de interés, una

persona exploradora puede decidir qué tipos de
patrón quiere descubrir. El tipo de conocimiento
que se desea extraer va a marcar claramente la
técnica de minería de datos a utilizar.
36
SEGÚN COMO SEA LA BÚSQUEDA

DEL CONOCIMIENTO SE PUEDE
DISTINGUIR ENTRE:
Directed data mining Undirected data mining
Se sabe claramente lo que No se sabe lo que se busca,

se busca, generalmente se trabaja con los datos.
predecir unos ciertos
datos o clases.
37
Métodos predictivos en minería de datos
Los métodos predictivos también pueden llamarse asimétricos, directos o

de aprendizaje supervisado (modelo del que se habla en el machine
learning) se basan en crear modelo o método por medio de diferentes
datos para poder predecir una variable partiendo de estos mismos datos.
Por ejemplo, si yo le digo al modelo:
· Esto es un cuadrado >
· Esto es un círculo >
· Esto es un triángulo >
A partir de aquí le preguntamos al método esta figura nueva >
¿Cuál es? Cómo el método ya aprendido con los datos que se le han
facilitado, su respuesta será que eso es un círculo. Estos modelos se
basan en la predicción de lo que será la nueva figura.
38
Objetivo de los
modelos predictivos
Su objetivo es describir una o más de las variables en

relación con todas las demás. Se llevan a cabo mediante la
búsqueda de normas de clasificación o predicción basadas
en datos. Podremos clasificar el resultado futuro de una o
más variables de respuesta o de destino en relación a los
motivos que la causan o a las variables de entrada.
39
Los principales métodos de tipo predictivo son los

desarrollados en el ámbito de la máquina de aprendizaje,
tales como:
Las redes neuronales (percepción multicapa y árboles de decisión).
Modelos estadísticos clásicos.
Modelos de regresión lineal.
Modelos logísticos.
40
Ejemplo de modelo predictivo o de aprendizaje supervisado:
Un modelo predictivo se basa en tablas: tabla de

aprendizaje o de entrenamiento.
Consta de variables: id, reembolso, estado civil e

ingresos. A estas se las llama “predictores”. A la variable
fraude se le llama “variable a predecir”.
En esta tabla generaremos el modelo con algún algoritmo (de redes neurales, árbol de decisión…). En la tabla de testing
aplicaremos el modelo generado para poder medir la calidad de nuestro modelo y saber si esta prediciendo de manera
correcta comprobando la tabla de aprendizaje y la tabla de testing.
41
Id Reembo Estado Ingresos Fraude Algoritmo de

lso Civil anuales aprendizaje
1 Sí Soltero 125 K No
2 No Soltero 100 K No
Generar el
3 Sí Casado 80 K No Modelo
4 No Soltero 120 K Sí
Tabla de Aprendizaje
Modelo
Id Reembo Estado Ingresos Fraude
lso Civil anuales
5 Sí Casado 125 K No Aplicar el
6 No Casado 95 K No Modelo
7 No Soltero 80 K No Nuevos
individuos
8 No Soltero 120 K Sí
Tabla de Testing Diagrama del proceso de aprendizaje.

42
Predicción: Funciones de
01
base radial
Para la estimación de
· Pueden procesar variables cuantitativas y
variables cuantitativas los
cualitativas a la vez.
métodos más empleados son:
· Detecta el número de centroides óptimo.
· Funciona muy bien cuando la estructura de

datos se agrupa en conjuntos.
Las técnicas predictivas están

orientadas a la predicción de
valores de salida.
43
02 Predicción neuronal
· Basada en redes neurales de propagación

hacia atrás.
· Detecta automáticamente la topología más

adecuada para cada problema.
· Permite predecir datos en forma de series

temporales.
· Permite implementar regresión logística.

44
¿Qué tipos de técnicas predictivas podemos

01 02 03 04
Clasificación Árboles Redes
y predicción de decisión neuronales
Clasificación y predicción:
Son dos tipos de análisis de datos, aquellos que pueden ser usados para clasificar datos y los que se
usan para predecir tendencias. La clasificación de datos predice clases de etiquetas mientras la
predicción de datos predice funciones de valores continuos. Aplicaciones típicas incluyen análisis de
riesgo para préstamos y predicciones de crecimiento. Algunas técnicas para clasificación de datos
incluyen: clasificación bayesianas. K-Nearest Neighbor, algoritmos en éticos, entre otros.
45

01 02 03 04
Árbol de decisión:
Definen un conjunto de clases, asignando a cada dato de entra da una clase y determina la probabilidad de que
ese registro pertenezca a la clase. Podemos distinguir dos tipos de árboles:
Árbol de decisión de clasificación, donde cada registro a clasificar fluye por una rama del árbol. La rama a seguir es determinada
por una serie de preguntas definidas por los nodos de la rama. Cuando el registro llega a un nodo hoja, se le asigna a la clase del
nodo hoja.
Árbol de decisión de regresión: cuando el registro llega a un nodo hoja, a la variable de salida de ese nodo, se le asigna el
promedio de los valores de la variable de salida de los registros que cayeron en ese nodo hoja durante el proceso de entrenamiento.
46

01 02 03 04
Redes neuronales:
Son modelos predictivos no lineales que aprenden a través del entrenamiento. Existen diferentes
tipos de redes neuronales, las más conocidas son las simples y multicapas. Las tareas básicas de las
redes neuronales son: reconocer, clasificar, agrupar, asociar, almacenar patrones, aproximación de
funciones, sistemas, (predicción, control, entre otros) y optimizan. De transacciones comerciales y
reconocimiento de patrones.
47
2.2 Implicaciones de los

datos, dominios, técnicas
en las fases del proceso.
48
Disminución del coste de

almacenamiento de los datos
La disminución del coste de almacenamiento de los datos ha
supuesto la revolución de estos. Si echamos la vista atrás, en 1980
el almacenamiento de un gigabyte costaba cientos de miles de
dólares, era difícil de conseguir y requería de una persona para su
manipulación. Hoy en día apenas cuesta unos céntimos, no se
necesita de nadie para poder utilizarlo y podemos comprarlo físico o
en la nube.
Esta gran bajada de precio ha hecho posible que los datos supongan
un recurso renovable que se puede combinar con otros conjuntos
de datos y utilizar muchas veces.
49
Análisis de datos
Si los datos no son comprensibles no sirven para nada. Para lograr

hacerlos comprensibles es necesaria la utilización de un software
combinado con el ingenio humano.
Las herramienta analíticas ordenan el conjunto de datos con el fin

de ayudar a descubrir pautas y nuevas ideas y tendencias desde el
punto de vista estadístico. Mediante una base de datos y algoritmos
estadísticos estas herramientas de software analítico permiten
extraer información valiosa en tiempo real entre una gran cantidad
de datos que nos ayudarán a tomar decisiones de manera más
rápida y con mayor precisión.
50
Economía del dato
Debido a la aparición del dato se están produciendo un

aumento en la productividad de las empresas. Pero no solo
afecta a las empresas que los implantan, los efectos
económicos de los datos se están expandiendo a muchos
sectores, por ejemplo, en EE.UU. cada puesto de trabajo
relacionado con los datos genera otros tres puestos de
trabajo de manera indirecta.
Además, no solo implica aumentar el crecimiento

económico de una empresa, también se trata de crear un
nuevo motor de creación de empleo, ya que se están
creando miles de nuevos trabajos nuevos y muy bien
remunerados.
51
Economía del dato. ¿Cómo afecta a los diferentes sectores?
Producción Salud
Es el sector que más almacena datos y esto se transforma Aumento de la esperanza de vida.
en una mayor eficiencia, producto de mayor calidad y
distribución más efectiva. Transporte
Ahorra tiempo y dinero a los viajeros. Un transporte más
Finanzas eficiente supone ahorrar combustible y por ende reducir
Mejora de la eficiencia operativa y disminución de fraudes. las emisiones de CO2.
Agricultura Energía
Producción de mejores alimentos utilizando menos Reducción del consumo energético.
recursos.
52
Mejor experiencia para el consumidor
La innovación de los datos dota a los consumidores de mayor

información con la que tomar sus decisiones. Además, las empresas
pasan de una producción en masa a una personalización en masa.
53
Tratamiento del dato
El volumen enorme de los datos hace imposible su tratamiento y análisis a partir

de las herramientas de bases de datos y analíticas convencionales. Debido a este
hecho ha sido necesario desarrollar herramientas de Big data que sean capaces
de manejar dichos datos. Entre los beneficios que aportan encontramos:
Toma de decisiones más inteligentes. Desarrollo de mejores productos

centrados en el cliente.
Obtención de un mayor conocimiento.

Aumentar la lealtad del cliente.
Elaboración de soluciones óptimas.

Proceso automatizados con un
análisis predictivo y descriptivo
más preciso.
54
Marco arquitectónico Big data
Las herramientas de big data deben tener un marco arquitectónico especial para
el tratamiento de los datos. Esta estructura se base en capas donde cada una
tendrá una función particular que permite que los datos se vayan canalizando en
función de los requisitos del sistema de procesamiento por lotes o del sistema de
procesamiento de flujo.
55
Marco arquitectónico Big data

¿Cómo debe ser la estructura de capas?
Capa de ingestión de datos: Capa de almacenamiento de datos:

En esta primera capa los datos son clasificados en En esta capa aumenta el tamaño de los datos que se trataran, por lo tanto
función de su prioridad. comienza uno de los grandes retos del big data, el almacenamiento eficiente.
Deberemos de encontrar una solución de almacenamiento eficiente.
Capa de recopilación de datos:

Se canalizan los datos de la capa de ingestión haciendo Capa de consulta de datos:
hincapié en el transporte de datos. Los componentes La función de esta capa será reunir el valor de los datos más útiles para la
están desacoplados con el fin de apoyar el desarrollo de siguiente capa, para ello se llevará a cabo un procesamiento analítico sólido.
las capacidades analíticas.
Capa de visualización de datos:

Capa de procesamiento de datos:
El dato se transforma en conocimiento y los usuarios de los canales de datos
Esta capa será la primera donde se realiza la analítica a
podrán extraer valor de los datos. Es en esta capa donde se podrán tomar las
partir de los datos obtenidos de la anterior.
decisiones en función de los datos obtenidos.
56
Marco arquitectónico Big data
Las dos arquitectura más comunes que existen son Arquitectura Lambda y
Kappa. La principal diferencia entre ambas será el flujo del tratamiento de datos
ya que mientras Lambda utiliza procesamiento batch y streaming, Kappa utiliza
solo procesamiento streaming.
Batch: el proceso de los datos que tiene un inicio y un fin en el tiempo.
Streaming: el proceso de datos no tiene un fin temporal, está

continuamente recibiendo y tratando nueva información.
Resumiendo, con el procesamiento batch seremos capaces de procesar volúmenes de datos en tiempos espaciados (ej. cada 10 minutos),
mientras que con el procesamiento streaming podremos procesar datos casi al instante en que son producidos.
57
Técnicas en las fases del proceso
Seleccionar qué tipo de técnicas de procesamiento y análisis de datos

vamos a implantar es un punto que influye decisivamente en el
resultado.
Debe existir una consonancia entre la potencia y la capacidad del

sistema para recolectar los datos. Esta debe ser la más adecuada para
las tareas que se van a realizar: detectar la existencia de fraudes en las
transacciones o llevar a cabo controles de seguridad, por ejemplo.
No obstante, la tarea más complicada es la reducción de la latencia de

la analítica que vamos a aplicar sobre un conjunto de datos.
58
Técnicas en las fases del proceso

Cuestiones como el tiempo de respuesta necesario, las condiciones

de los propios datos a analizar o la carga de trabajo son
determinantes a la hora de elegir las técnicas de procesamiento y
análisis de datos.
59
Procesamiento batch:
para lotes de grandes volúmenes de datos
Apache Hadoop es un framework de computación diseñado para el

procesamiento de grandes cantidades de datos en paralelo. Hadoop Distributed
File System (HDFS) es el sistema de archivos subyacente de un cluster Hadoop el
cuál presenta la siguiente característica:
· Es más eficiente procesando: número reducido de archivos de gran volumen.
· Es menos eficiente procesando: gran cantidad de archivos de datos más

pequeños.
Técnicas principales de
procesamiento de datos
60
Escoger Hadoop no es la mejor opción cuando se necesite llevar a cabo un

análisis en tiempo real, sino más bien en los casos en que sea posible
conformarse con una analítica offline, debido a que este framework tarda
entre unos minutos a varias horas para completar su tarea.
Recientemente, Hadoop ha evolucionado para adaptarse a las nuevas

necesidades empresariales. Los negocios hoy día demandan:
Menores latencias.
Minimización del tiempo de respuesta.
Precisión máxima en la elaboración de decisiones…

61
Sin embargo, Hadoop ha mejorado su capacidad de gestión gracias a una

novedad que se conoce como stream. Uno de los principales objetivos de
Hadoop streaming es desacoplar Hadoop MapReduce del paradigma para
dar cabida a otros modelos de computación en paralelo, como MPI
(Message Passing Interface) y Spark.
62
El conjunto de avances y novedades que conlleva la aplicación de técnicas de

procesamiento y análisis de datos en streaming supera gran cantidad de los límites que
tiene el modelo batch, teniendo en cuenta que su origen se remonta cuarenta años
atrás. Sin embargo, su uso es el más indicado, atendiendo a la relación coste –
resultados, para operaciones como:
El cálculo del valor de mercado de los activos, que no necesita revisarse

más de una vez al día.
Cálculo mensual del coste de las facturas de teléfono de los empleados.
Generación de informes relacionados con temas fiscales.

63
Procesamiento en stream
Estas técnicas de procesamiento y análisis de datos se fundamentan en

implantar un modelo en el que los datos fluyen continuamente a través de
una red de entidades de transformación que conforman el sistema. Es
conocido como procesamiento streaming o de flujo.
64
Procesamiento en stream
No existen limitaciones de tiempo obligado en el procesamiento del flujo de datos, es la

gran diferencia con respecto a las técnicas de procesamiento y análisis de datos en tiempo
real. Tampoco existe una obligación en cuanto al plazo de tiempo de generación de salida
por cada entrada recibida en el sistema. Las únicas limitaciones son:
· Se debe disponer de suficiente memoria para almacenar entradas en cola.
· La tasa de productividad del sistema a largo plazo debería ser más rápida, o por lo
menos igual, a la tasa de entrada de datos en ese mismo periodo. Si esto no fuese así, el
volumen de almacenamiento del sistema crecería ilimitadamente.
65
Técnicas de procesamiento y análisis

de datos en tiempo real
Este tipo de técnicas se utilizan cuando el nivel de procesamiento

analítico que se alcanza en línea es extremadamente alto, con un margen
de actuación inferior a segundos. Su ocupación es la de procesar la
entrada tan rápido como sea posible.
66
Técnicas de procesamiento y análisis

De este modo surge el siguiente planteamiento. ¿Qué pasa si el sistema pierde un

dato de entrada?
Cuando esto ocurre el sistema continua procesando y analizando sin demora

haciendo caso omiso de la pérdida.
Esto puede no suponer un problema en ciertos sectores como el comercio

electrónico, sin embargo, puede ser incompatible con actividades de vigilancia o
seguridad avanzada.
67

No es bueno que se pierda información, pero incluso la tecnología tiene un límite y,

cuando se trabaja de verdad en tiempo real, el sistema no puede dejar las
operaciones para volver a arreglar algo que ya es pasado, quedó segundos atrás. Los
datos siguen llegando y el sistema debe hacer todo lo posible para continuar su
procesamiento.
68

De todas maneras, este tipo de técnicas de procesamiento en tiempo real deben ser
consideradas concienzudamente debido a los siguientes aspectos:
No son tan sencillas de poner en práctica mediante el uso de sistemas

de software comunes.
Su coste es superior al de las opciones streaming.
Dependiendo de su uso, la mejor opción puede ser una posición intermedia entre
streaming y tiempo real. Por ejemplo, Amazon utiliza este sistema en su web dando
como resultado un procesamiento de todas las solicitudes de clientes en menos de
200ms para el 99% de todas las solicitudes.
69
2.3 Casos de uso.

70
Planificación de proyectos
El Data Mining relaciona millones de datos aislados y, debido a la

acción conjunta de analítica y minería de datos, las empresas
pueden crear modelos para así descubrir conexiones entre millones
de registros.
El Data Mining posibilita limpiar datos de ruido y repeticiones,

extraer información relevante y utilizarla para evaluar posibles
resultados, tomar mejores decisiones de negocio con mayor
rapidez, etc.
La capacidad predictiva del Data Mining ha cambiado el diseño de

las estrategias empresariales, esto hace posible que se comprenda
el presente con el fin de anticiparse al futuro.
71
Casos de uso Data Mining
Cuando queremos conocer como se aplica el Big Data en las

diferentes industrias es inexorable atender a cada una de las
características de cada una, ya que esto nos lleva a adaptar un
sistema determinado. Las prácticas de implementación, por lo
tanto, dependen de patrones y arquitecturas diseñadas de forma
estratégica.
Muchas empresas están luchando para convertir los grandes datos

en un activo fundamental que se traduzca en una mayor
competitividad y en oportunidades de monetización.
72
Casos de
Big Data en la industria de telecomunicaciones:
uso Data Mining
La industria que ha experimentado un mayor crecimiento de datos. Los análisis

de Big Data, por ejemplo, permiten organizar y analizar datos sobre sus
abonados proporcionando un mayor conocimiento de los clientes y sus
preferencias. También se utiliza para satisfacer al cliente optimizando el uso de
la capacidad de la infraestructura y sin excesivos costes añadidos gracias al
seguimiento de los servicios prestados a nivel micro y la toma de decisiones en
tiempo real considerando los aspectos críticos del negocio.
73
Casos de
Big Data en la industria de telecomunicaciones:
uso Data Mining
Predicción de las audiencias televisivas:
La cadena de televisión británica BBC emplea un sistema para predecir el

tamaño de las audiencias televisivas para un programa planteado, así como el
tiempo óptimo de exhibición. El sistema utiliza redes neuronales y árboles de
decisión aplicados a datos históricos de la cadena para determinar los criterios
que participan según el programa que hay que presentar.
74
Casos de
Big Data en la banca:
uso Data Mining
Ante el aumento de los datos, las organizaciones financieras necesitan las

nuevas tecnologías para poder actualizar sus tradicionales aplicaciones con las
que detectar fraudes, realizar análisis de riesgo y otros análisis de clientes. Una
plataforma para el análisis de grandes datos permite además sumar datos
adicionales para realizar análisis sofisticados con el fin de captar actividades
fraudulentas, hacer mejores recomendaciones y, si además se genera
información en tiempo real, tomar decisiones más rápidamente.
75
Casos de
Big Data en la banca:
uso Data Mining
Fraudes:
Principalmente, las operaciones fraudulentas como transacciones de blanqueo

de dinero, uso fraudulento de tarjeteas de crédito, etc. Suelen seguir patrones
característicos que permiten, con cierto grado de veracidad, distinguirlas de las
legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a
ellas.
76
Casos de
Big Data en salud:
uso Data Mining
Enriquecer información conseguida desde diferentes fuentes de datos

tradicionales (datos demográficos, clínicos, etc.) nos permite extraer una valiosa
fuente de información para reducir costos y mejorar los resultados de los
tratamientos. Se dan casos de uso muy variados, como por ejemplo, descubrir
secuencias en los datos que se producen antes de un resultado clínico o aquellos
basados en la minería de datos para desarrollar señales de alerta temprana, etc.
77
Casos de
Big Data en salud:
uso Data Mining
Genética:
Un campo muy notorio dentro de la salud es el genético , cuyo estudio principal

es averiguar cómo los cambios en la secuencia de ADN de un individuo afectan
al riesgo de desarrollar enfermedades comunes (como, por ejemplo, los
tumores). Esta relación se visualizada mediante representaciones cartográficas
entre las partes y la variación individual en las secuencias del ADN.
78
Casos de
Big Data en el sector seguros:
uso Data Mining
Este sector está actualizando sus métodos tradicionales utilizando análisis Big
Data, se persigue obtener una mayor profundidad de información y poder contar
con conclusiones más concluyentes. El objetivo de impulsar sus prioridades de
negocio. Entre otras puntos, se busca combinar datos internos de clientes con
información externa procedente de distintas fuentes para un mejor manejo de
los riesgos.
79
Casos de
Big Data en el sector Retail:
uso Data Mining
Los vendedores retail buscan en el Big Data obtener una visión panorámica de
los clientes para conocer sus necesidades y así mejorar la cifra de negocio.
Por otra parte, en la venta al por menor se está produciendo un movimiento
hacia el modelo multicanal, orientándose a la personalización comercial.
80
Casos de
Big Data en el sector Retail:
uso Data Mining
Hábitos de compra en supermercados:
Una aplicación común tiene que ver con la detección de hábitos de compra en
supermercados. Un estudio muy citado es el de “Pañales y cervezas”, que tuvo lugar
en una cadena de víveres de EEUU. Los viernes por la tarde-noche, los hombres que
compraban pañales, también compraban cerveza. Esta información puede ser
utilizada, por ejemplo, para colocar ambos productos juntos, a modo estratégico.
81
Casos de
Otros ejemplos:
uso Data Mining
Comportamiento en Internet:
Analizar el comportamiento de los visitantes en una página web, sobre todo si son
clientes potenciales, así como la utilización de la información.
Juegos:
Desde comienzos de la década de 1960, con la disponibilidad de oráculos para
determinados juegos combinacionales, con cualquier configuración de inicio, se ha
abierto una nueva área en la minería de datos que consiste en la extracción de
estrategias utilizadas por personas para estos oráculos.
82
Casos de
Otros ejemplos:
uso Data Mining
Ingeniería eléctrica:
Un caso concreto es el de monitorizar los transformadores eléctricos para monitorizar el

estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis de
los cambios de carga en transformadores se utilizan ciertas técnicas para agrupación de
datos (clustering).
Análisis de gases:
También se han aplicado técnicas de minería de datos para el análisis de gases disueltos
en transformadores eléctricos.
83
Anexo:
Business Intelligence.
Presentación de datos.
84
Índice
Anexo 1. Importancia del Business Intelligence
Anexo 2. Herramientas de la inteligencia de negocios
Anexo 3. Dashboards de visualización y consulta

85
Anexo 1. Importancia del

Business Intelligence.
86
La técnicas y procesos de Inteligencia de datos tiene

como fin proporcionar información útil y conocimiento
que ayude a las empresas a ser más productivas y mejorar
en sus negocios.
Así pues, es de vital importancia que todas las personas

que deben tomar decisiones dispongan de información
relevante y apropiada para su cargo y departamento, pues
en una pirámide empresarial, las decisiones deben
tomarse en todos los escalafones.
Veamos a continuación una pirámide

organizacional escalonada y los factores que
determinan cada escalón.
87
Tipos de información y
Alta dirección
decisiones de empresa Información agregada y desestructurada.
Prácticamente todas las empresas tienen una Decisiones estratégicas de mercados y
organización piramidal, en donde desde cada escalón productos.
se deciden y ejecutan una serie de acciones para las

cuales es preciso disponer de información y
conocimiento con el fin de que sean las más Mandos intermedios
adecuadas. Información operativa y semi-estructurada.
Indicadores de seguimiento de la gestión.
Equipos y empleados
Información estructurada.
Decisiones dentro de protocolos y reglas.

88
Todos toman decisiones

Alta dirección
En base a información desestructurada.
Hace planes estratégicos y de negocio.
Sobre decisiones de producto y mercado.
Siguiendo indicadores clave y control de gestión.
Mandos intermedios
Cuenta con información semi-estructurada.
Para definir planes operativos, previsiones, presupuestos.
Así como protocolos y procedimientos de trabajo.
Con indicadores intermedios y su seguimiento.
Equipos y empleados
Disponen de información estructurada.
Para la toma de decisiones dentro de reglas y protocolos.
Seguimiento de objetivos e indicadores operativos.
89
Así pues, vemos que a lo largo de toda

la estructura de una empresa se
toman decisiones en base a unos
datos o información. Cada decisión
Alta
dentro de su escalón tiene
dirección
consecuencias para toda la compañía.
Mandos
intermedios
Así pues, la implantación de un
sistema de BI redundará en beneficio
Equipos y
de cada departamento, escalón y de
empleados
toda la empresa en general.
90
Dicho en otras palabras, en cada uno

de los escalones de la pirámide
organizacional se toman decisiones a
nivel:
Estratégico (Alta dirección)
Táctico (Mandos intermedios)
Operativo (Equipos)
¡A continuación, vamos a
ver cada una de ellas!
91
Decisiones estratégicas
Afectan a la directriz a largo plazo de la empresa,
comprometiendo su crecimiento en el tiempo.
Mediante cuadros de mando integrales se analizan
datos para tomar decisiones relacionadas con la
visión de la compañía y su posicionamiento en un
mercado en particular.
Un ejemplo puede estar relacionado con la compra

o adquisición de otras compañías, la incorporación
de una nueva línea de producto o un nuevo enfoque
a nivel de inversores o consejo asesor.
92
Decisiones tácticas
En base a los datos proporcionados por el Business

Intelligence, los mandos intermedios toman
decisiones que están relacionadas con una visión o
estrategia a medio plazo. Tales decisiones pueden
tener que ver con cambios en los procesos de
ventas, ajustes de procesos de servicio al cliente o
estrategias de marketing con el fin de incrementar
las ventas y satisfacción de los clientes.
93
Decisiones operativas
Este tipo de decisiones están relacionadas con

plazos más cortos e influyen en la buena gestión de
los equipos y del personal subordinado y el
rendimiento de ambos, analizando métricas y KPI
sobre resultados a los que se puede atacar con
cambios rápidos y pequeños.
94
Anexo 2: Herramientas de
Inteligencia de negocios
95 Existen diferentes herramientas que
intervienen en un proceso de BI.
Partimos de datos almacenados en sus diferentes

repositorios, bases de datos o sistemas de ficheros.
Para convertir esos datos en información útil,
necesitamos de 4 herramientas que no deben faltar:
1 Los procesos de ETL que ya hemos visto, encargados de extraer,

transformar y cargar todos esos datos en una base de datos común
y centralizada
2 La base de datos central y común, habitualmente

denominada Data Warehouse
3 Los procesos para buscar algoritmos y patrones comunes en esos datos,

conocidos como procesos de Data Mining (procesos OLAP, OLTP, etc.).
4 La presentación de resultados e informes de forma útil para tomar

decisiones, en lo que se denominan Dashboard o paneles de control.
96
INTEGRACIÓN DE DATOS (ETL)
Herramientas de inteligencia
de negocios
01
Aunque muchas son las herramientas
tecnológicas que forman parte de Business DATA WAREHOUSE
Intelligence, podemos centrarnos en estas 4
principales:
02
ANÁLISIS OLAP (ONLINE ANALYTICAL
Antes de profundizar en cada una de las
herramientas veamos el siguiente
PROCESSING). MINERÍA DE DATOS
Esquema
Haz clic sobre el botón
03
DASHBOARDS
¡Vamos a ver
04 de que se
trata cada
una de las
herramientas!
97
01
X
Aunque muchas son las herramientas
tecnológicas que forman parte de Business DATA WAREHOUSE
CONSULTAS E
LIMPIEZA, VALIDACIÓN:
INFOMES
Intelligence, podemos centrarnos en estas 4
principales:
Batch 02
Real time ANÁLISIS OLAP (ONLINE ANALYTICAL
EVALUANDO
Antes de profundizar en cada una de las DATA
WAREHOUSE DECISIONES
herramientas veamos el siguiente
PROCESSING).
TOMADAS
MINERÍA DE DATOS
BÚSQUEDA DE
EXCEPCIONES
Esquema
Haz clic sobre el botón
VISTA 03 OLAP
DATA MARTS
MODELANDO
DASHBOARDS
DECISIONES Y ANÁLISIS
VISTA EN TIEMPO REAL PREVISIONES CAUSAL
¡Vamos a ver
04 de que se
trata cada
una de las
herramientas!
98 Herramientas de
INTEGRACIÓN DE DATOS (ETL) inteligencia de
negocios
01 Incluye los procesos y tecnologías para extraer y
recopilar los datos de las diferentes fuentes (ERP,
CRM, ficheros Office, web services, etc…),
limpiarlos y transformarlos a formato estándar y
finalmente cargarlos en una base de datos
central.
CRM
DATA
LOB WAREHOUSE
O BD
ERP
Exportar Transformar Cargar

99 Herramientas de
inteligencia de
negocios
01
DATA WAREHOUSE
02 El data warehouse o almacén de

datos, es una base de datos integral
que almacena todos los datos ya
elaborados y los estructura o agrupa
por unidades de negocio. Cada una de
estas clasificaciones o “vistas” por
unidad de negocio es lo que se conoce
como Data Mart.
Databases Data Warehouse Dependent Data

Marts
100 Herramientas de
inteligencia de
negocios
01
DATA WAREHOUSE
02
ANÁLISIS OLAP (ONLINE ANALYTICAL
ANÁLISIS OLAP.
PROCESSING). MINERÍA DE DATOS MINERÍA DE DATOS
03 Una vez coleccionados todos los datos en un repositorio central, es preciso

realizar trabajos de “minería” o procesos OLAP, mediante los cuales, se
clasifica, se enriquece la información, se complementa, etc., para que los datos
dejen de ser cifras o números aislados y se conviertan en información
significativa.
101 Herramientas de
inteligencia de
negocios
01
Iremos
viendo más
detalles en
DATA WAREHOUSE
estas y otras
02 herramientas
en los
siguientes
ANÁLISIS OLAP. capítulos.
MINERÍA DE DATOS
03
DASHBOARDS
04 Por último, es preciso presentar la información en cuadros

de mando estándares o integrales, en donde prima una
buena presentación de esta de forma clara y concluyente que
nos permita analizarla rápidamente y tomar decisiones.
102
Anexo 3. Dashboards de
visualización y consulta.
103
Análisis de datos - Self-Service
Los sistemas ERP o de reporting parecería que son

suficientes para el análisis de datos en un proceso sencillo
y fácil. Sin embargo, estas aplicaciones suelen disponer de
una serie de informes predefinidos y estáticos que no
permiten profundizar en los datos, navegar entre ellos,
manejarlos desde distintas perspectivas, etc.
Los analistas de datos, controllers o puestos similares,

necesitan una herramienta que les permitan analizar los
datos de una forma ágil, rápida y dinámica para realizar
sus propios análisis.
A día de hoy, la estrella de análisis de datos y reporting

sigue siendo las hojas Excel.
104
Todo esto se evita con una solución de Business Intelligence. El dato es

único para todos, cargado de forma automática en proceso nocturno y los
indicadores y fórmulas son las misma para todos ellos. Hay un diccionario
común.
Y aunque debido a su divulgación masiva y popularidad esta ventaja se puede

convertir en inconveniente si se usa de forma inadecuada:
Extraer los datos de múltiples fuentes y trasladarlos a una

hoja Excel.
Proceso tedioso, largo y repetitivo. Entre el 80 y 90% del tiempo de estos
analistas se emplea en tareas repetitivas cuando se deberían dedicar a analizar
realmente la información de la compañía.
Estas hojas suelen generar más de una versión de la verdad.

según sean presentados los datos. Unas veces intencionadamente porque el
reporting es para la dirección o involuntarias. Las consecuencias son graves si
se utilizan para tomar decisiones críticas sin información sólida.
105
Los informes, al menos deberían cubrir las

siguientes necesidades:
Informes dinámicos, flexibles e

interactivos.
Más allá de los listados predefinidos que se

configuraron en el momento de la implantación
ya que no siempre responden a dudas reales.
No requiere conocimientos técnicos.
Ofreciendo a un usuario sin grandes

conocimientos técnicos crear nuevos gráficos
informes, métricas y navegar entre ellos,
ofreciendo independencia de los
departamentos de IT.
106
El siguiente paso. Los Cuadros de mandos.
El propósito de estas herramientas cobra su

sentido con la aplicación final que nos presente de
forma clara, visual, rápida y entendible las
conclusiones del análisis realizado con los datos. A
estas aplicaciones se las llama cuadros de mando o
dashboards.
107
El término Cuadro de Mando o Dashboard

(salpicadero del coche, donde están los
instrumentos)
Consiste en una representación gráfica y muy visual del conjunto

de medidas o indicadores, de un área o varias áreas de la
compañía que sirve a los directivos de las empresas para medir el
"estado de salud" de la misma.
Es habitual comparar valores obtenidos con los que previamente

se habían previsto o presupuestado, o bien con los valores que se
obtuvieron para cada uno de esos indicadores en un periodo
anterior.
Estas comparaciones suelen consistir en calcular la diferencia o el

porcentaje de desviación entre el valor real y el comparado (sea el
presupuestado o el del año anterior).
108
Un Cuadro de Mando se complementa con otros elementos,

como códigos de colores, semáforos, mapas o gráficas que
muestran la tendencia de los indicadores, brindando la
posibilidad de verlo desde diferentes puntos de vista o
dimensiones (los cubos).
El resultado es un análisis resumido muy intuitivo y visual

que permite detectar de manera muy rápida y de un
vistazo cualquier problema que pueda haber.
Por ejemplo, un descenso alarmante de las ventas, que el

director comercial verá rápidamente cuando el semáforo de
ventas esté en rojo.
109
Si estos indicadores son cuantificables o se

emplean los conocidos KPI (Key Performance
Indicator – Indicador de rendimiento clave), el El cuadro de mando es un sistema que
Cuadro de Mando permite saber hasta qué punto permite tener una panorámica global del
la empresa está cumpliendo sus objetivos estado de la compañía en todo momento,
estratégicos respecto a diferentes áreas. mediante el análisis de la información

proporcionada por los diferentes
Ejemplo: marketing, ventas, producto, clientes y
departamentos.
finanzas.
La idea es que la alta dirección de la empresa tenga

siempre presente el panel de indicadores del
estado de su compañía. Esta información permitirá
corregir rápidamente el rumbo de la organización
ante cualquier desviación y reorientarla hacia la
consecución de sus objetivos.
Uso de los dashboards o paneles de
110
control
Los dashboards o paneles de control son elementos de primera necesidad, cuya configuración determinará
en gran medida la usabilidad y maniobrabilidad de las herramientas de análisis de datos e informaciones
implementadas en nuestro entorno BI, la correcta gestión de los mismos y, consiguientemente, la mayor o
menor capacitación para una toma de decisiones adecuada y eficaz.
111
El papel de las Traducen datos e informaciones relevantes en
01
herramientas para la conocimiento de un modo gráfico y simple.
visualización de datos en el
panel de control o
dashboard es, pues,
Permiten comparar resultados de métricas y reportes
determinante y 02 personalizados.
fundamental:
Ofrecen una visión integral del desempeño de

03 actividades y procesos clave para la consecución de los objetivos
estratégicos fijados.
Facilitan la toma de decisiones ad hoc,

04 minimizando los riesgos y detectando oportunidades de negocio
con un solo vistazo.
112
Principales características del Dashboard

Para que un panel de control sea verdaderamente útil y efectivo, debe cumplir con un conjunto determinado de características, que
podemos resumir del siguiente modo:
01 Sencillez
La consigna menos es más es la premisa fundamental
a la que se debe aferrar cualquier panel de control
que pretenda ser eficiente y efectivo.
La sencillez a la hora de exponer datos e

informaciones es una exigencia que crece en
proporción directa al volumen de datos analizado
para la muestra de información en el dashboard.
113
02 Potencia
Un panel de control que no sea lo bastante potente como
para mostrar, con la suficiente rapidez y profundidad, el
resultado del análisis de los datos requeridos en cada
momento entorpecerá el proceso de toma de decisiones,
retrasándolo de un modo crítico en según qué
circunstancias y aumentando el riesgo de asentarse en
información incompleta, parcial y sesgada.
La gestión de los datos y la información es uno de los

valores principales con los que debe contar cualquier
organización.
114
03 Compatibilidad
Las actuales exigencias corporativas, sobre todo en
departamentos que basan sus actividades en la itinerancia
y la movilidad de sus miembros, imponen como necesidad
disponer de distintos dispositivos y plataformas con los
cuales las distintas herramientas BI (incluidos los paneles
de control, por supuesto) deben ser perfectamente
compatibles, sin que merme su potencia y funcionalidad.
115
04 Personalización
La posibilidad de personalizar y adaptar un panel de
control a las distintas necesidades operativas y
funcionales de cada departamento o usuario corporativo
es fundamental para que lleve a cabo su tarea en
consonancia con las informaciones de las que se dispone,
las posibilidades reales de la organización y los objetivos
estratégicos fijados.
116
Envíos automáticos de la información y alertas
Por último, no solo es preciso disponer de una herramienta de

consulta (dashboard) para tomar el pulso a una determinada
situación. Hoy en día y con la proliferación de los dispositivos
móviles, en donde la oficina se encuentra en la palma de la
mano, es vital disponer de información en TIEMPO REAL para
tomar decisiones en el momento adecuado.
El contar con un sistema de alertas que informe y notifique al

móvil en tiempo real (notificaciones push) sobre ciertos
indicadores, sin necesidad de acceder a la aplicación de
consulta o esperar a estar sentado delante de un ordenador, es
de vital importancia. Todos los cuadros de mando deben contar
con la posibilidad de configurar alertas y enviar notificaciones
según las preferencias de su usuario.
¡Lo conseguiste!

Ciclo de Data Mining

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ciclo de Data Mining

Cargado por

Copyright:

Formatos disponibles

Data Mining: Principios

Data Mining: Principios

2. El ciclo de Data Mining

2.1 Tipos de problemas.

Este paso incluye analizar los requisitos de la empresa,

Existen múltiples métodos y algoritmos

y es por esto, que es importante clasificar los

La elección del método que se emplea, depende del problema en el

Los datos, son la fuente de la que se obtienen las variables, las

siguientes cuatro clase dentro de un conjunto de clases predefinido. Por ejemplo:

Se ha de disponer de un conjunto de entrenamiento en el que todos

La estimación trata con problemas donde el valor a clasificar puede

Es una clasificación en la que se establece un score.

Estimar la probabilidad de que alguien conteste a un mailing.

Estimar el tiempo de vida de un cliente.

Estimar los ingresos totales de una familia.

El ejemplo típico es observar qué productos suelen ir juntos en la

Se puede utilizar para establecer los almacenes, escaparates y

Por ejemplo: encontrar clientes con hábitos de compra similares.

No hay clases predefinidas.

Registros agrupados en base a su similitud.

Se realiza a menudo antes de otras tareas de descubrimiento.

Son problemas de descubrimiento indirecto ya que no existe una meta a

Pertenecen a este tipo de problemas el ejemplo de conocer cuales son los

Son problemas de descubrimiento directo. La meta es obtener un modelo

Este tipo de problemas son los que se denominan problemas predictivos o

Las observaciones son generalmente clasificadas en grupos que no son

Los modelos descriptivos cuantifican las relaciones en los datos de

· Son escalables, pudiendo procesar conjuntos

Las técnicas descriptivas están

· Detecta automáticamente la topología más

· Realiza un análisis de sensibilidad para

El objetivo de resolver problemas descriptivos es encontrar

¿Qué tipos de técnicas descriptivas podemos

¿Qué tipos de técnicas descriptivas podemos

¿Qué tipos de técnicas descriptivas podemos

Medida de similitud, distancia o diferencia en los datos.

A partir de una tabla de datos, trata de situarlos en

Los individuos que pueden considerarse similares

Los individuos diferentes se localizan en clusters

¿En qué consiste?

Analítica predictiva (Analítica 2.0 - la era del “Big Data”):

Se centra en determinar con cierto nivel de precisión lo que puede suceder.

Inicia con el surgimiento de la minería de datos (Data Mining), para

abarca una variedad de técnicas estadísticas para

Un ejemplo de uso de análisis predictivo es la optimización de

Otro ejemplo es para una organización que ofrece múltiples

Los métodos predictivos

Con lo que el método aprendió, su respuesta estará

El análisis predictivo consiste en extraer información que

Este análisis, se fundamenta en la identificación de relaciones

La precisión de los resultados

depende de cómo se haya realizado el análisis y de la

Para llevar a cabo el análisis predictivo, es muy

Son técnicas estadísticas que predicen el comportamiento

De dónde viene este concepto:

Una vez recolectados los datos de interés, una

SEGÚN COMO SEA LA BÚSQUEDA

Directed data mining Undirected data mining

Se sabe claramente lo que No se sabe lo que se busca,

Métodos predictivos en minería de datos

Los métodos predictivos también pueden llamarse asimétricos, directos o

· Esto es un cuadrado >