Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Big data término empleado para referirse a toda aquella cantidad ingente de datos que,
debido a sus características, no pueden ser siempre procesados por los sistemas
informáticos actuales
Hablamos de big data cuando tenemos gran volumen, alta velocidad y gran variedad de
información que demanda nuevas formas de procesamiento para una mejor comprensión
y toma de decisiones.
El concepto de Big Data aplica para toda aquella información que no puede ser procesada
o analizada utilizando procesos o herramientas tradicionales y no se refiere a alguna
cantidad en específico de datos, es usualmente utilizado cuando se habla en términos de
petabytes y exabytes de datos, pero también puede ser cuando la cantidad de
información no es grande pero está entrando a una velocidad muy alta.
Se generan cada vez mayor cantidad de datos a capturar para un proyecto de big data y
hay una gran cantidad de datos que provienen de diversos dispositivos (diversas fuentes
de datos), y además estos datos se encuentran en varios formatos diferentes.) ,t ales
como móviles (es una de las principales herramientas para capturar datos dentro de
proyectos de big data, en estos se envían fotos, mensajes de texto , se interactúa en
redes sociales etc), , sensores digitales,gPs , automóviles, medidores eléctricos ,etc ,
requiriéndose de las aplicaciones que analizan los datos una velocidad de respuesta
rápida.
Veracidad
Los datos pueden provenir de las transacciones (por ejemplo transacciones financieras.
registros médicos, impuestos, etc), las redes sociales, la ubicación geográfica mediante
1
GPS y todas las actividades realizadas con smartphones. También los generan la
comunicación M2M (maquina entre maquinas)
Big Data no solo produce un cambio radical en la gestión empresarial, pues además de
ofrecer un gran servicio informático a negocios de todo el mundo, ha conseguido
cambiar muchos aspectos de nuestra vida cotidiana.
La inversión en Big Data crece a un ritmo del 11,7% anual y es la tendencia tecnológica
más relevante de nuestros días , se aplica en diversas áreas , tales como la sanidad (ej
ibm watson), en el campo de prevención del terrorismo, política y sociedad (registrar
y anticipar grandes flujos de personas, anticipar situaciones de instabilidad política
,mediante análisis de redes sociales u google, evitar atentados terroristas, y las smarticites
(la ciudad puede ajustar los servicios públicos ,el tráfico o las actividades a las necesidades
de los ciudadanos en cualquier momento del día ) , empresa e industria., en la educación,
etc.
Nos referimos en las 3 V (tradicionales) del big data a un gran volumen de información,
sumado a una gran variedad de datos que pueden ser representados de diversas maneras
en todo el mundo, y la velocidad con la cual esos datos se generan son las principales
características del Big Data.
Los principales tipos de datos son ( entre los posibles tipos de datos a analizar):
2
Ventajas que ofrece a las empresas
Entre las ventajas competitivas que pueden brindarles el big data tenemos:
A las 3 V del Big data agregamos las nuevas 3 V, dado que el avance tecnológico, y los
nuevos usos que se da a la información, han obligado en un corto tiempo a considerar
nuevos factores a la hora de hablar de Big Data:
3
Aplicaciones principales del big data
Hay una serie de problemas principales que enfrentan las compañías a los que Big Data
puede aportar una solución. Dichas soluciones pueden agruparse así en 5 grupos
principales:
4
inteligencia y la eficiencia de las operaciones. Estos responsables de la toma de
decisiones pueden visualizar los datos a través de distintos sistemas para obtener
la visión más informada posible y poder reaccionar de forma rápida ante cualquier
imprevisto.
- Aumentar el almacén de datos o Data Warehouse: El aumento del Data
Warehouse nace de dos necesidades básicas: sacar provecho de diferentes tipos
de datos para ganar nuevas perspectivas de negocio en tiempo real, y para
optimizar la estructura de almacenamiento de datos facilitando la tarea y
ahorrando costes. Existen tres tipos de datawarehouse :
o Pre-Processing Hub (núcleo de pre-procesamiento): proporciona un área
de montaje o “zona de aterrizaje” de los datos antes de decidir cuáles se
incorporan al almacén de datos.
o Discovery/Analytics (descubrimiento-análisis): da la capacidad de realizar
análisis que deberían haberse hecho antes en el Data Warehouse, para así
optimizar el almacén de datos y posibilitar nuevos tipos de análisis.
o Query-able Data Store (almacén de datos de consulta): descarga datos que
se consultan con poca frecuencia o de una antigüedad considerable del
datawarehouse mediante software y herramientas de integración de
información, y los almacena en un espacio de almacenamiento de bajo
coste, pero manteniéndolos aún accesibles desde la solución.
Paper
El big data puede salvar vidas y suponer el final de la pobreza energética y el mal
gestionamiento del envejecimiento de la sociedad, también permite ayudar a
Ayuntamientos y a Servicios Sociales a predecir necesidades para hacer presupuestos para
el año siguiente.
La gobernanza de los datos será decisiva en los próximos años para hacer una gestión
eficiente del entorno en que vivimos, pero existen, aún,una larga lista de retos: el proceso
de captación, el transporte de los datos, el almacenaje y, más importante, si cabe, la
ciberseguridad de los mismos.
Las compañías buscan ahora a especialistas capaces de trabajar con los grandes
volúmenes de datos que se almacenan día a día. Esos datos, debidamente analizados y
procesados, son en realidad información muy útil para las empresas y representan nuevas
oportunidades de negocio, mejoras en la toma de decisiones, conocimiento más preciso
del público objetivo, pero hay escasez de personas capacitadas en el tema.
5
Hay 7 roles a incorporar en las empresas ( aunque puedan surgir más con el tiempo) son:
Con respecto al científico de datos se trata de una persona formada en las ciencias
matemáticas y las estadísticas que domina la programación y sus diferentes lenguajes,
ciencias de la computación y analítica y también debe tener la capacidad y los
conocimientos necesarios para comunicar sus hallazgos a medida que los tiene, no sólo al
área de tecnología sino además al sector de los negocios. Debe dominar la tecnología y las
6
bases de datos para modificar y mejorar la orientación de los negocios de la empresa para
la que trabaja, interpreta y comunica las nuevas tendencias en el área y las traduce a la
empresa para que ésta haga uso de ellas y adapte sus productos y servicios, y cree nuevas
oportunidades de negocio
El big data actualmente es una necesidad comercial para las empresas es fundamental
para las empresas conocer y explorar todos los datos que dispone. Hay una gran cantidad
de conocimiento en la información sin explotar, que puede proporcionar respuestas y
nuevas metodologías para incrementar la productividad y la eficacia, mientras se
disminuyen los gastos innecesarios.
Google Flu Trends: Utilizando los términos de búsqueda de los usuarios, Google
predice cómo se esparce el virus de la gripe por el mundo.
Planeamiento Urbano: El MIT (Instituto Tecnológico de Massachusetts) está
utilizando información obtenida a través de los teléfonos móviles y los patrones de
tráfico para mejorar el planeamiento urbano de la ciudad.
Seguros Santam: La mayor aseguradora de Sudáfrica, utiliza Big Data junto el
análisis predictivo para mejorar la detección de fraude y agilizar la gestión de
siniestros.
Policía de Los Angeles: El departamento de policía de Los Angeles junto a la
Universidad de California están usando Big Data para predecir actos delictivos
antes de que estos ocurran.
Bank of America: La segunda entidad bancaria más importante de los Estados
Unidos utilizó Big Data para entender porque muchos de sus clientes comerciales
se estaban yendo a bancos más pequeños.
UPS: La empresa internacional de logística y reparto ha estado utilizando Big
Data para recolectar y analizar información de más de 46.000 camiones de su flota
de transporte. Gracias al uso inteligente de los datos tomados, la compañía ha
reducido en 32 millones de litros el gasto en combustible y acortado en 137
millones de kilómetros sus rutas de reparto.
Es muy difícil ser competitivo en la actual economía de escala global, para ello es
indispensable que las empresas posean un gran entendimiento de los mercados, los
clientes, los productos, los competidores y todo lo que rodea al negocio. El uso de técnicas
7
de Big data, así como también la inteligencia de negocio, la inteligencia de la analítica y la
información, es clave para entender lo que sucede
El Big data es para todo tipo de empresas, cada empresa, sin importar su tamaño, puede
verse beneficiada en la utilización de nuevas herramientas de análisis que generen valor y
brinden acceso a mejores oportunidades para su negocio. Es fundamental tener claro el
objetivo de Big data que persigue la organización y así poder evaluar los proveedores de
estas soluciones. Una amplia variedad de empresas proporciona productos y servicios
acordes a sus necesidades que le permitirán desarrollar de forma eficiente la estrategia de
su empresa. Entender su información correctamente es la clave para el crecimiento y
evolución de su negocio.
Las empresas se sumergirán en el futuro en el universo del Big Data. El reto consiste en
capturar, almacenar, buscar, compartir y poner en valor «datos hasta fecha infrautilizados
o inaccesibles.
El crecimiento de los datos está siendo exponencial año a año, esto es derivado de la
digitalización de los negocios y de su gestión, así como de la explosión de dispositivos
móviles. Por otro lado, la proliferación de las redes sociales, del intercambio de
sentimientos, ideas y opiniones en la red, está generando más datos que nunca. La
volatilidad de los datos responde al hecho de no ser capaz de analizar y obtener un valor
de los datos que se está generando. Lo importante es que siempre se analice o aplicar
analítica para saber qué queremos responder, qué buscamos o, incluso, encontrar cosas
que no sabíamos. El 90 por ciento de los datos creados son sin estructurar (son acrónimos
o tienen ironía, es decir sentimientos), el verdadero reto no es tanto crear la arquitectura
que sea capaz de recoger y almacenar todo ese volumen ingente de datos sino en ser
capaz de separar lo relevante de lo que no lo es y de explotarlo con las técnicas analíticas
precisas en el menor tiempo posible de respuesta, pudiendo aprovechar todo su valor
para las organizaciones.
El marketing digital, es sin dudas unos de los sectores donde más se utiliza el Big Data
( para gestionar mejor la relación con el cliente), mejorando su satisfacción y fidelización,
y también se usa para detectar fraudes, evitar pérdidas económicas y predecir el
comportamiento de los consumidores para realizar acciones comerciales más efectivas)
Ventajas a la sociedad
8
Nos permite encontrar respuestas para la sociedad, por ejemplo con las ciudades
inteligentes, que empiezan a recoger mediante sensores cantidades ingentes de
información relativa al tráfico, suministros o estado de los servicios que ofrece a sus
ciudadanos, teniendo siempre como objetivo anticiparse y mejorar.
La clave del Big Data es contar con personas y socios que tengan talento analítico, así
como capacidad de reflexionar sobre dónde quiero ir y qué tipo de respuestas necesito
para mejorar mis decisiones hoy y, entonces, anticiparme
El análisis de datos masivos es el eje central del modelo de negocio de las grandes
compañías, permitiéndoles vender más publicidad dado que les otorga la capacidad de dar
un mensaje relevante a cada persona o a la audiencia en cada momento.
Es así como los motores de búsqueda suponen un gran volumen de ventas para las
compañías como Amazon.
El análisis de datos masivos es el eje central del modelo de negocio de las grandes
compañías. Analizarlos permite ofrecer a los clientes una oferta que, con un alto
porcentaje de probabilidad será de su interés, lo que provoca que se disparen las ventas.
La clave está en conectar puntos, patrones y hacerlo de modo que el cliente sienta que lo
que le ofreces solo está disponible en ese momento, en tiempo real, y para él.
Paper
Modulo 2
9
datos, estadísticas, inteligencia artificial, adquisición de conocimientos para sistemas
expertos y visualización de datos.
a. el dominio de la aplicación;
b. el conocimiento previo pertinente;
c. los objetivos del usuario final.
10
6) Elegir el/los algoritmo/s de minería de datos.
7) Extracción de datos.
11
Las grandes empresas son aún ignorantes en lo que se refiere a cómo adaptar la minería
de datos a la publicidad en las redes sociales. La publicidad personalizada actual se basa
en unos pocos rasgos demográficos, como el sexo, la edad, el empleo o el lugar de
residencia. La propuesta de Google añade nuevos parámetros, como aficiones, webs que
visitamos; grupos a los que pertenecemos; personas con quienes hablamos, compartimos
intereses o que leen nuestros blogs, e incluso el análisis semántico de lo que decimos.
Es un repositorio para todos los datos que recogen los diversos sistemas empresariales
(datos operativos, de almacén, de proveedores, datos de los clientes, datos externos,
datos de minería de datos) de una empresa. El repositorio puede ser físico o lógico. Un
almacenamiento de datos es una tecnología que agrega datos estructurados de una o
más fuentes para que puedan ser comparados y analizados para una mayor inteligencia de
negocios. Este almacenamiento hace hincapié en la captura de datos de diversas fuentes
para el análisis y acceso útiles, pero, generalmente, no empieza desde el punto de vista
del usuario final, que puede necesitar acceso a bases de datos especializadas, a veces
locales.(datamart).
Hay dos enfoques para el almacenamiento de datos: de arriba hacia abajo (crea los data
marts para grupos específicos de usuarios después de que se haya creado el almacén de
datos completo) y de abajo hacia arriba (construye primero los data marts y luego los
combina en un solo y completo almacén de datos.)
Los almacenes de datos se usan típicamente para correlacionar los datos comerciales
generales para proporcionar una mayor visión ejecutiva del desempeño corporativo.
Los almacenes de datos utilizan un diseño diferente de las bases de datos operativas
estándar. Estos últimos se optimizan para mantener una exactitud estricta de los datos en
el momento, actualizando rápidamente los datos en tiempo real, en cambio los almacenes
de datos están diseñados para proporcionar una visión de largo alcance de los datos en el
tiempo. Cambian el volumen de transacciones y se especializan en la agregación de datos.
La utilidad de los almacenes de datos es tal que muchos tipos de datos empresariales se
analizan a través de almacenes de datos. La necesidad de un almacén de datos a menudo
se hace evidente cuando los requisitos analíticos están en contradicción con el
12
funcionamiento continuo de las bases de datos operacionales, ejecutar una consulta
compleja en una base de datos requiere que la base de datos ingrese a un estado fijo
temporal. Esto es, a veces, insostenible para las bases de datos transaccionales. Un
almacén de datos se emplea para hacer el trabajo analítico, dejando la base de datos
transaccional libre para centrarse en las transacciones.
Entre las desventajas que presentan los almacenes de datos podemos mencionar que son
caros a escala y no sobresalen en el manejo de datos crudos, no estructurados o
complejos.
Paper
Existen varias líneas de investigación para mejorar la fiabilidad a largo plazo de los
soportes de almacenamiento digital. Investigadores de la Universidad de Southampton
han logrado recientemente almacenar información en cristales de cuarzo con un proceso
de grabación y lectura denominado 5D. Estos discos transparentes podrían almacenar
hasta 360 teras de información y tener una vida útil a temperatura ambiente de más de 13
millones de años. Además, aguantarían temperaturas de hasta 1.000 grados.
13
1) Capacidades analíticas avanzadas, como análisis estadísticos y predictivos, análisis en
tiempo real de datos en tiempo real y visualización sofisticada de datos.
14
añade nuevas capas para la administración de big data, análisis exploratorios y análisis de
datos en tiempo real , pero no hay un solo camino por seguir para todas las
organizaciones. Lo importante sigue siendo cuál es el problema de negocio que está
tratando de resolver y luego pensar en una arquitectura que coincida con la tecnología
con ese problema de negocio.
Paper
El big data es solo a una herramienta informática, extremadamente potente, que compila
enormes cantidades de datos, imposibles de escrutar por la mente de un ser humano, y,
con suerte, permite sacar alguna conclusión de la comparación de datos. Como el mundo
no para de crear bytes en volúmenes cada vez mayores, toda esa información podría ser
un tesoro estadístico para estudiar desde hábitos de compra hasta tendencias médicas
como previsión temprana de suicidios. Big data es, es pues “una tendencia tecnológica
para entender y tomar decisiones aplicable a toda aquella información improcesable por
procesos o herramientas tradicionales. Pero la cruda realidad es que esos bytes contienen
información cada vez más y más íntima y al estudiarla con cerebros tan potentes como los
artificiales, se puede aprender quizá demasiado sobre una sola persona y la posible
invasión de intimidad, a través de los resultados de esta compilación de datos, preocupa a
bastante gente, ya que las bases de datos comerciales contienen registros detallados de
historiales médicos, transacciones económicas o del uso de los teléfonos. Si bien
cualquier herramienta tecnológica, no es ni buena ni mala, sino que su valor consiste en
hacer predicciones estadísticas que permiten tomar mejores decisiones. Pero hay veces
que esta técnica se pasa de la raya.
Minería de Datos
El término minería de datos no se acuñó hasta los años noventa. Pero su fundación se
compone de tres disciplinas científicas entrelazadas: la estadística (el estudio numérico de
las relaciones de datos), la inteligencia artificial (inteligencia similar a la humana mostrada
por software y máquinas) y el aprendizaje automático (algoritmos que pueden aprender
de los datos para hacer predicciones) , y sigue evolucionando constantemente, los
avances en la potencia de procesamiento y la velocidad nos han permitido pasar de las
prácticas manuales, tediosas y que consumen mucho tiempo, a un análisis de datos
rápido, fácil y automatizado. Cuantos más complejos sean los conjuntos de datos
15
recopilados, más potencial habrá para descubrir ideas relevantes. Se está utilizando la
minería de datos para descubrir relaciones entre todo, desde precios, promociones y
demografía hasta cómo la economía, el riesgo, la competencia y las redes sociales están
afectando sus modelos de negocio, ingresos, operaciones y relaciones del cliente.
Dentro de la minería de datos podemos usar distintas metodologías que comparten una
misma técnica , donde primero se analiza el negocio, el contexto y el vocabulario, luego
empezamos a comprender cuál es el objetivo (el requerimiento, que comportamiento
queremos analizar) , seleccionamos un algoritmo, detectamos anomalías , limpiamos los
datos y creamos un modelo matemático, el cual es entrenado, probado y ajustamos
hasta que logramos predecir el comportamiento ,representar el comportamiento
analizado , y por último se produce una retroalimentación (vemos cómo funciona el
modelo a lo largo del tiempo ,y si es necesario ajustarlo para que siga haciendo su
predicción correcta).
El volumen de datos aumenta dia a dia, y de estos el 90 por ciento son datos no
estructurado, pero más información no significa necesariamente más conocimiento. La
minería de datos permite:
entender lo que es relevante y luego hacer buen uso de esa información para
evaluar los resultados probables;
acelerar el ritmo de toma de decisiones informadas.
Fuentes de datos : aquí tratamos con los datos crudos que provienen de las
distintas fuentes de datos como ser almacenes de datos de la empresa, sistemas
de base de datos, textoy se realiza un muestreo y selección.
Preproceamiento: en esta fase se produce una limpieza de los datos de datos
objetivos (datos que no existen, datos no clasificados, identificación de extremos, y
eliminación de ruido), para llegar a datos preprocesados.
Exploracion y transformacion : a partir de los datos preprocesados aplicamos una
serie de transformaciones (reducción de dimensionalidad, creación de
características, normalización de datos , variables correlacionadas, discretizacion)
para arribar a datos transformados.
Reconocimiento de patrón: se hace un modelado que consiste en (clasificación (P),
regresión (P), agrupamiento(D), asociación (D) , secuenciación (D) ) pueden ser
modelos predictivos o descriptivos.
16
Evaluación e interpretación: en esta fase una vez reconocidos los patrones se
realizan los reportes y visualización que puede ser simples o complejos.
Módulo 3
Customer analitycs
Origen
Los primeros intentos por comprender a los clientes y mejorar las ventas se dan cuando
en los noventa aparecieron sistemas de información independientes para el call center, la
atención a clientes, el help desk y el soporte de servicios y productos. Cada una de estas
aplicaciones estaba soportada por una base de datos diferente que guardaba una parte
específica del historial del cliente, impidiendo el desarrollo de una estrategia única de
clientes , dado que diferentes áreas de la compañía tenían una visión propia e incompleta
del cliente. Surgen entonces los sistemas integrales de gestión al cliente (CRM) . Las
estrategias y los sistemas CRM pueden considerarse como los precursores de Customer
Analytics. En esta época también podemos encontrar las primeras iniciativas del dato del
cliente como activo de valor.
17
El objetivo no ha sido el análisis de los datos del cliente sino la creación de experiencias
que atraen, convierten y retienen clientes y hacerlo de una forma colaborativa y
multicanal.
- El CRM operacional: incluye todas las áreas de contacto directo con el cliente:
desde la fuerza de ventas hasta el soporte.
18
- El CRM analítico: busca comprender el comportamiento del cliente mostrado en
las interacciones en el CRM operacional. Apoyado tradicionalmente en las
tecnologías de la inteligencia de negocio y la analítica del negocio para desarrollar
el conocimiento del cliente. Es impulsado por el departamento de marketing
(aunque hoy en día es conveniente extender la analítica del cliente a las demás
áreas de la empresa , dado los datos de cliente son uno de los activos cruciales
para el desarrollo de productos, servicios y otras funcionalidades dentro de una
organización dado que esta precisa desarrollar un sólido conocimiento del cliente
para ser capaces de identificar o modificar los patrones de compra de un cliente o
incluso sus hábitos de uso de un servicio, para rentabilizar mejor tanto las
acciones de marketing como la comunicación multicanal.
Entre los beneficios del customer analytics tenemos: aumentar la lealtad de los clientes,
reducir costos de campañas al dirigirse a los clientes adecuados, disminuir la tasa de
desgaste (churn ) del cliente al poder predecir sus expectativas y entregarles el producto
justo y por ultimo segmentar al cliente de manera más efectiva y ayuda a entenderlo
mejor.
- Comprender como se usan los datos para averiguar el comportamiento del cliente.
- Descubrir las mejores prácticas para usar los datos para crear estrategias
comerciales más efectivas.
- Descubrir la tasa de éxito de las estrategias comerciales usando los datos actuales.
- Seguimiento de las necesidades del cliente y entrega de lo que espera en el
momento adecuado.
- Tomar mejores decisiones comerciales sobre los datos relacionados con los
clientes del negocio.
19
- Foco en la predicción (se orienta más a esta que a la descripción , pudiendo
anticipar el comportamiento del cliente).
- Mulitiplataforma (se combinan los diferentes comportamientos del cliente
,tomado a nivel individual, en diferentes sistemas que recogen sus interacciones )
- Multisector/multiaplicación: (no solo se puede aplicar a los consumidores, sino
que también a empleados, pacientes, etc., es decir considera tanto al cliente
interno como externo).
- Multidisciplinar: es aplicable a múltiples departamentos o áreas en una
organización como marketing, innovación, tecnología, operaciones.
- Estudio del comportamiento: aunque incluya variables descriptivas como la
demografía, el foco principal es la comprensión y la identificación de patrones de
comportamiento.
- Longitudinal: estudia como los patrones de comportamiento evolucionan a lo
largo del tiempo.
- La analítica de cliente se beneficia de aquellas disciplinas que estudian cómo se
comportan las personas., tales como la economía del comportamiento o
behavioral economics.
Evolución
Las organizaciones interesadas en generar valor a partir de los datos de cliente pasan por
diferentes fases que van incrementando el valor que se genera a partir de dichos datos:
20
Metodologías
CRISP-DM
Presenta seis fases que pueden repetirse bidireccionalmente hasta que el modelo de
análisis creado se considera que ha alcanzado los resultados esperados:
21
d. Generación del plan del proyecto: plan, herramientas, equipo y técnicas.
2- Comprensión de los datos : consiste en familiarizarse con ellos teniendo presente
los objetivos del negocio:
a. Recopilación inicial de datos.
b. Descripción de los datos.
c. Exploración de los datos.
d. Verificación de calidad de datos.
3- Preparación de los datos: consiste en preparar el conjunto de datos adecuado:
a. Selección de los datos.
b. Limpieza de datos.
c. Construcción de datos.
d. Integración de datos.
e. Formateo de datos.
4- Modelado, consiste en aplicar las técnicas de minería de datos a los conjuntos de
datos:
a. Selección de la técnica de modelado.
b. Diseño de la evaluación.
c. Construcción del modelo.
d. Evaluación del modelo.
5- Evaluación, consiste en evaluar los modelos de las fases anteriores para
determinar si son útiles a las necesidades del negocio:
a. Evaluación de resultados.
b. Revisar el proceso.
c. Establecimiento de los siguientes pasos o acciones.
6- Despliegue, consiste en explotar la utilidad de los modelos, integrándolos en las
tareas de toma de decisiones de la organización:
a. Planificación de despliegue.
b. Planificación de la monitorización y del mantenimiento.
c. Generación de informe final.
d. Revisión del proyecto.
22
SEMMA
Esta metodología fue creada por SAS y es anterior a CRISP-DM y está focalizada en las
tareas de modelización. Consiste en cinco fases:
23
KDD
1- Pre-KDD:
a. Desarrollo de comprensión del dominio de negocio.
b. Identificación de las necesidades del cliente.
c. Adquisición de competencias necesarias.
2- Selección:
a. Identificar el conjunto de datos a analizar.
24
b. Selección de muestra y variables para el proceso de exploración y
descubrimiento.
3- Preprocesamiento y limpieza de datos:
a. Eliminación de ruido o valores atípicos.
b. Recogida de información para el modelo o para representar el ruido.
c. Estrategias para gestionar los datos que faltan.
d. Contabilizar secuencias temporales.
4- Transformación:
a. Reducción y proyección de datos, que consiste en:
i. encontrar características útiles para representar los datos en
función del objetivo de la tarea.
ii. Usar métodos de reducción o transformación de dimensiones para
reducir el número de variables efectivas.
5- Minería de datos:
a. Elección de la tarea de minería de datos: decidir si el objetivo del proceso
de KDD es clasificación, regresión, clustering, etc.
b. Elección del algoritmo de minería de datos, que incluye la selección del
método que se usará para la búsqueda de patrones en los datos, decidir
qué modelos y parámetros pueden ser apropiados.
c. Ajuste del modelo al proceso de KDD.
d. Búsqueda de patrones.
6- Interpretación y evaluación:
a. Interpretar y evaluar resultados.
7- Pos-KDD:
a. Consolidar el conocimiento adquirido.
En el siguiente gráfico podemos ver las fases de la metodología KDD y en líneas de puntos
cuales de estas fases abarcan las pasos de la metodología SEMMA.
25
Comparativa de las metodologías:
Tecnologías
Las tecnologías de Customer Analytics son aquellas que forman parte de la inteligencia de
negocio, la analítica de negocio, Big Data y la gestión de datos.
26
Podemos encontrar dos tipos de plataformas: genéricas y especializadas. Las
plataformas genéricas permiten analizar cualquier tipo de dato corporativo. Las
plataformas especializadas están solo orientadas a los datos de clientes.
En ambos tipos de plataformas, las herramientas y técnicas con las que las organizaciones
capturan, procesan y analizan sus datos son:
1- Business Intelligence:
a. Herramientas de informes.
b. OLAP.
c. Cuadros de mando.
d. Herramientas de ETL y ELT.
e. Data Warehouse / Data Mart.
f. Análisis de la geolocalización de clientes (SIG BI).
g. Data Discovery.
2- Business Analytics:
a. Data mining (considerando regresión, segmentación, scoring y otros
modelos predictivos).
b. Text mining (que incluye, por ejemplo, análisis de sentimiento).
c. Content Analytics.
d. Técnicas y herramientas de visualización.
e. Análisis de caminos críticos y sendas de compras.
3- Big Data:
a. Tecnologías para el procesamiento de datos en formato batch.
b. Tecnologías para el procesamiento de datos en modalidad de streaming.
c. Tecnologías NoSQL.
4- Gestión de datos:
a. Gobernanza de datos.
b. Calidad de datos.
c. Orquestación de datos (data hub).
d. Federación de datos.
27
Las organizaciones siguen diferentes caminos para desarrollar su estrategia de Customer
analytics , y las plataformas actuales combinan varias de estas tecnologías.
Business Analytics
Los aspectos más avanzados de analítica de clientes son los métodos y herramientas de
data mining. Permiten que las organizaciones gestionen con rapidez grandes volúmenes
de datos, testar hipótesis, predecir propensiones de compra, estimar tasas de rotación
de clientes en distintos segmentos, determinar el valor del cliente y segmentarlo por
hogar e ingresos. Al utilizar métodos predictivos, el objetivo es anticipar el
comportamiento del cliente y detectar indicios de desvinculación o de impago de
servicios y productos, más que actuar de forma reactiva (forma en que suele obligar a
actuar a las organizaciones la realidad actual). Es decir, llegar a ser proactivos y controlar
factores de riesgo que afectan a las tasas de rotación de clientes. Las organizaciones
implementan análisis predictivos y técnicas de data mining para alcanzar diversos
28
objetivos, entre ellos descubrir qué variables (de los cientos o miles de ellas que manejan)
son discriminantes o más significativas para determinar la fidelidad de los clientes en
muchos segmentos, o en aquellos más rentables. Se construyen modelos estadísticos para
aflorar patrones de comportamiento, propensión de compra, sendas de desvinculación,
así como determinar momentos propensos para las acciones comerciales que garanticen
una mayor efectividad en la venta cruzada de productos y servicios.
Big Data
Tipo de análisis
29
(esto es comprender realmente las necesidades del cliente y atenderlo con la mayor
relevancia y la menor latencia posible. Se usan modelos de propensión y de elevación, se
calcula la rotación, etc), gestión de inventario inteligente (la vinculación de los datos
generados a través de las interacciones cliente producto (pedidos, revisiones, clics a
páginas, etcétera) y las transacciones generadas por proveedores pueden ser utilizadas
por los sistemas de gestión para controlar el pedido y la distribución de productos a lo
largo de la cadena de suministro extendida de una compañía.)
30
Pero también el tipo de análisis dentro de la analítica del cliente se puede vincular al
conocimiento de cliente que se busca generar. Existen diferentes categorías de
conocimiento: comportamiento, rentabilidad, ciclo de vida, fidelización, interés y
campañas.
Comportamiento
31
- Puntualidad
- Índice de riesgo
- Patrones de compra
- Análisis de afinidad (por ejemplo objetos que tienden a comprarse juntos).
- Análisis de propensión (por ejemplo quien tiende a comprar que cosas)
- Cuál es el perfil de los clientes que compran por un canal determinado:
o Perfiles por puntualidad
o Perfiles por riesgo
o Patrones de eventos (comportamiento de compra durante eventos)
Rentabilidad
- Rentabilidad actual
- Rentabilidad potencial.
- Rentabilidad futura.
- Perfiles de rentabilidad
- Conversión de rentabilidad
- Cuota de cartera o wallet share (por ejemplo que porcentaje del presupuesto gasta
el cliente en nuestros servicios y productos)
Ciclo de vida
- Valor a lo largo del ciclo de vida (LTV o life time value) a partir de la rentabilidad
presente, potencial y futura se determina el valor neto total estimado del cliente.
- Valor potencial a lo largo del ciclo de vida (LTV potencial )
- Perfiles por valor del ciclo de vida.
Fidelización
32
- Adquisición (por ejemplo cuales son los posibles clientes de la empresa)
- Retención (que clientes son propensos a desertar y si vale la pena conservarlos)
- Crecimiento (por ejemplo convertir un cliente en leal)
- Perfiles RFM
- Perfiles de retención (que perfiles tiene el cliente proclive a abandonarnos)
- Perfiles de crecimiento
Interés
Campañas
- Índice de respuesta
- ROI (es el retorno de la inversión)
- Valor añadido estimado (valor que añadió la campaña en comparación a no hacer
nada)
- Levantamiento (que parte de la actividad de compra se puede atribuir a esta
campaña)
- Efectividad de eventos
- Carnibalización de la rentabilidad (como ha afectado el evento a la rentabilidad )
- Carnibalización de eventos (si el evento ha producido una reducción de las ventas
en otro canal o región).
- Rentabilidad del evento (cuál fue el crecimiento de ventas atribuible al evento)
- Eficacia cross-canal el (efecto en el impacto de compra en cada canal)
- Efectividad del medio (que medio es más eficaz y cual es menos eficaz)
La siguiente tabla presenta algunos tipos de análisis de datos de cliente basados en las
categorías de conocimiento y los vincula con algunas de las tecnologías, métodos usados y
capacidades necesarias.
33
34
35
Ejemplos del customer analytics
Calcular el CLV (sirve para identificar el valor que tiene el cliente para la
organización).Para esto se usa la fórmula:
Dónde:
Supongamos que tenemos 10 clientes y para cada cliente tenemos su CLV durante el
periodo anterior, el área, el sexo y la antigüedad.
Podremos segmentar por área, por sexo, por antigüedad, por CLV (si están por encima o
por debajo del CLV promedio), así se dispondrá de varias opciones para la realización de
acciones de marketing que apoyen la estrategia de una compañía.
Uno de los análisis más usados en todos aquellos sectores que tienen una componente de
retail: el análisis de afinidad (es un análisis de datos y una técnica de minería de datos que
busca relaciones entre actividades realizadas (o registradas) de individuos, grupos u
objetos.), y busca comprender las asociaciones entre productos comprados. Este análisis
de puede usar para:
36
- Pack de productos. Aquellos productos que se compran conjuntamente pueden
agruparse en packs/ofertas para potenciar su compra.
- Retención de clientes. En el momento en que un cliente quiere cortar la relación
con la compañía, los resultados del análisis de compra se pueden usar para crear
argumentos con productos interesantes para evitar la fuga del cliente.
Muchas empresas usan Customer Analytics para generar valor tanto para la empresa
como para el cliente, y han sido capaces de crear de forma efectiva ventajas
competitivas respecto a sus competidores. Tienen además diversas estrategias en
paralelo para mejorar la experiencia del cliente.
IBERIA (usa un programa de fidelización de clientes, le permite poder conocer el valor del
cliente en una segmentación multidimensional y reconocer patrones de comportamiento
y consumo de clientes) y el beneficio para el cliente es que le ofrece campañas
personalizadas, eventos de gamificación, programa de puntos intercambiables por vuelos,
compromiso de calidad, mejorando su satisfacción.
CaixaBank (entre sus iniciativas esta un programa de fidelización por puntos, que le
aporta como valor un conocimiento superior del cliente, aumentando el valor por
transacción y fomentando las venta cruzadas).El cliente recibe ofertas personalizadas,
pudiendo cambiar los puntos por regalos y viajes o donarlos a programas de solidaridad.
Amazon (la compañía captura las preferencias en tiempo real de sus clientes y las
combina con el histórico de ventas para recomendar productos. Aumenta el CLV por
cliente, el valor por transacción y posibilita la venta cruzada y complementaria).Se le
ofrece al cliente productos basados en sus preferencias y ofertas en tiempo real,
incrementando su satisfacción y curiosidad por consumir nuevos productos.
Nespresso, MetLife, Netflix ,etc son otras empresas que implementan customer analitics.
37
Visualización de la información del cliente
Con Internet, se pueden aislar variables con alto nivel de precisión dado que permite
recopilar una cantidad masiva de datos analíticos del cliente que pueden desglosarse,
segmentarse y aislarse de acuerdo con cualquier variable que se pueda desear. Utilizando
datos de análisis de clientes en línea ampliamente disponibles y de bajo costo
adquiridos, se podrá: comparar rápidamente datos acumulados con históricos,
determinar de dónde provienen los datos, saber si una campaña de marketing particular
produjo una tasa de conversión más grande o pequeña que otras, saber dónde se
pierden clientes durante el embudo de ventas, conocer si ciertas campañas de mercadeo
resultan en mayores ventas de un producto sobre otro, etc.
Ahora todos los usuarios en la empresa, no solamente los analistas de datos pueden usar
sus propios dispositivos móviles para explorar fácilmente los datos, descubrir tendencias y
patrones y comunicar sus hallazgos a otros miembros del equipo y otras audiencias. Es un
autoservicio de bussiness intelligence.
38
- optimización de soluciones para usar con dispositivos móviles con capacidad
táctil.
Módulo 4
Visualización de datos
- Entender los datos (hacen entendible desde un punto de vista empresarial los
datos).
- Variedad de gráficos (los gráficos generados pueden ser de muchos tipos,
diseñados prácticamente a demanda del negocio).
- Definición de gráficos (el cliente define claras y sencillas interpretaciones de los de
los datos a partir de métricas personalizadas y definidas por ellos mismos).
- Comprender los datos (su objetivo es comprender más fácilmente los datos
masivos que disponemos para poder tomar las mejores decisiones estratégicas)
Según todo lo que vimos anteriormente a lo largo de los módulos de la materia, podemos
entender que las decisiones que motivan a las empresas a trabajar con big data y aplicar
posteriormente análisis y business intelligence son decisiones estratégicas realizadas por
perfiles directivos que no necesariamente tienen que tener formación técnica. Es
entonces que se debe contemplar la generación de gráficos como una manera
entendible de dar datos y ofrecer conclusiones. Ya no se utilizan más densos reportes e
informes, dado que estos no eran útiles y la información era estática, era una radiografía
concreta de un momento exacto.
39
La visualización de los datos es la última etapa del proceso de gestión de big data en la
empresa y va a permitir hacer entendible desde un punto de vista empresarial datos que
fueron previamente trabajados en entornos de matemática y estadística. Hace
referencia a aquellas posibilidades gráficas de mostrar información y cruces de datos de
una manera fácil. Los gráficos generados pueden ser de muchos tipos, diseñados
prácticamente a demanda del negocio (pueden usarse herramientas personalizadas de
visualización de datos). También pueden estar incluidos en los cuadros de mando,
también llamados scorecard que son modelos comprensibles que muestran en tiempo
real datos masivos y análisis y también, pueden incluir mapas de calor, diagramas de
dispersión o incluso nubes de palabras que permitan la interación con el usuario.
En general, estas plataformas aplican una capa de inteligencia de negocio para lograr
ofrecer claras y sencillas interpretaciones de los datos a partir de unas métricas
personalizadas y definidas por el cliente, permitiéndole interactuar en tiempo real con los
datos disponibles y ser accesibles tanto para cualquier usuario interno de la empresa
como para un usuario en internet, dependiendo de la estrategia de negocio.
40
- Existen otras herramientas más centradas en la visualización que en BI ,por
ejemplo CartoDB un servicio en la nube de visualización de datos en mapas con
tecnología open source, SaaS (software asa service).
Las empresas la utilizan cada vez más dado que le ayuda a dar sentido a sus datos y
permite además: comprender información rápidamente (es más fácil y rápido analizar
información presentada en formato gráfico y así pueden ver grandes cantidades de datos
de forma clara y cohesiva y sacar conclusiones de esa información) , identificar tendencias
emergentes (esto es le brinda ventajas competitivas y poder detectar valores atípicos que
afectan la calidad del producto o la rotación de clientes y abordar problemas simples
antes que sean mayores.), identificar relaciones y patrones (permite reconocer
parámetros altamente correlacionados en medio de grandes cantidades de datos, esto
ayuda a las organizaciones a enfocarse en las áreas con más probabilidades de influir en
sus objetivos más importantes), comunicar la historia a otros (es posible comunicar las
ideas a los demás de forma más rápida y atractiva mediante diagramas, gráficos u otras
representaciones de datos visuales).
41
Visualización de la información
El uso más común hoy en día de estas herramientas es como una herramienta de
informes de BI. Los usuarios pueden configurarlas para generar cuadros de mando
automáticos que realicen un seguimiento del rendimiento de la empresa a través de
indicadores clave de rendimiento e interpretar visualmente los resultados siendo
implementadas en muchos de los departamentos de la empresa.
En la actualidad estas herramientas se van utilizando cada vez más como interfaces
para entornos de datos más sofisticados, y ayuda a los ingenieros de datos y científicos
a realizar un seguimiento de las fuentes de datos y hacer un análisis exploratorio básico de
los conjuntos de datos antes o después de análisis avanzados más detallados.
Los cuadros de mando son una herramienta de visualización de datos que muestra el
estado actual de las métricas y los indicadores claves de rendimiento (KPI) para una
empresa. Los paneles consolidan y organizan números, métricas y, en ocasiones, tablas de
puntuación de rendimiento en una sola pantalla, pudiendo programarse para ser más
específicos y solo mostrar métricas dirigidas a un único punto de vista o departamento.
42
Las características esenciales de un producto de tablero de BI incluyen: una interfaz
personalizable y la capacidad de extraer datos en tiempo real de múltiples fuentes.
Algunas empresas proveedoras de este tipo de aplicaciones son SAP, Oracle y Microsoft,
aunque también pueden implementarse los cuadros de mando con Excel.
Data discovery
43
conocimiento y patrones a partir de estos, basándose las decisiones operativas en datos
y perspectivas .Para esto último se necesita proporcionar información relevante y
confiable de manera oportuna a los empleados y para eso se precisa la democratización
del uso de datos para permitir que tantos empleados como sea posible revelen
información sobre datos corporativos o externos. Conceptos tales como la gobernanza
son importantes para garantizar la reutilización de los conocimientos adquiridos a partir
del proceso de descubrimiento de dato.
Vemos que el Big data, con sus vastos volúmenes de datos, es en gran medida inútil sin la
funcionalidad de análisis y presentación de datos que se encuentra en las herramientas de
análisis visual, permitiendo detectar con mayor facilidad anomalías y tendencias en los
datos. Debido a su gran volumen, big data es difícil de analizar de manera significativa para el
valor comercial.
44
El software de inteligencia empresarial es un conjunto de herramientas para la adquisición y
transformación de datos brutos en información significativa y útil para fines de análisis y
mejora del negocio.
Los informes clásicos son demasiado pesados para el big data, así algunas organizaciones han
creado una importante herramienta de software y realizado inversiones de desarrollo para
tener una biblioteca de informes de análisis de datos reutilizables (el usuario final puede
variar dinámicamente los criterios de selección de datos.).
- No son de autoservicio.
- Requieren mejorar las habilidades de desarrollo de software . Por lo tanto, su éxito
depende completamente de la capacidad de respuesta del departamento de TI.
- Requieren mantenimiento de software cuando se actualicen las versiones de las
aplicaciones subyacentes.
- No son compatibles con la exploración de los datos.
- Pueden o no proporcionar funcionalidad básica de gráficos.
- Se ahogarán cuando haya grandes volúmenes de datos o crezca la cantidad de
fuentes de datos.
- Tienden a proliferar con el tiempo, ya que se crean muchas versiones con pequeñas
diferencias.
En contrapartida al uso de los informes reutilizables sabemos que Excel es la herramienta más
usada para el análisis de datos, incluso por sobre las plataformas genéricas de inteligencia
de negocio. Se usa ampliamente y con éxito en organizaciones pequeñas con aplicaciones
generalmente primitivas, herramientas simples y volúmenes de datos modestos. También se
usa ampliamente como una poderosa herramienta de productividad personal dentro de
muchas organizaciones más grandes donde la capacidad de respuesta del departamento de TI
es un problema. Pero presenta una serie de desventajas:
45
- limita severamente el volumen de datos que se puede consultar con éxito;
- restringe la cantidad de fuentes de datos a las que se puede acceder;
- utiliza una sintaxis que dificulta la programación y la depuración;
- produce salida primitiva;
- no es escalable para múltiples usuarios finales;
- está desprovisto de características de gestión de nivel empresarial.
46