Resumen Big Data

Módulo 1
Big data término empleado para referirse a toda aquella cantidad ingente de datos que,
debido a sus características, no pueden ser siempre procesados por los sistemas
informáticos actuales
Hablamos de big data cuando tenemos gran volumen, alta velocidad y gran variedad de
información que demanda nuevas formas de procesamiento para una mejor comprensión
y toma de decisiones.
Las empresas comienzan a comprender y explorar cómo procesar y analizar de nuevas

formas una amplia variedad de datos.
El concepto de Big Data aplica para toda aquella información que no puede ser procesada
o analizada utilizando procesos o herramientas tradicionales y no se refiere a alguna
cantidad en específico de datos, es usualmente utilizado cuando se habla en términos de
petabytes y exabytes de datos, pero también puede ser cuando la cantidad de
información no es grande pero está entrando a una velocidad muy alta.
Se generan cada vez mayor cantidad de datos a capturar para un proyecto de big data y
hay una gran cantidad de datos que provienen de diversos dispositivos (diversas fuentes
de datos), y además estos datos se encuentran en varios formatos diferentes.) ,t ales
como móviles (es una de las principales herramientas para capturar datos dentro de
proyectos de big data, en estos se envían fotos, mensajes de texto , se interactúa en
redes sociales etc), , sensores digitales,gPs , automóviles, medidores eléctricos ,etc ,
requiriéndose de las aplicaciones que analizan los datos una velocidad de respuesta
rápida.
Las v del big data:
Volumen (referencia al tamaño de los datos)
Velocidad (rapidez de cambio)
Variedad (diferentes fuentes de datos)
Veracidad
Valor (valor para el negocio)
Los datos pueden provenir de las transacciones (por ejemplo transacciones financieras.
registros médicos, impuestos, etc), las redes sociales, la ubicación geográfica mediante
1
GPS y todas las actividades realizadas con smartphones. También los generan la
comunicación M2M (maquina entre maquinas)
Big Data no solo produce un cambio radical en la gestión empresarial, pues además de
ofrecer un gran servicio informático a negocios de todo el mundo, ha conseguido
cambiar muchos aspectos de nuestra vida cotidiana.
La inversión en Big Data crece a un ritmo del 11,7% anual y es la tendencia tecnológica
más relevante de nuestros días , se aplica en diversas áreas , tales como la sanidad (ej
ibm watson), en el campo de prevención del terrorismo, política y sociedad (registrar
y anticipar grandes flujos de personas, anticipar situaciones de instabilidad política
,mediante análisis de redes sociales u google, evitar atentados terroristas, y las smarticites
(la ciudad puede ajustar los servicios públicos ,el tráfico o las actividades a las necesidades
de los ciudadanos en cualquier momento del día ) , empresa e industria., en la educación,
etc.
Se ha logado almacenar y gestionar de forma eficiente todo este volumen de información,

pero no podemos decir lo mismo a la hora de obtener valor añadido a partir de esos
mismos datos. Hadoop es la principal solución adoptada.
Características y conceptos del big data:
Nos referimos en las 3 V (tradicionales) del big data a un gran volumen de información,
sumado a una gran variedad de datos que pueden ser representados de diversas maneras
en todo el mundo, y la velocidad con la cual esos datos se generan son las principales
características del Big Data.
Los principales tipos de datos son ( entre los posibles tipos de datos a analizar):
- Contenido en Web y medios o redes sociales

- Maquina a máquina (M2M) = son tecnologías que permiten conectarse a otro
dispositivos , utilizan sensores o medidores que capturan algún evento por
ejemplo temperatura velocidad , etc y se trasmiten vía alámbrica o inalámbrica a
otras aplicaciones que los traducen en información significativa.
- Grandes datos transaccionales (registros de facturación, etc que están disponibles
tanto en formatos semiestructurados como estructurados)
- Datos biométricos (por ejemplo huellas digitales, escaneo de retina,
reconocimiento facial, genética etc) que por ejemplo son usados en seguridad e
inteligencia por las agencias de investigación.
- Datos generados por humanos (por ejemplo estudios médicos, correos
electrónicos, notas de voz , documentos electrónicos, etc)
2
Ventajas que ofrece a las empresas
Puede beneficiarlas en áreas como el conocimiento del cliente , marketing , operaciones, y

gestión del riesgo
Entre las ventajas competitivas que pueden brindarles el big data tenemos:
- Implementación de mejoras tecnológicas que posibilitan la adquisición de datos y

permiten descubrir las necesidades y puntos de mejora en la compañía.
- Inmersión de nuevas variables en la toma de decisiones a través de algoritmos
automatizados. Los análisis de los datos pueden mejorar sustancialmente la toma
de decisiones dentro de una compañía reduciendo al mínimo los riegos. La toma
de decisiones no es igual en todas las organizaciones, hay algunas que optimizan
sus decisiones mediante el análisis de datos de clientes, empleados, o incluso
sensores incorporados en los productos.
- Innovación en la creación de productos y servicios., permitiéndoles evaluar sus
productos. Mediante el análisis de datos, las empresas obtienen información muy
valiosa que les permite crear nuevos productos o rediseñar los ya existentes
- Segmentación de los clientes para personalizar acciones (las empresas pueden
orientar sus servicios y satisfacer las necesidades de sus consumidores de forma
específica. La personalización de productos y servicios es una de las tendencias que
pisa más fuerte actualmente).
- Mejora de la accesibilidad y la fluidez de la información dentro de la propia
empresa.
A las 3 V del Big data agregamos las nuevas 3 V, dado que el avance tecnológico, y los
nuevos usos que se da a la información, han obligado en un corto tiempo a considerar
nuevos factores a la hora de hablar de Big Data:
- Veracidad (Los datos inadecuados pueden causar varios problemas a las

organizaciones, así como también a los consumidores .Al asegurarse que los datos
son correctos, los análisis efectuados sobre los mismos también lo serán )
- Visualización (dada la gran cantidad de datos es preciso encontrar la forma de
representar de manera sencilla y entendible la información. Hablamos de
complejas gráficas que pueden incluir una extensa lista de variables las cuales, a
pesar de su complejidad, deben continuar siendo fáciles de leer y entender.)
- Valor (la información por sí sola no tiene valor, pero si lo tiene el análisis realizado
a los datos y como esos datos se convierten en información y luego en
conocimiento, agregando valor a las organizaciones, sociedades o consumidores)
3
Aplicaciones principales del big data
Hay una serie de problemas principales que enfrentan las compañías a los que Big Data
puede aportar una solución. Dichas soluciones pueden agruparse así en 5 grupos
principales:
- La exploración de grandes datos: (le velocidad con que se producen, el volumen, y

la variedad de datos plantea desafíos a la hora de darles un valor .Es necesario
saber cómo contextualizar estos datos para alimentar un mejor análisis y una
mejor toma de decisiones. La exploración de datos, además de ofrecer soluciones
a estos problemas, también contribuye a 6 disminuir el riesgo de filtración de
información confidencial gracias a sus mecanismos de seguridad. )
- 360º de visión sobre el cliente: (Para conocer mejor al cliente y predecir sus
futuras acciones se debe disponer tanto de información interna, esto es según
comportamiento del cliente en otras experiencias con la compañía) , como externa
(sobre sus gustos e intereses, obtenida de redes sociales, correo electrónico, etc).
Esto permite poder asesorarle y entender cuál es la mejor manera de ayudarle,
crear una relación de confianza y conseguir un compromiso o una fidelidad por
parte del consumidor.
- Extensión de la seguridad/inteligencia: son Mecanismos para localizar anomalías y
prevenir ataques y permite discernir entre cantidades masivas de datos (tanto
internos como externos), posibles relaciones ocultas, detectar patrones de
conducta y prevenir amenazas a la seguridad. También posibilita descubrir un
fraude, También permite examinar nuevas fuentes y variedades de datos como
pruebas de una actividad criminal, por ejemplo, internet.. Las tres aplicaciones
principales son: Visión mejorada de inteligencia y vigilancia, previsión y
atenuación de ataques cibernéticos en tiempo real, predicción y prevención del
crimen.
- Análisis de Operaciones: Permite obtener visibilidad en tiempo real de las
operaciones, la experiencia del cliente, transacciones y comportamiento. Dinamiza
el plan para incrementar la eficiencia de las operaciones, identifica e investiga las
anomalías, y monitoriza la infraestructura end-to-end para evitar de forma
preventiva la degradación o apagones en el servicio. Con un acelerador de datos
permite ingresar y procesar grandes volúmenes de datos para proporcionar un
conocimiento detallado del estado de la compañía. Los machine data pueden ser
correlacionados con otros datos de la empresa como información del cliente o del
producto, aunque el gran volumen de datos esté en formatos distintos que, sin la
solución, no son compatibles con los demás. Esta combinación es de gran utilidad
para los encargados de tomar las decisiones operativas, a la vez que aumenta la
4
inteligencia y la eficiencia de las operaciones. Estos responsables de la toma de
decisiones pueden visualizar los datos a través de distintos sistemas para obtener
la visión más informada posible y poder reaccionar de forma rápida ante cualquier
imprevisto.
- Aumentar el almacén de datos o Data Warehouse: El aumento del Data
Warehouse nace de dos necesidades básicas: sacar provecho de diferentes tipos
de datos para ganar nuevas perspectivas de negocio en tiempo real, y para
optimizar la estructura de almacenamiento de datos facilitando la tarea y
ahorrando costes. Existen tres tipos de datawarehouse :
o Pre-Processing Hub (núcleo de pre-procesamiento): proporciona un área
de montaje o “zona de aterrizaje” de los datos antes de decidir cuáles se
incorporan al almacén de datos.
o Discovery/Analytics (descubrimiento-análisis): da la capacidad de realizar
análisis que deberían haberse hecho antes en el Data Warehouse, para así
optimizar el almacén de datos y posibilitar nuevos tipos de análisis.
o Query-able Data Store (almacén de datos de consulta): descarga datos que
se consultan con poca frecuencia o de una antigüedad considerable del
datawarehouse mediante software y herramientas de integración de
información, y los almacena en un espacio de almacenamiento de bajo
coste, pero manteniéndolos aún accesibles desde la solución.
Paper
El big data puede salvar vidas y suponer el final de la pobreza energética y el mal
gestionamiento del envejecimiento de la sociedad, también permite ayudar a
Ayuntamientos y a Servicios Sociales a predecir necesidades para hacer presupuestos para
el año siguiente.
La gobernanza de los datos será decisiva en los próximos años para hacer una gestión
eficiente del entorno en que vivimos, pero existen, aún,una larga lista de retos: el proceso
de captación, el transporte de los datos, el almacenaje y, más importante, si cabe, la
ciberseguridad de los mismos.
Perfiles profesionales del Big Data
Las compañías buscan ahora a especialistas capaces de trabajar con los grandes
volúmenes de datos que se almacenan día a día. Esos datos, debidamente analizados y
procesados, son en realidad información muy útil para las empresas y representan nuevas
oportunidades de negocio, mejoras en la toma de decisiones, conocimiento más preciso
del público objetivo, pero hay escasez de personas capacitadas en el tema.
5
Hay 7 roles a incorporar en las empresas ( aunque puedan surgir más con el tiempo) son:
- Chief Data Officer: es el responsable de asegurar que la organización es data

driven. Lidera la gestión de datos y analítica asociada por el negocio y, por tanto,
es responsable de los diferentes equipos de especialidades en datos.
- Data Scientist : son los miembros clave del equipo de ciencia de datos. Permiten
extraer conocimiento e información valiosa de los datos. Tienen visión general del
proceso de extremo a extremo y pueden resolver problemas de ciencias de datos,
la construcción de modelos analíticos y algoritmos. Combinan diversas habilidades
relacionadas con las matemáticas, la estadística, la programación y visualización,
pero también deben tener habilidades comunicativas, para explicar los resultados
obtenidos en la organización.
- Citizen Data Scientist: es la persona dentro de la organización que típicamente no
está formada específicamente para ser Data Scientist, pero que puede extraer
valor, a través de su experiencia, explorando los datos, desde las unidades de
negocio. Pueden ejecutar una serie simple de tareas analíticas utilizando
herramientas de descubrimiento de datos.
- Data Engineer: se encarga de proporcionar los datos de una manera accesible y
apropiada a los usuarios y Data scientists . Desarrolla y explota técnicas, procesos,
herramientas y métodos que deben servir para el desarrollo de aplicaciones Big
Data. Tiene un gran conocimiento en gestión de bases de datos, arquitecturas de
clusters, lenguajes de programación y sistemas de procesamiento de datos.
- Data Steward (administrador de datos): es responsable de mantener la calidad,
disponibilidad y seguridad de los datos. Persigue mejorar el almacenamiento y
presentación de los datos en toda la empresa. Tiene conocimientos de los
procesos de negocio y de cómo los datos se utilizan dentro de estos procesos.
- Business Data Analyst (analista de datos): participa en las iniciativas y proyectos
de análisis de datos. Es la persona que recoge las necesidades de los usuarios de
negocio para los Data Scientist y presenta los resultados obtenidos.
- Data Artist: son expertos en Business Analytics y son los responsables de crear los
gráficos, infografías y otras herramientas visuales para ayudar a las diferentes
personas de la organización a comprender datos complejos.
Con respecto al científico de datos se trata de una persona formada en las ciencias
matemáticas y las estadísticas que domina la programación y sus diferentes lenguajes,
ciencias de la computación y analítica y también debe tener la capacidad y los
conocimientos necesarios para comunicar sus hallazgos a medida que los tiene, no sólo al
área de tecnología sino además al sector de los negocios. Debe dominar la tecnología y las
6
bases de datos para modificar y mejorar la orientación de los negocios de la empresa para
la que trabaja, interpreta y comunica las nuevas tendencias en el área y las traduce a la
empresa para que ésta haga uso de ellas y adapte sus productos y servicios, y cree nuevas
oportunidades de negocio
Presente y futuro del Big Data
El big data actualmente es una necesidad comercial para las empresas es fundamental
para las empresas conocer y explorar todos los datos que dispone. Hay una gran cantidad
de conocimiento en la información sin explotar, que puede proporcionar respuestas y
nuevas metodologías para incrementar la productividad y la eficacia, mientras se
disminuyen los gastos innecesarios.
Hay varios ejemplos de uso:
 Google Flu Trends: Utilizando los términos de búsqueda de los usuarios, Google
predice cómo se esparce el virus de la gripe por el mundo.
 Planeamiento Urbano: El MIT (Instituto Tecnológico de Massachusetts) está
utilizando información obtenida a través de los teléfonos móviles y los patrones de
tráfico para mejorar el planeamiento urbano de la ciudad.
 Seguros Santam: La mayor aseguradora de Sudáfrica, utiliza Big Data junto el
análisis predictivo para mejorar la detección de fraude y agilizar la gestión de
siniestros.
 Policía de Los Angeles: El departamento de policía de Los Angeles junto a la
Universidad de California están usando Big Data para predecir actos delictivos
antes de que estos ocurran.
 Bank of America: La segunda entidad bancaria más importante de los Estados
Unidos utilizó Big Data para entender porque muchos de sus clientes comerciales
se estaban yendo a bancos más pequeños.
 UPS: La empresa internacional de logística y reparto ha estado utilizando Big
Data para recolectar y analizar información de más de 46.000 camiones de su flota
de transporte. Gracias al uso inteligente de los datos tomados, la compañía ha
reducido en 32 millones de litros el gasto en combustible y acortado en 137
millones de kilómetros sus rutas de reparto.
Evolución del big data en la empresa
Es muy difícil ser competitivo en la actual economía de escala global, para ello es
indispensable que las empresas posean un gran entendimiento de los mercados, los
clientes, los productos, los competidores y todo lo que rodea al negocio. El uso de técnicas
7
de Big data, así como también la inteligencia de negocio, la inteligencia de la analítica y la
información, es clave para entender lo que sucede
El Big data es para todo tipo de empresas, cada empresa, sin importar su tamaño, puede
verse beneficiada en la utilización de nuevas herramientas de análisis que generen valor y
brinden acceso a mejores oportunidades para su negocio. Es fundamental tener claro el
objetivo de Big data que persigue la organización y así poder evaluar los proveedores de
estas soluciones. Una amplia variedad de empresas proporciona productos y servicios
acordes a sus necesidades que le permitirán desarrollar de forma eficiente la estrategia de
su empresa. Entender su información correctamente es la clave para el crecimiento y
evolución de su negocio.
Presente y futuro para las empresas
Las empresas se sumergirán en el futuro en el universo del Big Data. El reto consiste en
capturar, almacenar, buscar, compartir y poner en valor «datos hasta fecha infrautilizados
o inaccesibles.
El crecimiento de los datos está siendo exponencial año a año, esto es derivado de la
digitalización de los negocios y de su gestión, así como de la explosión de dispositivos
móviles. Por otro lado, la proliferación de las redes sociales, del intercambio de
sentimientos, ideas y opiniones en la red, está generando más datos que nunca. La
volatilidad de los datos responde al hecho de no ser capaz de analizar y obtener un valor
de los datos que se está generando. Lo importante es que siempre se analice o aplicar
analítica para saber qué queremos responder, qué buscamos o, incluso, encontrar cosas
que no sabíamos. El 90 por ciento de los datos creados son sin estructurar (son acrónimos
o tienen ironía, es decir sentimientos), el verdadero reto no es tanto crear la arquitectura
que sea capaz de recoger y almacenar todo ese volumen ingente de datos sino en ser
capaz de separar lo relevante de lo que no lo es y de explotarlo con las técnicas analíticas
precisas en el menor tiempo posible de respuesta, pudiendo aprovechar todo su valor
para las organizaciones.
El marketing digital, es sin dudas unos de los sectores donde más se utiliza el Big Data
( para gestionar mejor la relación con el cliente), mejorando su satisfacción y fidelización,
y también se usa para detectar fraudes, evitar pérdidas económicas y predecir el
comportamiento de los consumidores para realizar acciones comerciales más efectivas)
El análisis de datos masivos también permite adelantarse a futuras conductas de

actuación o gestión de expectativas de los ciudadanos.
Ventajas a la sociedad
8
Nos permite encontrar respuestas para la sociedad, por ejemplo con las ciudades
inteligentes, que empiezan a recoger mediante sensores cantidades ingentes de
información relativa al tráfico, suministros o estado de los servicios que ofrece a sus
ciudadanos, teniendo siempre como objetivo anticiparse y mejorar.
La clave del Big Data es contar con personas y socios que tengan talento analítico, así
como capacidad de reflexionar sobre dónde quiero ir y qué tipo de respuestas necesito
para mejorar mis decisiones hoy y, entonces, anticiparme
La clave del éxito
El análisis de datos masivos es el eje central del modelo de negocio de las grandes
compañías, permitiéndoles vender más publicidad dado que les otorga la capacidad de dar
un mensaje relevante a cada persona o a la audiencia en cada momento.
Es así como los motores de búsqueda suponen un gran volumen de ventas para las
compañías como Amazon.
El análisis de datos masivos es el eje central del modelo de negocio de las grandes
compañías. Analizarlos permite ofrecer a los clientes una oferta que, con un alto
porcentaje de probabilidad será de su interés, lo que provoca que se disparen las ventas.
La clave está en conectar puntos, patrones y hacerlo de modo que el cliente sienta que lo
que le ofreces solo está disponible en ese momento, en tiempo real, y para él.
Paper
El big data puede responder al problema del creciente envejecimiento de la población

(que conlleva al incremento de la enfermedades crónicas), mediante por ejemplo
implementaciones de big data sanitarios que permitirán cruzar la información clínica de
las bases de datos habituales con esta información no clínica relacionada.
Modulo 2
Descubriendo valor en los datos
El término descubrimiento de conocimiento en bases de datos, o KDD (del inglés

knowledge discovery in databases) es el amplio proceso de búsqueda de conocimiento en
los datos y se aplican métodos de alto nivel de minería de datos .Este proceso es útil para
los investigadores en aprendizaje automático reconocimiento de patrones, bases de
9
datos, estadísticas, inteligencia artificial, adquisición de conocimientos para sistemas
expertos y visualización de datos.
El objetivo unificador del proceso KDD es extraer conocimiento de datos en el contexto

de bases de datos grandes. Para esto se utilizan métodos de minería de datos (algoritmos)
para extraer (identificar) lo que se considera conocimiento, de acuerdo con las
especificaciones de medidas y umbrales, utilizando una base de datos junto con cualquier
preprocesamiento, submuestreo y transformaciones requeridos de esa base de datos.
El proceso general de encontrar e interpretar patrones a partir de datos implica la

aplicación repetida de los siguientes pasos:
1) Desarrollar un entendimiento de:
a. el dominio de la aplicación;
b. el conocimiento previo pertinente;
c. los objetivos del usuario final.
2) Creación de un conjunto de datos de destino: selección de un conjunto de datos o

enfoque en un subconjunto de variables o muestras de datos en las que se debe realizar el
descubrimiento.
3) Limpieza y preprocesamiento de datos:
a. eliminación de ruidos o valores extremos;

b. recopilación de la información necesaria para modelar o explicar el ruido;
c. estrategias para manejar campos de datos que faltan;
d. contabilización de la información de secuencia temporal y cambios
conocidos.
4) Reducción y proyección de datos.
a. Encontrar características útiles para representar los datos dependiendo

del objetivo de la tarea.
b. Utilizar métodos de reducción de la dimensionalidad o de transformación

para reducir el número efectivo de variables bajo consideración o para encontrar
representaciones invariantes para los datos.
5) Elegir la tarea de minería de datos.
a. Decidir si el objetivo del proceso KDD es la clasificación, regresión, agrupación,

etcétera.
10
6) Elegir el/los algoritmo/s de minería de datos.
a. Selección de métodos que se utilizarán para buscar patrones en los datos.
b. Decidir qué modelos y parámetros pueden ser apropiados.
c. Emparejar un método particular de minería de datos con los criterios

generales del proceso KDD.
7) Extracción de datos.
a. Búsqueda de patrones de interés en una forma representacional

particular o un conjunto de representaciones tales como reglas de clasificación o
árboles, regresión, agrupación, etcétera.
8) Interpretación de patrones minados.
9) Consolidar el conocimiento descubierto.
KDD se refiere al proceso general de descubrir conocimientos útiles a partir de datos.

Implica la evaluación y posiblemente la interpretación de los patrones para tomar la
decisión de lo que califica como conocimiento. También incluye la elección de esquemas
de codificación, preprocesamiento, muestreo y proyecciones de los datos antes del paso
de minería de datos.
En cambio, la minería de datos se refiere a la aplicación de algoritmos para extraer

patrones de datos sin los pasos adicionales del proceso KDD.
El descubrimiento de conocimientos en bases de datos es el proceso(KDD es un proceso

de varios pasos que incluye la preparación de datos, la búsqueda de patrones, la
evaluación de conocimientos y el refinamiento con iteración después de la modificación.)
no trivial de identificar patrones válidos (Una expresión E en un lenguaje L que describe
hechos en un subconjunto Fe de F., además los patrones descubiertos deben ser
verdaderos en los nuevos datos con cierto grado de certeza. Generalizar al futuro (otros
datos).), nuevos (no deben conocerse de antemano), potencialmente útiles( esto es
procesable; los patrones deberían conducir potencialmente a algunas acciones útiles. ) y,
en última instancia, comprensibles en los datos (el proceso debe conducir a la
comprensión humana. Los patrones deben hacerse comprensibles para facilitar una mejor
comprensión de los datos subyacentes.). El interés es una medida general del valor del
patrón, combinando validez, novedad, utilidad y simplicidad .
Paper la minería de datos al servicio de la publicidad personalizada
11
Las grandes empresas son aún ignorantes en lo que se refiere a cómo adaptar la minería
de datos a la publicidad en las redes sociales. La publicidad personalizada actual se basa
en unos pocos rasgos demográficos, como el sexo, la edad, el empleo o el lugar de
residencia. La propuesta de Google añade nuevos parámetros, como aficiones, webs que
visitamos; grupos a los que pertenecemos; personas con quienes hablamos, compartimos
intereses o que leen nuestros blogs, e incluso el análisis semántico de lo que decimos.
Almacenes de datos (o datawarehouse)
Es un repositorio para todos los datos que recogen los diversos sistemas empresariales
(datos operativos, de almacén, de proveedores, datos de los clientes, datos externos,
datos de minería de datos) de una empresa. El repositorio puede ser físico o lógico. Un
almacenamiento de datos es una tecnología que agrega datos estructurados de una o
más fuentes para que puedan ser comparados y analizados para una mayor inteligencia de
negocios. Este almacenamiento hace hincapié en la captura de datos de diversas fuentes
para el análisis y acceso útiles, pero, generalmente, no empieza desde el punto de vista
del usuario final, que puede necesitar acceso a bases de datos especializadas, a veces
locales.(datamart).
Hay dos enfoques para el almacenamiento de datos: de arriba hacia abajo (crea los data
marts para grupos específicos de usuarios después de que se haya creado el almacén de
datos completo) y de abajo hacia arriba (construye primero los data marts y luego los
combina en un solo y completo almacén de datos.)
Normalmente un almacén de datos se aloja en un servidor de mainframe corporativo o en

la nube. Los datos de varias aplicaciones de procesamiento de transacciones en línea
(OLTP) y otras fuentes se extraen selectivamente para su uso por aplicaciones analíticas y
consultas de usuarios
Los almacenes de datos se usan típicamente para correlacionar los datos comerciales
generales para proporcionar una mayor visión ejecutiva del desempeño corporativo.
Los almacenes de datos utilizan un diseño diferente de las bases de datos operativas
estándar. Estos últimos se optimizan para mantener una exactitud estricta de los datos en
el momento, actualizando rápidamente los datos en tiempo real, en cambio los almacenes
de datos están diseñados para proporcionar una visión de largo alcance de los datos en el
tiempo. Cambian el volumen de transacciones y se especializan en la agregación de datos.
La utilidad de los almacenes de datos es tal que muchos tipos de datos empresariales se
analizan a través de almacenes de datos. La necesidad de un almacén de datos a menudo
se hace evidente cuando los requisitos analíticos están en contradicción con el
12
funcionamiento continuo de las bases de datos operacionales, ejecutar una consulta
compleja en una base de datos requiere que la base de datos ingrese a un estado fijo
temporal. Esto es, a veces, insostenible para las bases de datos transaccionales. Un
almacén de datos se emplea para hacer el trabajo analítico, dejando la base de datos
transaccional libre para centrarse en las transacciones.
Otros beneficios de un almacén de datos son la capacidad de analizar datos de múltiples

fuentes y negociar diferencias en el esquema de almacenamiento mediante el proceso
ETL.
Entre las desventajas que presentan los almacenes de datos podemos mencionar que son
caros a escala y no sobresalen en el manejo de datos crudos, no estructurados o
complejos.
Paper
EL problema de los actuales soportes de almacenamiento de datos es que algunos discos

duros, discos ópticos y memorias USB no superan los 10 años de vida. De hecho, algunos
de estos productos incluso se deterioran en unos cinco años. La fragilidad de los soportes
de datos no es el único problema que existe para que estos perduren a lo largo del tiempo
y tampoco se puede confiar en el almacenamiento en internet. La tecnología con la que
se guardó la información también tiene fecha de caducidad. En Recovery Labs usan
equipos informáticos antiguos para poder acceder a datos imposibles de leer con los
actuales ordenadores y convertirlos a un formato que sea legible hoy día. Por esto es
conveniente no solo replicar los datos (disaster plan)., sino que también hay que realizar
cierto esfuerzo en usar archivos para almacenarlos que no sean demasiado exóticos.
Existen varias líneas de investigación para mejorar la fiabilidad a largo plazo de los
soportes de almacenamiento digital. Investigadores de la Universidad de Southampton
han logrado recientemente almacenar información en cristales de cuarzo con un proceso
de grabación y lectura denominado 5D. Estos discos transparentes podrían almacenar
hasta 360 teras de información y tener una vida útil a temperatura ambiente de más de 13
millones de años. Además, aguantarían temperaturas de hasta 1.000 grados.
Arquitectura de almacenes de datos
Un almacén de datos y una arquitectura de BI de próxima generación están emergiendo

debido al avance de las tecnologías, esta nueva arquitectura incluye la necesidad de:
13
1) Capacidades analíticas avanzadas, como análisis estadísticos y predictivos, análisis en
tiempo real de datos en tiempo real y visualización sofisticada de datos.
2) Gestión de fuentes de datos nuevas e inusuales a través de nuevos conceptos, tales

como refinerías de datos (aka lagos de datos o hubs) y el uso de herramientas de
virtualización de datos o de mezcla de datos para aumentar los enfoques estándar de
extracción, transformación y carga de datos integración.
3) Nuevas opciones de implementación, como la nube, dispositivos móviles y

dispositivos integrados de hardware y software.
A la necesidad de nuevas tecnologías se suma la creciente presión en las empresas para

generar ideas comerciales más inmediatas y, al mismo tiempo, reducir el costo total de
estos entornos en expansión. La arquitectura de data warehouse de la empresa perdura y
evoluciona causando incertidumbre en las empresas, que se preguntan si el almacén de
datos de la empresa (EDW) tiene aún un papel que cumplir y como puede satisfacer la
necesidad de la empresa de análisis en tiempo real. Puede parecer que no tienen el
mismo nivel que la creación de un almacén de datos basados en Hadoop o no SQL, pero
sigue proporcionando (junto con el datamart) datos confiables a los usuarios de
inteligencia de negocios y análisis.
Una arquitectura de almacén de datos en capas consta principalmente de tres capas:
- En primer lugar se crea un repositorio de documentos para almacenar informes

estándar de la empresa.
- Una capa de inteligencia empresarial global que soporta múltiples aplicaciones,
incluyendo informes de ventas, análisis de ventas, análisis de la cadena de
suministro, análisis de adquisiciones, etcétera.
- Debajo de estas dos capas, se encuentra el propio EDW. La mayoría de las
empresas de primera línea trabajan con tecnología SAP para administración de
datos maestros y extracción de funciones de transformación y carga.
La arquitectura del almacén de datos debe ir más allá de lo tradicional y se ha planteado

cómo expandir una arquitectura tradicional de data warehouse para incorporar
tecnologías como clústeres Hadoop en tiempo real.
En la arquitectura tradicional se tiene un almacén de datos y datamarts dependientes ,.

Hay una necesidad de almacenes de datos empresariales y de la información estática e
histórica típicamente almacenada en ellos. En la era de los grandes datos, la computación
en la nube y las aplicaciones móviles, los almacenes de datos ya no son suficientes .Es asi
que una de las tendencias actuales es una arquitectura de data warehouse extendida que
14
añade nuevas capas para la administración de big data, análisis exploratorios y análisis de
datos en tiempo real , pero no hay un solo camino por seguir para todas las
organizaciones. Lo importante sigue siendo cuál es el problema de negocio que está
tratando de resolver y luego pensar en una arquitectura que coincida con la tecnología
con ese problema de negocio.
Paper
El big data es solo a una herramienta informática, extremadamente potente, que compila
enormes cantidades de datos, imposibles de escrutar por la mente de un ser humano, y,
con suerte, permite sacar alguna conclusión de la comparación de datos. Como el mundo
no para de crear bytes en volúmenes cada vez mayores, toda esa información podría ser
un tesoro estadístico para estudiar desde hábitos de compra hasta tendencias médicas
como previsión temprana de suicidios. Big data es, es pues “una tendencia tecnológica
para entender y tomar decisiones aplicable a toda aquella información improcesable por
procesos o herramientas tradicionales. Pero la cruda realidad es que esos bytes contienen
información cada vez más y más íntima y al estudiarla con cerebros tan potentes como los
artificiales, se puede aprender quizá demasiado sobre una sola persona y la posible
invasión de intimidad, a través de los resultados de esta compilación de datos, preocupa a
bastante gente, ya que las bases de datos comerciales contienen registros detallados de
historiales médicos, transacciones económicas o del uso de los teléfonos. Si bien
cualquier herramienta tecnológica, no es ni buena ni mala, sino que su valor consiste en
hacer predicciones estadísticas que permiten tomar mejores decisiones. Pero hay veces
que esta técnica se pasa de la raya.
Minería de Datos
Es el proceso de encontrar anomalías, patrones y correlaciones dentro de grandes

conjuntos de datos para predecir los resultados, se puede emplear esta información para
aumentar los ingresos, reducir los costos, mejorar las relaciones con los clientes, reducir
los riesgos y más. Implica el descubrimiento de información.
El término minería de datos no se acuñó hasta los años noventa. Pero su fundación se
compone de tres disciplinas científicas entrelazadas: la estadística (el estudio numérico de
las relaciones de datos), la inteligencia artificial (inteligencia similar a la humana mostrada
por software y máquinas) y el aprendizaje automático (algoritmos que pueden aprender
de los datos para hacer predicciones) , y sigue evolucionando constantemente, los
avances en la potencia de procesamiento y la velocidad nos han permitido pasar de las
prácticas manuales, tediosas y que consumen mucho tiempo, a un análisis de datos
rápido, fácil y automatizado. Cuantos más complejos sean los conjuntos de datos
15
recopilados, más potencial habrá para descubrir ideas relevantes. Se está utilizando la
minería de datos para descubrir relaciones entre todo, desde precios, promociones y
demografía hasta cómo la economía, el riesgo, la competencia y las redes sociales están
afectando sus modelos de negocio, ingresos, operaciones y relaciones del cliente.
Dentro de la minería de datos podemos usar distintas metodologías que comparten una
misma técnica , donde primero se analiza el negocio, el contexto y el vocabulario, luego
empezamos a comprender cuál es el objetivo (el requerimiento, que comportamiento
queremos analizar) , seleccionamos un algoritmo, detectamos anomalías , limpiamos los
datos y creamos un modelo matemático, el cual es entrenado, probado y ajustamos
hasta que logramos predecir el comportamiento ,representar el comportamiento
analizado , y por último se produce una retroalimentación (vemos cómo funciona el
modelo a lo largo del tiempo ,y si es necesario ajustarlo para que siga haciendo su
predicción correcta).
Importancia de la minería de datos
El volumen de datos aumenta dia a dia, y de estos el 90 por ciento son datos no
estructurado, pero más información no significa necesariamente más conocimiento. La
minería de datos permite:
 entender lo que es relevante y luego hacer buen uso de esa información para
evaluar los resultados probables;
 acelerar el ritmo de toma de decisiones informadas.
El proceso de minería de datos esta constituido por las siguientes partes:
 Fuentes de datos : aquí tratamos con los datos crudos que provienen de las
distintas fuentes de datos como ser almacenes de datos de la empresa, sistemas
de base de datos, textoy se realiza un muestreo y selección.
 Preproceamiento: en esta fase se produce una limpieza de los datos de datos
objetivos (datos que no existen, datos no clasificados, identificación de extremos, y
eliminación de ruido), para llegar a datos preprocesados.
 Exploracion y transformacion : a partir de los datos preprocesados aplicamos una
serie de transformaciones (reducción de dimensionalidad, creación de
características, normalización de datos , variables correlacionadas, discretizacion)
para arribar a datos transformados.
 Reconocimiento de patrón: se hace un modelado que consiste en (clasificación (P),
regresión (P), agrupamiento(D), asociación (D) , secuenciación (D) ) pueden ser
modelos predictivos o descriptivos.
16
 Evaluación e interpretación: en esta fase una vez reconocidos los patrones se
realizan los reportes y visualización que puede ser simples o complejos.
La minería de datos se usa en ámbitos tales como comunicaciones, seguro, educación,

fabricación, banca, retail.
Módulo 3
Customer analitycs
Origen
Los primeros intentos por comprender a los clientes y mejorar las ventas se dan cuando
en los noventa aparecieron sistemas de información independientes para el call center, la
atención a clientes, el help desk y el soporte de servicios y productos. Cada una de estas
aplicaciones estaba soportada por una base de datos diferente que guardaba una parte
específica del historial del cliente, impidiendo el desarrollo de una estrategia única de
clientes , dado que diferentes áreas de la compañía tenían una visión propia e incompleta
del cliente. Surgen entonces los sistemas integrales de gestión al cliente (CRM) . Las
estrategias y los sistemas CRM pueden considerarse como los precursores de Customer
Analytics. En esta época también podemos encontrar las primeras iniciativas del dato del
cliente como activo de valor.
CRM hace referencia tanto a un modelo de gestión de toda la organización basado en la

orientación al cliente, como al sistema de información que da apoyo a la gestión de las
relaciones con los clientes, fuerza de venta y marketing. Es el punto de partida para la
mejora de la comprensión de los clientes mediante los datos Permite obtener una ventaja
competitiva y alcanzar el crecimiento y la rentabilidad.
El CRM pasó por diferentes etapas en el tiempo:
17
El objetivo no ha sido el análisis de los datos del cliente sino la creación de experiencias
que atraen, convierten y retienen clientes y hacerlo de una forma colaborativa y
multicanal.
La creación en paralelo de diferentes estrategias para analizar datos y tomar decisiones

vinculadas al cliente ayudó a diferenciar dos tipos de CRM:
- El CRM operacional: incluye todas las áreas de contacto directo con el cliente:
desde la fuerza de ventas hasta el soporte.
18
- El CRM analítico: busca comprender el comportamiento del cliente mostrado en
las interacciones en el CRM operacional. Apoyado tradicionalmente en las
tecnologías de la inteligencia de negocio y la analítica del negocio para desarrollar
el conocimiento del cliente. Es impulsado por el departamento de marketing
(aunque hoy en día es conveniente extender la analítica del cliente a las demás
áreas de la empresa , dado los datos de cliente son uno de los activos cruciales
para el desarrollo de productos, servicios y otras funcionalidades dentro de una
organización dado que esta precisa desarrollar un sólido conocimiento del cliente
para ser capaces de identificar o modificar los patrones de compra de un cliente o
incluso sus hábitos de uso de un servicio, para rentabilizar mejor tanto las
acciones de marketing como la comunicación multicanal.
Definición de Customer Analytics
Customer Analytics hace referencia a la captura, gestión, análisis y generación de valor

estratégico de los datos de cliente de una organización.
La analítica de clientes sirve como columna vertebral de todas las actividades de

marketing, como el modelado predictivo, la visualización de datos, la gestión de la
información y la segmentación.
Entre los beneficios del customer analytics tenemos: aumentar la lealtad de los clientes,
reducir costos de campañas al dirigirse a los clientes adecuados, disminuir la tasa de
desgaste (churn ) del cliente al poder predecir sus expectativas y entregarles el producto
justo y por ultimo segmentar al cliente de manera más efectiva y ayuda a entenderlo
mejor.
Entre los objetivos del customer analitycs , podemos mencionar:
- Comprender como se usan los datos para averiguar el comportamiento del cliente.
- Descubrir las mejores prácticas para usar los datos para crear estrategias
comerciales más efectivas.
- Descubrir la tasa de éxito de las estrategias comerciales usando los datos actuales.
- Seguimiento de las necesidades del cliente y entrega de lo que espera en el
momento adecuado.
- Tomar mejores decisiones comerciales sobre los datos relacionados con los
clientes del negocio.
Las características que distinguen a este tipo de analítica de otras son:
- Granularidad del dato (se considera al nivel del individuo (cliente))
19
- Foco en la predicción (se orienta más a esta que a la descripción , pudiendo
anticipar el comportamiento del cliente).
- Mulitiplataforma (se combinan los diferentes comportamientos del cliente
,tomado a nivel individual, en diferentes sistemas que recogen sus interacciones )
- Multisector/multiaplicación: (no solo se puede aplicar a los consumidores, sino
que también a empleados, pacientes, etc., es decir considera tanto al cliente
interno como externo).
- Multidisciplinar: es aplicable a múltiples departamentos o áreas en una
organización como marketing, innovación, tecnología, operaciones.
- Estudio del comportamiento: aunque incluya variables descriptivas como la
demografía, el foco principal es la comprensión y la identificación de patrones de
comportamiento.
- Longitudinal: estudia como los patrones de comportamiento evolucionan a lo
largo del tiempo.
- La analítica de cliente se beneficia de aquellas disciplinas que estudian cómo se
comportan las personas., tales como la economía del comportamiento o
behavioral economics.
El termino comportamiento del cliente se refiere a cómo los clientes se comportan en

relación con la organización o empresa a través de todos sus canales de contacto y
comunicación con el cliente.
Evolución
Las organizaciones interesadas en generar valor a partir de los datos de cliente pasan por
diferentes fases que van incrementando el valor que se genera a partir de dichos datos:
- Análisis descriptivo: la organización es capaz de entender qué pasó en las

interacciones del cliente.
- Análisis de diagnóstico: la organización es capaz de entender las razones de las
interacciones con los clientes.
- Análisis predictivo: la organización es capaz de predecir ciertas interacciones de
cliente.
- Análisis prescriptivo: la organización es capaz de tomar decisiones vinculadas con
las interacciones de clientes basadas en escenarios.
- Análisis preventivo: la organización es capaz de actuar con antelación a las
necesidades de los clientes.
20
Metodologías
El desarrollo de iniciativas de Customer Analytics, aunque usa tecnologías de inteligencia

de negocio, analítica de negocio y Big Data, está más vinculado a las metodologías de
desarrollo de proyectos de minería de datos, así en Customer Analytics se usan las mismas
metodologías que en minería de datos. Las metodologías más usadas son:
- CRISP-DM (Cross Industry Standard Process for Data Mining).

- SEMMA (Sample-Explore-Modify-Model-Assess).
- KDD (Knowledge Discovery and Data Mining).
CRISP-DM
Presenta seis fases que pueden repetirse bidireccionalmente hasta que el modelo de
análisis creado se considera que ha alcanzado los resultados esperados:
1- Comprensión del negocio, consiste en determinar los objetivos y requerimientos

desde una perspectiva no técnica:
a. Establecimiento de los objetivos del negocio: contexto inicial, objetivos y
criterios de éxito.
b. Evaluación de la situación: inventario de recursos, requerimientos,
supuestos, terminologías propias del negocio, etc.
c. Establecimiento de los objetivos de la minería de datos: así como de los
criterios de éxito.
21
d. Generación del plan del proyecto: plan, herramientas, equipo y técnicas.
2- Comprensión de los datos : consiste en familiarizarse con ellos teniendo presente
los objetivos del negocio:
a. Recopilación inicial de datos.
b. Descripción de los datos.
c. Exploración de los datos.
d. Verificación de calidad de datos.
3- Preparación de los datos: consiste en preparar el conjunto de datos adecuado:
a. Selección de los datos.
b. Limpieza de datos.
c. Construcción de datos.
d. Integración de datos.
e. Formateo de datos.
4- Modelado, consiste en aplicar las técnicas de minería de datos a los conjuntos de
datos:
a. Selección de la técnica de modelado.
b. Diseño de la evaluación.
c. Construcción del modelo.
d. Evaluación del modelo.
5- Evaluación, consiste en evaluar los modelos de las fases anteriores para
determinar si son útiles a las necesidades del negocio:
a. Evaluación de resultados.
b. Revisar el proceso.
c. Establecimiento de los siguientes pasos o acciones.
6- Despliegue, consiste en explotar la utilidad de los modelos, integrándolos en las
tareas de toma de decisiones de la organización:
a. Planificación de despliegue.
b. Planificación de la monitorización y del mantenimiento.
c. Generación de informe final.
d. Revisión del proyecto.
22
SEMMA
Esta metodología fue creada por SAS y es anterior a CRISP-DM y está focalizada en las
tareas de modelización. Consiste en cinco fases:
- Sample (muestra): creación de una muestra significativa para el modelo.

- Explore (exploración): comprensión de los datos buscando relaciones entre
variables y anomalías.
- Modify (modificación): transformación de las variables para las necesidades del
modelo.
- Model (modelización): aplicación de uno o varios modelos/ técnicas al conjunto de
datos en la búsqueda de resultados.
- Assessment (asesoramiento): evaluación de los resultados del modelo.
23
KDD
Este término hace referencia al proceso de encontrar conocimiento en el dato y enfatiza

el proceso de creación de aplicaciones de minería de datos. . El objetivo unificador del
proceso KDD es extraer conocimiento de los datos en el contexto de grandes bases de
datos. , lo hace mediante el uso de métodos de extracción de datos (algoritmos) para
extraer (identificar) lo que se considera conocimiento, de acuerdo con las especificaciones
de medidas y umbrales, utilizando una base de datos junto con cualquier
preprocesamiento requerido, submuestreo y transformaciones de esa base de datos.
Consiste en cinco fases (más una fase previa de generación de conocimiento y otra
posterior):
1- Pre-KDD:
a. Desarrollo de comprensión del dominio de negocio.
b. Identificación de las necesidades del cliente.
c. Adquisición de competencias necesarias.
2- Selección:
a. Identificar el conjunto de datos a analizar.
24
b. Selección de muestra y variables para el proceso de exploración y
descubrimiento.
3- Preprocesamiento y limpieza de datos:
a. Eliminación de ruido o valores atípicos.
b. Recogida de información para el modelo o para representar el ruido.
c. Estrategias para gestionar los datos que faltan.
d. Contabilizar secuencias temporales.
4- Transformación:
a. Reducción y proyección de datos, que consiste en:
i. encontrar características útiles para representar los datos en
función del objetivo de la tarea.
ii. Usar métodos de reducción o transformación de dimensiones para
reducir el número de variables efectivas.
5- Minería de datos:
a. Elección de la tarea de minería de datos: decidir si el objetivo del proceso
de KDD es clasificación, regresión, clustering, etc.
b. Elección del algoritmo de minería de datos, que incluye la selección del
método que se usará para la búsqueda de patrones en los datos, decidir
qué modelos y parámetros pueden ser apropiados.
c. Ajuste del modelo al proceso de KDD.
d. Búsqueda de patrones.
6- Interpretación y evaluación:
a. Interpretar y evaluar resultados.
7- Pos-KDD:
a. Consolidar el conocimiento adquirido.
En el siguiente gráfico podemos ver las fases de la metodología KDD y en líneas de puntos
cuales de estas fases abarcan las pasos de la metodología SEMMA.
25
Comparativa de las metodologías:
Tecnologías
Las tecnologías de Customer Analytics son aquellas que forman parte de la inteligencia de
negocio, la analítica de negocio, Big Data y la gestión de datos.
26
Podemos encontrar dos tipos de plataformas: genéricas y especializadas. Las
plataformas genéricas permiten analizar cualquier tipo de dato corporativo. Las
plataformas especializadas están solo orientadas a los datos de clientes.
En ambos tipos de plataformas, las herramientas y técnicas con las que las organizaciones
capturan, procesan y analizan sus datos son:
1- Business Intelligence:
a. Herramientas de informes.
b. OLAP.
c. Cuadros de mando.
d. Herramientas de ETL y ELT.
e. Data Warehouse / Data Mart.
f. Análisis de la geolocalización de clientes (SIG BI).
g. Data Discovery.
2- Business Analytics:
a. Data mining (considerando regresión, segmentación, scoring y otros
modelos predictivos).
b. Text mining (que incluye, por ejemplo, análisis de sentimiento).
c. Content Analytics.
d. Técnicas y herramientas de visualización.
e. Análisis de caminos críticos y sendas de compras.
3- Big Data:
a. Tecnologías para el procesamiento de datos en formato batch.
b. Tecnologías para el procesamiento de datos en modalidad de streaming.
c. Tecnologías NoSQL.
4- Gestión de datos:
a. Gobernanza de datos.
b. Calidad de datos.
c. Orquestación de datos (data hub).
d. Federación de datos.
27
Las organizaciones siguen diferentes caminos para desarrollar su estrategia de Customer
analytics , y las plataformas actuales combinan varias de estas tecnologías.
La mayoría de organizaciones comienzan su andadura en la analítica de clientes con

técnicas de Business Intelligence y OLAP, para avanzar posteriormente a herramientas de
análisis predictivo y data mining. Son técnicas que pueden ser utilizadas en forma paralela
y complementaria.
El foco principal del BI (Bussiness Intelligence ) es proporcionar análisis descriptivo y de

diagnóstico. En algunas organizaciones se emplean herramientas de Data Discovery o
descubrimiento de datos, para permitir que usuarios no técnicos puedan realizar análisis
sencillos en modo autoservicio. Permite que los gestores de áreas de negocio se
familiaricen con los datos y de modo gráfico puedan plantear escenarios de what-if,
avanzando respecto a los reportes estandarizados.
Business Analytics
Los aspectos más avanzados de analítica de clientes son los métodos y herramientas de
data mining. Permiten que las organizaciones gestionen con rapidez grandes volúmenes
de datos, testar hipótesis, predecir propensiones de compra, estimar tasas de rotación
de clientes en distintos segmentos, determinar el valor del cliente y segmentarlo por
hogar e ingresos. Al utilizar métodos predictivos, el objetivo es anticipar el
comportamiento del cliente y detectar indicios de desvinculación o de impago de
servicios y productos, más que actuar de forma reactiva (forma en que suele obligar a
actuar a las organizaciones la realidad actual). Es decir, llegar a ser proactivos y controlar
factores de riesgo que afectan a las tasas de rotación de clientes. Las organizaciones
implementan análisis predictivos y técnicas de data mining para alcanzar diversos
28
objetivos, entre ellos descubrir qué variables (de los cientos o miles de ellas que manejan)
son discriminantes o más significativas para determinar la fidelidad de los clientes en
muchos segmentos, o en aquellos más rentables. Se construyen modelos estadísticos para
aflorar patrones de comportamiento, propensión de compra, sendas de desvinculación,
así como determinar momentos propensos para las acciones comerciales que garanticen
una mayor efectividad en la venta cruzada de productos y servicios.
Las herramientas y técnicas de estadística avanzada se usan también para desarrollar y

desplegar scorings comportamentales para decidir el ajuste de los límites de capacidad de
compra de un cliente, y una amplia gama de análisis de sensibilidad en su ciclo de vida.
Big Data
Permite a las organizaciones capturar, procesar y analizar grandes volúmenes de datos,

de múltiples fuentes y a una gran velocidad. Suelen desarrollarse sobre entornos de
capacidad de procesamiento en paralelo y de forma masiva. Las tecnologías de Big Data
pueden combinarse con las de Business Intelligence y Business Analytics y así desplegar
todo tipo de análisis sobre datos que presentan una mayor complejidad, para esto es
necesario integrar la información procedente del comportamiento del cliente en el
mundo online y offline. La integración de las diferentes fuentes de datos supone realizar
la gestión de los mismos, con procesos sofisticados y estructuración en función de los
resultados obtenidos. Ello puede ser complejo con sistemas de bases de datos relacionales
dado que requieren estructurarlos de forma extensiva para que el sistema reconozca cada
vez qué tablas debe abordar al lanzar una consulta. Para ello las organizaciones deberán
desarrollar nuevas metodologías de gestión y almacenamiento de los datos (Hadoop,
MongoDB, etc.).
Tipo de análisis
Existen múltiples análisis dentro de la analítica de cliente y pueden vincularse a estrategias

de cliente , por ejemplo podemos crear una vista del cliente de 720 grados (esto es
disponer de un acceso completo a todos los canales con los que el cliente interacciona,
tanto online como offline (la tienda), Este subconjunto selectivo comprende datos
internos generados a través de la aplicación, que forman la primera vista 360º, y la
disponibilidad de información de usuario enriquecida de las redes sociales se abre camino
para el otro 360º ) combinando datos estructurados , semiestructurados y no
estructurados , podemos hacer la segmentación del cliente (esta tiene como objetivo
tratar a cada cliente por separado y proporcionar una vista personalizada de las ofertas.
Uno de los enfoques más comunes incluye la agrupación de la población del cliente en
diferentes niveles según sus acciones.), estudiar el compromiso y la retención de clientes
29
(esto es comprender realmente las necesidades del cliente y atenderlo con la mayor
relevancia y la menor latencia posible. Se usan modelos de propensión y de elevación, se
calcula la rotación, etc), gestión de inventario inteligente (la vinculación de los datos
generados a través de las interacciones cliente producto (pedidos, revisiones, clics a
páginas, etcétera) y las transacciones generadas por proveedores pueden ser utilizadas
por los sistemas de gestión para controlar el pedido y la distribución de productos a lo
largo de la cadena de suministro extendida de una compañía.)
En la siguiente tabla podemos observar diferentes estrategias de cliente y los tipos de

análisis que se pueden aplicar:
30
Pero también el tipo de análisis dentro de la analítica del cliente se puede vincular al
conocimiento de cliente que se busca generar. Existen diferentes categorías de
conocimiento: comportamiento, rentabilidad, ciclo de vida, fidelización, interés y
campañas.
Comportamiento
Se busca comprender patrones y comportamiento del cliente, por ejemplo:
31
- Puntualidad
- Índice de riesgo
- Patrones de compra
- Análisis de afinidad (por ejemplo objetos que tienden a comprarse juntos).
- Análisis de propensión (por ejemplo quien tiende a comprar que cosas)
- Cuál es el perfil de los clientes que compran por un canal determinado:
o Perfiles por puntualidad
o Perfiles por riesgo
o Patrones de eventos (comportamiento de compra durante eventos)
Rentabilidad
Se busca comprender el valor monetario del cliente.
- Rentabilidad actual
- Rentabilidad potencial.
- Rentabilidad futura.
- Perfiles de rentabilidad
- Conversión de rentabilidad
- Cuota de cartera o wallet share (por ejemplo que porcentaje del presupuesto gasta
el cliente en nuestros servicios y productos)
Ciclo de vida
Se busca comprender la relación del cliente y la organización a largo plazo. Comprende

entre otros factores:
- Valor a lo largo del ciclo de vida (LTV o life time value) a partir de la rentabilidad
presente, potencial y futura se determina el valor neto total estimado del cliente.
- Valor potencial a lo largo del ciclo de vida (LTV potencial )
- Perfiles por valor del ciclo de vida.
Fidelización
Se busca conocer el grado de fidelización a la organización del cliente, implica ciertos

aspectos:
- Recencia (cuan recientemente compro el cliente)

- Frecuencia
- Valor monetario (cuánto gasta el cliente)
- Churn (por ejemplo cuantos clientes abandonan los productos y servicios por los
competidores).
32
- Adquisición (por ejemplo cuales son los posibles clientes de la empresa)
- Retención (que clientes son propensos a desertar y si vale la pena conservarlos)
- Crecimiento (por ejemplo convertir un cliente en leal)
- Perfiles RFM
- Perfiles de retención (que perfiles tiene el cliente proclive a abandonarnos)
- Perfiles de crecimiento
Interés
Se busca conocer la probabilidad que los clientes respondan a estímulos de marketing,

implica:
- Índice de respuesta (probabilidad que responda a un futuro evento)

- Modelización de la respuesta (por ejemplo que tipo de cliente es más probable que
responda a un evento futuro)
- Análisis de la respuesta
- Perfiles de respuesta (por ejemplo como son los perfiles de los clientes que
responden a un evento).
Campañas
Se busca comprender todos los factores asociados a determinado evento o campaña.

Implica entre otras cosas:
- Índice de respuesta
- ROI (es el retorno de la inversión)
- Valor añadido estimado (valor que añadió la campaña en comparación a no hacer
nada)
- Levantamiento (que parte de la actividad de compra se puede atribuir a esta
campaña)
- Efectividad de eventos
- Carnibalización de la rentabilidad (como ha afectado el evento a la rentabilidad )
- Carnibalización de eventos (si el evento ha producido una reducción de las ventas
en otro canal o región).
- Rentabilidad del evento (cuál fue el crecimiento de ventas atribuible al evento)
- Eficacia cross-canal el (efecto en el impacto de compra en cada canal)
- Efectividad del medio (que medio es más eficaz y cual es menos eficaz)
La siguiente tabla presenta algunos tipos de análisis de datos de cliente basados en las
categorías de conocimiento y los vincula con algunas de las tecnologías, métodos usados y
capacidades necesarias.
33
34
35
Ejemplos del customer analytics
Entre otros ejemplos vemos:
Calcular el CLV (sirve para identificar el valor que tiene el cliente para la
organización).Para esto se usa la fórmula:
Dónde:
– pt es el precio pagado por el cliente en el periodo t.

- ct es el coste del servicio o producto ofrecido al cliente durante el periodo t.
- rt es la tasa de retención o probabilidad de que el cliente repita la compra durante
el periodo t.
- AC es el coste de adquisición del cliente.
- i es la tasa de descuento.
- T es el horizonte temporal del análisis
Segmentación de clientes basada en el CLV
Supongamos que tenemos 10 clientes y para cada cliente tenemos su CLV durante el
periodo anterior, el área, el sexo y la antigüedad.
Podremos segmentar por área, por sexo, por antigüedad, por CLV (si están por encima o
por debajo del CLV promedio), así se dispondrá de varias opciones para la realización de
acciones de marketing que apoyen la estrategia de una compañía.
Análisis de la cesta de compra
Uno de los análisis más usados en todos aquellos sectores que tienen una componente de
retail: el análisis de afinidad (es un análisis de datos y una técnica de minería de datos que
busca relaciones entre actividades realizadas (o registradas) de individuos, grupos u
objetos.), y busca comprender las asociaciones entre productos comprados. Este análisis
de puede usar para:
- Mejorar la colocación de los productos en un supermercado, catálogo o web de

comercio electrónico. Aquellos productos que se compran juntos, si se posicionan
cerca, permiten influenciar al comprador para adquirirlos.
36
- Pack de productos. Aquellos productos que se compran conjuntamente pueden
agruparse en packs/ofertas para potenciar su compra.
- Retención de clientes. En el momento en que un cliente quiere cortar la relación
con la compañía, los resultados del análisis de compra se pueden usar para crear
argumentos con productos interesantes para evitar la fuga del cliente.
El análisis de la cesta de compra puede ser efectuado mediante uso de lenguaje R ,

usando la librería arules (que permite aplicar técnicas de minería de datos a conjuntos de
elementos frecuentes y reglas de asociación para descubrir relaciones interesantes entre
variables.). Vinculada a la librería arules existe la librería arulesviz que está orientada a la
visualización de los resultados obtenidos con la anterior librería. En el proceso se
identifican reglas de asociación y sabiendo aquellas reglas que son relevantes, es
necesario también validar a qué porcentaje de transacciones afectará realizar una acción
sobre las mismas.
Ejemplos de empresas que usan Customer analytics
Muchas empresas usan Customer Analytics para generar valor tanto para la empresa
como para el cliente, y han sido capaces de crear de forma efectiva ventajas
competitivas respecto a sus competidores. Tienen además diversas estrategias en
paralelo para mejorar la experiencia del cliente.
Algunas de ellas son:
IBERIA (usa un programa de fidelización de clientes, le permite poder conocer el valor del
cliente en una segmentación multidimensional y reconocer patrones de comportamiento
y consumo de clientes) y el beneficio para el cliente es que le ofrece campañas
personalizadas, eventos de gamificación, programa de puntos intercambiables por vuelos,
compromiso de calidad, mejorando su satisfacción.
CaixaBank (entre sus iniciativas esta un programa de fidelización por puntos, que le
aporta como valor un conocimiento superior del cliente, aumentando el valor por
transacción y fomentando las venta cruzadas).El cliente recibe ofertas personalizadas,
pudiendo cambiar los puntos por regalos y viajes o donarlos a programas de solidaridad.
Amazon (la compañía captura las preferencias en tiempo real de sus clientes y las
combina con el histórico de ventas para recomendar productos. Aumenta el CLV por
cliente, el valor por transacción y posibilita la venta cruzada y complementaria).Se le
ofrece al cliente productos basados en sus preferencias y ofertas en tiempo real,
incrementando su satisfacción y curiosidad por consumir nuevos productos.
Nespresso, MetLife, Netflix ,etc son otras empresas que implementan customer analitics.
37
Visualización de la información del cliente
Con Internet, se pueden aislar variables con alto nivel de precisión dado que permite
recopilar una cantidad masiva de datos analíticos del cliente que pueden desglosarse,
segmentarse y aislarse de acuerdo con cualquier variable que se pueda desear. Utilizando
datos de análisis de clientes en línea ampliamente disponibles y de bajo costo
adquiridos, se podrá: comparar rápidamente datos acumulados con históricos,
determinar de dónde provienen los datos, saber si una campaña de marketing particular
produjo una tasa de conversión más grande o pequeña que otras, saber dónde se
pierden clientes durante el embudo de ventas, conocer si ciertas campañas de mercadeo
resultan en mayores ventas de un producto sobre otro, etc.
Las herramientas de descubrimiento de datos basadas en la visualización permiten a los

usuarios empresariales mezclar fuentes de datos dispares para crear vistas analíticas
personalizadas con flexibilidad y facilidad de uso que no existían antes. Los análisis
avanzados se integran en las herramientas para respaldar la creación de procesos
interactivos, gráficos animados, así como en dispositivos móviles potentes como
teléfonos inteligentes y computadoras portátiles.
Ahora todos los usuarios en la empresa, no solamente los analistas de datos pueden usar
sus propios dispositivos móviles para explorar fácilmente los datos, descubrir tendencias y
patrones y comunicar sus hallazgos a otros miembros del equipo y otras audiencias. Es un
autoservicio de bussiness intelligence.
Las herramientas de detección de datos basadas en la visualización posibilitan entre otras

características:
-  habilitar el análisis de datos en tiempo real;

 apoyar la creación en tiempo real de presentaciones dinámicas e interactivas e
informes;
-  permitir a los usuarios finales interactuar con los datos, a menudo en
dispositivos móviles;
Además estas herramientas proporcionan características extras para las búsquedas:
- capacidad de visualizar y explorar datos tanto en la base de datos como en la

memoria;
- tablero de control que muestra la actividad del usuario y la procedencia de
datos;
- compresión de datos en la memoria para permitir el manejo de grandes
conjuntos de datos sin aumentar los costos de hardware;
38
- optimización de soluciones para usar con dispositivos móviles con capacidad
táctil.
Módulo 4
Visualización de datos
La visualización de datos es la presentación de los datos en un formato gráfico o

pictórico. Permite a los responsables de la toma de decisiones ver los análisis
presentados visualmente, para que puedan captar conceptos difíciles o identificar
nuevos patrones.
Entre las características y cuestiones que permite la visualización de datos tenemos:
- Entender los datos (hacen entendible desde un punto de vista empresarial los
datos).
- Variedad de gráficos (los gráficos generados pueden ser de muchos tipos,
diseñados prácticamente a demanda del negocio).
- Definición de gráficos (el cliente define claras y sencillas interpretaciones de los de
los datos a partir de métricas personalizadas y definidas por ellos mismos).
- Comprender los datos (su objetivo es comprender más fácilmente los datos
masivos que disponemos para poder tomar las mejores decisiones estratégicas)
Según todo lo que vimos anteriormente a lo largo de los módulos de la materia, podemos
entender que las decisiones que motivan a las empresas a trabajar con big data y aplicar
posteriormente análisis y business intelligence son decisiones estratégicas realizadas por
perfiles directivos que no necesariamente tienen que tener formación técnica. Es
entonces que se debe contemplar la generación de gráficos como una manera
entendible de dar datos y ofrecer conclusiones. Ya no se utilizan más densos reportes e
informes, dado que estos no eran útiles y la información era estática, era una radiografía
concreta de un momento exacto.
Al momento de realizar reportes de visualización de datos en una empresa deben

considerarse entre otros los siguientes aspectos:
- La calidad de los datos.

- La necesidad por parte del negocio o un área determinada de la organización.
- La disponibilidad de los datos en un almacén de datos.
39
La visualización de los datos es la última etapa del proceso de gestión de big data en la
empresa y va a permitir hacer entendible desde un punto de vista empresarial datos que
fueron previamente trabajados en entornos de matemática y estadística. Hace
referencia a aquellas posibilidades gráficas de mostrar información y cruces de datos de
una manera fácil. Los gráficos generados pueden ser de muchos tipos, diseñados
prácticamente a demanda del negocio (pueden usarse herramientas personalizadas de
visualización de datos). También pueden estar incluidos en los cuadros de mando,
también llamados scorecard que son modelos comprensibles que muestran en tiempo
real datos masivos y análisis y también, pueden incluir mapas de calor, diagramas de
dispersión o incluso nubes de palabras que permitan la interación con el usuario.
Las empresas tienden en su mayoría a contratar software de visualización en lugar de

desarrollar sus propios entornos y herramientas de business intelligence y visualización.
Entre las razones por las cuales lo hacen tenemos: herramientas con las últimas
actualizaciones, entornos personalizables, no hay pérdida de tiempo en desarrollo ni
contratación de personal para creación de entorno de business intelligence y entorno de
visualización. Pero, sobre todo, la principal ventaja de contar con este tipo de
plataformas deriva de no tener que contar con una gran estructura de costes, ahorrando
dinero y tiempo.
En general, estas plataformas aplican una capa de inteligencia de negocio para lograr
ofrecer claras y sencillas interpretaciones de los datos a partir de unas métricas
personalizadas y definidas por el cliente, permitiéndole interactuar en tiempo real con los
datos disponibles y ser accesibles tanto para cualquier usuario interno de la empresa
como para un usuario en internet, dependiendo de la estrategia de negocio.
Algunas de las principales plataformas de visualización de datos son:
- Qlikview trabaja con analítica de datos y business intelligence generando

visualización a través de cuadros de mando. Trabaja en la línea de herramientas de
business discovery (se entiende al usuario como creador de contenido,
permitiendo acceso a los datos a todo el personal de datos no solo a unidades de
negocio competentes).
- Tableau es quizá la plataforma de BI y visualización de datos más demandadas en
el sector audiovisual y ofrece análisis en la nube, análisis rápido.
- Microstrategy , proveedor líder en software para empresas ofrece herramientas
de visualización y es la plataforma empleada por Netflix para generación de
dashboards.
40
- Existen otras herramientas más centradas en la visualización que en BI ,por
ejemplo CartoDB un servicio en la nube de visualización de datos en mapas con
tecnología open source, SaaS (software asa service).
Hay muchas más herramientas de software de visualización de datos y generación de

infografías, herramientas freemiun y de pago, privadas y open source: Mapbox, ArcGis,
Easel.ly, Infogr. am, Visual.ly, Tagxedo, etcétera.
El objetivo de todas las herramientas de visualización es comprender más fácilmente los
datos masivos de los que disponemos, para poder tomar las mejores decisiones
estratégicas.
La visualización de datos, sumada al razonamiento analítico a partir de ellos, es la
disciplina denominada visual analytics.
Como vimos la visualización en sí ayuda a ver los datos más claramente, entendiéndolos
sin necesidad de tener perfiles técnicos. Pero es importante que estas visualizaciones
cuenten con análisis estadístico, big data, análisis predictivo, ingeniería de datos, acceso
a los mismos en tiempo real e incluso conocimientos de diseño a la hora de emplear
colores y su correspondiente significado asociado a las culturas. No deben ser estáticas
sino ofrecer nuevas maneras de contar las cosas. Ayudan a entender mejor el mundo y
tomar decisiones más rápidas y mejores, aprovechando todos los recursos disponibles de
forma creativa.
La importancia de la visualización de datos también radica en que usar diagramas o

gráficos para visualizar grandes cantidades de datos complejos es más fácil que leer
detenidamente hojas de cálculo o informes. La visualización de datos es una manera
rápida y fácil de transmitir conceptos de forma universal, y es posible experimentar con
diferentes escenarios haciendo pequeños ajustes. Mediante esta también se puede:
- Identificar las áreas que necesitan atención o mejora;

- aclarar qué factores influyen en el comportamiento del cliente;
- ayudar a entender qué productos colocar y dónde;
- predecir volúmenes de ventas.
Las empresas la utilizan cada vez más dado que le ayuda a dar sentido a sus datos y
permite además: comprender información rápidamente (es más fácil y rápido analizar
información presentada en formato gráfico y así pueden ver grandes cantidades de datos
de forma clara y cohesiva y sacar conclusiones de esa información) , identificar tendencias
emergentes (esto es le brinda ventajas competitivas y poder detectar valores atípicos que
afectan la calidad del producto o la rotación de clientes y abordar problemas simples
antes que sean mayores.), identificar relaciones y patrones (permite reconocer
parámetros altamente correlacionados en medio de grandes cantidades de datos, esto
ayuda a las organizaciones a enfocarse en las áreas con más probabilidades de influir en
sus objetivos más importantes), comunicar la historia a otros (es posible comunicar las
ideas a los demás de forma más rápida y atractiva mediante diagramas, gráficos u otras
representaciones de datos visuales).
41
Visualización de la información
La visualización de datos como vimos ayuda a las personas a comprender la importancia

de los datos, colocándolos en un contexto visual (los patrones, tendencias y correlaciones
son más difíciles de reconocer en un formato texto) y para esto usamos diferentes
software de visualización de datos. Estas herramientas muestran los datos de formas
más sofisticadas que por ejemplo los gráficos y planillas de cálculo de Excel, valiéndose
de infografías, tacómetros, mapas geográficos, mapas de calor y gráficos detallados de
barra o torta. Las imágenes pueden incluir capacidades interactivas, lo que le permite a
al usuario manipularlas o profundizar en los datos para consultas y análisis. También se
pueden incluir indicadores diseñados para alertar al usuario cuando se actualizan los
datos o se producen condiciones predefinidas. Actualmente prácticamente todo el
software BI (Bussiness Intelligence) tiene una sólida funcionalidad de visualización de
datos.
Además las herramientas de visualización de datos han sido importantes para

democratizar los datos y el análisis y poner a disposición de los trabajadores las ideas
basadas en datos para toda la organización y son más fáciles de usar que el software de
análisis estadístico tradicional. También juegan un papel importante en big data y en
proyectos avanzados de análisis. Cuando un científico de datos está escribiendo
avanzados análisis predictivos o algoritmos de aprendizaje automático, es importante
visualizar los resultados para monitorearlos y garantizar que los modelos funcionen
según lo previsto y la visualización de algoritmos complejos en la forma en gráficos es
más fácil de interpretar que las salidas numéricas.
El uso más común hoy en día de estas herramientas es como una herramienta de
informes de BI. Los usuarios pueden configurarlas para generar cuadros de mando
automáticos que realicen un seguimiento del rendimiento de la empresa a través de
indicadores clave de rendimiento e interpretar visualmente los resultados siendo
implementadas en muchos de los departamentos de la empresa.
En la actualidad estas herramientas se van utilizando cada vez más como interfaces
para entornos de datos más sofisticados, y ayuda a los ingenieros de datos y científicos
a realizar un seguimiento de las fuentes de datos y hacer un análisis exploratorio básico de
los conjuntos de datos antes o después de análisis avanzados más detallados.
Cuadros de mando o paneles de inteligencia empresarial. o dashboard.
Los cuadros de mando son una herramienta de visualización de datos que muestra el
estado actual de las métricas y los indicadores claves de rendimiento (KPI) para una
empresa. Los paneles consolidan y organizan números, métricas y, en ocasiones, tablas de
puntuación de rendimiento en una sola pantalla, pudiendo programarse para ser más
específicos y solo mostrar métricas dirigidas a un único punto de vista o departamento.
42
Las características esenciales de un producto de tablero de BI incluyen: una interfaz
personalizable y la capacidad de extraer datos en tiempo real de múltiples fuentes.
Algunas empresas proveedoras de este tipo de aplicaciones son SAP, Oracle y Microsoft,
aunque también pueden implementarse los cuadros de mando con Excel.
Data discovery
La visualización y el análisis exploratorio de datos para usuarios empresariales (conocido

como descubrimiento de datos) se han convertido en el tema de inteligencia empresarial
(bussiness intelligence) y análisis más novedoso en el mercado actual. Es un proceso
empresarial orientado al usuario para detectar patrones y valores atípicos mediante la
navegación visual de datos o la aplicación de análisis avanzados guiados. Es un proceso
iterativo que no requiere una amplia creación de modelos iniciales. Lo agrupamos en tres
categorías principales:
- preparación de datos;( La integración de datos y la preparación de datos (es decir,

la integración de datos para usuarios comerciales) ayuda a los usuarios
empresariales a conectarse a fuentes de datos externas y empresariales
relevantes, los usuarios requieren funciones flexibles para poder acceder de
manera eficiente y preparar sus datos para su análisis. Los tipos de visualización
interactiva y nueva permiten a los responsables de la toma de decisiones ver, en
un instante, las principales tendencias, así como detectar los valores atípicos. Los
usuarios son mejores para encontrar ideas y detectar valores atípicos si los datos
se presentan en cuadros y gráficos en una página, en lugar de estar en tablas de
datos que abarcan varias páginas.
- análisis visual;( es una característica importante que buscan cada vez más las
empresas que requieren formas más eficientes para que los responsables de la
toma de decisiones puedan absorber y actuar sobre los datos.)
- análisis avanzados. (proporcionan información estadística sobre los datos que los
usuarios pueden emplear para un análisis de datos más sofisticado y orientado a
patrones.)
La importancia del descubrimiento de datos está dada en que es un enfoque basado en

datos que va más allá de la simple presentación de informes y la supervisión del
rendimiento de la organización, que ha sido el núcleo de las iniciativas tradicionales de
BI. El objetivo es explotar el valor total de los datos para no solo mejorar la toma de
decisiones, sino también para tener un impacto directo en la optimización de los
procesos comerciales y para alimentar nuevos modelos comerciales. Se va a extraer
43
conocimiento y patrones a partir de estos, basándose las decisiones operativas en datos
y perspectivas .Para esto último se necesita proporcionar información relevante y
confiable de manera oportuna a los empleados y para eso se precisa la democratización
del uso de datos para permitir que tantos empleados como sea posible revelen
información sobre datos corporativos o externos. Conceptos tales como la gobernanza
son importantes para garantizar la reutilización de los conocimientos adquiridos a partir
del proceso de descubrimiento de dato.
El software de descubrimiento de datos cumple todas estas demandas mencionadas

mucho mejor que la mayoría de los paquetes de software de inteligencia de negocios
tradicionales, por eso su auge.
Visual analytics y Big data
Actualmente se producen un gran volumen de datos en poco tiempo y provienen de

diversas fuentes, esto conlleva la necesidad de nuevas formas de almacenar los datos y
nuevas arquitecturas de indexación. Los procesos de almacenamiento de datos se han
adaptado al crecimiento de los volúmenes de datos que se almacenarán. Las técnicas de
administración de bases de datos NoSQL (no solo SQL) superan < las actuales soluciones
de administración de bases de datos SQL y están impulsando el surgimiento de un
enfoque completamente nuevo para las arquitecturas de bases de datos.
Big analytics se basa en algoritmos y se necesitan diferentes algoritmos para datos

estructurados, no estructurados y parcialmente estructurados. Al saber cómo se estructuran
los datos, por ejemplo los procesos estadísticos se pueden utilizar para muestrear los
conjuntos de datos y sacar conclusiones de una población más pequeña sin la necesidad de un
análisis exhaustivo de las cantidades a menudo significativas de datos disponible. Esto se
denomina análisis impulsado por hipótesis (dado que supone que ciertos aspectos de la
población analizada son verdaderos desde el principio).
Vemos que el Big data, con sus vastos volúmenes de datos, es en gran medida inútil sin la
funcionalidad de análisis y presentación de datos que se encuentra en las herramientas de
análisis visual, permitiendo detectar con mayor facilidad anomalías y tendencias en los
datos. Debido a su gran volumen, big data es difícil de analizar de manera significativa para el
valor comercial.
El análisis visual es un componente del software de inteligencia empresarial que hace

hincapié en:
- Visualizaciones o gráficos como salida

- Una interfaz gráfica notablemente fácil.
44
El software de inteligencia empresarial es un conjunto de herramientas para la adquisición y
transformación de datos brutos en información significativa y útil para fines de análisis y
mejora del negocio.
Sin embargo, la inteligencia empresarial se ve afectada por la falta de:
- calidad de datos como valores incorrectos o faltantes;

- datos secundarios o de apoyo;
- mano de obra de análisis;
- apertura organizacional a nuevos resultados.
Los informes clásicos son demasiado pesados para el big data, así algunas organizaciones han
creado una importante herramienta de software y realizado inversiones de desarrollo para
tener una biblioteca de informes de análisis de datos reutilizables (el usuario final puede
variar dinámicamente los criterios de selección de datos.).
Ventajas de los informes reutilizables:
- producen un excelente resultado para consultas rutinarias;

- ofrecen resultados confiables y consistentes porque los informes son
cuidadosamente desarrollados y probados;
- se pueden producir de manera eficiente cuando el volumen de datos es modesto y la
cantidad de fuentes de datos es baja.
Desventajas de los informes reutilizables:
- No son de autoservicio.
- Requieren mejorar las habilidades de desarrollo de software . Por lo tanto, su éxito
depende completamente de la capacidad de respuesta del departamento de TI.
- Requieren mantenimiento de software cuando se actualicen las versiones de las
aplicaciones subyacentes.
- No son compatibles con la exploración de los datos.
- Pueden o no proporcionar funcionalidad básica de gráficos.
- Se ahogarán cuando haya grandes volúmenes de datos o crezca la cantidad de
fuentes de datos.
- Tienden a proliferar con el tiempo, ya que se crean muchas versiones con pequeñas
diferencias.
En contrapartida al uso de los informes reutilizables sabemos que Excel es la herramienta más
usada para el análisis de datos, incluso por sobre las plataformas genéricas de inteligencia
de negocio. Se usa ampliamente y con éxito en organizaciones pequeñas con aplicaciones
generalmente primitivas, herramientas simples y volúmenes de datos modestos. También se
usa ampliamente como una poderosa herramienta de productividad personal dentro de
muchas organizaciones más grandes donde la capacidad de respuesta del departamento de TI
es un problema. Pero presenta una serie de desventajas:
45
- limita severamente el volumen de datos que se puede consultar con éxito;
- restringe la cantidad de fuentes de datos a las que se puede acceder;
- utiliza una sintaxis que dificulta la programación y la depuración;
- produce salida primitiva;
- no es escalable para múltiples usuarios finales;
- está desprovisto de características de gestión de nivel empresarial.
En definitiva Excel, no es la herramienta más adecuada para la integración, consolidación,

limpieza de datos, ni tampoco para el análisis de datos desde múltiples fuentes de origen.
46

Resumen Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen Big Data

Cargado por

Copyright:

Formatos disponibles

Módulo 1

Las empresas comienzan a comprender y explorar cómo procesar y analizar de nuevas

Las v del big data:

Volumen (referencia al tamaño de los datos)

Velocidad (rapidez de cambio)

Variedad (diferentes fuentes de datos)

Valor (valor para el negocio)

Se ha logado almacenar y gestionar de forma eficiente todo este volumen de información,

Características y conceptos del big data:

- Contenido en Web y medios o redes sociales

Puede beneficiarlas en áreas como el conocimiento del cliente , marketing , operaciones, y

- Implementación de mejoras tecnológicas que posibilitan la adquisición de datos y

- Veracidad (Los datos inadecuados pueden causar varios problemas a las

- La exploración de grandes datos: (le velocidad con que se producen, el volumen, y

Perfiles profesionales del Big Data

- Chief Data Officer: es el responsable de asegurar que la organización es data

Presente y futuro del Big Data

Hay varios ejemplos de uso:

Evolución del big data en la empresa

Presente y futuro para las empresas

El análisis de datos masivos también permite adelantarse a futuras conductas de

La clave del éxito

El big data puede responder al problema del creciente envejecimiento de la población

Descubriendo valor en los datos

El término descubrimiento de conocimiento en bases de datos, o KDD (del inglés

El objetivo unificador del proceso KDD es extraer conocimiento de datos en el contexto

El proceso general de encontrar e interpretar patrones a partir de datos implica la

1) Desarrollar un entendimiento de:

2) Creación de un conjunto de datos de destino: selección de un conjunto de datos o

3) Limpieza y preprocesamiento de datos:

a. eliminación de ruidos o valores extremos;

4) Reducción y proyección de datos.

a. Encontrar características útiles para representar los datos dependiendo

b. Utilizar métodos de reducción de la dimensionalidad o de transformación

5) Elegir la tarea de minería de datos.

a. Decidir si el objetivo del proceso KDD es la clasificación, regresión, agrupación,

a. Selección de métodos que se utilizarán para buscar patrones en los datos.

b. Decidir qué modelos y parámetros pueden ser apropiados.

c. Emparejar un método particular de minería de datos con los criterios

a. Búsqueda de patrones de interés en una forma representacional

8) Interpretación de patrones minados.

9) Consolidar el conocimiento descubierto.

KDD se refiere al proceso general de descubrir conocimientos útiles a partir de datos.

En cambio, la minería de datos se refiere a la aplicación de algoritmos para extraer

El descubrimiento de conocimientos en bases de datos es el proceso(KDD es un proceso

Paper la minería de datos al servicio de la publicidad personalizada

Almacenes de datos (o datawarehouse)

Normalmente un almacén de datos se aloja en un servidor de mainframe corporativo o en

Otros beneficios de un almacén de datos son la capacidad de analizar datos de múltiples

EL problema de los actuales soportes de almacenamiento de datos es que algunos discos

Arquitectura de almacenes de datos

Un almacén de datos y una arquitectura de BI de próxima generación están emergiendo

2) Gestión de fuentes de datos nuevas e inusuales a través de nuevos conceptos, tales

3) Nuevas opciones de implementación, como la nube, dispositivos móviles y

A la necesidad de nuevas tecnologías se suma la creciente presión en las empresas para

Una arquitectura de almacén de datos en capas consta principalmente de tres capas:

- En primer lugar se crea un repositorio de documentos para almacenar informes

La arquitectura del almacén de datos debe ir más allá de lo tradicional y se ha planteado

En la arquitectura tradicional se tiene un almacén de datos y datamarts dependientes ,.

Es el proceso de encontrar anomalías, patrones y correlaciones dentro de grandes

Importancia de la minería de datos

El proceso de minería de datos esta constituido por las siguientes partes:

La minería de datos se usa en ámbitos tales como comunicaciones, seguro, educación,