Big Data

BIG DATA,
ANALYTICS Y
DATA SCIENCE
2022
AGENDA
▪ BIG DATA
▪ BUSINESS INTELLIGENCE
▪ DATA SCIENCE
▪ ANALITICA AVANZADA
– ANALITICA PREDICTIVA
– ANALITICA PRESCRIPTIVA
– ANALITICA COGNITIVA
“La información es la gasolina del siglo XXI,
y la analítica de datos el motor de combustión”
Peter Sondergaard
POBLACION MUNDIAL VS DISPOSITIVOS CONECTADOS
CADA MINUTO DEL DIA – DATOS 2021
TENDENCIAS TECNOLOGICAS DE TRANSFORMACION DIGITAL
REDES SOCIALES Cloud computing ciberseguridad
REALIDAD VIRTUAL wereables Industria 4.0
REALIDAD AUMENTADA Inteligencia artificial Big data
Internet de las cosas blockchain Analítica de datos
Todas estas tecnologías generan datos e información que puede ser procesada, correlacionada, analizada y transformada para
generar valor, pero es un verdadero reto porque son volúmenes gigantes de información que deben ser procesados en el menor
tiempo posible o en tiempo real para generar conclusiones y tomar decisiones.
APLICACIONES
CLIENTE PRODUCTO PROCESO

Redes sociales, plataformas Innovación abierta, open source, pago Cloud computing, sistemas mobile,
colaborativas, foros, blogs, privacidad de por uso de servicio, sistemas basados en Internet of things, big data, analítica de
los datos, desintermediación, medios de geolocalización, realidad virtual, realidad datos, Inteligencia Artificial y chatbots
pago globales, block chain, UX user aumentada, impresoras 3d, wereables
experience
HISTORIA
• En 2010 las empresas ya tenían datos, tenían sistemas pero se encontraron con un
volumen de datos inmenso y diversidad de datos que no estaban estructurados y no
relacionados que no conseguían transformar en información útil.
• El desafío fue hacer la experiencia de usuario, que ese levantamiento de datos sea
posible, donde quiera que fuera generado y que la interpretación de esos datos con
algoritmos analíticos, sea posible.
DEFINICIONES
Los términos utilizados en el análisis de datos a menudo suele crear confusión, por eso es importante revisar las siguientes definiciones.
• BIG DATA • BUSINESS • BUSINESS • DATA SCIENCE

Es una herramienta clave para ordenar y
INTELLIGENCE BI ANALYTICS Es la ciencia que unifica las
almacenar cantidades masivas de datos para
estadisticas, análisis de datos,
su análisis y ayuda a identificar oportunidades El BI está orientado al pasado, analiza los
El Business Analytics se enfoca al aprendizaje automático para
de negocio y estrategias de Mercado. Trabaja datos históricos de la empresa y ayuda a futuro, es decir, facilita la creación de comprender mejor las situaciones
con datos provenientes de diversas fuentes, comprender su trayectoria. La tarea del una visión futurible basado en empleando técnicas y conceptos
tanto estructuradas como no estructuradas. El Business Intelligence es almacenar datos modelos predictivos que influyen en de las matemáticas, ciencia de la
big data se orienta a predicciones futuras y estructurados en un servidor central, para la toma de nuevos caminos información, informática, etc.
realiza análisis exhaustivos que permitan crear posteriormente analizarlos y tomar y estrategias.
estrategias a largo plazo. decisiones basadas en los datos históricos de
la empresa y sus patrones. El BI trata de EL BA trabaja con el objetivo de no
Trabajan aquí matemáticos e ingenieros corregir errores operativos con criterios de cometer fallos a futuro.
inmediatez.
Trabajan aquí expertos en Administración de

empresas, economistas, técnicos, etc.
BIG DATA BIG DATA es un término de origen inglés que quiere decir “datos
masivos”
Existen muchas definiciones alrededor de Big Data pero se puede

resumir en el conjunto de datos cuyo tamaño supera
considerablemente la capacidad de captura, almacenado, gestión
y análisis del software convencional de bases de datos.
Ya se supera los terabytes (1.024 Gigabytes) planteando

problemas de Terabytes (1.024 Terabytes) e incluso mayores
tamaños.
Pero este concepto no hace referencia simplemente al tamaño de

la información, sino también a la variedad del contenido y a la
velocidad con la que los datos se generan, almacenan y analizan.
REFERENCIA LIBRO: Ciencia de Datos. Técnicas analíticas y aprendizaje estadístico , Jesús García´- José Molina – Antonio
Berlanga – Miguel A. Patricio – Alvaro L Bustamante – Washington R Padilla, Bogotá, 2018
BIG DATA
Estas dimensiones son las “3V” con las que
Gartner describió al Biga Data:
Los desafíos del big data comprenden:

• Volumen
• Velocidad
• Variabilidad de los datos
Sin embargo algunas organizaciones también
incluyen:
• Veracidad
• Complejidad
BIG DATA
DIMENSION CONCEPTO EJEMPLO
• Walmart (Cadena de supermercados americana) almacena
más de 1 millón de transacciones comerciales cada hora
identificando los productos que compran sus clientes.
Es el gran volumen de datos que se • Facebook (Red social) almacena mas de 100 mil gigas de
VOLUMEN generan diariamente en las empresas y información diariamente.
organizaciones de todo el mundo • App Store (Tienda online) registra 72 millones de descargas
de la tienda
Se trata de los flujos de datos, la • Big data debe ser capaz de almacenar y trabajar en tiempo
creación de registros estructurados y la real con las fuentes generadoras de información como
disponibilidad para el acceso y la sensores, redes sociales, blogs, páginas webs, etc. que
VELOCIDAD entrega. Es decir, qué tan rápido se generan millones de datos.
están produciendo los datos, así como • Biga data debe tener la capacidad de analizar dichos datos
la rapidez en la que se trata de con la suficiente rapidez reduciendo los largos tiempos de
satisfacer la demanda de estos. procesamientos que presentaban las herramientas
tradicionales de análisis.
BIG DATA
DIMENSION CONCEPTO EJEMPLO
Esta variedad de datos incluye:
• Datos estructurados (bases de datos)
• Datos no estructurados
Es la capacidad de combinar una gran • Datos jerárquicos
VARIEDAD variedad de información digital en los • Documentos
diferentes formatos en los que se puede • Correo electrónico
presentar. Ya que ahora existen más tipos de • Datos de medición
información para analizar provenientes • Video
principalmente de los medios sociales, la • Imágenes fijas
complejidad aumenta. • Audio
• Datos de cotizaciones
• Transacciones financieras
• Etc.
BIG DATA
DIMENSION CONCEPTO
Es la capacidad de tratar y analizar inteligentemente este gran volumen de
VERACIDAD datos con la finalidad de obtener una información verídica y útil que permita
mejorar la toma de decisiones basada en los datos más exactos.
VALOR Hace referencia a los beneficios que se desprenden del uso de big data
(reducción de costes, eficiencia operativa, mejoras de negocio).
Por lo tanto se define a la tecnología BIG DATA como el conjunto de arquitecturas y

herramientas informáticas destinadas a la gestión y análisis de grandes volúmenes de
datos desde todo tipo de fuentes, diseñadas para extraer valor y beneficio de los mismos,
con una amplia variedad en su naturaleza, mediante procesos que permitan capturar,
descubrir y analizar información a alta velocidad y con un coste reducido.
BIG DATA
Para Big Data se aplican tecnologías diferentes
y específicas como Hadoop, y se tienen que
considerar abordajes que permitan enfrentar
los desafíos que se requieren como por
ejemplo:
• Procesamiento
• Almacenaje distribuido
• Uso de algoritmos más eficientes
HERRAMIENTAS DE BIG DATA
Dentro del entorno de Big Data se suelen integrar herramientas de análisis de datos que permiten extraer
nuevo conocimiento a partir de la ingente cantidad de datos almacenada.
HERRAMIENTA DESCRIPCION
COMERCIAL
• Es una aplicación de código abierto, disponible de forma gratuita bajo Licencia Pública General de GNU.
• Soporta prácticamente todas las tareas estándar de data mining.
• Los algoritmos pueden ser aplicados directamente sobre un conjunto de datos o llamados desde código
Java.
• Proporciona acceso a bases de datos SQL gracias a que tiene conexión JDBC (Java database connectivity)
WEKA y puede procesar el resultado devuelto por una consulta hecha a la base de datos.
• No permite realizar minería de datos multirrelacional, pero existen aplicaciones que pueden convertir una
colección de tablas relacionadas de una base de datos en una única tabla que ya puede ser procesada con
Weka.
• Tiene una interfaz gráfica que facilita a los usuarios inexpertos identificar información oculta en bases de
datos y sistemas de archivos, utilizando simplemente las opciones de sus interfaces visuales.
COMERCIAL
• Es una suite de software para aprendizaje automático y minería de datos basada en componentes,
desarrollada en el Laboratorio de Bioinformática de la Facultad de Ciencias de la Computación e
Informática de la Universidad de Liubliana, Eslovenia, junto con la comunidad de código abierto.
• Es un software libre que puede ser redistribuido o modificado bajo los términos de la Licencia Pública
General de la GNU y es distribuido pro Orange , Data Mining FruitFul & Fun, http://orange.biolab.si sin
ORANGE ninguna garantía.
• Incluye un amplio rango de técnicas de preproceso, modelado y exploración de datos.
• Está basada en componentes C++ a las que se puede acceder directamente a través de scripts Phyton o a
través de objetos GUI llamados Orange Widgets.
RAPIDMINER • Antes llamda YALE (Yet another learning environment) es un entorno que contiene procedimientos de
data mining y aprendizaje automático.
• El proceso de data mining puede hacerse mediante operadores arbitrariamente anidados, descritos en
ficheros XML y creados con la interfaz gráfica de usuario de RapidMiner.
• Está escrito en lenguaje de programación JAVA.
• Integra esquemas de aprendizaje y evaluadores de atributos del entorno Weka y esquemas de
modelización estadística de R-Project.
• Puede ser utilizado para minería de texto, minería multimedia, minería de flujo de datos, desarrollo de
métodos de conjunto y minería de datos distribuida.
COMERCIAL
• Es un software gratuito de data mining para propósitos académicos y de investigación.
• Propone varios métodos de data mining, desde análisis exploratorio de datos, aprendizaje estadístico,
TANAGRA aprendizaje automático y del área de bases de datos.
• Contiene algo de aprendizaje supervisado, pero también otros paradigmas de clustering, análisis factorial,
estadística paramétrica y no paramétrica, reglas de asociación, selección de características y algoritmos de
construcción.
• Es una plataforma de código abierto para la integración de datos, procesamiento, análisis y exploración
KNIME (Konstanz desarrollada por la cátedra de Bioinformática y Minería de Información de la Universidad de Konstanz,
Information Alemania.
• Usa prácticas de ingeniería de software y actualmente está siendo utilizada por más de 6.000
Miner)
profesionales en todo el mundo, tanto en la industria como a nivel académico.
• Integra todos los módulos de análisis del entorno Weka y plugins adicionales permiten que se ejecuten R-
scripts, ofreciendo acceso a una vasta librería de rutinas estadísticas.
COMERCIAL
• Es una opción de sistema de gestión de bases de datos relacional (RDBMS) de Oracle Database Enterprise
ORACLE DATA Edition (EE).
MINING (ODM) • Contiene varios algoritmos de minería de datos y análisis de datos para clasificación, predicción, regresión,
asociaciones, selección de características, detección de anomalías, extracción de características y análisis
especializado.
• Estas implementaciones se integran en el núcleo de la base de datos Oracle, y operan de forma nativa
sobre los datos almacenados en las tablas de bases de datos relacionales.
• El sistema está organizado en torno a unas pocas operaciones genéricas que proporcionan una interfaz
unificada general de las funciones de minería de datos.
• Originalmente llamda SPSS Clementine de SPSS Inc., después fue nombrada PASW Modeler, pero cuando
IBM SPSS en 2009 IBM adquirió SPSS Inc. Fue denominada IBM SPSS Modeler.
MODELER • Es una aplicación de software de data mining de IBM.
• Es una herramienta de data mining y de análisis de texto, utilizada para construir modelos predictivos.
• Tiene una interfaz visual que permite a los usuarios utilizar algoritmos estadísticos y de data mining sin
programar.
COMERCIAL
• Es una potente herramienta de apoyo en el proceso de minería de datos con un diseño abierto y
extensible con un amplio conjunto de capacidades.
• Dispone de una interfaz de usuario fácil de usar, que permite a los usuarios empresariales construir y
valorar los mejores y más avanzados modelos predictivos y descriptivos de manera rápida y fácil,
SAS ENTERPRISE
mejorando la precisión de las predicciones y compartiendo información fiable para que los analistas de
MINER negocio puedan mejorar la calidad de sus decisiones disponiendo de conclusiones e ideas de forma
rápida, autosuficiente y automatizada.
CUADRANTE MAGICO DE GARTNER 2021
ETAPAS EN LOS PROCESOS DE BIG DATA
Las etapas del trabajo en Big Data incluyen muchas decisiones que deben ser tomadas por el usuario y
estructuradas de la siguiente manera:
➢ Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final.
➢ Creación del conjunto de datos.- Consiste en la selección del conjunto de datos, o del subconjunto de
variables o muestra de datos, sobre los cuales se va a realizar el descubrimiento.
➢ Limpieza y preprocesamiento de datos.- Se compone de operaciones, tales como recolección de la

información necesaria sobre la cual se va a realizar el proceso, decidir las estrategias sobre la forma en que
se van a manejar los campos de los datos no disponibles, estimación del tiempo de la información y sus
posibles cambios, etc.
➢ Reducción de los datos de proyección.- Encontrar las características más significativas para representar los
datos, dependiendo del objetivo del proceso. En este paso se pueden utilizar métodos de transformación
para reducir el número efectivo de variables a ser consideradas o para encontrar otras representaciones de
los datos.
➢ Elegir la tarea de minería de datos.- Decidir si el objetivo del proceso es: regresión, clasificación,
agrupamiento, etc.
➢ Elección del algoritmo(s) de minería de datos.- Selección del método(s) a ser utilizado para buscar los
patrones en los datos. Incluye además la decisión sobre qué modelos y parámetros pueden ser los más
apropiados.
➢ Minería de datos.- Consiste en la búsqueda de los patrones de interés en una determinada forma de
representación o sobre un conjunto de representaciones, utilizando para ello métodos de clasificación, reglas o
árboles, regresión, agrupación, etc.
➢ Interpretación de los patrones encontrados.- Dependiendo de los resultados, a veces es necesario regresar a
uno de los pasos anteriores.
➢ Consolidación del conocimiento descubierto.- Consiste en la incorporación de este conocimiento al
funcionamiento del sistema, o simplemente documentación e información a las partes interesadas.
Gran parte del esfuerzo del proceso de extraer conocimiento recae sobre la fase de
preparación de los datos que es crucial para tener éxito. La mayoría de los trabajos se
centran en la etapa de minería en la búsqueda de algoritmos que extraigan relaciones y
conocimiento de grandes cantidades de datos.
APLICACIONES DE BIG DATA
AREA DETALLE
• IDENTIFICAR PATRONES DE COMPRA DE LOS CLIENTES.- determinar cómo compran a partir de sus
principales características, conocer el grado de interés sobre tipos de productos, si compran determinados
productos en determinados momentos, etc.
• SEGMENTACION DE CLIENTES.- Consiste en la agrupación de los clientes con características similares, por
ejemplo demográficas. Es una importante herramienta en la estrategia de marketing que permite realizar
ofertas acordes a diferentes tipos de comportamiento de los consumidores.
MARKETING • PREDECIR RESPUESTAS A CAMPAÑAS DE MAILING.- Estas campañas son caras y pueden llegar a ser
molestas para los clientes a los que nos les interesa el tipo de producto promocionado, de modo que es
importante limitarlas a los individuos con una alta probabilidad de interesarse por el producto. Se
relaciona mucho con la segmentación de clientes.
• ANALISIS DE CESTAS DE LA COMPRA (MARKET-BASKET ANALYSIS).- Consiste en descubrir relaciones

entre productos, esto es, determinar qué productos suelen comprarse junto con otros, con el fin de
distribuirlos adecuadamente.
AREA DETALLE
• Análisis de procedimientos médicos solicitados conjuntamente
COMPAÑIAS DE • Predecir qué clientes compran nuevas pólizas
SEGUROS • Identificar patrones de comportamiento para clientes con riesgo
• Identificar comportamiento fraudulento
BANCA • Detectar patrones de uso fraudulento de tarjetas de crédito

• Identificar clientes leales. Es importante para las compañías de cualquier sector mantener
clientes.
• Predecir clientes con probabilidad de cambiar su afiliación
• Determinar el gasto en tarjetas de crédito por grupos
• Encontrar correlaciones entre indicadores financieros
• Identificar reglas del mercado de valores a partir de datos históricos
TELECOMUNICACIONES • Detección de fraude telefónico. Mediante el agrupamiento o clustering se pueden detectar
patrones en los datos que permiten detectar fraudes.
AREA DETALLE
• Identificación de terapias médicas satisfactorias para diferentes enfermedades
MEDICINA • Asociación de síntomas y clasificación diferencial de patologías
• Estudio de factores (genéticos, precedentes, de hábitos, alimenticios, etc.) de riesgo para la salud
en distintas patologías.
• Segmentación de pacientes para una atención más inteligente según su grupo
• Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención,
sustitución de fármacos, etc.
• Identificación de terapias médicas y tratamientos erróneos para determinadas enfermedades.
INDUSTRIA • Bases de datos de dominio público conteniendo información sobre estructuras y propiedades de
FARMACEUTICA componentes químicos
• Resultados de universidades y laboratorios publicados en revistas técnicas
• Datos generados en la realización de experimentos
• Datos propios de la empresa
AREA DETALLE
BIOLOGIA • Con la finalización en lso próximos años del Proyecto Genoma Humano y el almacenamiento de
toda la información que está generando en base de datos accesibles por internet, el siguiente
reto consiste en descubrir cómo funcionan nuestros genes y su influencia en la salud. Existen
nuevas tecnologías (chips de ADN, proteómica, genómica funcional, variabilidad genética
individual) que están posibilitando el desarrollo de una “nueva biología” que permite extraer
conocimiento biomédico a partir de bases de datos experimentales en el entorno de un
ordenador, básicamente mediante técnicas de minería de datos y visualización. (BioInformática)
MINERIA DE TEXTOS • La minería de textos (text mining) surge ante el problema de extraer información
automáticamente a partir de masas de textos que son datos no estructurados, es decir, texto
plano.
• Existen varias aproximaciones a la representación de la información no estructurada:
• Bag of words.- cada palabra constituye una posición de un vector y el valor corresponde
con el número de veces que ha aparecido.
• N-gramas.- permite tener en cuenta el orden de las palabras. Trata mejor frases negativas
“..excepto..” , “..pero no..” que tomarían en otro caso las palabras que le siguen como
relevantes.
• Representación relacional (primer orden).- Permiten detectar patrones más complejos (si
la palabra X esta la izquierda de la palabra Y en la misma frase..)
• Categorías de conceptos
AREA DETALLE
• Es una tecnología usada para descubrir conocimiento interesante en todos los aspectos relacionados con
la web.
• El enorme volumen de datos en la web generado por la explosión se usuarios y el desarrollo de librerías
digitales hace que la extracción de la información útil sea un gran problema.
• La integración de herramientas de minería de datos puede ayudar a la extracción de información útil.
• Se puede clasificar en 3 grupos:
• Minería del contenido de la web (web content mining) que es extraer información del contenido
de los documentos en la web y se dividen en:
MINERIA DE • Text mining.- si los documentos son textuales (planos)
DATOS WEB • Hypertext mining.- si los documentos contienen enlaces a sí mismos o a otros documentos.
• Markup mining.- Si los documentos son semiestructurados
• Multimedia mining para imágenes, audio, videos, etc.
• Minería de la estructura de la web (web structure mining) que intenta descubrir un modelo a partir
de la tipología de enlaces de la red. Este modelo puede ser útil para clasificar o agrupar
documentos.
• Minería del uso de la web (web usage mining).- que intenta extraer información (los hábitos,
preferencias de los usuarios o contenidos y relevancia de documentos) a partir de las sesiones y
comportamiento de los usuarios navegantes.
AREA DETALLE
• En el cas de Twitter, la información (los tweets) es generada de forma masiva a una velocidad
vertiginosa propiciando la necesidad de un almacenamiento y procesamiento óptimos y
eficientes que gestionen este aumento exponencial de información al analizar en formato de
texto.
• Existen numerosas herramientas de análisis de datos y específicamente para twitter.
Generalmente estas herramientas organizan, clasifican o filtran la información de manera que los
REDES SOCIALES usuarios puedan monitorizarla y extraer conocimiento que de otro modo sería muy difícil.
• Tweet Binder.- organiza usuarios en listas, por ejemplo los más activos, los que generan
más impacto.
• Tweet Category.- saca estadísticas como por ejemplo el índice de actividad en una
conferencia que se mide por el porcentaje de usuarios que publican tweets sobre el total de
los asistentes.
• HashTracking.- que permite extraer un gráfico de la evolución del número de tweets
publicados en relación con un hashtag ( por ejemplo durante una conferencia)
BIG DATA LANDSCAPE
EL FUTURO DEL BIG DATA
➢LA TENDENCIA SON SERVICIOS basados en la nube son analitycs as a service
➢El cliente no necesita tener científicos de datos, matemáticos, estadísticos en su equipo

para tener insights. Más conocido como Auto Machine Learning
➢Permiten ver sus datos, permitan procesar sus datos y les vamos a entregar insights, por
eso es como un servicio.
➢Para esto estamos apalancando con todo el poder de cloud computing, tanto de
almacenamiento y poder de procesamiento, porque esos modelos muchas veces con un
volumen de datos necesitan de un poder de procesamiento muy elástico.
CASO DE ESTUDIO - BIG DATA
TIPO: Caso de estudio
TITULO: ¿Acaso Big Data trae consigo
grandes recompensas?
TAREA: Lectura del caso de estudio
(Libro Sistemas de Información gerencial, Kenneth C. Laudon, Jane P. Laudon,
décimocuarta edición, PEARSON Educación, México, 2016)
Páginas 249, 250 y 251

Responder las preguntas.
Business Intelligence
Conjunto de técnicas y herramientas para transformar datos brutos en
información útil y significativa para propósitos de análisis de asuntos de negocio.
A pesar de que muchas veces se plantea el mundo de BI en un

sentido amplio, incluyendo el uso de datos no estructurados,
o desarrollo de modelos predictivos, en la práctica hace
referencia principalmente a metodologías y sistemas
vinculados a la generación de informes según el modelo de
madurez analítica de Bersin :
- NIVEL 1: Reactivo-Informes Operacionales
- NIVEL 2: Proactivo – Informes Avanzados, lo que incluiría

tecnologías como OLAP (procesamiento analítico en línea, que
permite consultas ágiles a grandes volúmenes de datos)
Las aplicaciones de Business Intelligence (BI), así como
IMPORTANCIA DEL
USO DE BUSINESS las herramientas y prácticas que permiten mejorar el
INTELLIGENCE
EN LAS acceso y análisis de la información, se tornan una
ORGANIZACIONES
prioridad.
Gartner reveló que para el 2020, más del 40% de las

tareas de análisis de datos fueron efectuadas por
máquinas.
Y para el 2022 el 30% de las interacciones con los

clientes se verán influenciadas por el análisis de datos
como la ubicación en tiempo real, preferencias y
comportamientos.
APLICACIONES DE BI EN LAS ORGANIZACIONES
• ADMINISTRACION Y CONTROL .- Por ejemplo para visualizar las ventas en cada

región por líneas de producto. O ver si se salen del plan y presupuesto, si las
capacidades de depósito están en niveles óptimos, etc.
• MEJORAR EL DESEMPEÑO COMERCIAL.- Por ejemplo optimizar las ganancias de

desempeño mejorando la velocidad de respuesta para campañas en particular, al
identificar características de los clientes más fieles.
O eliminar campañas ineficaces reduciendo costos para la empresa.
• OPERACIÓN.- En la decisión de aceptar un pedido, un representante de servicio al

cliente puede revisar el inventario existente en un sistema de registro de pedidos
o venir de una solución BI.
O por ejemplo los agentes de viaje utilizan BI operativo para monitorear vuelos
retrasados para reacomodar activamente a los pasajeros con transbordos.
APLICACIONES DE BI EN LAS ORGANIZACIONES
• MEJORAR PROCESOS.- Analiza entradas, tiempo y salidas para cada paso del
proceso ayudando a identificar embotellamientos en el flujo del proceso.
• MEJORAR EL SERVICIO AL CLIENTE.- Puede ayudar a las compañías a brindar altos

niveles de servicio al cliente, proporcionando procesamiento de pedidos,
aprobación de préstamos y manejo de problemas oportunamente.
• DESCUBRIR NUEVAS OPORTUNIDADES COMERCIALES.- BI ayuda a las empresas a

evaluar y descubrir oportunidades al investigar información y probar teorías, por
ejemplo una compañía de hospitalidad utiliza BI para averiguar tarifas de hoteles y
desarrollar negocios de tiempo compartido.
• MEJORAR EL MUNDO.- Dar poder a las personas para mejorar el mundo, por
ejemplo en la policía en USA e Inglaterra, BI les ayuda a los oficiales a responder
mejor las llamadas y reducir el índice de crímenes. O en los sistemas escolares
ayuda a entender efectos y tendencias en las calificaciones de los estudiantes
basándose en género, porcentaje de asistencia y métodos de enseñanza..
VENTAJAS DEL USO DE BUSINESS INTELLIGENCE EN LAS
ORGANIZACIONES
• Ahorro en costos y tiempos
• Aumento de la fiabilidad de los resultados
• Nuevas oportunidades de negocio
• Posibilidad de anticiparse a las necesidades de los clientes,
y conocer mejor el comportamiento de los consumidores
• Incremento en la eficiencia
• Respuestas oportunas a las preguntas del negocio

VENTAJAS DEL USO DE BUSINESS INTELLIGENCE EN LAS
ORGANIZACIONES
• Aumento de la productividad
• Mejora las ventas y la inteligencia de mercadeo
• Acerca los resultados a las metas establecidas
• Mejora el retorno de inversión
• Mejora la visibilidad y control
• Convierte la data en información útil y accionable

MEJORES PRÁCTICAS PARA UNA INTELIGENCIA DE
NEGOCIOS EXITOSA
1. Medir el éxito en múltiples maneras utilizando medidas objetivas cuando estén
disponibles y reconociendo la importancia de beneficios que no pueden ser cuantificados
inmediatamente
2. Entender el efecto de Suerte, Oportunidad, Frustración y Amenaza (LOFT) para

catapultar la iniciativa BI de un éxito moderado a un éxito impresionante
3. Acumular el apoyo ejecutivo para asegurar que BI se filtre en todos los

rincones de una organización, proporcionando ventaja competitiva y valor comercial.
4. Empezar con una base sólida de información y añadirla en incremento y

continuamente para mejorar calidad, extensión y puntualidad de la información.
5. Alinear la estrategia de BI con las metas del negocio al asegurar que TI y las metas
del negocio trabajen más como compañeros y no como adversarios.
MEJORES PRACTICAS PARA UNA INTELIGENCIA DE
NEGOCIOS EXITOSA
6. Descubrir la relevancia de BI para cada trabajador en la compañía al igual que clientes y
proveedores.
7. Utilizar procesos de desarrollo ágiles para llevar las capacidades y mejoras BI al ritmo
del cambio, en proporción con el ritmo del negocio.
8. Organizar equipos BI y expertos del éxito, para construir una solución centrada en la
empresa.
9. Elegir herramientas BI apropiadas que satisfagan las necesidades del usuario y del
negocio, en funcionamiento dentro de los estándares tecnológicos que TI puede apoyar
eficazmente.
10. Fomentar una cultura alentando la toma de decisiones basadas en hechos y

desalentar la acumulación de información, publicitar éxitos propios y desempeño, así como
presentar información visualmente
APLICACIONES
DE BUSINESS
INTELLIGENCE EN
LAS ORGANIZACIONES
Ejemplos en las organizaciones

COCA COLA – BOTTLING COMPANY
MAXIMIZACIÓN DE LA EFICIENCIA OPERATIVA
Empresa: Coca-Cola Bottling Company (CCBC), la mayor embotelladora independiente de Coca
Cola
Problema: Los procesos manuales de generación de informes restringían el acceso a los datos de
ventas y operaciones en tiempo real.
Solución: El equipo de inteligencia de negocios de Coca-Cola administra la generación de

informes para todas las operaciones de ventas y entregas de la empresa. Gracias a la plataforma
de BI, el equipo automatizó los procesos manuales de generación de informes y logró ahorrar
más de 260 horas al año, es decir, más de 6 semanas de 40 horas laborables.
La automatización de los informes y otras integraciones de sistemas empresariales volvieron a
poner los datos de la administración de relaciones con clientes (CRM) a disposición de los
equipos de ventas en el campo. Esto se logró a través de dashboards móviles que ofrecen
información útil y oportuna y una ventaja competitiva diferente.
Al implementar una BI de autoservicio, se promueve una mejor colaboración entre el
departamento de TI y los usuarios corporativos, y esto maximiza la experiencia de los
participantes. En lugar de centrarse en tareas manuales de investigación y generación de
informes, los analistas y miembros del departamento de TI pueden centrarse en elaborar
estrategias globales e implementar innovaciones a largo plazo, como por ejemplo, la gobernanza
de datos empresariales.
CHIPOTLE
MAXIMIZACION DE LOS RESULTADOS DE LAOPERACION EN LOS RESTAURANTES
EMPRESA: Chipotle
PROBLEMA: Las diferentes fuentes de datos impedían que los equipos accedieran a una vista
unificada de los restaurantes.
SOLUCION: Chipotle Mexican Grill es una cadena de restaurantes estadounidense que cuenta
con más de 2.400 locales en todo el mundo. Chipotle cambió su solución de BI tradicional por
una plataforma de BI de autoservicio moderna. Esto le permitió crear una vista centralizada de las
operaciones y hacer un seguimiento de la eficiencia operativa de los restaurantes a nivel nacional.
El personal ahora tiene un mayor acceso a los datos. Esto significa que la velocidad de entrega de
informes para proyectos estratégicos se triplicó y la entrega pasó de trimestral a mensual, lo que
permitió ahorrar miles de horas. “Este fue el paso que teníamos que dar para llevar las métricas y
la comprensión al siguiente nivel”, explicó Zach Sippl, director de inteligencia de negocios.
HELLOFRESH
AUMENTO DE LA CONVERSIÓN
EMPRESA: HelloFresh, empresa alemana, y el mayor proveedor de kits de comida en Estados
Unidos y con operaciones en Canadá, Europa occidental, Nueva Zelanda y Australia. Con más de
4.000 empleados.
PROBLEMA: La generación de informes de marketing digital era manual e ineficaz y demandaba
mucho tiempo.
SOLUCION: El equipo de análisis de marketing de HelloFresh, una empresa de entrega de comida
a domicilio, puso en práctica una solución de inteligencia de negocios centralizada, que le
permitió ahorrar entre 10 y 20 horas de trabajo por día mediante la automatización de procesos
de generación de informes. Además, el equipo de marketing principal pudo diseñar campañas
de marketing digital regionales e individualizadas.
Sobre la base de análisis agregados del comportamiento de clientes, HelloFresh creó 3 perfiles
de consumidor como ayuda para guiar sus esfuerzos. Al poder ver y hacer un seguimiento de
datos en tiempo real, el equipo puede reaccionar ante el comportamiento de los clientes y
optimizar las campañas de marketing. Como resultado, la empresa logró aumentar las tasas de
conversión y mejorar la retención de clientes
Por qué es necesario conocer esta Arquitectura?
COMPONENTES Para esto debemos entender el desafío del Business

DE UNA Intelligence que es procesar datos estructurados y no
ARQUITECTURA estructurados con volúmenes muy grandes de información
DE BI (petabytes, exabytes), es decir, de miles de millones a
billones de registros y todos de orígenes distintos.
• Datos estructurados.- datos de transacciones que pueden

ser almacenados en filas y columnas en tablas de una
base de datos
• Datos No estruturados.- pueden ser tráfico web, mensajes

de correo electrónico, contenido de medios sociales
(tweets, mensajes de estado), datos generados por
máquinas de los sensores (utilizados por ejemplo en
medidores inteligentes) o sistemas de ecommerce.
¿Entonces cuál es la infraestructura que soporta este tipo de

procesamiento de información?
COMPONENTES DE UNA ARQUITECTURA DE BI
1. FUENTES DE INFORMACION Y SISTEMAS OPERACIONALES
Los sistemas operacionales son el
punto de partida para la mayoría
de la información cuantitativa de
una compañía.
Los sistemas operacionales son

sistemas transaccionales
desarrollados a medida o
adquiridos en paquete como por
ejemplo:
• Oracle (PeopleSoft, JDEdwards,
Oracle e-business)
• SAP
• Microsoft (Dynamics GP)
1. FUENTES DE INFORMACION Y SISTEMAS OPERACIONALES
Ejemplo de data estructurada:
Desde una perspectiva de la

información, los ERP (Sistemas de
planeación de recursos de una
empresa) reducen el registro de
información duplicada y por ello
mejoran la calidad de la
información.
En un ERP integrado, se comparten

entre los módulos los IDs de
clientes, IDs de productos, etc.
2. TRANSFERENCIA DE INFORMACION
DESDE LOS SISTEMAS FUENTES HASTA EL ALMACEN DE INFORMACION
Para hacer posible los análisis, es

necesario extraer la información de los
sistemas operacionales y cargarla en
un almacén de información
Este proceso es conocido por ETL

(Extracción, Transformación y Carga)
Este proceso con frecuencia es el que

lleva más tiempo, especialmente
cuando sistemas múltiples y dispares
están involucrados.
3. ALMACENAMIENTO
ALMACEN DE DATOS
Un almacén de datos es una base de datos que almacena la información actual e histórica de interés potencial
para los encargados de tomar decisiones en las compañías. Y pone a disposición los datos y herramientas de
consultas adhoc y estandarizadas, herramientas analíticas y facilidades de informes gráficos.
4. AGREGAMIENTO
ANALISIS DE DATOS MULTIDIMENSIONAL
El procesamiento analítico en línea (OLAP) soporta

el análisis de datos multidimensional, el cual
permite a los usuarios ver los mismos datos de
distintas formas, mediante el uso de varias
dimensiones.
Por ejemplo: cada aspecto de información como producto,

precios, costos, región, o período de tiempo representa una
dimensión distinta. Y puede responder a preguntas como:
Cuántos productos específicos se vendieron en la región Este
en junio, se compara con las ventas del mes anterior y del
año anterior y cómo afecta el pronóstico de ventas.
OLAP permite a los usuarios obtener respuestas en

línea a preguntas adhoc en un tiempo muy corto,
incluso cuando los datos se almacenan en bases de
datos muy grandes.
4. AGREGAMIENTO
MINERIA DE DATOS
SELECCIÓN DE EXTRACCION DE
SELECCION PREPROCESADO
CARACTERISTICAS CONOCIMIENTO
DATOS
EVALUACION
La minería de datos está mas orientada al descubrimiento, ya que provee perspectivas hacia los datos
corporativos que no se pueden obtener mediante OLAP, al encontrar patrones y relaciones ocultas en las
bases de datos grandes e inferir reglas a partir de estos patrones y relaciones, para predecir el
comportamiento a futuro.
Los patrones y reglas se usan para guiar la toma de decisiones y pronosticar el efecto de esas decisiones. MODELO
Los tipos de información que se pueden obtener de la minería de datos son: asociaciones, secuencias, CLASIFICADOR
clasificaciones, agrupamientos y pronósticos.
CONOCIMIENTO
5. VISUALIZACION
HERRAMIENTAS
Los resultados a visualizar para usuarios normales incluyen: informes, tableros de control y consultas
Y para usuarios avanzados incluyen: consultas, informes, OLAP y Minería de datos.
EVOLUCIÓN DE LAS HERRAMIENTAS DE BI
VISUALIZACION - CUADRANTE MAGICO DE GARTNER
ANALYTICS
Comprende el descubrimiento y comunicación de patrones significativos en

conjuntos de datos.
Combina disciplinas como estadística,

programación e investigación operativa.
Es una disciplina multidimensional y utiliza
técnicas descriptivas y modelos predictivos
para poder generar conocimiento desde los
datos y así recomendar o sugerir acciones o
decisiones en los contextos en los cuales sea
utilizado.
ANALYTICS
MODELOS
▪ Los modelos son las relaciones, reglas, patrones y resúmenes extraídos tras el análisis de los
datos.
▪ Gracias a esta extracción se obtiene el conocimiento útil que se busca.
▪ Estos modelos puedes ser:
DESCRIPTIVOS PREDICTIVOS
• Su objetivo es hallar patrones o resumir los datos. • Tienen como principal objetivo aproximar posibles
• No pretenden predecir nuevos datos a partir de la valores del futuro o desconocidos a través de los
información recabada. datos de los que ya se dispone.
• Los datos se presentan como un conjunto, sin estar • Los datos van acompañados de una salida (clase,
ordenados ni etiquetados. categoría o valor numérico).
• Las técnicas que se utilizan para estos modelos son: • Las técnicas que se utilizan para estos modelos son:
el agrupamiento, las reglas de asociación y el análisis la regresión y la clasificación
correlacional
ANALITICA DESCRIPTIVA
▪ Para responder a la pregunta «¿Qué pasó en el negocio?» se emplea la

analítica descriptiva. Gracias a esta, se analizan los datos y la información
para describir la situación actual de los negocios de una manera que las
tendencias, patrones y excepciones se hacen evidentes. Esto después
toma la forma de informes , cuadros de mando, etc.
▪ La analítica descriptiva ayuda a las organizaciones a entender lo que

sucedió en el pasado (el pasado en este contexto puede ser desde hace
un minuto o unos pocos años atrás). Con la analítica descriptiva se
entiende la relación entre los clientes y los productos, siendo su objetivo
obtener una comprensión del enfoque que se va a adoptar en el futuro:
aprender del comportamiento pasado para así influir en los resultados
futuros
TAREAS DESCRIPTIVAS - AGRUPAMIENTO
➢ Conocido como Clustering o también como segmentación,
aglomeración o racimamiento.
➢ Consiste en formar grupos “naturales” a partir de un conjunto
de datos y los analiza para generar una etiqueta.
➢ Los datos se agrupan de modo que los que pertenezcan a un
mismo grupo guarden muchas similitudes entre sí y los que
pertenezcan a grupos distintos se diferencien lo máximo
posible.
➢ El clustering organiza la información en diferentes segmentos
o grupos por lo tanto tiene una gran capacidad de predicción,
en cuanto aparecen nuevos datos, son clasificados en los
grupos ya existentes. Gracias a esto se sabe que comparten
una serie de características y comportamientos comunes.
Además, permite la explotación a posteriori de nuevos
algoritmos dentro de cada grupo creado.
➢ El clustering es un buen aliado en el campo de las Ventas, un
ejemplo es la clasificación de clientes por su comportamiento
ante cierto tipo de productos. Así se puede orientar el
lanzamiento de un producto para maximizar los beneficios.
TAREAS DESCRIPTIVAS - CORRELACIONES Y FACTORIZACIONES
➢ Es una tarea descriptiva que analiza el porcentaje de
similitud entre los valores de 2 variables numéricas.
➢ Teniendo los ejemplos de un grupo E= 𝐴1 x 𝐴2 x 𝐴3 x…..
𝐴𝑛 se puede analizar la correlación existente entre 2
atributos de todos los elementos de ese grupo 𝐴𝑖 y 𝐴𝑗
➢ Se lleva a cabo gracias a un modelo matemático con un
coeficiente de correlación r, que toma valores entre -1 y
1.
➢ En caso de que el coeficiente dé 1 o -1 significa que las
variables están fuertemente correlacionadas de modo
positivo o negativo respectivamente.
➢ Si el valor es 0 significa que las variables no guardan
ninguna correlación.
➢ Esto significa que, cuando guardan correlación positiva,
ambas variables crecen al mismo tiempo. Decrecen de
igual modo cuando la correlación es negativa.
➢ La correlación puede ser lineal o de cualquier otro tipo.
➢ Las tareas de correlación o de factorizaciones se pueden
combinar con otros modelos de regresión para estudiar
relaciones entre atributos de causa-efecto.
TAREAS DESCRIPTIVAS - REGLAS DE ASOCIACION
➢ Estas tareas han evolucionado conjuntamente con la
minería de datos desde los años 90.
➢ Son tareas descriptivas similares a las correlaciones y
factorizaciones.
➢ Su función principal es hallar relaciones no explícitas
entre atributos categóricos. Es decir, su objetivo es el
mismo que el de las correlaciones pero para variables
nominales, no numéricas.
➢ Dado el conjunto de elementos definidos por un
conjunto de atributos E= 𝐴1 x 𝐴2 x 𝐴3 x….. 𝐴𝑛 , una regla
de asociación se escribirá así:
“ si𝐴𝑖 = 𝑎 ˄ 𝐴𝑗 = 𝑏 ˄ … ˄ 𝐴𝑘 = ℎ entonces
𝐴𝑟 = 𝑢 ˄ 𝐴 𝑠 = 𝑣 ˄ … ˄ 𝐴 𝑧 = 𝑤 “
➢ Que significa que Si el atributo X toma el valor a

entonces el atributo Y tomará el valor c.
➢ Esto no tiene por qué significar que los atributos que
estén relacionados entre sí, por causa-efecto.
➢ La estructura de esta asociación es una regla de

asociación direccional, es decir, está orientada. Por lo
tanto se denominan también dependencias de valor.
➢ También existen las reglas de asociación bidireccionales,
donde en lugar de haber unan implicación, existe una
“coimplicación”
➢ Existen otro tipo de reglas de asociación como:

➢ Reglas de asociación negativas (con desigualdades)
➢ Reglas de asociación secuenciales (cuando una
asociación se produce a continuación de la anterior y
no al mismo tiempo)
➢ Reglas de asociación multinivel (involucran ítems con
diferentes niveles de abstracción)
EJEMPLO
➢ Actualmente, grandes cadenas de supermercados emplean este tipo
de herramientas de minería de datos para conocer mejor a sus
clientes.
➢ Aplicando reglas de asociación direccionales del estilo “si compra
ginebra ˄ si compra tónica = entonces compra hielos”
➢ El supermercado podría aplicar descuentos especiales o incluso
hacer una mejor disposición de los productos para facilitar la compra
a sus consumidores.
➢ Esto no significa que si alguien compra hielos vaya a comprar
ginebra, pero sí es muy probable que ocurra en el sentido inverso.
➢ Por el contrario si se pone en práctica una regla de asociación
bidireccional del estilo “si compra cereales = si compra leche”,
estaríamos afirmando que una compra no se produce sin la otra.
Ofertar estos productos en el mismo pack o colocarlos en estanterías
muy próximas en el comercio sería una buena estrategia de negocio.
ANALITICA PREDICTIVA
➢ Como su nombre lo indica es predictiva y utiliza técnicas estadísticas o de
machine learning para hacer pronósticos, por ejemplo de cual será la
venta, demanda, compras, del próximo trimestre. Cómo van a ser, cómo
espero que se comporten.
➢ Todo esto utiliza técnicas de minería y metodologías clásicas de estadística.
➢ El área de machine learning es muy utilizada para clasificación, es decir,

cual es la probabilidad de que ese nuevo acontecimiento esté clasificado
de acuerdo a acontecimientos del pasado.
➢ Se utiliza mucho para detección de fraude, análisis de seguros, área de

salud, usando un escenario completo de variables para analizar si es más
probable un escenario A o un B.
➢ Se utiliza técnicas de machine learning para que el algoritmo aprenda por

si mismo los patrones y consiga decir con cierto grado de seguridad, esa
situación, evento, persona más con el escenario A que con el B.
TAREAS PREDICTIVAS - CLASIFICACION
➢ También conocida como discriminación. Es con mucha probabilidad,
la tarea más popular de data mining.
➢ Cada entrada de la base de datos (instancia) pertenece a una clase

que se indica mediante el valor de un atributo llamado la clase de la
instancia.
➢ Este atributo toma diversos valores discretos, correspondiendo cada

uno a una clase.
➢ La clasificación busca predecir la clase desconocida de nuevas

instancias o, más concretamente, clasificar de modo más preciso las
nuevas instancias.
➢ Esto lo consigue calculando el cociente entre las predicciones

correctas y el total de todas las predicciones.
TAREAS PREDICTIVAS - CLASIFICACION
APLICACIÓN
Uno de los ejemplos más habituales en la actualidad es el algoritmo que emplean los clientes de
correo electrónico para clasificar los mensajes nuevos entrantes como spam o no.
TAREAS PREDICTIVAS - CATEGORIZACION
➢Esta tarea no pretende el aprendizaje de una función, sino el
de una correspondencia.
➢Cada ejemplo de 𝐸 δ = { (e,s) : e Ꞓ E , s Ꞓ S } puede

pertenecer a varias categorías, por lo tanto la función a
aprender λ : E -> S debe ser capaz de asignar varias
categorías a un mismo e, mientras que la clasificación solo es
capaz de asignar una. Es decir, cada ejemplo puede tener
varias categorías asignadas al mismo tiempo.
APLICACION
Un ejemplo para este tipo de tareas es la categorización de
documentos asignando categorías según el tipo de cada uno
de ellos.
TAREAS PREDICTIVAS - PREFERENCIAS O PRIORIZACION
➢ Teniendo 2 o más ejemplos del conjunto de datos, el
objetivo es elaborar un orden de preferencia según las
características que se busca.
➢Cada ejemplo de la base de datos forma una secuencia de
atributos < 𝑒1 , 𝑒2 ,…., 𝑒𝑘 > : 𝑒1 Ꞓ E , k ≥ 2
➢El orden que lleve esta secuencia representará la
preferencia.
➢El modelo está representado por un conjunto de datos
que se comparan por las preferencias en orden δ: {< 𝑒1 ,
𝑒2 ,…., 𝑒𝑘 > : 𝑒1 Ꞓ E }
➢A pesar de que la tarea es útil para ordenar un conjunto
grande de ejemplos, a menudo se emplea para calcular la
prioridad entre dos elementos únicos, en otras palabras,
para compararlos solo a ellos dos.
TAREAS PREDICTIVAS - PREFERENCIAS O PRIORIZACION
APLICACION
➢Un ejemplo de este tipo de tareas se puede ver en la

contratación inteligente en una empresa. El sistema
evaluaría a los candidatos en función de, por ejemplo,
puestos de trabajo anteriores, estudios, experiencia, etc.
Más tarde elaboraría un orden entre los mismos para dar con
el más propicio para la empresa.
➢Las técnicas de preferencias o priorización también están

siendo muy usadas en el campo de la biomedicina para
descubrir qué genes afectan más a ciertas enfermedades.
TAREAS PREDICTIVAS - REGRESION
➢También llamada en ocasiones Interpolación (si el valor
a predecir se encuentra dentro del rango de valores
conocidos ) o estimación (cuando la tarea es de
predicción pura).
➢Debido a la sencillez del modelo con el que trabaja, es
una de las tareas más fáciles de explicar.
➢Es similar a la clasificación, ya que su fin es aprender
una función real para asignar un valor real a una
instancia.
➢Se diferencia de la clasificación en que el valor a
calcular es numérico.
➢Aquí es prioridad reducir el error al máximo posible
entre el valor predicho y el valor real, lo que se conoce
como el error cuadrático medio.
ANALITICA PRESCRIPTIVA
• Analítica prescriptiva es decir, qué podemos hacer, es la generación de un plan de acción, basado
en la disponibilidad de recursos, demanda actual, muchas veces relacionado con la predicción,
(por ejemplo, porqué china esta consumiendo más trigo o maíz) estas variables entran para decir
que el mejor plan, la manera de utiliza mejor los recursos disponibles.
• Para esto se crea un modelo de optimización combinatoria que es llamado búsqueda operativa
que son modelos matemáticos demostrados por teoremas que consiguen la mejor asignación de
recursos para la situación que se está analizando y el objetivo planteado
MODELO DE MADUREZ ANALITICA DE BERSIN
Desarrollado por la consultora de John Bersin y hoy parte de Deloitte, proponen un

modelo de cuatro niveles de madurez para entender los múltiples enfoques de
Analytics y las posibilidades que ofrece:
1. REACTIVO – INFORMES OPERACIONALES

2. PROACTIVO – INFORMES AVANZADOS
3. ANALISIS ESTRATEGICO
4. ANALISIS PREDICTIVO
Para cada uno de los niveles, Bersin propone comprender:
• Cuáles son los objetivos propios de cada momento,
• Qué tareas se realizan
• Qué habilidades son necesarias para el nivel
• Cuáles serían los resultados esperados
Nivel Reactivo
Aquí están la mayoría de organizaciones que incluyen informes operativos de mediciones y compliance.
Se enfocan en la exploración de datos, integración y desarrollo de un diccionario de datos. Se trabaja en objetivos
simples pero relevantes para los niveles posteriores. Según Bersin el 60% de empresas están en este nivel.
NIVEL OBJETIVOS TAREAS HABILIDADES CLAVE RESULTADOS ESPERADOS
• Informes y herramientas
• Comprender y
standard
recolectar los datos • Paciencia e interés en
• Implementar un
que se tienen una base de datos
ambiente de informes • Facilidad y capacidad
REACTIVO escalable, preciso y para responder a
• Desarrollar un • Buena relación con IT
sencillo cualquier pedido de
diccionario de datos
INFORMES informes
• Habilidad para
• Comprender todos
OPERACIONALES • Trabajar con IT para escribir, documentar
los datos y sistemas • Herramientas para
implementar y administrar
con los que se trabaja ayudar a los gerentes
herramientas de proyectos
que accedan y hagan
informes standard
uso de sus propios datos
Nivel Proactivo
Este nivel incluye la realización de informes operacionalizados para hacer comparaciones (benchmarking) y tomar
decisiones. Se cuenta con análisis multidimensional y tableros, haciendo cortes, viendo y comparando segmentos. Se
podría decir que están en business intelligence. Según Bersin el 20% de empresas están en este nivel.
NIVEL OBJETIVOS TAREAS HABILIDADES CLAVE RESULTADOS

ESPERADOS
• Comprender las
• Desarrollar habilidades dimensiones de los • Comprender los informes
para implementar datos (cortes y filtros) multi-dimensionales
informes proactivos y
herramientas para los • Análisis de audiencia, • Perspicacia empresarial y la
PROACTIVO Gerentes quiénes son y qué relación con los aspectos • Tableros utilizados
decisiones tienen que financieros de la por el negocio
• Observar tendencias, tomar organización
INFORMES comparaciones y • Algún éxito del
AVANZADOS resultados en relación con • Consultoría de • Fuerte alineación al negocio negocio
los planes desarrollados desempeño, y asociación con los líderes
enfocarse en 1 o 2 del negocio
• Desarrollar el tablero de problemas • Habilidad para influir en los
negocios accionables que IT hace
• Hacer benchmarking
Nivel Análisis estratégico
Este nivel requiere herramientas de análisis más sofisticadas que el simple uso de estadística descriptiva, por
ejemplo análisis de distribución, análisis estadístico, diseño de modelos relativos a fenómenos propios de la
conducta humana. Se identifican dimensiones que permitan comprender las causas para implementar soluciones
accionables. Según Bersin menos del 10% de empresas están en este nivel.
NIVEL OBJETIVOS TAREAS HABILIDADES CLAVE RESULTADOS
ESPERADOS
• Habilidades analíticas y estadísticas
• Construir fuertes
• Desarrollar
relaciones entre los • Habilidades de visualización de
nuevos modelos
líderes de los procesos información y presentaciones • Un proyecto con éxito
causales o que
que entregue
identifican causas
• Seleccionar un • Alto nivel de desempeño en hallazgos
o efectos
problema clave para consultoría y habilidad para significativos
ANALISIS
iniciar los estudios comprender los ambientes de
ESTRATEGICO • Segmentar en
analíticos trabajo • Herramientas para
grupos para ser
• Capacidad para generar confianza tomar decisiones o
analizados en
• Implementar un con los gerentes y enfocarse en los generar cambios en el
detalles
proyecto analítico, problemas clave negocio
iterarlo y demostrar • Habilidad para desarrollar
• Integrar los datos
resultados herramientas transversales para las
diversas áreas
Nivel Análisis Predictivo
Este nivel requiere el diseño e implementación de modelos predictivos, también se considera el análisis de riesgo y
su mitigación, o la integración con el planeamiento estratégico. Aquí se trata de poder predecir asuntos críticos para
el presente y futuro del negocio. La creatividad y complejidad a nivel de datos aumenta. Según Bersin solo el 5% de
empresas están en este nivel.
NIVEL OBJETIVOS TAREAS HABILIDADES CLAVE RESULTADOS ESPERADOS
• Un modelo de
• Expandir las habilidades y el
planificación que describa
expertise analítico • Habilidades de modelado
• Utilizar/Desarrollar como mejorar el
y estadística más compleja
modelos que desempeño
• Vincular la planificación del
puedan predecir
negocio, financias y demás • Planificación de negocios y
escenarios futuros • Modelos reproducibles
ANALISIS áreas de la organización financiera
que puedan ser
PREDICTIVO • Integrar este extendidos a nuevos
• Expandir las relaciones con • Profundizar el
trabajo con la dominios
datos de terceros y conocimiento en los
planificación de las • Credibilidad con finanzas
empresas de consultoría procesos del área y
áreas y del negocio
• Aumentar el compromiso negocio
• Funciones analíticas
con la función de Analytics
integradas y estratégicas
DATA SCIENCE
Disciplina comprendida como la extracción de conocimiento de un conjunto de datos.
Incluye la utilización de conocimientos, habilidades y métodos propios de la estadística, ciencias
de la computación, matemática, gestión de bases de datos, visualización, inteligencia artificial,
entre otras.
• El desafío de los profesionales de esta disciplina es poder analizar e
interpretar datos de múltiples fuentes y formatos para poder
comprender fenómenos, teniendo eventualmente como objetivo
generar productos y soluciones basadas en sus análisis.
• Esto requiere no solo herramientas de manipulación y análisis de

datos, sino también generar comprensión del dominio en el que
interviene y poder generar visualizaciones para poder comunicar de
manera efectiva sus conclusiones.
DIAGRAMA DE VENN DE DATA SCIENCE
Esquema desarrollado por Drew Conway en 2010 como una combinación de 3 dimensiones:
1. CONOCIMIENTO MATEMATICO Y ESTADISTICO.- Es el

componente de contenido duro, involucra los diversos conocimientos
de estas ciencias, utilizadas de manera práctica. Es la caja de
herramientas que brinda los instrumentos para poder analizar los
datos generando los insights o hallazgos de relevancia en cada caso.
2. HABILIDADES TECNOLOGICAS O HACKING SKILLS.- tiene
elementos que deberían ser pensados no solo como habilidades sino
como actitudes. Por ejemplo qué cosas definen a un hacker? Sus
conocimientos y habilidades tecnológicas pero también su actitud
creativa, constante y perseverante, además en data science no se
encuentran las soluciones de forma fácil, sino que requiere tiempo,
esfuerzo y dedicación y tener la actitud de buscar nuevas formas de
aprovechar los datos e información disponible.
3. CONOCIMIENTO EXPERTO O EXPERIENCIA SUSTANTIVA.- Es el
saber sobre el tema a analizar, contar con el relevamiento del estado
del arte del tema para abordar mejor la situación y utilizarlo de forma
objetiva y crítica, incluír perspectivas, riesgos, etc. Se trata de tener el
conocimiento de las múltiples disciplinas del tema a analizar, apra
enriquecer y potenciar el resultado.
DIAGRAMA DE VENN DE DATA SCIENCE
En este diagrama también se observan intersecciones a considerar:
1. INVESTIGACIÓN O CIENCIA TRADICIONAL.- Es lo que se obtiene

cuando se combina conocimiento de la matemática y estadística con
conocimiento experto. Por ejemplo los papers, ya que se publican
diariamente ya que estudian y desarrollan conocimiento mediante
herramientas clásicas.
2. ZONA DE PELIGRO.- Se representa cuando se combina las hacking

skills y el conocimiento experto ya que implica ese espíritu
(creatividad, perseverancia, etc.) que se asocia al mundo hacker
3. MACHINE LEARNING.- es la utilización y aprovechamiento de los

datos mediante herramientas de la mátemática y estadística
buscando patrones significativos, pero no evidentes.
DATA SCIENTIST
Actualmente las personas que se están desempeñando como data scientist son científicos que
con sus herramientas trabajan en el análisis de múltiples datos complejos y en grandes
volúmenes, con su desorden y problemas para poder adentrarse en la complejidad de aquello
que busca respuesta para lograr resolver los problemas del mundo.
• Existe diferente seniority en esta disciplina, y no necesariamente
vienen del mundo de la tecnología, sino también de la física,
matemática, biología y estadística principalmente, ingenierías y hasta
ciencias sociales.
• Por su expertise, versatilidad y capacidad de aprovechar los datos,

estos profesionales se encargan de resolver problemas del negocio,
optimizar procesos, brindar inteligencia analítica en la definición de
la estrategia, restructurar procesos, acciones y proyectos críticos
El PROCESO DE DATA SCIENCE
DETALLE DEL PROCESO DE DATA SCIENCE
➢ Todo problema comienza en función de un fenómeno que se quiere comprender.
➢ Para lograrlo se debe comenzar por identificar la disponibilidad de datos con alguna relación al objeto de estudio.
➢ Cuando los datos estén disponibles, se comenzará su procesamiento, que implica su organización, transformación
y consecuente limpieza (corrección o eliminación de datos irrelevantes, errores, etc.) de los mismos.
➢ En ese trayecto se comienza a utilizar el Análisis exploratorio de datos y otras posibles herramientas adicionales
como algoritmos de data mining, modelos estadísticos, etc. para así llegar al producto o conclusiones requeridas.
➢ Este último destino requiere que entren en juego acciones de comunicación y visualización, de modo que tanto lo
hallado como sus implicaciones se vuelvan accesibles.
➢ Esto es necesario para lograr una adecuada comprensión de lo identificado, tomar decisiones y generar acciones.
Este es un proceso iterativo, porque según lo que se encuentre se puede requerir volver a etapas anteriores. Esto no
es negativo significa que se tiene una mejor comprensión de lo que ocurre en los datos.
Es frecuente que se redefina el abordaje del problema y cada sucesiva modificación implica cierto aprendizaje que
facilitará llegar al objetivo.
BIBLIOGRAFIA
1. Ciencia de Datos. Técnicas analíticas y aprendizaje estadístico , Jesús García´- José Molina – Antonio Berlanga –
Miguel A. Patricio – Alvaro L Bustamante – Washington R Padilla, Bogotá, 2018
2. HR Analytics. Gestión de Personas, Datos y Decisiones, Juan M. Bodenheimer, Afaomega, Argentina 2018
3. Sistemas de Información gerencial, Kenneth C. Laudon, Jane P. Laudon, décimocuarta edición, PEARSON
Educación, México, 2016
4. Clegg Dai, Big Data: The Data Velocity Discussion, Artículo Web http://thinking.netezza.com/blog/
big-data-data-velocity-discussion
4. http://www.gartner.com/technology/research/methodologies/research_mq.jspç
5. https://www.accenture.com/us-en/insight-big-data-research

Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

BIG DATA,

REALIDAD VIRTUAL wereables Industria 4.0

REALIDAD AUMENTADA Inteligencia artificial Big data

Internet de las cosas blockchain Analítica de datos

CLIENTE PRODUCTO PROCESO

• BIG DATA • BUSINESS • BUSINESS • DATA SCIENCE

Trabajan aquí expertos en Administración de

Existen muchas definiciones alrededor de Big Data pero se puede

Ya se supera los terabytes (1.024 Gigabytes) planteando

Pero este concepto no hace referencia simplemente al tamaño de

Los desafíos del big data comprenden:

Por lo tanto se define a la tecnología BIG DATA como el conjunto de arquitecturas y

➢ Limpieza y preprocesamiento de datos.- Se compone de operaciones, tales como recolección de la

• ANALISIS DE CESTAS DE LA COMPRA (MARKET-BASKET ANALYSIS).- Consiste en descubrir relaciones

BANCA • Detectar patrones de uso fraudulento de tarjetas de crédito

➢El cliente no necesita tener científicos de datos, matemáticos, estadísticos en su equipo

Páginas 249, 250 y 251

A pesar de que muchas veces se plantea el mundo de BI en un

- NIVEL 1: Reactivo-Informes Operacionales

- NIVEL 2: Proactivo – Informes Avanzados, lo que incluiría

Gartner reveló que para el 2020, más del 40% de las

Y para el 2022 el 30% de las interacciones con los

• ADMINISTRACION Y CONTROL .- Por ejemplo para visualizar las ventas en cada

• MEJORAR EL DESEMPEÑO COMERCIAL.- Por ejemplo optimizar las ganancias de

• OPERACIÓN.- En la decisión de aceptar un pedido, un representante de servicio al

• MEJORAR EL SERVICIO AL CLIENTE.- Puede ayudar a las compañías a brindar altos

• DESCUBRIR NUEVAS OPORTUNIDADES COMERCIALES.- BI ayuda a las empresas a

• Aumento de la fiabilidad de los resultados

• Nuevas oportunidades de negocio

• Posibilidad de anticiparse a las necesidades de los clientes,

y conocer mejor el comportamiento de los consumidores

• Respuestas oportunas a las preguntas del negocio

• Mejora las ventas y la inteligencia de mercadeo

• Acerca los resultados a las metas establecidas

• Mejora el retorno de inversión

• Mejora la visibilidad y control

• Convierte la data en información útil y accionable

2. Entender el efecto de Suerte, Oportunidad, Frustración y Amenaza (LOFT) para

3. Acumular el apoyo ejecutivo para asegurar que BI se filtre en todos los

4. Empezar con una base sólida de información y añadirla en incremento y

10. Fomentar una cultura alentando la toma de decisiones basadas en hechos y

Ejemplos en las organizaciones

Solución: El equipo de inteligencia de negocios de Coca-Cola administra la generación de

COMPONENTES Para esto debemos entender el desafío del Business

• Datos estructurados.- datos de transacciones que pueden

• Datos No estruturados.- pueden ser tráfico web, mensajes

¿Entonces cuál es la infraestructura que soporta este tipo de

Los sistemas operacionales son

Desde una perspectiva de la

En un ERP integrado, se comparten

Para hacer posible los análisis, es

Este proceso es conocido por ETL

Este proceso con frecuencia es el que

El procesamiento analítico en línea (OLAP) soporta

Por ejemplo: cada aspecto de información como producto,

OLAP permite a los usuarios obtener respuestas en

Comprende el descubrimiento y comunicación de patrones significativos en

Combina disciplinas como estadística,

▪ Para responder a la pregunta «¿Qué pasó en el negocio?» se emplea la

▪ La analítica descriptiva ayuda a las organizaciones a entender lo que

➢ Que significa que Si el atributo X toma el valor a

➢ La estructura de esta asociación es una regla de

➢ Existen otro tipo de reglas de asociación como: