Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PARTE 1
LO BÁSICO
O CÓMO SER CAPAZ DE MANTENER UNA
CONVERSACIÓN CON GEEKS SIN SENTIRSE
AVERGONZADO
By TECHBIZDESIGN.COM
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Sobre datos
La importancia del dato, tipos de datos, formatos, tipos de bases de datos…
Sobre análisis
Tipos de análisis (Diagnóstico y descriptivo, predictivo, prescriptivo, experimental)
Capacidades analíticas
Informes, cuadros de mando, ciencia de datos…
25
Un coche moderno Gb por
hora
totalmente instrumentado
150k
Puntos de
Un parque eólico típico datos por
segundo
51,2k
Un avión (jet) totalmente Gb por
hora
instrumentado
500M
Un proyecto de smart Lecturas
metering por día
500
Un motor de avión Gb por
día
comercial
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Pero hoy…
¿no?
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
EXPONENCIAL (3,8)
¿Conoces la Ley de Moore? El número de
transistores en un circuito integrado denso se
dobla cada dos años aproximadamente.
y=2 x
(2,4)
En el mismo periodo, el coste de las
comunicaciones se reduce a la mitad, la
(1,2) velocidad y el número de servidores en
(0,1) Internet se duplica.
De acuerdo. Entonces…
Nuestros ficheros Excel y bases de datos Un paraíso para los desarrolladores Videos, imágenes, textos, tweets, logs…
tradicionales
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Los tipos de datos estructurados son principalmente Los tipos de datos semiestructurados son Hay muchos tipos de datos no estructurados:
archivos de texto delimitados como el formato CSV, principalmente JSON y XML archivos de texto sin formato y documentos (Word,
archivos de datos tabulares como Excel y bases de txt ...), servidor, sitio web y registros de aplicaciones,
datos. datos de sensores (Satélite, meteo ...), imágenes,
La información se estructura utilizando categorías o archivos de video, archivos de audio, correos
etiquetas para separar diferentes elementos en el electrónicos, datos de redes sociales ...
Los datos responden a un modelo de datos documento. Las relaciones semánticas se definen en
abstractos que organiza los elementos principales en estas categorías.
las entidades y define sus relaciones. Los datos se almacenan en registros fácilmente No hay un modelo de datos predefinido en esos
Hay un contenido semántico asignado a cada identificables. Esta característica los hace flexibles y diferentes tipos de datos. Por lo tanto, no existe una
elemento de acuerdo con su relación con otras fáciles de entender para los desarrolladores. forma general y formal de extraer los datos
entidades. Existe un riesgo de ambigüedad e inconsistencia Diferentes tipos de datos en el mismo documento o
Ha habido un proceso previo de modelado y relacionado con este tipo de datos archivo, normalmente con una relación semántica
formalización sobre los datos. desconocida entre los diferentes elementos.
{ Grandes cantidades de este tipo de datos se generan
“quality”: {
“noise_perc”: 22 exponencialmente. Representan la mayoría de los
“quality_txt”: “good”
}
repositorios de datos en todo el mundo.
“values”: {
“probability”: 85
“probability_txt”: “high”
“intensity”: 65
}
}
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
estructurados acercándose
2013
37,4 Exabytes
20,8%
DATOS
estructurados
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Recuerda…
Fuente: https://lawtomated.com/structured-data-vs-unstructured-
data-what-are-they-and-why-care/
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Base de datos: Una colección organizada de datos, generalmente almacenada y accesible electrónicamente desde
un sistema computerizado
Normalmente, costoso de escalar y no diseñado para tiempo real A menudo se centra en la alta escalabilidad, la alta disponibilidad y la coherencia
eventual, y fue diseñado inicialmente por Google y AWS para almacenar grandes
Fundamentalmente diseñado para alojar datos relacionales, no otros tipos de datos volúmenes y gran variedad
Bueno para el desarrollo pero incómodo para TI una vez en producción
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Base de datos: Una colección organizada de datos, generalmente almacenada y accesible electrónicamente desde
un sistema computerizado
Fácil de usar y de poner en marcha | Universal, compatible con muchas Sin inversión para el diseño del modelo | Ciclos de desarrollo rápidos | En general,
PROS
herramientas | Buenas en cargas de trabajo de alto rendimiento | Buenas para datos más rápidas que el SQL | Funciona bien en el Cloud
estructurados
Costosa en tiempo para entender y diseñar la estructura de la base de datos | Puede No aconsejable para datos interconectados | Técnicamente todavía en maduración |
ser difícil de escalar CONS Pueden llegar a tener tiempos de respuesta lentos, pero mejorando rápidamente
Fuente: https://www.quora.com/What-are-the-differences-between-the-SQL-and-NoSQL-databases
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Lo pillo
. Sensores
. LIMPIEZA de datos . AREAS DE ENTRADA
de datos
. PORTAL de
información
VALOR
. Móvil . ADMINISTRACIÓN . MESA DE TRABAJO
. TIEMPO REAL . Data LAKES
. Logs de datos (Data analítico
WRANGLING)
. Datos tabulares . CASI TIEMPO REAL . EDW (Enterprise Data . LABORATORIO de
. Social . CALIDAD de datos Warehouse)
. BATCH Data Science
. Telemetría . ENRIQUECIMIENTO . VIRTUALIZACIÓN de
. Inteligencia
… de datos datos (Datamarts lógicos)
operacional
Cuadros de mandos
Recomendación de
Integrar fuentes de
Construir pipelines
Acción de negocio
Machine learning
transformar datos
Almacenar datos
Modelización
exploratoria
estadísitica
e informes
Procesar y
Analítica
de datos
negocio
datos
INGENIERÍA DE DATOS
BUSINESS
INTELLIGENCE
ANALÍTICA DE
NEGOCIO
DATA SCIENCE
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Interesante…
4. Predictivo
El objetivo del análisis predictivo es identificar la
probabilidad de resultados futuros basados
en datos históricos, estadísticas y aprendizaje
automático.
Es una predicción totalmente basada en datos
(no lógica o intuición) que utiliza datos históricos
para comprender el rendimiento pasado.
El manejo de grandes cantidades de datos es
necesario para predicciones precisas
Es un tipo de análisis que utiliza la
automatización y el aprendizaje
automático de forma intensiva
Capaz de dibujar predicciones de tendencias en
tiempo real
Fuente: https://www.sapanalytics.cloud/resources-predictive-forecasting/
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
5. Prescriptivo
El objetivo de la analítica prescriptiva es identificar
formas y medios para aprovechar los hallazgos y
las predicciones proporcionadas por las etapas
anteriores (exploratorio, explicativo y predictivo)
El uso intensivo de patrones y predicciones
producidos anteriormente requiere análisis Categorizar Aplicar Tomar Actualizar & Probar o Tomar
Detectar Formular
& procesar modelos acciones relacionar refutar acciones
adicionales para obtener mejores resultados eventos
eventos analíticos
hipótesis
iniciales datos hipótesis prescritas
comerciales
Para comenzar con este tipo de análisis debes
considerar presupuestos, tiempos y recursos El flujo de proceso recomendado para la analítica prescriptiva
humanos. Además, el coste- beneficios deben ser
bien evaluado con anterioridad Sus principales riesgos son que: Otros riesgos involucrados podrían ser:
. Los datos disponibles no se procesen ni analicen por . Tecnología de gestión de datos insuficiente
completo . Herramientas de software inmaduras
¿Qué tipo de ideas buscamos?
. Los datos sean procesados pero no se formulen hipótesis . Énfasis desequilibrado en proyectos sobre
. Diferentes plazos | Pasado, presente y futuro
. Diferentes precisiones | Hechos probados, . Las hipótesis no sean probadas ni refutadas percepciones en el pasado
hipótesis fuertes o hipótesis confusas definitivamente . Sistemas mal diseñados
. Diferentes paradigmas | Preguntas específicas, . Se formulen ideas críticas, pero no se tomen medidas.
buceo en los datos o historias alternativas
. Diferentes alcances | Específico de la organización,
específico del proceso o de toda la empresa
Fuente: Información pública de Gartner y referencias de Internet
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
6. Experimental
La diferencia clave entre el análisis prescriptivo y
el análisis experimental es que el análisis
prescriptivo se utiliza con simulación dentro de
la empresa. La analítica experimental trata con
experimentos reales realizados en el
campo con clientes o sujetos reales
Este tipo de análisis busca implementar un plan
en un subconjunto y probar múltiples
alternativas para encontrar los mejores
resultados.
Ayuda mucho a identificar variables ambientales
hasta ahora desconocidas
Normalmente utilizamos herramientas y técnicas
como pruebas de muestra, pruebas A / B o
pruebas multivariadas, entre otras.
El portal de información
Por lo general, está dirigido por especialistas en
tecnología como el equipo de TI, que accede a
fuentes de datos y produce y publica contenido
de Business Intelligence.
Las capacidades analíticas de este dominio deben
seleccionarse cuando se requieren métricas
confiables y no otras como agilidad o flexibilidad.
Es un dominio muy dirigido donde la autonomía
para obtener las respuestas no es un factor
decisivo.
ENTERPRISE REPORTING - INFORMES DASHBOARDING – CUADROS DE MANDO
Las CAPACIDADES ANALÍTICAS aquí son
Los informes operativos son informes y cuadros de mando Los cuadros de mando representan un estilo de informes que
informes empresariales, cuadros de mando,
confiables, aprobados y altamente controlados en cuanto a su agrega y muestra métricas de rendimiento (KPI), lo que les
OLAP: procesamiento analítico en línea, consultas producción. Estos se distribuyen automáticamente a un gran permite ser examinados de un vistazo por todo tipo de usuarios.
ad hoc, BI móvil e informes en tiempo real: número de usuarios de negocio y clientes externos, o bien se También muestran métricas utilizando infografías como diales,
inteligencia continua. integran en aplicaciones. indicadores y "semáforos", que indican el progreso hacia
Los roles orientados al negocio involucrados en Este tipo de herramienta analítica proporciona una vista de objetivos definidos. En algunos casos, los paneles evolucionan
este dominio son el consumidor de información y informes de varias páginas de datos y visualizaciones hasta convertirse en "aplicaciones" en sí mismo.
incrustadas en una aplicación.
el administrador de datos Dashboarding es una poderosa herramienta de visualización para
usuarios de negocio porque proporciona una versión única de la
Los roles orientados a especialistas en TI o verdad y comunica información en el contexto de un proceso de
tecnología involucrados en este dominio son negocio o el rol del usuario.
modelador de datos, desarrollador de BI y gerente
de calidad de datos
Fuente: Información pública de Gartner y referencias de Internet
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
El portal de información
Por lo general, está dirigido por especialistas en
tecnología como el equipo de TI, que accede a
fuentes de datos y produce y publica contenido
de Business Intelligence.
Las capacidades analíticas de este dominio deben
seleccionarse cuando se requieren métricas
confiables y no otras como agilidad o flexibilidad.
Es un dominio muy dirigido donde la autonomía
para obtener las respuestas no es un factor
decisivo.
OLAP – Procesamiento Analítico CONSULTA AD-HOC
Las CAPACIDADES ANALÍTICAS aquí son
El análisis OLAP permite a los usuarios analizar datos que se Una solución de consulta ad hoc proporciona un módulo de
informes empresariales, cuadros de mando,
han agregado previamente para responder a preguntas Inteligencia empresarial de autoservicio altamente gobernado
OLAP: procesamiento analítico en línea, consultas empresariales específicas en un cubo OLAP con varias que permite a los desarrolladores o usuarios avanzados
ad hoc, BI móvil e informes en tiempo real: dimensiones para permitir un rendimiento de consulta y empresariales crear sus propias consultas, informes y gráficos
inteligencia continua. cálculo más rápido. desde un explorador.
Los roles orientados al negocio involucrados en Es compatible con un estilo de análisis conocido como "cortar Pueden crear consultas, informes y gráficos en un origen de datos
este dominio son el consumidor de información y y picar". Los usuarios pueden navegar por rutas de detalle modelado. Puede ser agregado o granular, con cierta latencia y
multidimensionales que van hacia el fondo o hacia arriba de varias áreas temáticas. Los requisitos de producción pueden
el administrador de datos
acuerdo a sus necesidades. cambiar
Los roles orientados a especialistas en TI o
tecnología involucrados en este dominio son
modelador de datos, desarrollador de BI y gerente
de calidad de datos
Fuente: Información pública de Gartner y referencias de Internet
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
El portal de información
Por lo general, está dirigido por especialistas en
tecnología como el equipo de TI, que accede a
fuentes de datos y produce y publica contenido
de Business Intelligence.
Las capacidades analíticas de este dominio deben
seleccionarse cuando se requieren métricas
confiables y no otras como agilidad o flexibilidad.
Es un dominio muy dirigido donde la autonomía
para obtener las respuestas no es un factor
decisivo.
INTELIGENCIA DE NEGOCIO MÓVIL INFORMES EN TIEMPO REAL
Las CAPACIDADES ANALÍTICAS aquí son
informes empresariales, cuadros de mando, La inteligencia empresarial móvil es la entrega de capacidades Este es un conjunto más amplio de bloques de creación que
como informes, paneles de control, descubrimiento de datos incluyen herramientas de procesamiento de flujo de eventos,
OLAP: procesamiento analítico en línea, consultas visuales y capacidades básicas de análisis a través de agentes de middleware/eventos de mensajería y más
ad hoc, BI móvil e informes en tiempo real: dispositivos móviles (tabletas y smartphones). herramientas de análisis de diagnóstico que permiten a los
inteligencia continua. usuarios sumergirse profundamente en un evento una vez que se
Esta es una opción cada vez más en las modernas
detecta.
Los roles orientados al negocio involucrados en herramientas de BI y análisis, lo que proporciona
este dominio son el consumidor de información y oportunidades para conectarse y explorar datos para crear Estas herramientas están 100% enfocadas para proporcionar
el administrador de datos nuevos conocimientos en todas partes con cualquier inteligencia operativa para situaciones en las que los datos en
dispositivo. tiempo real de los últimos segundos o minutos mejoran
Los roles orientados a especialistas en TI o La navegación en estas herramientas se logra a través de significativamente las decisiones empresariales.
tecnología involucrados en este dominio son interfaces táctiles que consultan datos remotos o locales. Es una tendencia obvia que los informes en tiempo real están
modelador de datos, desarrollador de BI y gerente tratando de ofrecer información prescriptiva sobre las mejores
de calidad de datos medidas disponibles que se deben tomar en respuesta a la
situación, cerrando el ciclo prescriptivo.
Fuente: Información pública de Gartner y referencias de Internet
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
El portal de información
Por lo general, está dirigido por especialistas en CONSUMIDOR DE
tecnología como el equipo de TI, que accede a INFORMACIÓN DATA STEWARD
fuentes de datos y produce y publica contenido
de Business Intelligence. Este es un rol común a través de Un administrador de datos es
todos los dominios. un rol dentro de una
Las capacidades analíticas de este dominio deben organización responsable de
Representa al usuario final que
seleccionarse cuando se requieren métricas utilizar los procesos de gobierno
obtiene valor de las
confiables y no otras como agilidad o flexibilidad. herramientas y capacidades de datos de una organización
analíticas y las utiliza para tomar para garantizar la adecuación de
Es un dominio muy dirigido donde la autonomía los elementos de datos, tanto el
decisiones basadas en datos
para obtener las respuestas no es un factor contenido como los metadatos
decisivo.
Las capacidades analíticas aquí son informes GESTOR DE LA CALIDAD DEL
empresariales, cuadros de mando, OLAP: MODELIZADOR DE DATOS DESARROLLADOR DE BI
DATO
procesamiento analítico en línea, consultas ad
Este rol entiende y traduce las Es responsable de diseñar Es responsable de coordinar las
hoc, BI móvil e informes en tiempo real: necesidades empresariales en soluciones de nivel empresarial actividades para completar los
inteligencia continua. modelos de datos que admiten para bases de datos estándares de calidad y asesorar
Los ROLES ORIENTADOS AL NEGOCIO soluciones a largo plazo. multidimensionales muy sobre cómo se gestionan estos
grandes y planificar soluciones sistemas de calidad.
involucrados en este dominio son el consumidor Trabaja para implementar
estrategias de datos, construir de Business Intelligence. Informa sobre el rendimiento e
de información y el administrador de datos
flujos de datos y desarrollar También crea e implementa indicadores en contra de los
Los ROLES ORIENTADOS A ESPECIALISTAS EN modelos de datos conceptuales informes y escribe consultas de estándares establecidos, y a
TI O TECNOLOGÍA involucrados en este dominio bases de datos relacionales y menudo establece normas y
son modelador de datos, desarrollador de BI y multidimensionales políticas de calidad
gerente de calidad de datos
Fuente: Información pública de Gartner y referencias de Internet
DATA ANALYTICS Y BIG DATA – LO BÁSICO Diseño computacional – www.techbizdesign.com
Proximamente