Está en la página 1de 218

Big Data

Capacitación
Big Data
Agenda

I. Big Data
II. Características
III. Elementos
IV. Dificultades
V. Perfiles
VI. Casos de uso
Big Data

Aplicación Integración Explotación

• Core • Servicios • Repositorios


Empresarial • Interfaces • Reportería
• ERP / CRM • Toma de
• Otros Decisiones
Big Data

INTERFACES

SERVICIOS

PROGRAMAS

DBLINKS
Big Data
RIESGO OPERATIVO

ISLAS DE INFORMACION
Big Data

DATA
ETL
WAREHOUSE

AMBIENTE ANALÍTICO
Big Data

DATA WAREHOUSE

Datos Datos
Datos Datos
Homolo- Para
ETL Crudos Limpios
gados Analizar

Reglas de Limpieza Historia Cruces

Lógicas de Negocio Resúmenes

AMBIENTE ANALÍTICO
Big Data

Grandes ventajas

• Una sola versión de la verdad


• Ambiente exclusivo
• Optimizado para consultas
• Trazable y gobernable
Big Data

Pero el mundo cambió


Big Data

Problemas:
• Proceso periódico mas lento • Nuevas maneras de
• Datos mas y mas grandes
• Necesidad de datos en tiempo real ALMACENAR
• Nuevos tipos de datos (No
estructurados, sensores, redes
• Nuevas maneras de

sociales)
Capacidad de procesamiento de
PROCESAR
motores de base de datos actuales • Nuevas maneras de
limitada
INTEGRAR
Big Data

NoSQL
• Bases de Datos Columnares
• Bases de Datos Documentales
• Base de datos orientada a grafos
Big Data

Hadoop: Versiones comerciales


CLOUDERA
Big Data

Datalake
Big Data

Hadoop: Reflexiones
• Tecnología de rápido desarrollo
• HDFS es inmutable
• Almacenamiento de bajo costo
• Motores relacionales y NoSQL adoptando sus fortalezas
• Alto esfuerzo en código: Java, Python, Scala
• Baja Trazabilidad y gobierno de Datos
Big Data
Big Data
Big Data
I. Concepto
El término "big data" se refiere a los
datos que son tan grandes, rápidos o
complejos que es difícil o imposible
procesarlos con los métodos
tradicionales.
El acto de acceder y almacenar grandes
cantidades de información para la
analítica ha existido desde hace mucho
tiempo.
Pero el concepto de big data cobró
impulso a principios de la década de 2000
cuando el analista de la industria, Doug
Laney, articuló la definición actual de
grandes datos como las tres V.
.
Big Data - Características
● Volumen: Las organizaciones recopilan datos de diversas fuentes, como
transacciones comerciales, dispositivos inteligentes (IO), equipo industrial, vídeos,
medios sociales y más. En el pasado, su almacenamiento habría sido un problema -
pero el almacenamiento más barato en plataformas como los data lakes y el Hadoop
han aliviado la carga.
Big Data - Características
● Velocidad: Con el crecimiento del Internet de las Cosas, los datos llegan a las
empresas a una velocidad sin precedentes y deben ser manejados de manera
oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes están
impulsando la necesidad de manejar estos torrentes de datos en tiempo casi real.

● Variedad : Los datos se presentan en todo tipo de formatos: desde datos numéricos
estructurados en bases de datos tradicionales hasta documentos de texto no
estructurados, correos electrónicos, vídeos, audios, datos de teletipo y
transacciones financieras.
Big Data - Características
¿Hay más V’s ?
Big Data - Elementos
• Plataforma, se requiere de una que
sea capaz de manejar cualquier
tipo de dato, sin importar el
volumen y de manera oportuna.

• Capacidad, para trasformar los


datos, analizarlos y poder jugar
para generar conocimiento a partir
de ello.

• Visualización, una vez que se han


manejado y transformado es de
gran utilidad tener la capacidad de
visualizarlos para descubrir
patrones y tendencias y así tomar
decisiones.
Big Data - Elementos
Big Data - Elementos
Big Data - Dificultades
• Conocimiento insuficiente.
• Entrenamiento
Capacitaciones especializadas y graduales.
• Especialización

• Costoso
• On Premise, costos en crecimiento y
administración
• On Cloud, falta de conocimiento Combinar tecnologías, primero iniciar en entornos
puede elevar el costo por uso. locales.

• Calidad de datos Énfasis en la elección de la herramienta de


• Origenes variados y poco ordenados
integración
• Seguridad
• En ambientes locales se deben
aperturar puertos y comunicaciones Aplicar estándares de seguridad desde el inicio
entre servidores. de las implementaciones.

• Escalabilidad Validación de pares en la propuesta de


• Presupuesto ilimitado no asegura la
escalabilidad
arquitectura.
Big Data - Dificultades
Big Data - Perfiles
A R Q U I T E C T O
D E
D A T O S

•Conocimientos nivel medio/avanzado SO Linux

•Conocimientos Docker

•Conocimientos de herramientas de integración de


datos.

•Conocimientos en TSQL Scripts

•Conocimientos de NoSQL
Big Data - Perfiles
I N G E N I E R O
D E
D A T O S

•Conocimientos nivel medio/avanzado integración de


datos, soluciones en nube como on-premise.

•Definición de mallas de carga.

•Conocimiento avanzado en la construcción de querys


para base de datos (TSQL Scripts).

•Diseña y ejecuta casos de calidad de datos.


Big Data - Perfiles

¿ S I S O Y U N
G E S T O R Q U E
D E B E R Í A
A P R E N D E R ?

•Herramientas de visualización de datos.


•TSQL – Básico intermedio (Virtualización)
Big Data – Casos de uso
Diferenciar solicitudes

•Solicitud 1:
Se desea conocer cual es la cantidad de
comisarias en Lima. Reporte operativo

•Solicitud 2:
Se desea tener una recomendación de
la cantidad nueva de comisarias que se Analítica de datos
deberían implementar en los próximos
3 años.

•Solicitud 3:
Cuadro de mando
Se desea conocer el uso del observatorio.
Big Data – Casos de uso
Diferenciar solicitudes

•Solicitud 1:
Se desea conocer cual es la cantidad de Reporte operativo
comisarias en Lima.

¿Se puede utilizar? ¿Es indispensable?

Big Data SI NO

Analítica de datos NO NO

Reporte Operativo SI SI

Cuadro de mando SI NO

Gobierno de datos SI NO

Datawarehouse SI NO

Lago de datos SI NO
Big Data – Casos de uso
Diferenciar solicitudes
•Solicitud 2:
Se desea tener una recomendación de
la cantidad nueva de comisarias que se Analítica de datos
deberían implementar en los próximos
3 años.
¿Se puede utilizar? ¿Es indispensable?

Big Data SI SI

Analítica de datos SI SI

Reporte Operativo NO NO

Cuadro de mando SI SI

Gobierno de datos SI NO

Datawarehouse SI NO

Lago de datos SI SI
Big Data – Casos de uso
Diferenciar solicitudes

•Solicitud 3:
Se desea conocer el uso del observatorio. Cuadro de mando

¿Se puede utilizar? ¿Es indispensable?

Big Data SI SI

Analítica de datos NO NO

Reporte Operativo NO NO

Cuadro de mando SI SI

Gobierno de datos SI NO

Datawarehouse SI SI

Lago de datos SI SI
Big Data – Arquitectura lógica
Entorno Local Ingesta

Carga eventos

Internet de las Auto servicio


cosas
Procesamiento de lógicas
Extractor de negocio
Reportes operativos
datos

Bases de datos
relacionales Agenda ejecución de
carga de procesos
Extractor Cuadros de mando
datos

Archivos semi-
estructurados
Extractor
datos
Almacenamiento Enriquecer
Sin estructurar
Lago de datos Almacén de datos Auto - aprendizaje
Entorno Externo

Extractor
datos

GOBIERNO DE DATOS
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Virtualización Polybase
Big Data – Virtualización Polybase
¿Qué es PolyBase?
PolyBase permite que la instancia de SQL Server consulte datos con T-SQL directamente
de SQL Server, Oracle, Teradata, MongoDB, clústeres de Hadoop, Cosmos DB y el
almacenamiento de objetos compatible con S3 sin necesidad de instalar de forma
independiente software de conexión de cliente. También puede usar el conector ODBC
genérico para conectarse a proveedores adicionales mediante controladores ODBC de
terceros. PolyBase permite que las consultas de T-SQL combinen los datos de orígenes
externos con tablas relacionales en una instancia de SQL Server.

Un caso de uso clave para la virtualización de datos con la característica de PolyBase es


permitir que los datos permanezcan en su ubicación y formato originales. Puede virtualizar
los datos externos a través de la instancia de SQL Server, para que se puedan consultar in
situ como cualquier otra tabla de SQL Server. Este proceso minimiza la necesidad de
procesos ETL para el movimiento de datos. Este escenario de virtualización de datos es
posible con el uso de conectores de PolyBase.
Big Data – Virtualización Polybase
Big Data – Virtualización Polybase
Big Data – Virtualización Polybase
Big Data – Virtualización Polybase
Big Data – Virtualización Polybase
Big Data – Virtualización Polybase
Big Data – Redes Sociales
Google Colab
Big Data – Redes Sociales
Python – Rutina para capturar datos desde Twitter
https://developer.twitter.com/en/docs/authentication/oauth-1-0a/obtaining-user-access-tokens

Creación de un token
en Twitter para la captura
de datos
Big Data – Redes Sociales

Crea el objeto que va a solicitar información desde Twitter

https://developer.twitter.com/en/docs/authentication/oauth-1-0a/obtaining-user-access-tokens
Big Data – Redes Sociales

Se almacena temporalmente el arreglo de campos y luego se almacenan


Big Data – Redes Sociales

Se muestra un extracto de los registros y se almacena en un archivo plano


Big Data – Redes Sociales

Resultado de la extracción
Big Data – Redes Sociales

Extraer archivo
Big Data – Redes Sociales

Extraer archivo
Big Data – Redes Sociales

Importar datos
Big Data – Redes Sociales

Importar datos
Big Data – Jupyter

Exploración y analítica avanzada

Los cuadernos de Jupyter, en


combinación con frameworks como
PySpark, también pueden ser una
herramienta potente para la consulta,
acondicionamiento, persistencia y diseño
de scripts de Big Data.

Requisitos para la instalación en


Windows 10

Instalar Pyhton

Instalar pip install


Big Data – Jupyter

¿Qué es Python?
Python es un lenguaje de programación interpretado multipropósito, el cual permite que le
demos instrucciones a nuestro computador de que él comprenda. La filosofía de Python, es
hacer hincapié en que el lenguaje sobre todo sea legible para las personas que programan. Para
empezar a utilizar Python en nuestros computadores, es necesario instalar el software necesario.

¿Cómo instalar Python?


Si tienes Windows como sistema operativo. una
manera de realizarlo, es siguiendo las siguientes
instrucciones:
•Ingresa a la dirección URL del sitio de Python
es: https://www.python.org/
•Debes ir al apartado de Downloads, donde debes
seguir el link sombreado en azul Python 3.7.x:
Big Data – Jupyter
En el link que se abre, deberás ir a la sección Files. Donde se muestran todas las versiones de
python para distintas plataformas y sistemas operativos. Se puede observar una pantalla como
lo siguiente:
Big Data – Jupyter
•En este apartado deberemos elegir Windows x86 executable installer (32 bits), o Windows x86-64
executable installer, dependiendo de si tu computadora es de 64 bits o 32 bits.
•Una vez descargado, ejecutamos el instalador. No olvidar marcar la casilla que dice: Añadir Python 3.7 al
Path. Luego, dar click en Instalar Ahora (Install Now).
Big Data – Jupyter

Prerequisitos para instalar Jupyter luego de instalar Python


Es necesario que su computadora tenga instalado Python, y este se encuentre agregado
al PATH de Windows. Además, para la instalación es necesario que tenga acceso a Internet.
Instalación
•Abrir consola de comandos de Windows. En la barra de búsqueda de Windows, escribir cmd y
seleccionar Símbolo del sistema.
•En la línea de comandos escribir la siguiente instrucción: pip install jupyter y presionar Enter.
•Python descargará e instalará las librerías necesarias para utilizar jupyter
Consideraciones
Big Data – Jupyter
De no hacerlo al momento de instalar jupyterlab van a tener el siguiente mensaje de error:
Big Data – Jupyter
Instalación
•Abrir consola de comandos de Windows. En la barra de búsqueda de Windows,
escribir cmd y seleccionar Símbolo del sistema.
•En la línea de comandos escribir la siguiente instrucción: pip install jupyter y
presionar Enter.
•Python descargará e instalará las librerías necesarias para utilizar jupyter
Uso
1. Ejecutar Jupyter
Para ejecutar jupyter, abrir la línea de comandos de Windows y escribir la
instrucción: jupyter notebook y presionar Enter.

Al ejecutarse, se abrirá una pestaña en su navegador web predefinido, por medio del cual
podemos crear y ejecutar notebooks de jupyter. Esta pestaña nos mostrará una lista de
notebooks, archivos y directorios dentro de la carpeta donde iniciamos jupyter. No debe
cerrar la línea de comandos hasta que haya terminado de trabajar con jupyter.
Big Data – Jupyter
Instalación
•Abrir consola de comandos de Windows. En la barra de búsqueda de Windows,
escribir cmd y seleccionar Símbolo del sistema.
•En la línea de comandos escribir la siguiente instrucción: pip install jupyter y
presionar Enter.
•Python descargará e instalará las librerías necesarias para utilizar jupyter
Uso
1. Ejecutar Jupyter
Para ejecutar jupyter, abrir la línea de comandos de Windows y escribir la
instrucción: jupyter notebook y presionar Enter.

Al ejecutarse, se abrirá una pestaña en su navegador web predefinido, por medio del cual
podemos crear y ejecutar notebooks de jupyter. Esta pestaña nos mostrará una lista de
notebooks, archivos y directorios dentro de la carpeta donde iniciamos jupyter. No debe
cerrar la línea de comandos hasta que haya terminado de trabajar con jupyter.
Big Data – Jupyter
Big Data – Jupyter

Considerar también la instalación de la librería pandas


Big Data – Jupyter

Actividad: Lectura de un archivo de denuncias, extraído de la siguiente dirección

Denuncias extraídas del SIDPOL (Sistema de Denuncias Policiales) sobre violencia


familiar 2019 | Plataforma Nacional de Datos Abiertos
Big Data – Jupyter

1er Paso importar la librería pandas

Para compilar la línea de código es: shift+enter


Big Data – Jupyter

2do Paso cargar el archivo de análisis

3er Paso cargar mostrar los primeros registros


Big Data – Jupyter

4to Emitir estadísticas básicas del contenido


Big Data – Jupyter

4to Identificar el nombre de las columnas


Big Data – Jupyter

5to Identificar el tipo de columnas


Big Data – Jupyter

5to Identificar el tipo de columnas


Big Data – Neo4j
Base de datos de Grafos
¿Qué es una base de datos de grafos?
Una base de datos de gráficos almacena nodos y relaciones
en lugar de tablas o documentos. Los datos se almacenan
como si dibujara ideas en una pizarra. Sus datos se
almacenan sin restringirlos a un modelo predefinido, lo que
permite una forma muy flexible de pensar en ellos y usarlos.

Neo4J
Neo4j es la base de datos de gráficos líder en el mundo. La
arquitectura está diseñada para una gestión, un
almacenamiento y un recorrido óptimos de los nodos y las
relaciones. La base de datos de gráficos adopta un enfoque
de gráfico de propiedades, que es beneficioso tanto para el
rendimiento transversal como para el tiempo de ejecución
de las operaciones.
Big Data – Neo4j

El lenguaje que usa Neo4J: Cypher


Cypher es el lenguaje de consulta de gráficos de Neo4j que permite a los usuarios almacenar y recuperar datos de
la base de datos de gráficos. Es un lenguaje declarativo inspirado en SQL para describir patrones visuales en
gráficos usando sintaxis ASCII-art. La sintaxis proporciona una forma visual y lógica de hacer coincidir patrones de
nodos y relaciones en el gráfico. Cypher ha sido diseñado para ser fácil de aprender, comprender y usar para
todos, pero también incorpora el poder y la funcionalidad de otros lenguajes de acceso a datos estándar.
Big Data – Neo4j
Big Data – Neo4j
El modelo gráfico de
propiedades
En Neo4j, la información se
organiza en nodos, relaciones y
propiedades.
Bloques de construcción del
modelo de gráfico de
propiedades
Big Data – Neo4j
Big Data – Neo4j
Big Data – Neo4j

CREATE (Juan:Persona:Analista{nombre:'Juan',apellidos:'Torres',dni:12345678})
CREATE (Rosa:Persona:Analista{nombre:'Rosa',apellidos:'Garcia',dni:32145678})
CREATE (Isa:Persona:Solicitante{nombre:'Isa',apellidos:'Jimenez',dni:45925678})
CREATE (Rafa:Persona:Solicitante{nombre:'Rafa',apellidos:'Morales',dni:44856991})
CREATE (Pablo:Persona:Solicitante{nombre:'Pablo',apellidos:'Ruiz',dni:70568956})
CREATE (CO:Oficina{nombre:'Oficina compras',empleados:1,distribuidas:6})
CREATE (TEC:Oficina{nombre:'Oficina tecnología',empleados:3,distribuidas:6})
CREATE (TES:Oficina{nombre:'Oficina tesoreria',empleados:2,distribuidas:6})
CREATE (RegionLima:Region{nombre:'RegionLima',lugar:'Todo Lima'})
CREATE (RegionNorte:Region{nombre:'RegionNorte',lugar:'Zona Norte'})
Big Data – Neo4j

Creación de relaciones
Big Data – Neo4j

Creación de situación
tramites
Big Data – Neo4j

Creación de pertenencia
Big Data – Neo4j

Creación de pertenencia
Big Data – ChangeData Capture
En bases de datos, las CDC (Change Data Capture) son patrones de diseño software que se emplean para capturar
cambios que se producen en los datos y propagarlos a clientes intermedios. Normalmente se emplean en entornos de
data-warehouse, para preservar el estado de los datos a lo largo del tiempo, o se emplean también en soluciones en
las que hay que mantener un conjunto de bases de datos heterogéneo, ya que las CDC producen el mismo formato de
salida independientemente de cuál sea la base de datos origen del registro.

Existen varias soluciones de CDC: Maxwell, SpinalTap, Yelp’s MySQL Streamer, Debezium, DBLog.
Big Data – ChangeData Capture
En bases de datos, las CDC (Change Data Capture) son patrones de diseño software que se emplean para capturar
cambios que se producen en los datos y propagarlos a clientes intermedios. Normalmente se emplean en entornos de
data-warehouse, para preservar el estado de los datos a lo largo del tiempo, o se emplean también en soluciones en
las que hay que mantener un conjunto de bases de datos heterogéneo, ya que las CDC producen el mismo formato de
salida independientemente de cuál sea la base de datos origen del registro.

Existen varias soluciones de CDC: Maxwell, SpinalTap, Yelp’s MySQL Streamer, Debezium, DBLog.

• Debezium es tolerante a fallos: si por algún motivo Debezium se detuviera, al reiniciarse registrará los
cambios que se produjeron mientras estaba apagado para asegurar que todos los eventos se registran y
procesan adecuadamente. Adicionalmente, agrega esta característica, pero para el lado del cliente, es decir,
si un cliente se desconecta del servicio, cuando se vuelva a conectar recibirá todos los eventos que
sucedieron mientras estaba desconectado.
Big Data – ChangeData Capture
Big Data – ChangeData Capture

• Debezium proporciona multitud de módulos para conexión con bases de datos. Algunos de ellos son genéricos,
para soportar cualquier base de datos, con la desventaja de que son algo limitados; y otros son específicos de
algunas bases de datos. En concreto, Debezium proporciona conectores con bases de datos MySQL, PostgreSQL,
MongoDB y SQL Server. Además, se está desarrollando conectores para Oracle, Cassandra y Db2.
Big Data – ChangeData Capture

Con la misma agilidad que los demás componentes de Stambia, el


componente para CDC es directamente utilizable y ofrece un alto
nivel de productividad gracias al enfoque dirigido por modelos
Stambia y al uso de los archivos nativos de registro «rehacer» o
«transaccional» de las bases de datos o al uso de
desencadenadores sencillos (triggers).

Cuando los editores de base de datos las ofrecen, Stambia utiliza las funciones estándar de la API para leer los
datos desde los archivos de registro «transaccional» o «redo». Es el caso de tecnologías como Oracle, Microsoft
SQL Server o Postgre SQL.
Big Data – ChangeData Capture
Big Data – ChangeData Capture
Habilitar CDC en SQL Server
Para ejecutar el procedimiento CDC se deben realizar cambios en las tablas de SQL Server, un administrador de SQL Server con los privilegios
necesarios primero debe ejecutar una consulta para habilitar CDC en la base de datos. Luego, el administrador debe habilitar CDC para cada tabla que
desea capturar.

Después de aplicar CDC, captura todas las operaciones INSERT, UPDATE y DELETE que se confirman en las tablas para las que está habilitado CDD.

Habilitación de CDC en la base de datos de SQL Server

Antes de poder habilitar CDC para una tabla, debe habilitarlo para la base de datos de SQL Server. Un administrador de SQL Server
habilita CDC ejecutando un procedimiento almacenado del sistema. Los procedimientos almacenados del sistema se pueden ejecutar
con SQL Server Management Studio o con Transact-SQL.

Requisitos previos

- Es miembro del rol de servidor fijo sysadmin para SQL Server.

- Usted es un db_owner de la base de datos.

- El Agente SQL Server se está ejecutando.


Big Data – ChangeData Capture
Primer paso: Segundo
Una vez Paso:
dentro del
Luego de
SQL Server
activar el
con el
explorador de
usuario
plantilla,
administrad
debemos
or, nos
seleccionar la
vamos al
opción
menú View y
Enable
elegimos
Database for
Template
CDC para
Explorer.
tener un
modelo para
activar
nuestro CDC
Big Data – ChangeData Capture
Tercer paso:
Seleccionamos la base que deseamos activar, en nuestro servidor:
Big Data – ChangeData Capture
Tercer paso:
Seleccionamos la base que deseamos activar, en nuestro servidor:
Big Data – Catalogo de datos
La información sobre información, engloba todos los atributos de los datos que describe cada archivo HDFS o de base
de datos y, de forma conjunta, proporciona una información de interés con muy distintas utilidades a la hora
de mejorar la gestión de los datos.

Dicha actividad en el entorno organizacional


específicamente en el de gobierno y administración de
datos, los metadatos juegan un importante papel como
marco de referencia, también tiene como concepto el de
"información que describe o proporciona el contexto para
los datos, contenidos, procesos de negocio, servicios, reglas
de negocio y políticas de apoyo a los sistemas de
información de una organización.
Big Data – Catalogo de datos
Ventajas

• Facilita búsquedas y análisis: Los metadatos ayudan a buscar y ubicar datos. Una buena gestión de
metadatos también facilita el análisis del curso de los datos desde la fuente, facilitando la auto
documentación, así como funciones de transformación, análisis y cuadros de mando.
• Facilita la estandarización: Al eliminar errores e inconsistencias, la estandarización de datos mejora la calidad
de estos a lo largo de su ciclo de vida. Con la gestión de los metadata en un repositorio centralizado se logra
conseguir una visión más completa del ciclo de vida del dato, desde que se crea hasta que se consume,
además de ventajas en el control de procesos.
• Ayuda a la integración: En la integración híbrida va a integrar diversas fuentes y canales de información, los
metadatos son claves. Sirviéndonos de un repositorio centralizado de metadatos para el uso compartido
entre los usuarios de OGTIC y Gobierno de datos, con lo cual se facilita la gobernanza, así como una
aplicación de las mejores prácticas por parte de aquellos. De gran utilidad en estructuras híbridas para
mejorar la gestión de datos de forma integrada.
Big Data – Catalogo de datos
Ventajas
• Gestión del cambio: Sobre todo, en entornos complejos, pues la gestión de metadatos proporciona la
visibilidad y el control necesarios para hacerlo en un entorno de integración de datos empresariales. A través
de una automatización de los análisis de impacto detectaremos los cambios en las aplicaciones y podremos
intervenir para subsanar conflictos.
• Más seguridad: En caso de haber cambios, una adecuada gestión de metadatos protegerá los datos críticos
del negocio y, en general, facilitará el cumplimiento de la normativa.
• Mejora los informes: Gracias a esa facilidad de intervención datos serán de calidad y, los procesos no
presentarán incidencias y, lógicamente, el reporting ganará en confiabilidad. En general, una correcta gestión
de metadatos permitirá entregar datos seguros y confiables.
• Desarrollos más ágiles: Un acceso inteligente a los metadatos, por ejemplo en un entorno híbrido integrado,
aumenta la productividad de los ingenieros de datos y reduce el plazo de suministro de la conectividad. Ello se
traduce en una rebaja del coste del cambio entre las diferentes plataformas.
• Mejor gobernanza de datos: Los metadatos gestionados en un entorno estandarizado mediante un repositorio
centralizado son esenciales para implementar un exitoso programa de gobierno de datos. Entre otras
ventajas, la gestión de los metadatos aumenta la visibilidad de las distintas ejecuciones de patrones y gestión
de diferentes fuentes de datos, propiciando una gobernanza centralizada, así como las mejores prácticas.
Big Data – Catalogo de datos
Tipos de metadatos

Metadatos técnicos (también llamado metadatos estructurales) describe cómo se organizan y muestran los datos a
los usuarios describiendo la estructura de los objetos de datos, como tablas, columnas, filas, índices y conexiones. Los
metadatos técnicos les dicen a los profesionales de datos cómo necesitarán trabajar con los datos, por ejemplo, si
pueden trabajar con ellos tal como están o si necesitan transformarlos para su análisis o integración.

Los metadatos de proceso (también llamados metadatos administrativos) describen las circunstancias de la creación
del activo de datos y cuándo, cómo y quién accedió, usó, actualizó o modificó. También debe describir quién tiene
permiso para acceder y utilizar los datos.
Los metadatos del proceso proporcionan información sobre el historial del activo y el linaje, lo que puede ayudar a un
analista a decidir si el activo es lo suficientemente reciente para la tarea en cuestión, si proviene de una fuente
confiable, si ha sido actualizado por personas confiables, etc. Los metadatos del proceso también se pueden usar para
solucionar problemas de consultas. Y cada vez más, los metadatos de procesos se extraen para obtener información
sobre usuarios o clientes de software, como qué software están usando y el nivel de servicio que están
experimentando.
Big Data – Catalogo de datos
Tipos de metadatos

Los metadatos empresariales (a veces denominados metadatos externos) describen los aspectos comerciales del
activo de datos: el valor comercial que tiene para la organización, su idoneidad para un propósito particular o varios
propósitos, información sobre la conformidad normativa y más. Los metadatos empresariales son aquellos en los que
los profesionales de datos y los usuarios de línea de negocios hablan el mismo idioma sobre los activos de datos.

Como mínimo, un catálogo de datos debería facilitar la búsqueda (o recolección) y la organización de todos los
metadatos existentes asociados con cualquier activo de datos en su organización. También debe proporcionar
herramientas que permitan a los expertos en datos seleccionar y enriquecer esos metadatos con etiquetas,
asociaciones, calificaciones, anotaciones y cualquier otra información y contexto que ayude a los usuarios a encontrar
datos más rápido y usarlos con confianza.
Big Data – Catalogo de datos
Factores claves de catálogo de datos

Conectores y herramientas de conservación

Un catálogo de datos sirve como un único lugar de confianza para los datos. Los conectores mapean los conjuntos de
datos físicos en su base de datos; por lo tanto, es importante contar con una amplia gama de conectores para reforzar
el catálogo de datos. Dado que los metadatos se pueden recopilar de múltiples fuentes, consultas SQL, inteligencia de
negocio o herramientas de integración de datos, también es importante conservar estos datos. La validación y la
certificación son procesos importantes que mejoran la eficiencia de un catálogo de datos y hacen que el gobierno de
datos sea un proceso sostenible.

Automatización

La automatización en los catálogos de datos permite a los usuarios de datos centrarse en procesos cruciales como la
validación y corrección de problemas de datos, lo cual mejorará la velocidad y la agilidad del catálogo de datos y
enriquecerá los conjuntos de datos dentro de la organización.
Big Data – Catalogo de datos
Factores claves de catálogo de datos
Seguimiento de linaje o ciclo de vida

El linaje ofrece un vistazo al ciclo de vida de los datos visualizados. En caso de discrepancias, los usuarios de datos
podrán utilizar el catálogo de datos para rastrear fácilmente el linaje para localizar el problema y corregirlo. También
ayudará a comprender la diferencia entre varias fuentes y tipos de datos en la organización.
Glosario universal y diccionario de datos

Los datos de una organización son una gran parte de su valor, por lo que deberán ser accesibles y fáciles de entender
para todas las partes interesadas. Normalmente, un catálogo de datos se compone de un diccionario de datos y un
glosario. El diccionario de datos es una colección de todos los metadatos (normalmente almacenados en tablas) sobre
los datos de su catálogo, incluido el significado, las relaciones con otros datos, el origen, el uso y el formato. El glosario
permite a los miembros de la organización identificar los términos comerciales utilizados en el catálogo y utilizarlos de
la misma manera en toda la empresa.
Big Data – Catalogo de datos
Perfilaje (Profiling)

La elaboración de perfiles de datos es el proceso de evaluar la integridad, precisión, consistencia y puntualidad de sus
datos. Básicamente, la creación de perfiles de datos determina la utilidad de los datos para resolver problemas
comerciales, lo cual es importante para mantener su conjunto de datos al recopilar datos de múltiples fuentes de
datos.
Big Data – Catalogo de datos
Factores claves de catálogo de datos

Conectores y herramientas de conservación

Un catálogo de datos sirve como un único lugar de confianza para los datos. Los conectores mapean los conjuntos de
datos físicos en su base de datos; por lo tanto, es importante contar con una amplia gama de conectores para reforzar
el catálogo de datos. Dado que los metadatos se pueden recopilar de múltiples fuentes, consultas SQL, inteligencia de
negocio o herramientas de integración de datos, también es importante conservar estos datos. La validación y la
certificación son procesos importantes que mejoran la eficiencia de un catálogo de datos y hacen que el gobierno de
datos sea un proceso sostenible.

Automatización

La automatización en los catálogos de datos permite a los usuarios de datos centrarse en procesos cruciales como la
validación y corrección de problemas de datos, lo cual mejorará la velocidad y la agilidad del catálogo de datos y
enriquecerá los conjuntos de datos dentro de la organización.
Big Data – Spark
Big Data – Spark
Spark es un motor de código abierto para el procesamiento y análisis de información a gran escala

Aunque fue creado originalmente en 2009 por el AMPLab de la Universidad de California, en Berkeley, la base de
código de Spark fue donada a la Apache Software Foundation —que es la empresa de software de open source
más grande del mundo— en 2014, por esa razón se le conoce como Apache Spark.

La existencia de Spark responde a las necesidades que impone actualmente el análisis de Big Data, es por eso
que ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a través de clusters de
computadoras que permite realizar una variedad de tareas con macrodatos a una mayor velocidad debido, entre
otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinación

La velocidad a la que procesa la información es precisamente una de las características de Spark más
importantes, ya que puede hacerlo de 10 (si lo hace en disco) a 100 veces más rápido (cuando lo hace en
memoria) que otras herramientas, como MapReduce.
Big Data – Spark
Por otro lado, Apache Spark admite múltiples lenguajes de programación altamente utilizados, (como son Python,
Java, Scala, SQL y R) para programar aplicaciones paralelas rápidamente con más de 80 operadores.

Además, puede ser usado por sí solo o en plataformas como Hadoop, EC2, YARN y Mesos, así como acceder a datos
desde Cassandra, Alluxio, HDFS, Hive y cientos de otras bases de datos.

Por todos estos factores relacionados con el manejo de Big Data, Spark tiene una gran popularidad entre los científicos
de datos y las empresas que tienen un enfoque data-driven.

Actualmente esta herramienta forma parte de los procesos internos de algunas de las empresas más grandes del
mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify,
entre muchas otras.
Big Data – Spark
Spark SQL
Quizá es la interfaz más utilizada por desarrolladores de
Spark para crear aplicaciones. Se centra en el procesamiento
de datos estructurados y permite consultar datos desde
otras fuentes.

Spark Streaming
Permite procesar flujos de datos escalables y tolerantes a
fallas casi en tiempo real.

MLlib
Es una biblioteca de algoritmos para realizar operaciones
enfocadas al Machine Learning.

GraphX
Además de ofrecer una serie de operaciones para la
manipulación de grafos, provee algunos algoritmos de
grafos.
Big Data – Spark
Spark vs. Hadoop
Si bien suelen oponerse estas dos plataformas de análisis de Big Data, en realidad debemos considerar a Spark como
una mejora de Hadoop, y, de manera más específica, de su componente nativo para el procesamiento de datos,
MapReduce.
Igual que Spark, MapReduce también permite a desarrolladores crear aplicaciones para procesar Big Data más
rápidamente en porciones que trabajen en paralelo a través de clusters.
Sin embargo, la diferencia estriba en que MapReduce procesa sus datos en disco, lo cual ralentiza el proceso al añadir
tiempo de lectura y escritura de información. Por su parte, como se ha dicho, Spark opera en memoria, lo cual agiliza
significativamente los procesos.
Otra de las diferencias entre estas dos plataformas radica en las posibilidades que ofrecen para programar
aplicaciones. Es mucho más complicado programar en MapReduce que en Spark, debido a los APIs que contiene para
distintos lenguajes de programación.
Apache Spark puede ejecutar aplicaciones de procesamiento de flujos en clusters de Hadoop a través de YARN (el
recurso de Hadoop para administrar recursos y programar tareas). Además, Spark permite el uso de datos
provenientes de fuentes externas a Hadoop, tales como Kafka.
En suma, Spark no solo es compatible con Hadoop, sino que le es complementario y, por lo tanto, deberían ser vistas
como herramientas que suman y no que se oponen.
Big Data – Spark
Spark y la revolución del Big Data
En resumen, la importancia de Spark para el Big Data radica en que representa una herramienta increíblemente
útil para simplificar la laboriosa y desafiante tarea de procesamiento de altos volúmenes de macrodatos, tanto
estructurados como no estructurados, en tiempo real.
Al integrar de manera casi automática y sin un esfuerzo mayor una serie de elementos —como el Machine Learning y
los algoritmos de grafos— que facilitan el análisis de datos y la implementación de soluciones, brinda una ventaja
competitiva sobre algunas otras de las herramientas que son usadas para analizar información a gran escala.
Big Data – Spark
Spark: Código de regresión logística

https://github.com/apache/spark/tree/master/examples/
src/main/python
Big Data – Spark
Spark: Código de regresión logística
Big Data – Spark
Spark: Código de regresión logística
Visualización de datos – Mejores Prácticas

« ó á

C. Ware (2012). Information Visualization, Third Edition: Perception for Design.


San Francisco: Morgan Kaufmann.

« ó ó ñ
ó á
ó »

A. Cairo (2016). The Truthful Art. New Riders.

https://www.privatepro
xyguide.com/es/mejore
s-herramientas-de-
visualizacion-de-datos/
Visualización de datos – Mejores Prácticas

1)Visualización estáticas: su principal función suele ser la de comunicar unos datos que pueden haber
sido analizados previamente. Este tipo de visualizaciones debe ayudar a descubrir patrones y valores
atípicos (en inglés, outliers) en los datos. Además, son aquellas visualizaciones que pueden ser
utilizadas en formatos físicos como periódicos y revistas en papel. Por ejemplo se puede ver una
visualización hecha por el periódico en la que se muestra la evolución de la tasa de desempleo en forma
de gráfico de líneas, y la evolución del porcentaje de población activa en paro representado con un
gráfico de barras.
Visualización de datos – Mejores Prácticas
2)Visualizaciones interactivas: son aquellas que permiten a los usuarios interactuar con los datos. Esta
propiedad hace que los datos puedan ser explorados por el usuario, al darle libertad para centrarse en
aquello que más le interesa. Por ejemplo, acostumbrados a las clásicas representaciones de la evolución del
desempleo, como lo que se mostraba en la figura anterior, la visualización interactiva del flowingdata permite
al usuario visualizar los motivos de fallecimiento por edades y años desde 1999. De este modo, las
visualizaciones interactivas permiten el descubrimiento y la exploración de los datos, además de comunicar
el resultado de análisis previos.
https://flowingdata.com/2018/10/02/shifting-death/
Visualización de datos – Mejores Prácticas

El diagrama parte de la idea de que se


dispone de unos datos que han sido
recolectados previamente. Estos datos son
filtrados y procesados hasta convertirlos en
información, es decir, hasta tenerlos limpios y
estructurados. A esta información se le aplica
una traducción visual o, dicho de otro modo,
se la representa gráficamente. Finalmente, es
importante ser conscientes de que esta
representación será consumida por un
usuario destinatario, el cual obviamente no
tiene por qué ser el mismo diseñador de la
visualización. Por este motivo, es muy
importante ser consciente de cuál es el perfil
del destinatario del diseño de la visualización

Nota: Tener en conocimiento la resolución de la


pantalla y dispositivos a utilizar como smartphones o
tablets
Visualización de datos – Reglas básicas

Diseñar una visualización implica decidir qué codificaciones visuales se utilizarán para representar los
datos. Las principales codificaciones visuales que existen son: posición, forma, color y movimiento . A
continuación se detalla una serie de reglas a tener en cuenta para la elección de dichos elementos. Como
se podrá ver, muchas de estas reglas son muy sencillas de aplicar, y generalmente se podrán implementar
mediante cualquier herramienta que pueda trabajar con datos.

1. Empezar con preguntas Una visualización puede tener muchas formas distintas. Por ejemplo, un conjunto
de datos que contenga información sobre accidentes en Perú podrá tener la localización del accidente, el
número de ocupantes del vehículo, el número de víctimas o heridos, o el tipo de vehículo. Está claro, pues,
que en función de lo que se quiera saber (en función del «objetivo informacional») se podrán representar
estos datos en un mapa, en un gráfico de barras que acumule el número de accidentes por número de
ocupantes, o bien el número de heridos o víctimas. Por lo tanto, tener preguntas concretas que se quieran
hacer a los datos es de vital importancia para crear una representación visual que ayude a responderlas
correctamente.
Visualización de datos – Reglas básicas
2. Gráficos auto explicativos. Por lo general, es
deseable que el usuario sea capaz de entender
una visualización sin leer el texto que la
acompaña (como en el caso de una noticia
periodística) o sus instrucciones. Para ello se
dispone de una herramienta elemental que
mejora mucho la legibilidad de las
visualizaciones: los textos o etiquetas. El
siguiente gráfico muestra dos líneas temporales:
la verde representa el consumo de agua en la
ciudad canadiense de Edmonton un día
laborable cualquiera, mientras que la azul
muestra el consumo de agua el día de la final de
hockey sobre hielo de las olimpiadas de invierno,
en la que participaba la selección nacional de
Canadá. Viendo el gráfico, y gracias a las
etiquetas, es muy fácil poder ver cómo el
consumo de agua está íntimamente relacionado
con el devenir del partido, puesto que en cada
final de periodo (un partido de hockey consta de
tres periodos) hay un repunte en el consumo de
agua (presumiblemente debido a que los
espectadores hacen una «parada técnica» en el
baño, mientras que no la hacen durante el
partido).
Visualización de datos – Reglas básicas
3. La funcionalidad debe prevalecer
frente a la estética No hay ninguna
duda de que crear visualizaciones
bellas tiene un poder de persuasión
muy importante. El «Better Life
Index» de la OECD, mostrado en la
figura, es un ejemplo de
visualización muy atractiva que
representa gráficamente el índice
para comparar países creado por
esta institución. El uso de una
metáfora (la flor) para la
representación de cada país resulta
muy interesante desde el punto de
vista estético, aun cuando pueda
presentar problemas con respecto a
la información que se representa
gráficamente. Se trata, de hecho, de
una visualización interactiva muy
compleja que combina diferentes
indicadores (uno por pétalo) y un
indicador ponderado de los mismos
(la posición de la flor).
Visualización de datos – Reglas básicas
Sin embargo, es de vital Probablemente,
importancia entender que para contestar a
el objetivo principal de la la pregunta se
visualización de datos, en han necesitado
un entorno analítico, debe varios segundos,
ser el de generar e incluso ha
conocimiento sobre los podido ser algo
datos con los que se confuso
trabaja. Obsérvese, por interpretar el
ejemplo, la representación gráfico. Esto es
de la figura, que muestra porque la
los momentos más activos representación
en Twitter durante el año utilizada no es la
2011. ¿Cuál ha sido el más adecuada
tercer momento más para el «objetivo
activo? informacional»
que se pretende.
Visualización de datos – Reglas básicas

Si se intenta hacer el mismo ejercicio con el gráfico de


la derecha, se puede observar que resulta mucho más
sencillo.
Visualización de datos – Reglas básicas
4. Uso de la interacción Anteriormente se ha
comentado la existencia de dos tipos de
visualizaciones: las estáticas y las
interactivas. Es muy importante ser
consciente de que el uso de interacción
puede aportar muchos beneficios a una
visualización. Una de las limitaciones que
sufren los gráficos estáticos es que «solo»
pueden comunicar un conjunto concreto de
datos de una única manera, mientras que en
los gráficos interactivos se puede permitir al
usuario que decida en qué fijarse. Además,
hay veces en que la decisión que se toma a
la hora de decidir la forma que tendrán los
datos implica no ser todo lo precisos que se
desearía en algún aspecto concreto de
estos.
Visualización de datos – Reglas básicas
Hasta aquí esta visualización es
muy buena, sin embargo, la
elección de la codificación de los
datos hace que sea muy difícil, por
ejemplo, comparar si hay más
gente que está trabajando a las
diez de la mañana que a las doce
del mediodía. Eso es porque las
áreas de las distintas actividades
están apiladas y no están
referenciadas en el cero. Sin
embargo, los diseñadores de esta
visualización crearon otra
interacción para solucionar este
problema: con un clic en cualquier
área, esta queda referenciada en
el cero y la comparación que se
deseaba realizar pasa a ser mucho
más sencilla de ejecutar
Visualización de datos – Reglas básicas
5. La forma sigue a la
necesidad Como ya
se ha comentado con
anterioridad, es
importante tener claro
cuál es el objetivo de
la visualización, para
poder así elegir
aquella codificación
visual que sea más
adecuada para este.
Alberto Cairo pone un
buen ejemplo en su
libro The Functional
Art, en el cual se
muestra la
visualización de la
figura 16, sobre datos
de empleo
Visualización de datos – Reglas básicas
¿Cuáles son las regiones que mejoraron?

No queda más remedio que


inspeccionar los números, intentar
memorizarlos, y después intentar inferir
el orden de los valores
Es mucho más claro y comunica mejor los datos disponibles que el
mapa, el cual queda como elemento que proporciona contexto
geográfico.
Visualización de datos – Reglas básicas
6. Preparar bien los datos Para hacer una buena
visualización de datos es de vital importancia
disponer de buenos datos. Esto significa que se
tendrá que trabajar con los datos antes de
representarlos, con el fin de poder mostrar el
mensaje que se esconde detrás de ellos. Un claro
ejemplo de preparación de datos es el proceso de
normalización. En la siguiente visualización se
representa el número de accidentes mortales por
comunidad autónoma en el año 2014. En la figura
se puede ver que Cataluña, Madrid y Andalucía
son las tres comunidades con mayor número de
accidentes mortales. Sin embargo, estas tres
comunidades autónomas son las más pobladas,
por lo que tiene sentido que también sean las que
tienen más tráfico y, por lo tanto, más accidentes.
Esta información es útil pero no permite, por
ejemplo, hacer un análisis que posibilite a la
Dirección General de Tráfico decidir en qué
comunidad autónoma es necesario aplicar nuevas
medidas para prevenir accidentes.
Visualización de datos – Reglas básicas
En el gráfico de la
figura se ha aplicado
una normalización,
calculando el número
de accidentes por
habitante. De este
modo, se puede ver
que Ceuta y Melilla3
pasan a estar en la
primera posición de la
clasificación, y que, por
ejemplo, las islas
Baleares se sitúan por
encima de Madrid.
Visualización de datos – Reglas básicas
En resumen existe una serie de reglas básicas que deben tenerse en cuenta:
• Es muy importante tener claro qué se quiere que cuente una visualización,
quién va a ser el consumidor de esta y en qué dispositivo la va a utilizar.

• Un conjunto de datos podrá ser representado de muchas formas distintas. La


misión del analista o diseñador será escoger aquella visualización que mejor
ayude a cumplir con el objetivo informacional del usuario final.

• Existen dos tipos fundamentales de visualización: las estáticas y las interactivas.


Por lo general, las primeras se centran más en comunicar datos o hechos
mediante recursos visuales, mientras que las segundas permiten un análisis de
datos más exploratorio.

• Las visualizaciones de datos en un entorno analítico tienen como prioridad


ayudar a generar conocimiento en torno a los datos, y no la mera generación de
imágenes atractivas.
Visualización de datos – Objetivos
1. Comunicar El objetivo principal de la
visualización de datos es el de comunicar una
idea o el resultado de un análisis hecho sobre
estos datos. En este sentido, es interesante ser
conscientes de que las figuras se muestran la
misma información, pero utilizan distintas
representaciones. Mientras la tabla (figura A)
ayuda a ver el detalle concreto de los valores, el
gráfico de líneas (figura B) permite ver la
evolución temporal del valor de las acciones.
Ambas son útiles, pero el gráfico de líneas aporta
mucha más información a simple vista. Es decir,
el gráfico «comunica mejor». A pesar de que es
posible escoger entre diferentes tipos de
representaciones, con la visualización de datos se
busca seleccionar la más adecuada para
transmitir la información.
Visualización de datos – Objetivos
Figura A Figura B

Tabla de valores de las acciones de una


empresa en el NASDAQ extraído de Yahoo!
Finance.
Visualización de datos – Objetivos
Cuando se observa una visualización, el sistema visual humano envía
la información de lo que se ve en bloques a la memoria de trabajo.
Sin embargo, se suele decir que la memoria de trabajo tan solo puede
almacenar, en promedio, unos siete bloques (dependiendo del tipo de
información, tipo de actividad y otros factores). Estos bloques son
seleccionados por la memoria icónica, que es la primera que
responde a los estímulos visuales (como, por ejemplo, formas,
colores, contrastes, curvaturas y tamaños). Cuando se ha asimilado la
información de la memoria de trabajo, esta pasará a formar parte de
la memoria a largo plazo. Esto es lo que explica el hecho de que
resulta mucho más fácil entender los datos mediante la figura B, que
codifica todos los números de una columna en una única línea
temporal. Sin embargo, en la figura A no hay ningún elemento que G.A.Miller (1956). «The
destaque, nada que llame nuestra atención (active nuestra memoria Magical Number Seven, Plus
icónica) y, por tanto, no es posible «cargar» toda esa información en or Minus Two: Some Limits
la memoria de trabajo, lo que dificulta su comprensión. on our Capacity for
Processing Information».
Psychological Review
Visualización de datos – Objetivos
2. Datos en contexto:
Proporcionar primero
una vista general de
los datos, para luego
filtrarlos y obtener
detalles de aquello que
más interesa.
Representar una vista
general de todos los
datos es lo que permite
tener un contexto
sobre ellos, de modo
que sea posible
entender, por ejemplo,
si un valor concreto es
grande o pequeño en
función de cómo es en
el conjunto de datos.
Visualización de datos – Objetivos

El cerebro humano no está preparado para comparar áreas. Sin embargo, sí


que lo está para longitudes o distancias
Visualización de datos – Objetivos
3. Encontrar patrones y outliers
Otro objetivo fundamental de la
visualización de datos es el de
facilitar el descubrimiento de
patrones u outliers (término
inglés para referirse a ‘valores
atípicos’). El gráfico es un
clásico ejemplo en el que se
puede ver la estacionalidad de
los accidentes en Estados
Unidos desde 2001 hasta 2011.
Además de poder apreciar que
los accidentes aumentan
durante los meses de verano, ya
que existe un patrón anual,
también se puede observar un
descenso de accidentes a partir
de 2008.
Visualización de datos – Objetivos
Visualización de datos – Objetivos
Gracias a las codificaciones visuales utilizadas en el
proyecto, esta representación revela un claro patrón
conocido por todos: el mapa de Estados Unidos. Y no
solo eso, sino que también revela la posición de los
aeropuertos de Estados Unidos, que son aquellos
puntos que sobresalen en todas las rutas que se
aprecian en el mapa. Es evidente que no hacen falta
estos datos para descubrir el mapa. Sin embargo, es
importante recordar que aquí no se está representando
un mapa, sino las trayectorias de un conjunto de
aviones, las cuales llevan el mapa implícito. La
genialidad de este proyecto es que cuando se
representan los datos de manera adecuada, se propicia
el descubrimiento de patrones ocultos en ellos.
Visualización de datos – Tipo de gráfico

https://help.highbond.com/helpdocs/highbond/es/Content/
visualizations/interpretations/charts/bubble_chart.html
Visualización de datos – Tipo de gráfico
Visualización de datos – Tipo de gráfico
Visualización de datos – Tableau Public

https://public.tableau.com
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public

cantidad_csv.csv region.csv
Visualización de datos – Tableau Public

Objetivo del cuadro de mando

https://public.tableau.com
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public

Arrastrar al reporte
Visualización de datos – Tableau Public

Arrastrar al reporte
Visualización de datos – Tableau Public

Suma Total
Visualización de datos – Tableau Public

Click para editar


el título
Visualización de datos – Tableau Public

Arrastrar campo
para agregar filtro
Visualización de datos – Tableau Public

Arrastrar campo
para agregar filtro

Seleccionar todos
los valores
Visualización de datos – Tableau Public

2
Crear un nuevo
gráfico Ubicación
y Cantidad

1
Crear una nueva
pestaña/hoja
Visualización de datos – Tableau Public

1
Cambiar el tipo de
gráfico por el de
barras
Visualización de datos – Tableau Public

1 Colocar las ubicaciones en orden


descendente en función al valor de las
cantidades
Visualización de datos – Tableau Public

1 Colocar las ubicaciones en orden


descendente en función al valor de las
cantidades
Visualización de datos – Tableau Public

cantidad_csv.csv region.csv
Visualización de datos – Tableau Public
1 Agregar una
nueva conexión
Visualización de datos – Tableau Public

Elegir la opción
para unir filas
Visualización de datos – Tableau Public

Arrastro la opción
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public

Zona y cantidad
Visualización de datos – Tableau Public

Agregar un nuevo Cuadro de Mando


Visualización de datos – Tableau Public

Arrastramos las
pestañas/hojas de trabajo
Visualización de datos – Tableau Public

Aplicar el filtra para todas


las hojas
Visualización de datos – Tableau Public

Arrastro Ubicación a Color


Visualización de datos – Tableau Public

Click sobre etiqueta y


seleccionar “Mostrar
etiquetas de marca”
1
Visualización de datos – Tableau Public
1

Click sobre el icono para


cambiar la posición del
gráfico
Visualización de datos – Tableau Public

Agregar Ubicación
Visualización de datos – Tableau Public

Seleccionar icono para


agregar filas totales
generales
Visualización de datos – Tableau Prep
https://www.tableau.com/products/prep/download

Tableau Prep Builder proporciona un enfoque moderno para la preparación de datos que permite
combinar, dar forma y limpiar los datos para el análisis de manera rápida y fácil en Tableau. Con
una opción visual y directa para preparar sus datos, puede obtener datos de calidad con solo unos
pocos clics.
Visualización de datos – Tableau Prep
Visualización de datos – Tableau Prep

Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep

Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep

Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep

Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep

Seleccionar archivos a
utilizar (ambos 2016 y
2017)
Visualización de datos – Tableau Prep

Siguiente paso será unir en


un solo archivo las
columnas y asignar el valor
año como una nueva
columna
Visualización de datos – Tableau Prep

Paso 2. Sin soltar el click


debemos elegir la opción
Unir filas

Paso 1. Arrastrar el icono


y llevarlo hará el año 2015
Visualización de datos – Tableau Prep

Paso 2. Sin soltar el click


debemos elegir la opción
Unir filas

Paso 1. Arrastrar el icono


y llevarlo hará el año 2015
Visualización de datos – Tableau Prep

Paso 2. Sin soltar el click


debemos elegir la opción
Unir filas

Paso 1. Arrastrar el icono


y llevarlo hará el año 2015
Visualización de datos – Tableau Prep

Los archivos 2015 y 2016


no tienen un campo Año,
entonces procederemos a
crearlo
Visualización de datos – Tableau Prep

Se crea el nombre del


campo Año y el valor
calculado
Left(Table Name,4)
Visualización de datos – Tableau Prep

Los nombres de los


campos no son iguales y
va a ocasionarnos
problemas al momento de
unir filas
Visualización de datos – Tableau Prep

Vamos a corregir los


nombres tomando como
referencia el archivo del
año 2015
Visualización de datos – Tableau Prep

Vamos a eliminar los


campos Whisker.high y low
Visualización de datos – Tableau Prep
Eliminar el campo
Wisker.high y low
1. Seleccionamos ese
icono

2. Click sobre eliminar


Visualización de datos – Tableau Prep

La integración de los
archivos va tomando
forma, aún esta pendiente
unir el archivo 2017 al
resto y almacenar el
resultado final.
Visualización de datos – Tableau Prep

Arrastramos “Limpiar 1” a
“Unir filas 1” y elegimos la
opción Añadir
Visualización de datos – Tableau Prep
Visualización de datos – Tableau Prep

El campo región no existe


para el archivo año 2017

¿Cuáles serían los riesgos


de agregarlo a cuadro de
mando final?
Visualización de datos – Tableau Prep

Vamos a elegir Salida para


volcar todo el resultado en
un nuevo archivo que
consolide los tres años.
Visualización de datos – Tableau Prep

Elegir la carpeta destino


del archivo

Elegir la opción “Valores


separados por comas
(.csv)
Visualización de datos – Tableau Prep
Visualización de datos – Tableau Public
El objetivo es crear ese
grafico de dispersión
Ranking, PIB y País
Visualización de datos – Tableau Public
Vamos a Public Tableau
para trabajar un nuevo
cuadro con la información
consolidada
Visualización de datos – Tableau Public
Vamos a Public Tableau
para trabajar un nuevo
cuadro con la información
consolidada
Visualización de datos – Tableau Public
Agregar “Happiness Score”
a Filas y “Economy” a
columnas
Visualización de datos – Tableau Public

Arrastramos “Country” al
grafico
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public

El gráfico de dispersión
muestra claramente una
relación de GDP per Capita
con el score Hapiness
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public

Vamos a agregar un
archivos con la descripción
“Continente”, el valor en
común entre ambas tablas
seria el campo Country
Visualización de datos – Tableau Public

Arrastramos el nuevo
campo Continent a “Color”
y vamos a obtener una
asociación por colores de
continentes y países
Visualización de datos – Tableau Public
Click derecho sobre la
línea de tendencia y
elegimos “Editar todas las
líneas de tendencia…”

También podría gustarte