Está en la página 1de 36

Data Analytics con Power BI

3.
Power BI

-Presentación del Entorno


-Arquitectura de Aplicación y Componentes
-Descarga e Instalación
-Inicialización y configuración
Power BI: Historia

Power BI
Power Pivot y Power View y Preview de junto con
Power Query Power Maps Power Bi Azure (para
para Excel para Excel cloud para aplicaciones
Office 365 propias)

2010 2011 2012 2013 2014 2015 2016 2017

Lanzamiento
La versión gratuita de PBI permite: de Power BI
Desktop
- 1 GB/usuario
- Crear reportes y paneles
- Usar PBI Desktop
- Importar datos sin límites de fuentes
- Consultas en lenguaje natural
- Ver informes en el móvil
- Publicar en la web
Arquitectura del servicio de Power BI
Data Analytics con Power BI
Posibilidades de uso de las herramientas de BI de Microsoft

• Instalar complementos Power Pivot y Power Query


Excel 2010 • Activarlos (se habilitan 2 pestañas)

• Instalar complemento Power Query


Excel 2013 • Activar tanto Power Pivot (viene instalado) como Power
Query (se habilitan 2 pestañas)

• Power Query ya está integrado y viene en la pestaña Datos


Excel 2016 • Activar Power Pivot (solo está en Office Pro , Standalone,
365 Pro Plus, E3, E4 y E5) y aparece en una pestaña

Power BI • Es gratuito.
(https://powerbi.microsoft.com/en-us/desktop/)
Desktop
Esto es lo que usaremos a lo largo del curso
Trivia Time!
Power BI Desktop (PBID): Iniciando por primera vez

No necesitamos un Login para esta


instancia del curso. Podemos
avanzar con ESC
Power BI Desktop (PBID): Iniciando por primera vez
PowerBI Desktop: Entendiendo la pantalla principal

1 Menú principal
2 Menú contextual (cinta de opciones)
3 Selector de vistas
4 Vista principal
5 Elementos de visualización
6 Filtros de visualización
7 Campos de tablas
8 Selector de páginas
PBID: Configuración inicial
1) Ajustar la configuración regional (fecha y separadores)
PBID: Configuración Inicial (2)
2. Habilitar las nuevas opciones que se vayan agregando en modo preview

Reinicio Requerido!
PBI Desktop: configuración inicial (3)
3. Mantener actualizado el software. Todos los meses sale una nueva versión y al abrir PBI nos ofrece
actualizar (opción configurable)
Práctica
Introducción a Power BI

 Query Editor
 Importación de un archivo Local
 Vista de Datos y Vista de Relaciones
Unidad 3

Descargar los archivos


Como cargar datos a PBID
1 3

Unidad 3 -> a -> Primera importación de Datos.xlsx


El Query Editor
Es una aplicación dentro de Power BI Desktop en la cual ocurre la mayor parte del proceso de extracción,
transformación y carga (ETL)
Las vistas de PBID
Vista de Datos: Permite ver las tablas con sus campos y hacer algunas operaciones simples

Tablas disponibles con


sus campos

Vista de Relaciones: Muestra el modelo de datos (notar que PBID lo supuso de forma automática)

Relaciones entre
tablas

Relación “uno a muchos”


Las Localidades de la “TablaLocalidades”
Los segmentos de la “TablaSegmentos”
aparecen una sola vez. En la
aparecen una sola vez. En la
“TablaClientes” pueden aparecer muchas
“TablaClientes” pueden aparecer muchas
veces, pero ambas tablas se relacionan por
veces, pero ambas tablas se relacionan por
ese campo
ese campo
Data Analytics con Power BI
4.
Extracción de Datos
-Fuentes de Datos
-Estructura de la información
-Evaluación de fuentes
-Calidad de Datos
-Procesos de Extracción
-Prácticas con PowerBI & Query Editor
BI Workflow
1 - Extracción de datos
REPORTING

FUENTES DE DATOS PROCESOS ETL REPOSITORIO


DECISIONES
QUERYING

ANALYTICS
EXTRACCION
Extracción de Datos
Alimentando la inteligencia de la organización

+
Fuentes de Datos ETL  Extracción + Transformación (1)
Comprenden los orígenes y repositorios de la Las fuentes de datos deben ser accedidas, cargadas al área
información en bruto. Requiere un dominio técnico de staging para luego atravesar los procesos primarios de
sobre formatos, procesos y sistemas. ajustes de datos (limpieza, corrección, formateo)
Extracción de Datos
No tan rápido…

En general cuando hablamos de BI lo Analizar los Datos!


primero que queremos es…

Un proceso inconsistente de extracción puede


Una buena inversión de tiempo en llevarnos a situaciones indeseadas
el diseño y trabajo de la capa de
extracción puede ahorrarnos
muchos costos a futuro Nuestros números no coinciden con los análisis y
reportes de otros referentes
…y varios disgustos
Nuestro sistema no produce la información en el
momento requerido
Nos la pasamos corrigiendo y modificando el
circuito de extracción porque es rígido y frágil
Extracción
Fuentes: aguas arriba… +

Las fuentes de datos son el


recurso que define la calidad Sistemas de
Sistemas Transaccionales
y capacidades de inteligencia (OLTP) Bases de Datos
de los sistemas de BI
Fuentes Reportes, archivos locales Documentos (pdf)
Tradicionales

Fuentes
NO Tradicionales Web Software Web Scraping
Cualquier innovación
ó mejora en términos de
diversidad o calidad en la
oferta de datos disponible Social Data Servicios en la Nube
multiplicará las posibilidades
de la gestión orientada a datos
Extracción
Evaluando las fuentes de datos +
Data Profiling es el
proceso de evaluar
Legibilidad Consistencia
la “calidad” de una Los datos deben describir información La información derivada de los datos debería
fuente de datos de manera completa y decodificable ser coincidente con otras fuentes avaladas
según una serie de
dimensiones:
Integridad Exactitud
Todos los atributos relevantes de la Los datos deben garantizar un nivel
información deberían estar en los datos aceptable de precisión

Presentación Accesibilidad
Los datos deben poder ser identificados La fuente de datos debería poder ser
y accedidos de manera apropiada accedida siempre que se lo requiera

Confiabilidad Actualización
El origen de la fuente debería ser La fuente debe garantizar su actualización
conocido y avalado cuando este sea necesario
Extracción
Procesos de extracción +
La Zona de Staging es el ámbito físico donde la
información es copiada y duplicada desde las
fuentes de origen para su posterior tratamiento.

OLTP Recursos en Red Bases de Datos Servicios en la Nube Las tradicionales como los Sistemas OLTP o los
Recursos en Red suelen ser tratados mediante copias
de los registros fuentes a través de procesos de
tareas programadas (procesos Batch).

Los sistemas de Bases de Datos y otros sistemas con


interfaces de datos son accedidos mediante una
lógica de Servicios según un mecanismo de
peticiones y respuestas (Arquitectura
Cliente/Servicio).

La Zona de Staging es la antesala donde se


Staging Zone llevará adelante el … Ajuste de Datos
Extracción
Buenas preguntas al momento de su diseño +

¿Estoy seleccionando el nivel de dato justo o por demás?


Economía
Ej: transacciones bancarias vs saldos de cuentas / stock vs movimientos de mercadería

¿Estoy actualizando valores que ya tengo?¿Es necesario?


Eficiencia
Ej: arquitectura de extracción incremental

¿Qué desfasaje existe entre la generación de la información y su disponibilización?¿Me sirve?


Asincronicidad
Ej: procesos de facturación

¿Hay una ventana de tiempo para acceder a los datos?¿Cómo lo optimizo?


Restricciones Ej: Procesos batch nocturnos

¿Cómo me entero de actualizaciones/modificaciones en la fuente?


Cambios Siempre se debe dedicar un buen
Ej: triggers / tablas de control de cambios
rato a estudiar cuáles son las
¿Qué mecanismos de aseguración tienen los procesos batch? condiciones de extracción de
Confiabilidad Ej: protocolos de transferencia nuestros fuentes y cómo vamos a
organizarlas y controlarlas
Datos
Topología de las fuentes de datos +

20% 80%

Estructurada Semi Estructurada Des-Estructurada


• Formato organizado • Formato organizado •El formato es dinámico
• El modelo de datos es fijo • El modelo de datos es dinámico •El modelo de datos es desconocido
• Ejemplos: RDBMS, sistemas OLTP, • Ejemplos: doc variables, sistemas •Ejemplos: audio, imágenes,
doc con formato web, Social Media documentos, emails
•Formatos: SQL, CSV • Formatos: XML, JSON • Formatos: mp4, doc, pdf, bmp
Datos
Desafíos +

El formato fuente de datos


puede ser accedida en
múltiples formatos, con
grandes variaciones en su
estructura.

El ajuste de los datos


es una de las tareas
más críticas para el BI

Información Estructurada Información Semi Estructurada


(clavevalor) (documentos)
Ajuste de Datos
Limpieza y normalización: lo que hay por delante… +

Formatos no unificados Ausencia de estándares Overflows


El mismo valor puede ser escrito en Los mismos atributos pueden ser Cuando un campo posee un valor
patrones distintos. escritos de formas diferentes. “topetado” , es decir en el máximo
(ej: direcciones / teléfonos) (ej: pc, personal computer, notebook) del rango posible.
(ej: nombres y apellidos) (ej: CABA, Capital Federal)

Valores ficticios Campos no definidos Valores inválidos


Son valores cargados por default. Campos que no tiene un fin definido. Cuando el campo viene con un valor
(ej: edad:999 / tel: 5555555) (ej:”observaciones”) de error .

Fechas Campos multipropósito Valores faltantes


Formatos propios de cada sistema. Campos que se utilizan de forma Cuando el campo viene vacío.
(ej:”2018-05- distinta según el área.
20T16:12::02.5775463AM”) (ej: “segmento”)

Más info: http://tiny.cc/EANTDAClean


Ajuste de Datos
Limpieza y normalización: lo que podemos hacer… +

Corrección de errores ortográficos.


Unificar Eliminación de espacios y caracteres especiales.
Ajuste de delimitadores de precisión (decimales, miles, exponencial).

Definición del formato correcto de cada campo.


Estandarizar Identificación de campos comunes.
Definición de estándares .
Reestructuración de campos al formato definido.

Definición del origen de valores faltantes y posibilidades de reconstrucción.


Evaluar impactos.
Corregir Definición de una política sobre valores inválidos y overflows:
Desconsiderar
Aplicar un valor medio
Práctica
Extracción de múltiples fuentes

 Archivos locales (Excel, CSV)


 Recursos en la nube
Google Sheets
One Drive
 Datos No Estructurados
Web Scraping
Documentos (PDF)
Importando datos desde varios orígenes

Tabla de Tabla de
Tabla de
Cobros Clientes
Ventas (Desde
(desde Google (CSV Local)
Excel local)
Sheets)

Tabla de
Ubicaciones
(Desde
Códigos de
OneDrive) Tabla de
Países
(Wikipedia) Segmentos
(Desde PDF)
Importar datos desde varios orígenes
Usaremos Unidad 4 -> a

Abrir el archivo “Links a tablas en ubicaciones varias.txt”

Seleccionar “Tabla
Tabla de Ventas (Excel local) Ventas”
Formatear

Tabla Clientes Formatear


(CSV local)

Pegar link de
Tabla de Cobros Google Drive y Formatear
(Desde Google Sheets) marcar “Hoja 1”

Tabla de Ubicac. Pegar link de OneDrive, luego OK y Marcar


(Desde OneDrive) (si pregunta) entrar como Anónimo TablaLocalidades

Pegar link de Seleccionar la tabla


Códigos Países Wikipedia, entrar “Códigos oficialmente
(Desde Wikipedia) como Anónimo y asignados”

Tabla de Segmentos Elegir


Formatear
(PDF) ”Page001”
Importar datos desde varios orígenes (2)
Por último: Renombrar los Queries para que nos queden los siguientes nombres de Tablas:

Guardar el archivo de PowerBi Desktop


(Archivo  Guardar como…
“Temporal.pbix”).
Para ampliar conocimientos
Importar vs Direct Query

Importar = traer una copia de los datos a PBID. Se debe refrescar cada vez. Límite en 1GB de datos

DirectQuery = conectarse directamente a la fuente. Los datos no se importan ni se copian. Siempre se usan los
datos actuales y permite visualizaciones a mayores volúmenes de información que sería imposible importar
cada vez
Limitaciones:
• Todas las tablas vienen de la misma base de datos
• Algunas funciones no están disponibles
• Queries complejos pueden fallar
• Más datos: http://tiny.cc/EANTDA-DirectQuery
• Fuentes soportadas: http://tiny.cc/EANTDA-DQFuentes
Bonus Track
Cómo compartir un archivo en OneDrive Personal
1. Subir el archivo o bien copiarlo a la 3. Establecer opciones de Edición y luego
carpeta local OneDrive Aceptar
2. Click con botón derecho sobre el
archivo
Bonus Track:
Cómo compartir un archivo en OneDrive Personal
4. Click con botón derecho sobre el 6. Copiar el código del iframe y
archivo y elegir Insertar pegarlo en un bloc de notas
5. Click en
Generar
Bonus Track:
Cómo compartir un archivo en OneDrive Personal
7. Construir el siguiente link genérico con los parámetros que dice el código del iframe, como se muestra abajo

Link genérico a armar


https://onedrive.live.com/download?resid=XXXXXXXX&authkey=XXXXXXXXXX&em=X&app=Excel

Código del iframe (ejemplo)


<iframe src="https://onedrive.live.com/embed?cid=3D2EEF938EB4F0E2&resid=3D2EEF938EB4FSS2%2121816
&authkey=AOXQ_XKtaiQajSY&em=2" width="402" height="346" frameborder="0" scrolling="no"></iframe>

8. Ese es el link que armamos es el que deberemos usar cuando nos conectemos a OneDrive desde PowerBI

También podría gustarte