Está en la página 1de 94

DIPLOMADO

Big Data, Analytics y Business


Intelligence
Contenido 11/09/2021

50 min 50 min 50 min


5 min 5 min 5 min
5 min 5 min 5 min
Calidad de datos Conciliación de
Modelos no
y Gobierno de grupos de
supervisados
Datos trabajo
CALIDAD
DE DATOS
MODULO II
GIGO
DATA ANALYTICS
SECCION I
CALIDAD DE DATOS
• 1 INTRODUCCION A CALIDAD DE DATOS
CALIDAD DE• DATOS
2 EVALUACION DE CALIDAD DE DATOS
DATOS COMO ACTIVO
• Todos los datos cuentan
EJEMPLOS – DATOS COMO ACTIVO historias

• Para que tengan sentido

• Necesidad tener calidad

Los datos deben ser como el


agua: LIMPIA, ACCESIBLE,
CON CALIDAD
CALIDAD DE DATOS – Algunos problemas

• Recoger información de diversos sistemas para tener una visión única.


• Varios archivos en formatos diferentes para consolidar
• Muchas personas tienes muchas verdades
Por que necesito Calidad d datos (DATA QUALITY)?

• Imprescindible para una toma de decisiones correcta


• Pieza básica en la Gestión de la Información
Corporativa
• Impacto directo del negocio
A quien afecta la falta de Calidad de Datos?

• Área productivas del Negocio


– Comerciales no disponen de información correcta.
– Marketing realiza segmentación errónea, campañas no eficientes
– Decisiones basadas en información errónea
TODO ESTO ES DINERO
- Caída de ventas
- Baja la rentabilidad den negocio
- Perdida de cliente.
- Poco control sobre el gasto
- Análisis de fraude limitado
QUE ES CALIDAD DE DATOS

• Refiere al conjunto de procesos, técnicas, algoritmos, y


procedimientos encaminados a conseguir que los datos sean
útiles para el fin que se le quiera dar en el negocio
– Determinar si los datos proporcionan una visión única
(de silos a centralizados)
– Datos exactos, completos, consistentes, creíbles y actualizados
– Datos que cumplen con normativas o aspectos legislativos.
COMO MEDIR LA CALIDAD DE DATOS – DIEMNSIONES
Matching – Desduplicacion de datos

• Algoritmos de
lógica difusa
para
aproximación
de datos
textuales
Estandarización
Validación de direcciones
EVALUACION DE CALIDAD DE DATOS

• Características y propiedades de calidad de datos ( ISO


25012)
EVALUACION DE CALIDAD DE DATOS

• Entradas de evaluación
EVALUACION DE CALIDAD DE DATOS

• Resultados de la evaluación
Metodología para CALIDAD DE DATOS
POR QUE ES
IMPORTANTE PARA LOS
ANALISTAS?
GARBACE IN GARBACE OUT
viejo adagio

si llena su software de
análisis o llena su
herramienta de inteligencia
empresarial con datos
incorrectos, obtendrá
respuestas incorrectas. 

 ¿Cómo obtenemos los datos correctos?


GARBACE IN GARBACE OUT!!

GARBACE IN GARBACE OUT!!


GARBACE IN GARBACE OUT!!
GARBACE IN GARBACE OUT!!
SECCION I
GOBIERNO DE DATOS
Organización DataDriven ( análisis basados en datos)
Cambio de paradigma data-centric
Los datos como activos de información
- fuente autorizada de datos
Cambio de paradigma aplication-centric (unificadas)

- datos en silos
(almacenamientos diferentes aisladas)

Los datos como activos de información


Cambio de paradigma aplication-centric
- datos en silos
(almacenamientos diferentes aisladas)
Análisis basados en datos conlleva a la Evolución en la transformación digital

Data
scientist

Solución:
Racionalización en la gestión y uso
sostenible de los datos para evitar
desperdicio de recursos
Necesidad de interacción de:
Problemas de Calidad de Datos
•Datos Incompletos

•Datos Duplicados

•Datos No Estandarizados

•Datos Erróneos

•Datos Inconsistentes

•Falta de Integridad
Análisis de Pruebas y
•Definiciones Divergentes Desarrollo
Datos Ajustes

Impacto
•Los proyectos que gestionan datos fallan o se retrasan
Importancia de Gobernanza de Datos

Existe una creciente comprensión de que el núcleo de los problemas y


oportunidades de muchas organizaciones están arraigadas en los datos

La capacidad de una organización para ejecutar estrategias de negocio


está ligada a su capacidad para organizar y utilizar datos a su máximo
potencial
Habilita la transformación digital
El Gobierno de Datos nos prepara en el proceso de transformación digital.
No es posible tener un control  adecuado de los datos y transformarlos en
información fehaciente sin abordar el Gobierno de Datos en su totalidad
Que es Gobernanza de Datos?
Que es? Cómo se logra?
La gobernanza de datos La gobernanza de datos
consiste en la capacidad se logra más
de una organización eficazmente como un
para gestionar el programa en curso y
conocimiento que tiene un proceso de mejora
sobre su información de continua. Cada
forma que pueda
programa de gobernanza
responder a preguntas
tales como ¿qué de Datos es único,
sabemos sobre nuestra teniendo en cuenta
información?, ¿de cuestiones de
dónde provienen esos organización y de cultura
datos?, ¿están estos distintivas así como los
datos alineados con retos y oportunidades de
nuestra política de la gestión de datos
entidad?
Marco de Trabajo del Gobierno de Datos
Describe las disciplinas tecnológicas que deben ser desplegadas en la organización
para dar soporte a Gobernanza de datos.

Marco de trabajo del Gobierno de Datos


Modelo de referencia -checklist
Infraestructura Organizacional – Roles Involucrados
CASOS DE ESTUDIO
Modelo para SUNAT - PERÚ
Modelo de gobierno de datos para una entidad tributaria peruana (Tesis - Maestría- 2018)

DAMA- 10 procesos de gestión de


datos relacionados con el GD El gobierno de datos está compuesto por políticas, estándares, roles
y responsabilidades. (Observados en agencias de gobierno y
administraciones tributarias)
Modelo Propuestas
Modelo Propuestas Roles Asignación
Comité de • Superintendente Nacional
Gobierno de • Superintendente Nacional Adjunto de
datos Tributos Internos
• Superintendente Nacional Adjunto de
Administración y Finanzas.
• Intendente Nacional de Sistema de
Información.
• Intendente Nacional de Estrategias y
Riesgos.
• Intendente Nacional de Gestión de
Procesos.

Oficina de ser creado dependiente a la Intendencia


gobierno de Nacional de Sistemas de Información.
datos
Administrador ser el jefe de la División de Arquitectura de
de datos Información y Aplicaciones.

Guardián de ser el Gerente de Calidad de Sistemas de la


datos Intendencia Nacional de Sistemas de
Información.

Dueño de ser el Oficial de Seguridad de la Oficina de


datos Seguridad de Información.

Productor de son los Contribuyentes pricos y mepecos.


datos
son los usuarios de negocio tributarias y los
Consumidor de sistemas de información en general.
datos
SECCION I
NUEVOS PARADIGMAS DE
PROCESAMIENTO
Procesamiento Distribuido y Paralelo

• Base de datos requieren un supercomputador para su


procesamiento
• Paralelización ahorra mucho tiempo para ejecución de
algoritmos – analíticas – consultas
PARADIGMAS DE PROCESAMIENTO
TECNOLOGIAS DE PROCESAMIENTO PARA BD
ARQUITECTURA LAMBDA – NATHAN MARZ

• PROPONE 3 CAPAS
– Capa batch
– Capa de velocidad
– Capa de servicio
Ejemplo
CAPA BATCH
Ejecuta previamente CAPA DE SERVICIO
la petición sobre Proporciona las respuestas a las consultas de
todas las paginas manera eficiente
visitadas y calcula un - Se busca en el conjunto de claves y se
índice con una clave cuentan las claves que tengan el día entre
[url, dia] rango de tiempos seleccionados

La creación de la
vista batch tiene alta
latencia, por que se
esta ejecutando
sobre todos los datos
que se tienen

Sistema de análisis web


– Consulta el número de paginas visitadas de una URL en cualquier rango de días

CAPA DE VELOCIDAD
Permite analizar los datos que están llegando mientras se genera las
vistas batch y se realizan las consultas
- Ya no se pierden datos
- Estos datos además se van almacenando en el conjunto de datos
total
PIPELINE DEL PROCESAMIENTO
PROCESAMIENTO POR LOTES
PROCESAMIENTO POR LOTES
PROCESAMIENTO POR LOTES
PROCESAMIENTO EN TEIMPO REAL

Sistema de
mensajería
distribuido
SPARK - HADOOP
Hadoop vs Spark
Spark streaming
Retroalimentación – NUEVAS ARQUITECTURAS

BIG DATA REQUIERE: DEFINIR ARQUITECTURAS DE BIG


DATA , ES DECIR NUAVAS TECNOLOGIAS FRAMEWORK
• Spark (procesos batch) • PARALELIZAR
• Kafka () • PROCESAR NODOS BASADO EN UN
ALGORITMO LLAMADO MAPREDUCE
PROBLEMA – MUCHAS TECNOLOGIAS

• PIEZAS BASICAS
• HADOOP SPARK
Retroalimentación: BI no es suficiente

• Cambio de perspectiva
Bigdata desde data analytics

• Analítica tradicional
• Técnicas analíticas avanzadas
– Convergencia de algoritmos mas sofisticados
• Analítica avanzada
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
Comprensión de datos

• Identificación del problema


• Fijación de los objetivos
• Identificación de los implicados
• Fijación de la tipología de análisis

• Identificar, analizar y
comprender el
problema y traducirlo
a un problema
analítico
Comprensión de datos

• Identificar las fuentes de


información y analizar su
conveniencia para su posterior
captura y almacenamiento
• Importancia de relacionar datos
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
PLATAFORMA TECNOLOGICA
• Disponer de una plataforma tecnológica para la
construcción del modelo analítico
– Diseño de la arquitectura tecnológica
– Selección de componentes Big Data
– Estrategia de implantación
Diseño de arquitectura tecnológica
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
Preparación
• Capturar, almacenar y preparar la información
– Adquisición y Registro
– Metadato
– Exploración y Análisis
– Calidad de dato y limpieza
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
Tratamiento de datos : fusión
• Construir un tablón único de datos con toda la información
disponible
– Representación de datos
– Análisis de integridad
– Integración de tablas
– Construcción de variables derivadas
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
MODELIZACION
• Construir un modelo analítico
– Tipología de técnicas de modelado
– Diseño de técnicas de modelado
– Diseño de técnicas de evaluación
– Entrenamiento del modelo
– Evaluación del modelo
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
PRESENTACION DE RESULTADOS
• Trasladar la información al resto de los intervinientes implicados
– Informes y Reportes
– Visualizaciones
– Infografías
– Cuadros de Mando
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
DESPLIEGUE
• Desplegar la arquitectura tecnológica de explotación, el
modelo construido en el entorno analítico
– Integración en la Arquitectura
– Planificación Temporal
– Integración en Aplicaciones
RETOS DEL BIGDATA – necesidad de METODOLOGIA

• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
PUESTA EN VALOR
• Integrar el modelo construido en las operaciones
– Toma de decisiones
– Campañas periódicas
– Decisiones autónomas
SECCION III
• https://public.tableau.com/profile/abayona#!/
vizhome/MachineLearningModels/
MachineLearningModels

También podría gustarte