Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• Algoritmos de
lógica difusa
para
aproximación
de datos
textuales
Estandarización
Validación de direcciones
EVALUACION DE CALIDAD DE DATOS
• Entradas de evaluación
EVALUACION DE CALIDAD DE DATOS
• Resultados de la evaluación
Metodología para CALIDAD DE DATOS
POR QUE ES
IMPORTANTE PARA LOS
ANALISTAS?
GARBACE IN GARBACE OUT
viejo adagio
si llena su software de
análisis o llena su
herramienta de inteligencia
empresarial con datos
incorrectos, obtendrá
respuestas incorrectas.
- datos en silos
(almacenamientos diferentes aisladas)
Data
scientist
Solución:
Racionalización en la gestión y uso
sostenible de los datos para evitar
desperdicio de recursos
Necesidad de interacción de:
Problemas de Calidad de Datos
•Datos Incompletos
•Datos Duplicados
•Datos No Estandarizados
•Datos Erróneos
•Datos Inconsistentes
•Falta de Integridad
Análisis de Pruebas y
•Definiciones Divergentes Desarrollo
Datos Ajustes
Impacto
•Los proyectos que gestionan datos fallan o se retrasan
Importancia de Gobernanza de Datos
• PROPONE 3 CAPAS
– Capa batch
– Capa de velocidad
– Capa de servicio
Ejemplo
CAPA BATCH
Ejecuta previamente CAPA DE SERVICIO
la petición sobre Proporciona las respuestas a las consultas de
todas las paginas manera eficiente
visitadas y calcula un - Se busca en el conjunto de claves y se
índice con una clave cuentan las claves que tengan el día entre
[url, dia] rango de tiempos seleccionados
La creación de la
vista batch tiene alta
latencia, por que se
esta ejecutando
sobre todos los datos
que se tienen
CAPA DE VELOCIDAD
Permite analizar los datos que están llegando mientras se genera las
vistas batch y se realizan las consultas
- Ya no se pierden datos
- Estos datos además se van almacenando en el conjunto de datos
total
PIPELINE DEL PROCESAMIENTO
PROCESAMIENTO POR LOTES
PROCESAMIENTO POR LOTES
PROCESAMIENTO POR LOTES
PROCESAMIENTO EN TEIMPO REAL
Sistema de
mensajería
distribuido
SPARK - HADOOP
Hadoop vs Spark
Spark streaming
Retroalimentación – NUEVAS ARQUITECTURAS
• PIEZAS BASICAS
• HADOOP SPARK
Retroalimentación: BI no es suficiente
• Cambio de perspectiva
Bigdata desde data analytics
• Analítica tradicional
• Técnicas analíticas avanzadas
– Convergencia de algoritmos mas sofisticados
• Analítica avanzada
RETOS DEL BIGDATA – necesidad de METODOLOGIA
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
Comprensión de datos
• Identificar, analizar y
comprender el
problema y traducirlo
a un problema
analítico
Comprensión de datos
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
PLATAFORMA TECNOLOGICA
• Disponer de una plataforma tecnológica para la
construcción del modelo analítico
– Diseño de la arquitectura tecnológica
– Selección de componentes Big Data
– Estrategia de implantación
Diseño de arquitectura tecnológica
RETOS DEL BIGDATA – necesidad de METODOLOGIA
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
Preparación
• Capturar, almacenar y preparar la información
– Adquisición y Registro
– Metadato
– Exploración y Análisis
– Calidad de dato y limpieza
RETOS DEL BIGDATA – necesidad de METODOLOGIA
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
Tratamiento de datos : fusión
• Construir un tablón único de datos con toda la información
disponible
– Representación de datos
– Análisis de integridad
– Integración de tablas
– Construcción de variables derivadas
RETOS DEL BIGDATA – necesidad de METODOLOGIA
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
MODELIZACION
• Construir un modelo analítico
– Tipología de técnicas de modelado
– Diseño de técnicas de modelado
– Diseño de técnicas de evaluación
– Entrenamiento del modelo
– Evaluación del modelo
RETOS DEL BIGDATA – necesidad de METODOLOGIA
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
PRESENTACION DE RESULTADOS
• Trasladar la información al resto de los intervinientes implicados
– Informes y Reportes
– Visualizaciones
– Infografías
– Cuadros de Mando
RETOS DEL BIGDATA – necesidad de METODOLOGIA
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
DESPLIEGUE
• Desplegar la arquitectura tecnológica de explotación, el
modelo construido en el entorno analítico
– Integración en la Arquitectura
– Planificación Temporal
– Integración en Aplicaciones
RETOS DEL BIGDATA – necesidad de METODOLOGIA
• Complejidad tecnológica
• Complejidad Algorítmica
• Equipos multidiciplinares
• Conocimiento del experto
PUESTA EN VALOR
• Integrar el modelo construido en las operaciones
– Toma de decisiones
– Campañas periódicas
– Decisiones autónomas
SECCION III
• https://public.tableau.com/profile/abayona#!/
vizhome/MachineLearningModels/
MachineLearningModels