Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• Adquisición de datos
• Actividades de la semana 2
• Quiz Semanal
• Trabajo escrito
Contenido temático
Inteligencia de Negocios Tipos de variables
• Definición de inteligencia de negocios. • Tipos de variables ordinales.
• Características de la inteligencia de negocios. • Tipos de variables nominales.
• Definición y construcción de KPI's (Key Performance • Tipos de variables continuas
Indicator*).
Análisis estadístico exploratorio
• Construcción de un tablero (Dashboard*).
• Análisis univariado.
Adquisición de datos • Análisis bivariado.
• Formatos comunes de archivos de datos. • Análisis multivariado.
• Bases de datos relacionales. • Calidad de datos de naturaleza continua y discreta.
• Bases de datos no relacionales.
• Consolidación de datos
Limpieza de datos
• Identificación y tratamiento de valores ausentes.
• Identificación y tratamiento de valores atípicos.
• Estandarización y normalización de datos.
Recordatorio Actividades
Semana 1 Semana 2 Semana 3 Semana 4
Actividad
15% 15%
colaborativa
Quiz
10% 10% 10% 10%
Semanal
Trabajo
15% 15%
escrito
Tema 2. Adquisición de datos
Objetivo
Identificar los procesos para la obtención de datos que han sido
creados por una fuente interna o externa de la organización, para
conocer desarrollo de los procesos de identificación, obtención,
comprensión, evaluación y toma de decisiones.
Adquisición de datos
En la adquisición de datos existen fuentes externas de datos que se
crean y se incorporan a la organización, lo que permite su uso para
las operaciones. Dichos datos deben identificarse, obtenerse,
comprenderse, evaluarse e implantarse, lo que significa que se
deben desarrollar procesos para ello.
Adquisición de datos
• Una organización debe adquirir datos estratégicos para mantener
su ventaja competitiva.
Los investigadores Jouse Ortega (Universidad de Essex, Reino Unido) y Philipp Hergovich (Universidad
de Viena, Austria), a través de fórmulas matemáticas establecieron los nuevos patrones que han
transformado las relaciones sociales. Ya no buscamos pareja en nuestro vecindario, mismo grupo social,
clase social e incluso raza; ahora vamos más allá, a diferencia de generaciones anteriores. Es por eso que
encontrar a esa otra persona, a la que conocemos a base de abrirte a nuevas oportunidades y compartir
gustos y aficiones con alguien ajeno a tu grupo habitual, además de un diálogo constante (aunque sea a
través de un servicio de mensajería), hace que el margen de error sea menor. Las parejas que se forman
de esta manera serán, en consecuencia, más estables que las uniones producidas de otra manera.
Basquiat, A. (2019). Un nuevo estudio afirma que las parejas de Tinder son más estables. La vanguardia. Disponible en línea: https://
www.lavanguardia.com/cribeo/estilo-de-vida/20190227/47433258304/un-nuevo-estudio-afirma-que-las-parejas-de-tinder-son-mas-estables.html
Big Data
Son una gran cantidad de datos,
tanto ordenados como
desordenados, difíciles de
analizar debido a su enorme
tamaño, diversidad de
información y a la rapidez con
la que se generan.
Formatos comunes de archivos de datos
• Las herramientas de transformación clasifican los diversos tipos de
formatos de archivo de datos. Aunque la mayoría de los usuarios ven
los datos tal como aparecen en la interfaz de usuario de la plataforma de
integración, la plataforma de integración ve los datos tal como están
almacenados en el archivo de datos.
Datos estructurados
• Se llama datos estructurados cuando los datos están en un formato
estandarizado, tienen una estructura bien definida, cumplen con un
modelo de datos, siguen un orden persistente y son de fácil acceso
para humanos y programas. Este tipo de datos generalmente se
almacena en una base de datos.
• Si bien los datos estructurados solo representan alrededor del 20 por
ciento de los datos en todo el mundo, son la base actual de Big Data.
Esto se debe a que es muy fácil de acceder, usar y los resultados de su
uso son mucho más precisos.
Utilidad de los datos estructurados
• Estos datos se utilizan fácilmente en el aprendizaje automático y la
inteligencia artificial, y dan como resultado predicciones precisas
sobre qué generará el mayor aumento en el tamaño de la empresa o
qué producto nuevo se venderá mejor.
• Los datos estructurados también son útiles para el personal: detalles de
los clientes, información de ventas, niveles de existencias, información
del día a día que debe ser accesible, fácil de administrar y que
proporcione información relevante.
Datos no estructurados
• Los datos no estructurados se clasifican con mayor frecuencia como
datos cualitativos y no pueden procesarse y analizarse utilizando
herramientas y métodos convencionales.
• Los datos no estructurados son difíciles de deconstruir porque no
tienen un modelo predefinido, lo que significa que no se pueden
organizar en bases de datos relacionales.
• Los ejemplos de datos no estructurados incluyen texto, vídeo, audio,
actividad móvil, actividad en redes sociales, imágenes satelitales,
imágenes de vigilancia
Datos no estructurados
• Más del 80 por ciento de todos los datos generados en la actualidad se consideran
no estructurados, y este número seguirá aumentando con la prominencia del
Internet de las cosas.
• Encontrar la información escondida dentro de los datos no estructurados no es
una tarea fácil. Requiere análisis avanzado y un alto nivel de experiencia técnica
para realmente marcar la diferencia. Este puede ser un cambio costoso para
muchas empresas.
• Sin embargo, quienes pueden aprovechar datos no estructurados tienen una
ventaja competitiva. Si bien los datos estructurados nos brindan una visión
general de los clientes, los datos no estructurados pueden brindarnos una
comprensión mucho más profunda del comportamiento y la intención del cliente.
Bases de datos relacionales
• Una base de datos relacional, también llamada Sistema de
administración de bases de datos relacionales (RDBMS) o base de
datos SQL, almacena datos en tablas y filas, también conocidas
como registros. El término "base de datos relacional“ fue utilizado
por primera vez en 1970 por EF Codd en IBM en su artículo de
investigación "Un modelo relacional de datos para grandes bancos
de datos compartidos".
Las bases de datos relacionales también brindan una funcionalidad
llamada "indexación". Un índice de base de datos es una estructura de
datos que mejora la velocidad de recuperación de datos. Los índices se
agregan comúnmente a los campos de datos que se usan de forma
rutinaria para consultar y unir tablas.
Características BD relacionales
• Trabajan con datos estructurados.
• Las relaciones en el sistema tienen restricciones, lo que promueve un
alto nivel de integridad de los datos.
• Hay capacidades de indexación ilimitadas, lo que da como resultado
tiempos de respuesta de consulta más rápidos.
Bases de datos no relacionales
• La base de datos no relacional, o base de datos NoSQL, almacena
datos. Sin embargo, a diferencia de la base de datos relacional, no hay
tablas, filas, claves principales o claves externas. En su lugar, la base
de datos no relacional utiliza un modelo de almacenamiento
optimizado para requisitos específicos del tipo de datos que se
almacenan.
Consolidación de datos
• La consolidación de datos es el proceso de recopilar, combinar y
almacenar datos de múltiples fuentes en una sola ubicación. Por lo
general, los datos se almacenan en un almacén de datos en la nube o
en un lago de datos. En muchos casos, los términos consolidación de
datos e integración de datos se usan indistintamente. Por lo tanto, si
encuentra referencias a la integración de datos, comprenda que es el
mismo concepto que la consolidación de datos.
• La consolidación de datos implica tres pasos clave: extraer,
transformar y cargar (ETL). ETL es un proceso de canalización de
datos para replicar datos desde la fuente a un almacén de datos.
• Existe una variante popular de la canalización de datos ETL Conocida
como ELT. Las letras del acrónimo en ingles representan las mismas
palabras, excepto que se cambian los pasos.
Canalización de datos
Hay dos formas en que se lleva a cabo el proceso en lugar de extraer,
transformar, cargar, el proceso sigue extraer, cargar, transformar (ELT).
El proceso de canalización de datos de ELT es popular entre muchos
científicos de datos porque creen que es más fácil transformar los datos
una vez que se replican en el almacén de datos de destino.
Casos de estudio
• Amazon, Jeff Bezos y la colección de datos | DW Documental
https://www.dailymotion.com/video/x8h7ivy
¿Son los Datos los Activos más Valiosos para las Empresas? | El Dilema de las
Redes Sociales
https://www.youtube.com/watch?v=yGBJGJJk1R4&t=328s