Semana 2

• Objetivos de la semana 2
• Adquisición de datos
• Actividades de la semana 2
• Quiz Semanal
• Trabajo escrito
Contenido temático
Inteligencia de Negocios Tipos de variables
• Definición de inteligencia de negocios. • Tipos de variables ordinales.
• Características de la inteligencia de negocios. • Tipos de variables nominales.
• Definición y construcción de KPI's (Key Performance • Tipos de variables continuas
Indicator*).
Análisis estadístico exploratorio
• Construcción de un tablero (Dashboard*).
• Análisis univariado.
Adquisición de datos • Análisis bivariado.
• Formatos comunes de archivos de datos. • Análisis multivariado.
• Bases de datos relacionales. • Calidad de datos de naturaleza continua y discreta.
• Bases de datos no relacionales.
• Consolidación de datos
Limpieza de datos
• Identificación y tratamiento de valores ausentes.
• Identificación y tratamiento de valores atípicos.
• Estandarización y normalización de datos.
Recordatorio Actividades
Semana 1 Semana 2 Semana 3 Semana 4
Actividad
15% 15%
colaborativa
Quiz
10% 10% 10% 10%
Semanal
Trabajo
15% 15%
escrito
Tema 2. Adquisición de datos
Objetivo
Identificar los procesos para la obtención de datos que han sido
creados por una fuente interna o externa de la organización, para
conocer desarrollo de los procesos de identificación, obtención,
comprensión, evaluación y toma de decisiones.
Adquisición de datos
En la adquisición de datos existen fuentes externas de datos que se
crean y se incorporan a la organización, lo que permite su uso para
las operaciones. Dichos datos deben identificarse, obtenerse,
comprenderse, evaluarse e implantarse, lo que significa que se
deben desarrollar procesos para ello.
Adquisición de datos
• Una organización debe adquirir datos estratégicos para mantener
su ventaja competitiva.
• Grandes cantidades de datos que no se pueden procesar con

métodos tradicionales se denominan macrodatos. Es necesario
analizarlos utilizando métodos automatizados.
• La sociedad es un sistema tan complejo que no puede ser descrita por
una ecuación.
• Pero hay algo que puede ayudar a predecir el comportamiento de las
personas, los DATOS.
Totalidad de datos generados por la
humanidad desde la civilización
• Crecimiento exponencial de datos.
• El mundo se inunda de datos a un ritmo de incremento
del 40% al año.
Un día en su vida digital… y el rastro que deja
Por Nica Latto (2019)
• Para empezar, su teléfono puede hacer un

seguimiento de muchas cosas básicas. Sabe
exactamente cómo lo sujetamos (para que
pueda mostrar la pantalla correctamente).
Sabe de qué forma nos movemos en el
espacio y a qué velocidad lo hacemos.
Un día en su vida digital… y el rastro que
deja
Los rastreadores en línea también pueden detectar información sobre
el dispositivo (su marca y antigüedad) y el modo en que lo usamos
(como el navegador, la zona horaria, los ajustes, el tipo de letra que
usamos, nuestra ubicación y dirección IP), y emplean esta información
para establecer nuestra huella digital, que es exclusiva y ayuda a los
rastreadores a seguirnos alrededor de la web.
Al despertar
• Se despierta con el sonido de la alarma de su smartphone. Si utiliza
una aplicación de sueño o uno de los muchos rastreadores
de fitness con tecnología de supervisión del sueño, sus datos de
Posponer se van guardando.
• ¿También enciende las luces inteligentes o ajusta la temperatura con un termostato
inteligente por la mañana?
• ¿Escucha música mientras se prepara por la mañana?
• ¿Utiliza aplicaciones de seguimiento de dietas como MyFitnessPal, LoseIt o
Chronometer?
• ¿Habla con Alexa, Echo u otros altavoces inteligentes para saber qué tiempo hace o
qué reuniones tiene ese día
Camino al trabajo
• ¿Va en coche? Su teléfono toma nota de la velocidad y de cuánto
tráfico hay. ¿Alguna vez se ha preguntado cómo saben aplicaciones
como Google Maps o Waze si hay tráfico en su ruta? Porque
realizan un seguimiento de su ubicación y la de todos los demás, y
utilizan los datos compuestos para averiguar si hay más coches de lo
habitual en la carretera.
• Si dedica el trayecto al trabajo a curiosear por Internet, leer noticias o escuchar
podcasts, sus intereses y hábitos se registran y se vinculan también a su huella
digital.
En el trabajo
• Google y sus aplicaciones conocen: sus intereses (búsquedas, Chrome), sus
planes (Calendario), dónde ha estado y dónde piensa estar (Maps y Waze),
los productos que ha comprado o se plantea comprar (búsquedas, Ads), qué
aspecto tiene (Google Fotos), cuál es su voz (Google Assistant), quiénes son
sus amigos y compañeros de trabajo (Gmail, Hangouts), dónde vive y dónde
trabaja (Google Maps), qué música y qué famosos le gustan (YouTube) y
cuáles son sus objetivos de salud (Google Fit), por mencionar solo algunos
ejemplos. Google analiza toda la información que recopila sobre usted
para obtener un perfil más profundo que permita inferir aún más datos
personales, como su etnia, sus ideas políticas y religiosas, si sufre alguna
restricción alimentaria, cuál es su estado de salud y si piensa tener hijos.
Después del trabajo
• Si vuelve a casa después del trabajo y quiere relajarse, ¿le gusta

navegar por la red? ¿Mirar redes sociales? ¿Ver algo en YouTube
o Netflix? Una vez más, sus preferencias se registran para convertirlas
en futuros anuncios dirigidos. Los rastreadores son capaces de ver
una cantidad de detalles aterradora y descienden hasta el nivel
granular. Por ejemplo, saben qué artículos lee, cuáles simplemente
mira por encima, qué vídeos ve, cuáles ve durante diez segundos para
luego quitarlos, y mucho más.
Es probable que ya lleve un tiempo navegando por la
web, así que piense en cuánta información confidencial
tienen sobre usted los extractores de datos: su historial
médico, información sobre sus finanzas y su
calificación crediticia y, ya sabe, el contenido sensible
que le gusta mirar.
Información íntima
• Su smartphone guarda información aún más íntima sobre usted, como
sus datos biométricos (si utiliza el reconocimiento de la huella
digital o el rostro para iniciar sesión), nombres de usuario y
contraseñas (si ha optado por guardarlas) y metadatos (por ejemplo,
registros de llamadas y SMS). Aunque los anunciantes no sean
capaces (todavía) de rastrear ese tipo de cosas, vale la pena
considerar cuántos datos personales confiamos a nuestros móviles… y
lo peligrosos que podrían ser esos datos si llegaran a filtrarse.
“Con este tipo de apps se da la oportunidad a expandir
los horizontes y conocer gente nueva fuera de nuestro
círculo, con los que tendremos gustos más afines.
Como resultado, la tasa de matrimonios con éxito se
ha incrementado hasta un 33%, algo impensable en
las etapas en las que Internet no estaba disponible.
Los investigadores Jouse Ortega (Universidad de Essex, Reino Unido) y Philipp Hergovich (Universidad
de Viena, Austria), a través de fórmulas matemáticas establecieron los nuevos patrones que han
transformado las relaciones sociales. Ya no buscamos pareja en nuestro vecindario, mismo grupo social,
clase social e incluso raza; ahora vamos más allá, a diferencia de generaciones anteriores. Es por eso que
encontrar a esa otra persona, a la que conocemos a base de abrirte a nuevas oportunidades y compartir
gustos y aficiones con alguien ajeno a tu grupo habitual, además de un diálogo constante (aunque sea a
través de un servicio de mensajería), hace que el margen de error sea menor. Las parejas que se forman
de esta manera serán, en consecuencia, más estables que las uniones producidas de otra manera.
Basquiat, A. (2019). Un nuevo estudio afirma que las parejas de Tinder son más estables. La vanguardia. Disponible en línea: https://
www.lavanguardia.com/cribeo/estilo-de-vida/20190227/47433258304/un-nuevo-estudio-afirma-que-las-parejas-de-tinder-son-mas-estables.html
Big Data
Son una gran cantidad de datos,
tanto ordenados como
desordenados, difíciles de
analizar debido a su enorme
tamaño, diversidad de
información y a la rapidez con
la que se generan.
Formatos comunes de archivos de datos
• Las herramientas de transformación clasifican los diversos tipos de
formatos de archivo de datos. Aunque la mayoría de los usuarios ven
los datos tal como aparecen en la interfaz de usuario de la plataforma de
integración, la plataforma de integración ve los datos tal como están
almacenados en el archivo de datos.
Datos estructurados
• Se llama datos estructurados cuando los datos están en un formato
estandarizado, tienen una estructura bien definida, cumplen con un
modelo de datos, siguen un orden persistente y son de fácil acceso
para humanos y programas. Este tipo de datos generalmente se
almacena en una base de datos.
• Si bien los datos estructurados solo representan alrededor del 20 por
ciento de los datos en todo el mundo, son la base actual de Big Data.
Esto se debe a que es muy fácil de acceder, usar y los resultados de su
uso son mucho más precisos.
Utilidad de los datos estructurados
• Estos datos se utilizan fácilmente en el aprendizaje automático y la
inteligencia artificial, y dan como resultado predicciones precisas
sobre qué generará el mayor aumento en el tamaño de la empresa o
qué producto nuevo se venderá mejor.
• Los datos estructurados también son útiles para el personal: detalles de
los clientes, información de ventas, niveles de existencias, información
del día a día que debe ser accesible, fácil de administrar y que
proporcione información relevante.
Datos no estructurados
• Los datos no estructurados se clasifican con mayor frecuencia como
datos cualitativos y no pueden procesarse y analizarse utilizando
herramientas y métodos convencionales.
• Los datos no estructurados son difíciles de deconstruir porque no
tienen un modelo predefinido, lo que significa que no se pueden
organizar en bases de datos relacionales.
• Los ejemplos de datos no estructurados incluyen texto, vídeo, audio,
actividad móvil, actividad en redes sociales, imágenes satelitales,
imágenes de vigilancia
Datos no estructurados
• Más del 80 por ciento de todos los datos generados en la actualidad se consideran
no estructurados, y este número seguirá aumentando con la prominencia del
Internet de las cosas.
• Encontrar la información escondida dentro de los datos no estructurados no es
una tarea fácil. Requiere análisis avanzado y un alto nivel de experiencia técnica
para realmente marcar la diferencia. Este puede ser un cambio costoso para
muchas empresas.
• Sin embargo, quienes pueden aprovechar datos no estructurados tienen una
ventaja competitiva. Si bien los datos estructurados nos brindan una visión
general de los clientes, los datos no estructurados pueden brindarnos una
comprensión mucho más profunda del comportamiento y la intención del cliente.
Bases de datos relacionales
• Una base de datos relacional, también llamada Sistema de
administración de bases de datos relacionales (RDBMS) o base de
datos SQL, almacena datos en tablas y filas, también conocidas
como registros. El término "base de datos relacional“ fue utilizado
por primera vez en 1970 por EF Codd en IBM en su artículo de
investigación "Un modelo relacional de datos para grandes bancos
de datos compartidos".
Las bases de datos relacionales también brindan una funcionalidad
llamada "indexación". Un índice de base de datos es una estructura de
datos que mejora la velocidad de recuperación de datos. Los índices se
agregan comúnmente a los campos de datos que se usan de forma
rutinaria para consultar y unir tablas.
Características BD relacionales
• Trabajan con datos estructurados.
• Las relaciones en el sistema tienen restricciones, lo que promueve un
alto nivel de integridad de los datos.
• Hay capacidades de indexación ilimitadas, lo que da como resultado
tiempos de respuesta de consulta más rápidos.
Bases de datos no relacionales
• La base de datos no relacional, o base de datos NoSQL, almacena
datos. Sin embargo, a diferencia de la base de datos relacional, no hay
tablas, filas, claves principales o claves externas. En su lugar, la base
de datos no relacional utiliza un modelo de almacenamiento
optimizado para requisitos específicos del tipo de datos que se
almacenan.
Consolidación de datos
• La consolidación de datos es el proceso de recopilar, combinar y
almacenar datos de múltiples fuentes en una sola ubicación. Por lo
general, los datos se almacenan en un almacén de datos en la nube o
en un lago de datos. En muchos casos, los términos consolidación de
datos e integración de datos se usan indistintamente. Por lo tanto, si
encuentra referencias a la integración de datos, comprenda que es el
mismo concepto que la consolidación de datos.
• La consolidación de datos implica tres pasos clave: extraer,
transformar y cargar (ETL). ETL es un proceso de canalización de
datos para replicar datos desde la fuente a un almacén de datos.
• Existe una variante popular de la canalización de datos ETL Conocida
como ELT. Las letras del acrónimo en ingles representan las mismas
palabras, excepto que se cambian los pasos.
Canalización de datos
Hay dos formas en que se lleva a cabo el proceso en lugar de extraer,
transformar, cargar, el proceso sigue extraer, cargar, transformar (ELT).
El proceso de canalización de datos de ELT es popular entre muchos
científicos de datos porque creen que es más fácil transformar los datos
una vez que se replican en el almacén de datos de destino.
Casos de estudio
• Amazon, Jeff Bezos y la colección de datos | DW Documental
https://www.dailymotion.com/video/x8h7ivy
¿Son los Datos los Activos más Valiosos para las Empresas? | El Dilema de las
Redes Sociales
https://www.youtube.com/watch?v=yGBJGJJk1R4&t=328s
Documental Netflix. El dilema de las redes sociales. https://

www.youtube.com/watch?v=EBxHl0H7Y0g
Cierre
• Finalmente te invito a reflexionar,
¿cuál es la importancia de adquirir datos para la organización?
Bibliografía
• Hawkins, d. M. 1980. Identification of outliers. Ed. Chapman and hall.Londres.
Uriel, e. & Aldás, j. 2005. Análisis multivariante aplicado. Thomson ed. Madrid,
españa.
• Latto, N (2019). Un día en su vida digital… y el rastro que deja. Disponible en:
https://www.avg.com/es/signal/digital-day-in-the-life
• https://www.tibco.com/es/reference-center/what-is-structured-data
• https://ayudaleyprotecciondatos.es/bases-de-datos/diferencias-entre-datos-estructu
rados-y-no-estructurados
/
Glosario
• 1970: Año en que fue utilizado el término “base de datos relacional” por EF Codd en IBM.
• ASCII delimitado: Quiere decir un fichero que sólo contiene los caracteres del texto más los caracteres de salto de
línea (del mismo estilo que las cartas de correo electrónico).
• Base de datos NoSQL: También llamada base de datos no relacionales.
• Base de datos no relacionales: Tienen la capacidad de almacenar grandes cantidades de datos con poco estructura.
• Big data. Cuentan con la capacidad de capturar todo tipo de datos, incluidos los datos no estructurados.
• Canalización de datos ELT. Es un proceso popular entre muchos científicos de datos por que creen que es más fácil
transformar los datos una vez que se replican en el almacén de datos de destino.
• Consolidación de datos. Es el proceso de recopilar, combinar y almacenar datos de múltiples fuentes en una sola
ubicación.
• Datos: Es la representación de una variable cualitativa o cuantitativa. De ese modo, se le asigna un número, letra o
símbolo.
• Datos estructurados: Tipos de datos con los cuales trabajan las bases de datos relacionales.
• Datos no estructurados: Pueden ser textuales o no, además, pueden estar generados tanto por humanos como por
máquinas.
• ETL: Proceso de canalización de datos para replicar datos desde la fuente a un almacén de datos.
• Formatos Estructurados: En esta categoría se encuentran algunos como dBASE, DataEase, DataFlex,
Excel, Goldmine, Lotus 1-2-3, Quattro Pro, SAS, SPLUS, USMARC, and XDB.
• Formatos Semiestructurados: Se refieren a cualquier información que utilice un esquema de
autodescripción, como XML o JSON. Estos tipos de datos tienen un esquema abierto que permite la
flexibilidad de datos de la aplicación.
• Índices: Agregan comúnmente a los campos de datos que se usan de forma rutinaria para consultar y
unir tablas.
• Índice de base de datos: Es una estructura de datos que mejora la velocidad de recuperación de datos.
• Indexación: Se refiere a diversos métodos para incluir en el índice de internet el contenido de un sitio
web.
• Optimización: Se refiere a la capacidad de hacer o resolver alguna cosa de la manera más eficiente
posible y, en el mejor de los casos, utilizando la menor cantidad de recursos.
• Relaciones en el sistema: Tienen restricciones, lo que promueve un alto nivel de integridad de los
datos.
• Sistema de gestión de base de datos relacionales: Brindan capacidades para crear y actualizar bases de
datos relacionales.
¿Qué tengo que hacer?
Entregable 1 (semana 2)
• Después de analizar los temas de correspondientes
a la semana 1 y 2 de tu asignatura, se te solicita
realizar una infografía con los elementos que
consideras más importantes para tu conocimiento.
Instrucciones:
• En un documento en Word deberás realizar una
infografía utilizando, cualquier página de su
preferencia:
Participa a más tardar: Domingo 23 Abril a las 11:55 PM

Estructura
Una Infografía debe diseñarse tomando en cuenta los siguientes criterios:
• El titular: Resume la información visual y textual que se presenta en la infografía. Es directo,
breve y expreso. Si se considera conveniente puede acompañarse de una bajada o subtítulo en el
que se indique el tema a tratar, pero es opcional.
• El texto: Proporciona al lector en forma breve toda la explicación necesaria para comprender lo
que la imagen no puede expresar.
• El cuerpo: Contiene la información visual que puede presentarse a través de gráficos, mapas,
cuadros estadísticos, diagramas, imágenes, tablas, etc. También, se considera la información
tipográfica explicativa que se coloca a manera de etiquetas y que pueden ser números fechas o
palabras descriptivas.
Dentro de la información visual siempre hay una imagen central que prevalece por su ubicación o
tamaño sobre las demás y de la cual se desprenden otros gráficos o textos.
• La fuente: Indica de dónde se ha obtenido la información que se presenta en la infografía y es
muy importante, pues señala el origen de la misma.
• El crédito: Señala el nombre del autor o autores de la infografía, tanto del diseño como de la
investigación.
Adicionalmente, la infografía debe ir acompañada de:
• Introducción: breve redacción en un párrafo, acerca de las ideas, conceptos y conocimientos se
poseía respecto del tema antes de realizar la actividad.
• Conclusión: breve redacción en un párrafo, donde se exprese lo que se logró aprender a raíz de
la actividad realizada.
Presenta tu quiz de conocimientos de la
semana 2.
Intentos permitidos: 2
• Este examen se cerrará en Domingo 23 de
abril a las 11:55 PM
Límite de tiempo: 25 mins
Método de calificación: Calificación más alta

Semana 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Semana 2

Cargado por

Copyright:

Formatos disponibles

• Objetivos de la semana 2

• Grandes cantidades de datos que no se pueden procesar con

• Para empezar, su teléfono puede hacer un

• Si vuelve a casa después del trabajo y quiere relajarse, ¿le gusta

Documental Netflix. El dilema de las redes sociales. https://

Participa a más tardar: Domingo 23 Abril a las 11:55 PM

También podría gustarte