Está en la página 1de 265

CURSO 5 - Analizar datos para responder preguntas

VIDEO INTRODUCCIÓN

¡Hola, futuro analista de datos! Has hecho un gran avance hasta el momento. No es un recorrido fácil, pero lo estás haciendo
muy bien. Antes de empezar este programa, algo dentro tuyo te convenció para que obtuvieras tu certificado de análisis
computacional de datos de Google. Tenías una idea, hiciste algunas averiguaciones y reservaste tiempo para empezar. Después
tomaste la decisión de comprometerte con tu objetivo. ¡Mira ahora donde has llegado! Puedes sentirte orgulloso. Desde el
principio, nos sumergimos de lleno en el mundo del análisis computacional de datos y vimos el rol que desempeñan los datos
en nuestra vida cotidiana. Aprendiste a navegar por las hojas de cálculo y por qué el pensamiento estructurado era la clave
para resolver problemas. También exploraste las mejores formas de recopilar y almacenar tus datos. A partir de allí, fuiste
adquiriendo una comprensión de la limpieza y la integridad de los datos. Identificaste cómo formular las preguntas correctas y
aprendiste a limpiar los datos. Ahora llevaremos tus destrezas al siguiente nivel. A continuación, aprenderás a encontrar
respuestas claras y objetivas a cualquier cuestión de datos que enfrentes. Anteriormente, aprendimos sobre el proceso de
análisis de datos. A modo de recordatorio, las fases de ese proceso son: preguntar, preparar, procesar, analizar, compartir y
actuar. Aquí exploraremos más en detalle la fase de analizar, te concentrarás en cómo organizar y formatear los datos que
tienes para que puedas hacer todo tipo de ordenaciones y cálculos. Saber cómo analizar los datos que has recopilado y
limpiado es esencial para tu trabajo como analista. Antes de empezar, quiero presentarme. Mi nombre es Ayanna, y estoy
encantada de ser tu instructora en este curso. Soy gerente de información global en Google, y también he enseñado en Google
Analytics Academy, que es un recurso de capacitación para analistas de Google. Mi tarea es ayudar a los anunciantes a
determinar el valor de invertir en los productos Google. Cuando buscas algo en línea, a menudo verás un aviso en la página.
Esa es una inversión que hizo un anunciante. Uso el análisis de datos para mostrarles a los anunciantes el valor que podrían
obtener por invertir en esos avisos. Eso es lo que me encanta de ser analista de datos: averiguar cómo crear valor cada vez que
encaro una situación. La mejor manera de saber si estás creando valor es tener evidencia. Para mí, esa evidencia son los datos.
Ahora que ya sabes sobre mi amor por los datos, hablemos un poco sobre lo que aprenderás aquí. Empezarás por conocer las
prácticas recomendadas para organizar tus datos y las diferentes formas de ordenar los datos usando hojas de cálculo y SQL.
También dedicaremos tiempo a aprender tres formas importantes de trabajar con datos que potenciarán tus destrezas
analíticas. Luego, hablaremos sobre el ahorro de tiempo. Descubrirás consejos y trucos que ayudan a analizar los datos de
manera más eficiente. Por último, pero no menos importante, trabajaremos juntos para identificar técnicas que te ayuden a ser
lo más justo e imparcial posible. Bueno, eso es todo lo que necesitas saber por ahora. A continuación, desglosaremos los
conceptos básicos del análisis de datos y te acercaremos un paso más al futuro de los datos.

Programa del curso


1. Aspectos básicos: Datos, datos, en todas partes
2. Haz preguntas para tomar decisiones basadas en datos
3. Prepara datos para la exploración
4. Procesa datos para pasarlos en limpio
5. Analiza datos para responder preguntas (este curso)
6. Comparte datos a través del arte de la visualización
7. Análisis de datos con programación en R
8. Google Data Analytics Capstone: completa un caso práctico
¡Bienvenido al quinto curso de la serie para obtener el Certificado de análisis computacional de datos de Google! El
objetivo del análisis de datos es darles sentido a los datos que recopilas y recibes. Hasta ahora, te has focalizado en las
preparaciones que debe atravesar un analista de datos antes de ingresar a la fase de análisis. Específicamente, en el
último curso, aprendiste a comprobar la integridad de los datos y a limpiarlos para que sean precisos y confiables.

¡Si te sientes como un senderista que ha escalado una gran distancia para llegar a un terreno más alto, nos emociona
decirte que has llegado! Has alcanzado una etapa en la que ya estás preparado para trabajar directamente con los datos.
Organizarás y formatearás los datos. Esto te ayudará a pensar en los datos de diferentes maneras. Al igual que la vista
desde un mirador es maravillosa para un senderista, la vista de los datos desde este lugar será espectacular.

Practicarás cómo organizar, ordenar, filtrar, formatear, convertir y combinar datos en hojas de cálculo.
Completarás estas tareas en un proyecto de análisis de datos real. También aprenderás cómo ordenar y filtrar tus datos
con consultas en SQL. A medida que vayas aprendiendo, usarás funciones y escribirás consultas frecuentemente.

Contenido del curso


Curso 5: Analizar datos para responder preguntas
1. Organizar los datos para iniciar el análisis. Organizar los datos facilita el uso de los datos en el análisis. En esta
parte del curso, aprenderás la importancia de organizar tus datos a través de ordenación y filtrado. Explorarás la
organización de los datos tanto en hojas de cálculo, como con consultas en SQL.
2. Formatear y ajustar tus datos. A medida que te acerques al análisis de tus datos, querrás tener los datos
formateados y listos para avanzar. En esta parte del curso, aprenderás sobre la conversión y el formateo de los
datos, incluso cómo usar las consultas en SQL para combinar datos. También descubrirás el valor de la
retroalimentación y la colaboración de tus colegas y cómo puede conducir a nuevas ideas para que las apliques a
tu trabajo.
3. Agregar datos para análisis. Durante el análisis, a menudo tendrás que combinar datos para obtener información y
completar objetivos de negocios. En esta parte del curso, explorarás las funciones, los procedimientos y la
sintaxis para combinar o agregar datos. Aprenderás cómo combinar datos en múltiples celdas de hojas de cálculo
y en múltiples tablas de bases de datos usando consultas en SQL.
4. Realizar cálculos de datos. Los cálculos son una de las tareas más comunes que realizan los analistas de datos
durante el análisis. En esta parte del curso, explorarás fórmulas, funciones y tablas dinámicas en hojas de cálculo
y consultas en SQL. Todos estos elementos se usan en los cálculos de datos. También aprenderás sobre los
beneficios de usar SQL para gestionar las tablas temporales de bases de datos.
5. Completar el desafío del curso. Al final de este curso, podrás poner en perspectiva todo lo que has aprendido con
el Desafío del curso. En el Desafío del curso se te harán preguntas sobre los conceptos principales que has
aprendido y se te dará la oportunidad de aplicarlos en tres escenarios.

Qué esperar
Puedes esperar terminar este curso en unas cinco semanas cuando hayas completado todas las actividades
establecidas, que incluyen:

 Videos de instructores enseñando nuevos conceptos y demostrando el uso de herramientas


 Preguntas en el vídeo que surgen durante o al final del vídeo para verificar tu aprendizaje
 Material de lectura que presentará nuevas ideas y ampliará los conceptos presentados en los vídeos
 Foros de debate para debatir, explorar y reforzar nuevas ideas para un mejor aprendizaje
 Los temas de debate llevan a promover el pensamiento y la participación en los foros de debate
 Actividades prácticas para presentar situaciones del mundo real en el trabajo y las herramientas y tareas para
completar las asignaciones
 Cuestionarios de práctica a fin de prepararte para los cuestionarios con calificación
 Actividades prácticas para reforzar las habilidades aprendidas para los cuestionarios con calificación
 Cuestionarios con calificación para medir tu progreso y recibir correcciones útiles
Las actividades prácticas promueven oportunidades adicionales para desarrollar tus habilidades. Trata de sacarles el
mayor provecho posible. Las evaluaciones se basan en el enfoque adoptado por el curso para ofrecer una amplia
variedad de materiales y actividades didácticas que refuerzan las habilidades importantes. Los cuestionarios con y sin
calificación te ayudarán a ahondar en el contenido. Los cuestionarios de práctica sin calificación son una oportunidad
para prepararte para los cuestionarios con calificación. Ambos tipos de cuestionarios se pueden realizar varias veces.

Como recordatorio rápido, este curso está diseñado para todo tipo de estudiantes, sin necesidad de un título o
experiencia previa. Todos aprenden de manera diferente, por lo que el Certificado de análisis computacional de datos de
Google se diseñó teniendo eso en cuenta. Los plazos personalizados son solo una guía, así que siéntete libre de trabajar
a tu propio ritmo. No se penalizan las entregas tardías de las tareas. Si lo prefieres, puedes ampliar los plazos al volver a
Descripción general en el panel de navegación y hacer clic en Cambiar sesión. Si no cumpliste con plazos anteriores, haz
clic en Restablecer mis plazos.

Si deseas revisar el contenido anterior u obtener un adelanto del próximo contenido, puedes usar los enlaces de
navegación en la parte superior de esta página para ir a otro curso del programa. Cuando apruebes todas las
asignaciones requeridas, estarás en camino de obtener tu certificado.

Consejos
 Haz lo posible por completar todos los elementos en orden. Toda la información nueva se basa en lo aprendido
anteriormente.
 Trata cada tarea como si fuera una experiencia del mundo real. Piensa que estás trabajando en una empresa o
en una organización como analista de datos. Esto te ayudará a aplicar lo que aprendes en este programa en el
mundo real.
 Vuelve a completar las tareas que se muestran como ejemplo para practicar más y ganar velocidad.
 Aunque no se califiquen, es importante completar todos los elementos de práctica. Te ayudarán a construir una
base sólida como analista de datos y te prepararán mejor para las evaluaciones calificadas.
 Aprovecha los recursos adicionales que ponemos a tu disposición, incluso los foros de discusión y los vínculos al
contenido de aprendizaje.
 Cuando encuentres enlaces útiles en el curso, recuerda agregarlos a tus marcadores para que puedas consultar
después la información y estudiarla o revisarla.
 Los recursos adicionales son gratuitos, pero algunos sitios tienen restricciones de acceso en cuanto a la cantidad
de artículos a los que se puede acceder de forma gratuita cada mes. En algunos casos, puedes registrarte en el
sitio para obtener acceso completo, pero siempre puedes marcar un recurso y volver a verlo más tarde.
 Usa un bloc de notas o un diario electrónico para hacer un seguimiento de las nuevas fórmulas, funciones y
sintaxis que aprendes. De esta forma, podrás consultar luego esas notas cuando lo necesites.
Los analistas de datos usan mucho las hojas de cálculo y las consultas en SQL. Si realizas todas las actividades
asignadas en los entornos de aplicación que se recomiendan, te darás una idea de lo que podrías hacer en el trabajo
como analista de datos.
Registro de aprendizaje: Procesa y organiza tus datos

Descripción general

Hasta el momento, has aprendido los pasos requeridos para prepararse para el análisis de datos. Ahora, aprenderás los
pasos que se requieren para analizar realmente los datos. Lo primero en esa lista de pasos es organizar y formatear los
datos. Completarás una entrada en tu registro de aprendizaje para explorar tus pensamientos sobre la organización y
cómo se podría aplicar eso al análisis de datos. También reflexionarás sobre cómo crees que será el proceso de
organización y qué más te gustaría aprender en este curso. Cuando hayas completado esa entrada, estarás preparado
para empezar a aprender más sobre el proceso de organización.

Reflexionar sobre la organización

Organizar tus datos es uno de los pasos más importantes para el análisis. Una vez que los hayas organizado, puedes
realizar cálculos para obtener respuestas claras y objetivas a cualquier pregunta sobre datos. Antes de empezar tu
entrada en el registro de aprendizaje, tómate un momento para considerar qué te viene a la mente cuando piensas en
organización de datos; reflexionarás sobre estos pensamientos en la plantilla de registro de aprendizaje que encontrarás
en el siguiente enlace.

Al final de este curso, revisa tus respuestas y observa cómo cambió tu comprensión sobre la organización de datos. ¿Es
más importante de lo que pensabas? ¿Menos importante? ¿Más o menos difícil? Entender cómo han cambiado tus ideas
a lo largo de este curso será una buena manera de comprobar tu crecimiento y progreso como analista de datos.

Accede al registro de aprendizaje


Para usar la plantilla de este elemento del curso, haz clic en el siguiente enlace y selecciona “Usar plantilla”.

Enlace a la plantilla de registro de aprendizaje: Procesa y organiza tus datos

Si no tienes una cuenta de Google, puedes descargar la plantilla directamente desde el siguiente archivo adjunto.

Procesa y organiza tus datos

DOCX File
Reflexión

En función de lo que sabes, escribe de 3 a 5 oraciones (60 a 100 palabras) para responder las siguientes preguntas:

 ¿Qué sistema de organización ya usas en la vida real? ¿Cómo puedes aplicar esa lógica a la organización de
datos?
 ¿Qué crees que implica el proceso de organización de los datos?
 ¿Qué te gustaría entender mejor sobre organización de datos?
Cuando hayas terminado la entrada en la plantilla de registro de aprendizaje, asegúrate de guardar el documento para
que se pueda acceder a tu respuesta. Esto te ayudará a seguir aplicando el análisis de datos a tu vida cotidiana.
También podrás realizar un seguimiento de tu avance y crecimiento como analista de datos.

Conceptos básicos del análisis de datos


El proceso de análisis
Bienvenido de nuevo. Es bueno volver a verte. Hablemos de análisis. Aprendimos cómo hacer las preguntas correctas, preparar
datos para la exploración, y luego procesar esos datos para asegurarnos de que estén super limpios. Llegó el momento
de ir al corazón del proceso: ¡el análisis real! Era hora, ¿verdad? Pero ¿qué es el análisis? Básicamente, el análisis es el
proceso que se usa para dar sentido a los datos recopilados. Significa adoptar los pasos correctos para avanzar y pensar
en tus datos de diferentes maneras. El objetivo del análisis es identificar tendencias y relaciones entre los datos para
que puedas responder con precisión la pregunta que te haces. Para hacer esto, debes cumplir las cuatro fases del
análisis: organizar los datos, formatear y ajustar los datos, obtener comentarios de los demás, y transformar los datos
observando las relaciones entre los puntos de datos y hacer cálculos. Apliquemos las cuatro fases del análisis a un
escenario del mundo real. Imagínate que quieres comprar un regalo para la boda de tu amiga Zara. El problema es que
no estás seguro de qué regalarle. Afortunadamente, hay toneladas de datos en el sitio web de la boda. Pero en lugar de
leer todos los datos del sitio web y recorrer el álbum de fotos de ella o de su pareja, vas directo al registro en línea, una
lista de regalos que les gustaría recibir. El registro es como un conjunto de datos que puedes analizar para tomar una
decisión. Ya revisaste los datos organizados en el registro, quieres asegurarte de que la lista de datos, o los regalos, en
este caso, esté formateada de una manera que sea fácil de consultar. Formatear los datos optimiza las cosas y ahorra
tiempo. Revisar cientos de regalos puede llevar mucho tiempo. En cambio, puedes ajustar los datos de manera que
sean fáciles de digerir mediante el filtrado y la ordenación de tus datos. Tienes un presupuesto al que te debes ajustar,
así que ordenas los precios de los regalos de menor a mayor. Luego filtras los precios para incluir regalos que estén
dentro de tu presupuesto de $60. Estás trabajando con una lista de datos recién formateados. A esta altura, conviene
recordar que la opinión de otras personas también puede ser realmente útil cuando se analiza información y se toman
decisiones. Puedes chequear la lista de regalos para averiguar si alguien más compró alguno de los artículos. Descubres
que algunos artículos de la lista ya han sido comprados, y esto informa tu decisión. Cuando analices datos, es
importante conocer la opinión de los demás porque esto nos aporta un punto de vista que quizás no entiendas o al que
no tengas acceso. Además de obtener la opinión de otras personas, también es importante conocer los puntos de vista
de los demás desde el principio. Así, si ellos predicen obstáculos o desafíos, lo sabrás de antemano. Las personas a las
que recurrirás para obtener su opinión no necesariamente tienen que ser expertos para ser de utilidad. A veces, todo
lo que necesitas es alguien que esté familiarizado con el tema o con los datos que estás considerando. En nuestro
ejemplo, serían los invitados a la boda de Zara que compran regalos en el mismo registro en línea. Quizás no sean
expertos en regalos de boda, pero su colaboración al marcar los artículos que compran, puede ayudarte a averiguar
qué no comprar, lo cual le evitará a Zara recibir dos veces el mismo regalo. En definitiva, obtener esa opinión es valioso
para tu análisis. Esto nos lleva al próximo paso del análisis: la transformación de los datos. Transformar datos significa
identificar relaciones y patrones entre los datos, y hacer cálculos en base a los datos que tienes. Regresemos a nuestro
ejemplo. Pudiste encontrar un regalo que sabías que a Zara le gustaría, y uno que coincidiera con tu presupuesto.
También pudiste elegir un regalo que ya no lo hubiera comprado otra persona. Encontrar la relación entre estos puntos
de datos, te permitió elegir, comprar y enviar un regalo que responda al problema que querías resolver. El atractivo del
proceso de análisis es que probablemente ya analices situaciones en tu vida cotidiana. Ya sea que analices datos en tu
vida personal o profesional, estas cuatro tareas pueden ayudarte a tomar mejores decisiones. Cuanto más lo apliques,
más cómodo te sentirás con el proceso. Espero que esto te permita comprender mejor los conceptos básicos del
análisis. A medida que avancemos, analizaremos cómo ubicar datos para realizar el análisis, tanto en hojas de cálculo,
como con SQL. Cuando estés listo, puedes avanzar. ¡Hasta pronto!

CUESTIONARIO VIDEO

¿Durante qué fase de análisis el analista ordena y filtra los datos?


 Organizar
 Obtener comentarios de los demás
 Formatear y ajustar
 Transformar
Incorrecto
El analista ordena y filtra los datos durante la fase de análisis dedicada al formateo y al ajuste. Organizar
los datos implica recopilar los datos que necesitas para el análisis.

Ayanna: Comprometerte a eso.


Creo que una de las cosas más fascinantes de trabajar con datos en Google es que tenemos uno de los conjuntos de
datos más valiosos del mundo. La gente considera a los datos de Google como una ventana a la curiosidad humana.
Vemos a Google como un verdadero representante de lo que ocurre en el mundo. Por eso, la mayoría de nuestros
auspiciantes valoran muchísimo los datos y las conclusiones que podemos darles en Google porque creen que Google
representa o refleja lo que ocurre en su empresa o en su sector económico. Y por eso creo que el valor de los datos con
los que podemos trabajar en Google mantiene mi interés y entusiasmo en el trabajo que hago. Llegué a Google hace tres
años, después de dedicarme algunos años a la consultoría. Me interesaba mucho cambiar a un rol que se focalizara en
ventas y marketing. Pero al mismo tiempo, quería seguir aprovechando las destrezas analíticas que había adquirido
antes. Este puesto fue un complemento ideal para el conjunto de destrezas que ya tenía y mi interés en pasar a la
función de ventas y marketing. Creo que es importante que todos los alumnos se den cuenta de que nadie aprende este
material de la noche a la mañana. Es muy probable que muchos de tus colegas a los que consideras expertos hayan
adquirido ese nivel de experiencia a lo largo de años en el área. Creo que uno de los atributos más grandes que los
alumnos deberían tener presente es que lo más importante a lo largo de este proceso de aprendizaje es tener
determinación. Determinación para entender que puede ser una lucha, un desafío, pero si le dedicas trabajo y tiempo,
estos conceptos terminarán fluyendo con facilidad, y estarás bien encaminado para convertirte en analista de datos.
Hola, mi nombre es Ayanna y soy gerente de información global aquí en Google.

CUESTIONARIO

1.
Pregunta 1

Les preguntas a los voluntarios en una producción teatral qué tareas ya completaron y agregas esos datos a una hoja de
cálculo que contenga todas las tareas requeridas. Usarás la información proporcionada por los voluntarios para darte
cuenta de qué tareas falta realizar. ¿Este es un ejemplo de qué fase de análisis?
1 / 1 punto

Formatear y ajustar los datos


Transformar los datos
Organizar los datos (en un conjunto de datos)
Obtener comentarios de los demás
Correcto

Este es un ejemplo de obtención de comentarios de los demás. Obtener comentarios significa solicitar información a
través de otras fuentes para fundamentar tus decisiones.
2.
Pregunta 2

Estás trabajando con tres conjuntos de datos sobre la participación electoral en tu país. Primero, identificas las relaciones
y los patrones existentes entre los conjuntos de datos. Luego, usas fórmulas y funciones para hacer los cálculos en
función de tus datos. ¿Este es un ejemplo de qué fase de análisis?
1 / 1 punto

Obtener comentarios de los demás


Organizar los datos (en un conjunto de datos)
Formatear y ajustar los datos
Transformar los datos
Correcto

Este es un ejemplo de transformación de datos que implica identificar relaciones y patrones existentes entre los
conjuntos de datos, y realizar cálculos.
3.
Pregunta 3

Estás trabajando con un conjunto de datos de una institución pública de educación terciaria. Ordenas a los alumnos
alfabéticamente por apellido. ¿Este es un ejemplo de qué fase de análisis?
1 / 1 punto

Organizar los datos (en un conjunto de datos)


Obtener comentarios de los demás
Formatear y ajustar los datos
Transformar los datos
Correcto

Ordenar una lista de alumnos alfabéticamente es un ejemplo de formatear y ajustar datos. Este un paso que usan los
analistas para reordenar los datos y que sea más fácil trabajar con ellos.

Organizar los datos para el análisis


Siempre es necesario organizar
Hola de nuevo. Retomemos el tema. En este preciso momento estamos en la fase Analizar del proceso de análisis de datos. Y
aunque cada fase es única, los analistas de datos toman decisiones sobre la organización en todas las fases.

Reproduce el video desde ::15 y sigue la transcripción0:15

De eso hablaremos aquí: la organización. Es super importante que mantengas tus datos organizados en todo tu análisis. La
forma en que estén clasificados y estructurados tus datos afectará tus hallazgos, ya sea que trabajes en una hoja de cálculo o
en una base de datos. Y una vez que sabes cómo están organizados tus datos, podrás capturar o recopilar la información que
necesitas. La mayor parte de los datos que usarás en tu análisis se organizará en tablas. Las tablas te ayudan a organizar clases
de datos similares por categorías y áreas temáticas de tu interés cuando analizas. Por ejemplo, esta base de datos básica tiene
tablas para concesionarias de autos, detalles de los productos y de los repuestos. Cada tabla tiene entonces varios campos de
datos, como el propietario de la sucursal y el costo de los repuestos. Puedes usar estas tablas y campos para que te ayuden a
decidir cómo avanzar con tu análisis. La estructura de esta base de datos puede ayudarte a decidir qué datos necesitas obtener
para cumplir tus objetivos. Por ejemplo, el número total de ventas de autos de una marca en particular, o un repuesto para un
determinado modelo de auto en cierta sucursal.

Reproduce el video desde :1:24 y sigue la transcripción1:24

Las tablas te permiten tomar decisiones sobre los tipos de datos. Te ayudan a averiguar qué variables necesitas y los tipos de
datos que deberían tener esas variables. Así que si tienes una base de datos en la cual necesitas convertir un tipo de datos
durante tu análisis, puedes hacer eso con el comando CAST en SQL o cualquier otro método que aprendas en tu trabajo o a
partir de tu propia investigación. Como en este ejemplo, en donde convertimos la columna de precio de compra para que sea
FLOAT en lugar de STRING y nos ofrezca un formato numérico que podamos usar para los cálculos. Si realizas tu análisis en una
hoja de cálculo, quieres asegurarte de que las columnas y las filas se organicen correctamente. Incluso puedes ocultar
columnas que no necesitas para el análisis o que muestran información duplicada. Una vez que hayas organizado y formateado
los datos, estarás listo para ordenarlos y filtrarlos para encontrar los datos que necesitas. Pronto nos abocaremos a la
ordenación y el filtrado. Por ahora, solo debes saber que ambos, los filtros y las ordenaciones, varían según el tipo de datos con
los que trabajamos. La conclusión es que es importante tener tus datos en el formato correcto. Así que siempre hay que estar
preparado para ajustar, no importa cuánto hayamos avanzado en el análisis. Eso es todo por ahora. Próximamente te
mostraremos en qué consisten los filtros. ¡Adiós!
CUESTIONARIO

Completa el espacio en blanco: _____ implica organizar los datos en un orden significativo para que sea más fácil
entenderlos, analizarlos y visualizarlos.
Ordenación
Organización
Priorización
Filtrado
Correcto
Ordenar implica organizar los datos en un orden significativo para que sea más fácil entenderlos,
analizarlos y visualizarlos.

Para reducir el alcance de una consulta, el analista de datos filtra mediante un criterio en particular. Este tipo de
filtrado se debe hacer con una variable por vez.
Verdadero
Falso
Correcto
El filtrado puede hacerse por una sola variable o por múltiples variables, según las necesidades de la consulta.

Mantener los datos organizados con ordenación y filtros


Has aprendido sobre las cuatro fases del análisis:

 Organizar los datos


 Formatear y ajustar los datos
 Obtener comentarios de los demás
 Transformar los datos
La organización de los conjuntos de datos es realmente importante para los analistas de datos. La mayoría de los
conjuntos de datos que usarás se organizarán como tablas. Las tablas son útiles porque te permiten manejar tus datos y
categorizarlos. Tener diferentes categorías y clasificaciones te permite centrarte en tus datos y diferenciarlos de forma
rápida y sencilla.

Los analistas de datos también deben formatear y ajustar los datos cuando realizan un análisis. La ordenación y el
filtrado son dos maneras de mantener las cosas organizadas cuando formateas y ajustas los datos con los que tienes
que trabajar. Por ejemplo, un filtro puede ayudarte a encontrar errores o datos atípicos para que puedas corregirlos o
marcarlos antes de tu análisis. Los datos atípicos son puntos de datos que difieren mucho de los datos recogidos de
forma similar y podrían no ser valores fiables. El beneficio de filtrar los datos es que después de corregir los errores o
identificar los datos atípicos, puedes quitar el filtro y volver a dejar los datos con su organización original.

En esta lectura, aprenderás la diferencia entre ordenación y filtrado. También conocerás cómo se realiza una forma
específica de ordenación en una tabla dinámica.

Ordenación versus filtrado


Ordenación es cuando organizas los datos en un orden significativo para que sea más fácil entenderlos, analizarlos y
visualizarlos. La ordenación clasifica tus datos según la métrica específica que elijas. Puedes ordenar datos en hojas de
cálculo, bases de datos en SQL (cuando tu conjunto de datos es demasiado grande para hojas de cálculo), y tablas en
documentos.

Por ejemplo, si necesitas clasificar elementos o crear listas cronológicas, puedes ordenar por orden ascendente o
descendente. Si estás interesado en averiguar las películas favoritas de un grupo, podrías ordenar por título de película
para averiguarlo. La ordenación organizará los datos de manera significativa y te proporcionará conclusiones de
inmediato. La ordenación también te ayuda a agrupar datos similares mediante una clasificación. Para las películas,
podrías ordenar por género, por ejemplo, acción, drama, ciencia ficción o románticas.

El filtrado se usa cuando solo te interesa ver los datos que cumplen un criterio específico, y deseas ocultar el resto.
Filtrar es realmente útil cuando tienes muchos datos. Puedes ahorrar tiempo centrándote en los datos que son realmente
importantes o en los que tienen errores o problemas. La mayoría de las hojas de cálculo y las bases de datos en SQL te
permiten filtrar los datos de diversas maneras. Filtrar te permite encontrar lo que buscas sin tanto esfuerzo.

Por ejemplo, si solamente estás interesado en filtrar quién miró películas en octubre, podrías usar un filtro en las fechas
para que solo aparezcan los registros para películas vistas en octubre. Luego, podrías verificar los nombres de las
personas para averiguar quién vio películas en octubre.

En resumen, la forma más fácil de recordar la diferencia entre ordenación y filtrado es que puedas usar la ordenación
para ordenar los datos rápidamente y el filtrado para ver solo los datos que cumplen los criterios que has elegido. Usa el
filtrado cuando necesites reducir la cantidad de datos que se visualizan.

Es importante señalar que después de filtrar los datos, también puedes ordenar los datos filtrados. Si revisas el ejemplo
de búsqueda de películas vistas en octubre, después de haber filtrado por películas vistas en octubre, puedes ordenar
por orden alfabético los nombres de las personas que vieron esas películas.

Cómo ordenar datos en una tabla dinámica


Los elementos en las áreas de filas y columnas de una tabla dinámica se ordenan primero en orden ascendente por
cualquier lista personalizada. Por ejemplo, si tu lista contiene días de la semana, la tabla dinámica permite ordenar los
nombres de los días de la semana y de los meses de la siguiente forma: lunes, martes, miércoles, etc., en lugar de
hacerlo alfabéticamente así: lunes, sábado, viernes, etc.

Si los elementos no están en una lista personalizada, se ordenarán por defecto en forma ascendente. Pero si ordenas en
orden descendente, estás estableciendo una regla que controla cómo se ordena el campo incluso después de agregar
nuevos campos de datos.
Opcional: Cargar el conjunto de datos de películas en BigQuery
El próximo vídeo muestra cómo usar SQL para filtrar datos en un conjunto de datos grande en BigQuery.

Si deseas seguir adelante con la instructora, necesitarás iniciar sesión en tu cuenta de BigQuery y cargar los datos de
películas suministrados en un archivo CSV. Si saltaste de un curso a otro, El uso de BigQuery del curso Preparar datos
para la exploración explica cómo configurar una cuenta de BigQuery.

Prepárate para el siguiente vídeo


 Primero, descarga el archivo CSV del siguiente adjunto:

DAC5M1L3R2-ATTACHMENT_SPA

CSV File

 A continuación, completa los siguientes pasos en tu consola de BigQuery para cargar el conjunto de datos de
películas.
Paso 1: Abre tu consola de BigQuery y haz clic en el proyecto al que quieres subir los datos.
Paso 2: En el Explorador de la izquierda, haz clic en el icono de Acciones (tres puntos verticales) junto al nombre
de tu proyecto y selecciona Crear conjunto de datos.

Paso 3: En el próximo vídeo, se usará el nombre "movie_data" para el conjunto de datos. Si piensas seguir el vídeo,
introduce movie_data como ID del conjunto de datos.
Paso 4: Haz clic en CREAR CONJUNTO DE DATOS (botón azul) para añadir el conjunto de datos a tu proyecto.

Paso 5: En el Explorador de la izquierda, haz clic para expandir tu proyecto, y luego haz clic en el conjunto de datos
movie_data que acabas de crear.

Paso 6: Haz clic en el icono de Acciones (tres puntos verticales) junto a movie_data y selecciona Abrir.

Paso 7: Haz clic en el icono azul + de la parte superior derecha para abrir la ventana Crear tabla.
Paso 8: En Origen, para Crear tabla desde la selección, elige de dónde vendrán los datos.

 Selecciona Cargar.
 Haz clic en Examinar para seleccionar el archivo CSV de los datos de películas que descargaste.
 Elige CSV en el menú desplegable de formato de archivo.
Paso 9: Debajo de Destino, ingresa movies como Nombre de tabla para que coincida con la tabla del vídeo.

Paso 10: Para Esquema, haz clic en la casilla Detección automática.

Paso 11: Haz clic en Crear tabla (botón azul). Ahora verás la tabla movies bajo tu conjunto de datos movie_data en tu
proyecto.

Paso 12: Haz clic en movies y luego selecciona la pestaña Vista previa. Confirma que ves los datos que se muestran a
continuación.

¡Felicitaciones, ahora estás listo para continuar con el siguiente vídeo!

Más sobre ordenación y filtrado


Hola, ¡qué bueno volver a verte! Anteriormente comentamos por qué debes organizar tus datos, sin importar en qué parte de
su ciclo de vida estén. Como cualquier colección, es más fácil gestionar y cuidar un grupo de cosas cuando hay una estructura
que las contiene.
Reproduce el video desde ::15 y sigue la transcripción0:15

Ahora deberíamos tener en cuenta que la organización no es tan solo hacer que las cosas se vean ordenadas. También implica
facilitar la búsqueda y ubicar los datos que necesitas de manera rápida y fácil. Como analista de datos, te tocará reorganizar y
depurar las bases de datos muy a menudo. Dos de las maneras más comunes de hacer esto es con la ordenación y el filtrado.
Ya hemos hablado brevemente de la ordenación y el filtrado, y es importante que sepas exactamente qué es cada uno.

Ordenación es cuando organizas los datos en un orden significativo para que sea más fácil entenderlos, analizarlos y
visualizarlos. La ordenación clasifica los datos según una métrica específica que tú seleccionas. Puedes ordenar datos en hojas
de cálculo y en bases de datos que usen SQL. En breve nos abocaremos a todas las funciones geniales que puedes usar en
ambos casos. Una forma común de ordenar los elementos cuando compras en un sitio web es por el precio más bajo al más
alto, pero también puedes ordenar por orden alfabético, como los libros en una biblioteca, o de lo más reciente a lo más
antiguo, como el orden de los mensajes de texto en un teléfono. O del más cercano al más lejano, como cuando buscas
restaurantes en línea.

Otra forma de organizar la información es con un filtro. Filtrar es mostrar solo los datos que cumplen con un criterio específico,
mientras se oculta el resto. En general, puedes usar filtros cuando quieras acotar la cantidad de datos que deseas depurar. Por
ejemplo, estás buscando zapatillas verdes en línea. Para ahorrar tiempo, filtras solo por zapatillas verdes. Usar un filtro reduce
los conjuntos de datos más grandes a subconjuntos más pequeños que son relevantes para lo que tú necesitas. Ordenar y
filtrar son dos acciones que probablemente realices mucho en línea. Ya sea que ordenes los horarios de una película desde el
primero al último, o filtres los resultados de tu búsqueda solo por imágenes, es probable que ya estés familiarizado con lo útil
que puede ser para darles sentido a los datos. Bien, aprovechemos ese conocimiento y apliquémoslo. Cuando se trata de
depurar grandes pilas de datos desorganizados, los filtros te serán útiles. Tal vez recuerdes de un vídeo anterior que puedes
usar filtros y programas de hojas de cálculo, como Excel y Sheets, para mostrar solo los datos de las filas que coincidan con el
rango o la condición que hayas establecido. También puedes filtrar datos en SQL usando la cláusula WHERE. La cláusula WHERE
funciona de manera similar al filtrado en una hoja de cálculo porque muestra filas según una condición que tú indiques.
Aprendamos cómo puedes usar la cláusula WHERE en una base de datos. Usaremos BigQuery para acceder a la base de datos y
ejecutar nuestra consulta. Si te unes a nosotros, abre tu herramienta preferida para usar SQL y consulta el recurso anterior
sobre cómo acceder al conjunto de datos. De lo contrario, observa cómo la cláusula WHERE hace lo suyo. Aquí está la base de
datos.

Es probable que la reconozcas de vídeos anteriores. Básicamente, es una larga lista de películas. Cada fila incluye una entrada
para las columnas denominadas: Movie_Title, Release_Date, Genre, Director, Cast_Members, Budget y Total_Revenue.
También incluye un enlace a la página de Wikipedia de las películas. Si te desplazas por la lista, verás que continúa durante
mucho tiempo. Por supuesto, no necesitamos recorrerla toda para encontrar los datos que necesitamos. ¡Eso es lo maravilloso
del filtro! En este caso, usaremos la cláusula WHERE para filtrar la base de datos y reducir la lista de las películas al género
comedia. Para empezar, usaremos el comando SELECT seguido por un asterisco. En SQL, el asterisco selecciona todos los
datos. En una línea nueva, escribiremos FROM y el nombre de la base de datos: movie_data.movies. Para filtrar las películas
por comedia, vamos a escribir WHERE, luego enumeraremos la condición, que es Género.

Género es una columna en el conjunto de datos, y solo queremos seleccionar las filas en donde la columna Género coincide
exactamente con "Comedia". Luego escribiremos el signo igual y el género específico que vamos a filtrar, que es "comedia".
Como los datos de la columna Género están en formato de cadena, tenemos que usar comillas simples o inglesas cuando lo
escribimos. Y recordemos que el uso de mayúsculas importa aquí, por eso verifiquemos que el uso de mayúsculas y minúsculas
coincida exactamente con el nombre de la columna. Y ahora podemos hacer clic en Ejecutar para observar los resultados. Nos
queda una lista más pequeña de películas de comedia. Suena genial, ¿verdad? Esto es algo más que debes saber. Puedes
aplicar múltiples filtros a una base de datos. Incluso puedes ordenar y filtrar datos al mismo tiempo para obtener resultados
aún más precisos. Saber cómo ordenar y filtrar datos te convertirá en un excelente analista de datos. Eso es todo por ahora.
Próximamente, conoceremos los detalles de las funciones de ordenación en hojas de cálculo. Nos vemos ahí.

CUESTIONARIO
Estás trabajando en un proyecto internacional y debes facturar a tus clientes el trabajo que terminaste. La base de
datos que usas contiene una tabla de facturas. La tabla invoices tiene las siguientes columnas: InvoiceId, CustomerId,
InvoiceDate, BillingAddress, BillingCity, BillingState, BillingCountry, BillingPostalCode, Total.

Crea una consulta para mostrar todas las columnas en esta tabla solo para clientes en Alemania que tengan un total de
facturas superior a $5. Una pista (si la necesitas): Tu consulta debería tener la siguiente estructura: SELECT _____

FROM _____

WHERE _____ AND _____

SELECT*
FROM invoices
WHERE Total>5 AND BillingCountry = 'Germany'

EjecutarRestablecer
+-----------+------------+---------------------+-------------------------+-------------
+--------------+----------------+-------------------+-------+
| InvoiceId | CustomerId | InvoiceDate | BillingAddress | BillingCity |
BillingState | BillingCountry | BillingPostalCode | Total |
+-----------+------------+---------------------+-------------------------+-------------
+--------------+----------------+-------------------+-------+
| 12 | 2 | 2009-02-11 00:00:00 | Theodor-Heuss-Straße 34 | Stuttgart |
None | Germany | 70174 | 13.86 |
| 40 | 36 | 2009-06-15 00:00:00 | Tauentzienstraße 8 | Berlin |
None | Germany | 10789 | 13.86 |
| 52 | 38 | 2009-08-08 00:00:00 | Barbarossastraße 19 | Berlin |
None | Germany | 10779 | 5.94 |
| 67 | 2 | 2009-10-12 00:00:00 | Theodor-Heuss-Straße 34 | Stuttgart |
None | Germany | 70174 | 8.91 |
| 95 | 36 | 2010-02-13 00:00:00 | Tauentzienstraße 8 | Berlin |
None | Germany | 10789 | 8.91 |
| 138 | 37 | 2010-08-23 00:00:00 | Berger Straße 10 | Frankfurt |
None | Germany | 60316 | 13.86 |
| 193 | 37 | 2011-04-23 00:00:00 | Berger Straße 10 | Frankfurt |
None | Germany | 60316 | 14.91 |
| 236 | 38 | 2011-10-31 00:00:00 | Barbarossastraße 19 | Berlin |
None | Germany | 10779 | 13.86 |
| 241 | 2 | 2011-11-23 00:00:00 | Theodor-Heuss-Straße 34 | Stuttgart |
None | Germany | 70174 | 5.94 |
| 269 | 36 | 2012-03-26 00:00:00 | Tauentzienstraße 8 | Berlin |
None | Germany | 10789 | 5.94 |
| 291 | 38 | 2012-06-30 00:00:00 | Barbarossastraße 19 | Berlin |
None | Germany | 10779 | 8.91 |
| 367 | 37 | 2013-06-03 00:00:00 | Berger Straße 10 | Frankfurt |
None | Germany | 60316 | 5.94 |
+-----------+------------+---------------------+-------------------------+-------------
+--------------+----------------+-------------------+-------+

¿Cuántas filas muestra esta consulta?


12
Correcto
Se muestran doce filas cuando se realiza la siguiente consulta:

SELECT * FROM invoices WHERE BillingCountry='Germany' AND Total > 5.


La cláusula AND te permite escribir una consulta con más de una condición. Esto significa que esta consulta mostrará
una lista de 12 clientes a los que se debe cobrar que son de Alemania y tienen facturas por un total superior a $5.

CUESTIONARIO:

1.
Pregunta 1

Completa el espacio en blanco: El analista de datos usa _____ para decidir qué datos son relevantes para su análisis y
qué tipos de datos y variables son apropiados.
0 / 1 punto

1. referencias de base de datos


2. relaciones de base de datos
3. organización de base de datos
4. normalización de base de datos
Correcto

La organización de la base de datos permite a los analistas tomar decisiones sobre qué datos son relevantes para un
análisis específico. Las referencias de base de datos les permiten acceder a objetos a partir de otras bases de datos.
2.
Pregunta 2

Un analista de datos quiere organizar una base de datos para que muestre solo las 100 ventas inmobiliarias más
recientes en Stamford, Connecticut. ¿Cómo puede hacer eso?
1 / 1 punto

1. El analista de datos debería filtrar las ventas en Stamford, Connecticut, luego ordenar las ventas menos recientes
en la parte superior de su lista.
2. El analista de datos debería agregar un filtro que muestre solo las ventas en Stamford, Connecticut, luego
ordenar las ventas menos recientes en la parte superior de la lista.
3. El analista de datos debería filtrar las ventas en Stamford, Connecticut, luego ordenar las ventas más recientes
en la parte superior de su lista.
4. El analista de datos debería excluir las ventas en Stamford, Connecticut, luego ordenar las ventas más recientes
en la parte superior de su lista.
Correcto

El analista de datos debería agregar un filtro solo para las ventas en Stamford, Connecticut, luego ordenar las ventas
más recientes en la parte superior de su lista.
3.
Pregunta 3

Estás trabajando con la tabla de una base de datos que contiene datos del cliente. La columna país designa el país en el
cual está ubicado el cliente. Deseas averiguar qué clientes se encuentran en Brasil.

Escribe la consulta SQL a continuación. Agrega una cláusula WHERE que mostrará resultados solo de clientes que se
encuentren en Brasil.

SELECT *

FROM customer

WHERE country = 'Brazil'


EjecutarRestablecer
+-------------+------------+-----------+--------------------------------------------------
+---------------------------------+---------------------+-------+---------+-------------
+--------------------+--------------------+-------------------------------+----------------+
| customer_id | first_name | last_name | company |
address | city | state | country | postal_code | phone
| fax | email | support_rep_id |
+-------------+------------+-----------+--------------------------------------------------
+---------------------------------+---------------------+-------+---------+-------------
+--------------------+--------------------+-------------------------------+----------------+
| 1 | Luís | Gonçalves | Embraer - Empresa Brasileira de Aeronáutica S.A. |
Av. Brigadeiro Faria Lima, 2170 | São José dos Campos | SP | Brazil | 12227-000 | +55
(12) 3923-5555 | +55 (12) 3923-5566 | luisg@embraer.com.br | 3 |
| 10 | Eduardo | Martins | Woodstock Discos |
Rua Dr. Falcão Filho, 155 | São Paulo | SP | Brazil | 01007-010 | +55
(11) 3033-5446 | +55 (11) 3033-4564 | eduardo@woodstock.com.br | 4 |
| 11 | Alexandre | Rocha | Banco do Brasil S.A. |
Av. Paulista, 2022 | São Paulo | SP | Brazil | 01310-200 | +55
(11) 3055-3278 | +55 (11) 3055-8131 | alero@uol.com.br | 5 |
| 12 | Roberto | Almeida | Riotur |
Praça Pio X, 119 | Rio de Janeiro | RJ | Brazil | 20040-020 | +55
(21) 2271-7000 | +55 (21) 2271-7070 | roberto.almeida@riotur.gov.br | 3 |
| 13 | Fernanda | Ramos | None | Qe
7 Bloco G | Brasília | DF | Brazil | 71020-677 | +55 (61)
3363-5547 | +55 (61) 3363-7855 | fernadaramos4@uol.com.br | 4 |
+-------------+------------+-----------+--------------------------------------------------
+---------------------------------+---------------------+-------+---------+-------------
+--------------------+--------------------+-------------------------------+----------------+
¿Cuántos clientes se encuentran en Brasil?
1 / 1 punto

 3
 9
 7
 5
Correcto

La cláusula WHERE country = “Brazil” mostrará los resultados solo de los clientes que se encuentran en Brasil. La
consulta completa es SELECT * FROM customer WHERE country = “Brazil”. La cláusula WHERE filtra los resultados que
cumplen con ciertas condiciones. La cláusula WHERE incluye el nombre de la columna, un signo de igual y el valor o los
valores para incluir en la columna. Hay cinco clientes que se encuentran en Brasil.

Ordenar datos en hojas de cálculo


Ordenación de conjuntos de datos
¡Hola, profesional de los datos! Qué alegría volver a verte, y preparado para conocer más sobre el aspecto organizacional del
análisis de datos. En este vídeo, aprenderemos cómo ordenar datos en hojas de cálculo. Ya vimos algo de ordenación en hojas
de cálculo, anteriormente en el programa. Llegó el momento de aprovechar lo que hemos visto e introducir algunas técnicas de
ordenación más avanzadas. La ordenación es maravillosa. No solo aporta orden y significado a tus hojas de cálculo, sino que
también te empodera para recrear los datos por completo. Cuando ordenas los datos según una métrica específica, puedes
descubrir nuevos patrones y relaciones entre los conjuntos de datos que de otra forma no hubieras percibido. Esto aplica
especialmente a las hojas de cálculo, que usarás un montón en tu trabajo como analista de datos. Saber cómo ordenar datos
en hojas de cálculo puede convertirte en un analista más fuerte y seguro. En muchos casos, ordenar depende de tu creatividad
para reformular la información que tienes frente a ti. En las hojas de cálculo, puedes ordenar datos en orden ascendente o
descendente mediante número o letras. Si las celdas están etiquetadas con color, puedes ordenarlas también por color.
Cuando ordenes datos en una hoja de cálculo, puedes elegir "Ordenar hoja" u "Ordenar rango". Si usas "Ordenar hoja", todos
los datos de la hoja de cálculo se ordenarán por las condiciones de una única columna, pero la información relacionada en
otras filas, permanece junta. En cambio, "Ordenar rango" no mantiene junta la información de las distintas filas. Cuando
ordenas un rango, seleccionas un conjunto específico de celdas o el rango al que quieres que se limite la ordenación. No se
reorganizará ningún otro dato de las hojas de cálculo, solo las celdas especificadas. Hay dos métodos para ordenar datos en
hojas de cálculo: uno involucra el uso del menú; el otro implica escribir la función de ordenar. Por ahora, nos concentraremos
en la ordenación con el menú. Nos abocaremos a escribir funciones, más adelante. Ahora bien, según el programa que uses,
podría variar levemente el proceso, pero las instrucciones y los conceptos que analizamos serán básicamente los mismos.
Volvamos a la ordenación con el menú de datos. Para darte una idea de cómo hacerlo, usaremos la hoja de cálculo de las
películas. Vamos a comprobarlo. En este ejemplo, ordenaremos las películas por la fecha de estreno. Nos dirigiremos a la
columna B, que aparece con el nombre "Fecha de estreno". Haz clic en el botón "B" para resaltar todas las celdas de la
columna. A partir de ahí, nos dirigiremos a la pestaña Datos del menú. Ahora tienes dos opciones: ordenar una hoja o un rango
de datos. Notarás que hemos seleccionado solo las fechas de estreno, pero estas fechas de estreno se relacionan
específicamente con las películas de su fila.
Reproduce el video desde :2:46 y sigue la transcripción2:46

En este caso, quieres que la fecha de estreno y el título de las películas permanezcan en la misma fila, cuando ordenes, porque
esos datos están relacionados. Para hacer esto, querrás "Ordenar hoja". Esto mantendrá todos los datos juntos por fila, sin
importar cómo los ordenes. Según el orden que desees que tengan las fechas, puedes ordenar de la A a la Z, lo cual también
clasificará las fechas en forma numérica. O puedes ordenar de la Z a la A, que ordenará los datos en sentido contrario. Como
queremos que las fechas de estreno estén en orden, haremos clic en "Ordenar hoja por columna B" de la A a la Z. Y allá vamos.
Acabas de ordenar una hoja de datos desde el menú. Ahora las películas están distribuidas por orden cronológico según la
fecha de estreno. Supongamos que quieres ordenar los datos en una columna específica, pero no necesitas que las celdas de
esa columna se vinculen con una fila de información específica.

En realidad, quieres separar los datos de la columna y ordenarlos en forma independiente sin que afecte la organización del
resto de la hoja. Para divertirnos, usaremos la columna "Título de la película" de este ejemplo. Primero, seleccionaremos la
columna que queremos ordenar: columna A. Hacer clic en la columna A, ilumina todas las celdas de la columna que contiene
los títulos de las películas. Luego iremos al menú y haremos clic en Datos porque estamos separando la columna del resto de la
hoja. Esta vez, cuando ordenemos, haremos clic en "Ordenar rango por columna A". Para este ejemplo, ordenaremos los títulos
de las películas alfabéticamente de la A a la Z. ¡Y listo! Verás que "Ordenar rango" no mantiene las filas unidas, así que los
datos quedan un poco mezclados. Es muy probable que termines usando "Ordenar hoja" más a menudo, pero es importante
entender ambas opciones para que no las confundas accidentalmente. Acabas de ordenar los datos en una hoja de cálculo
usando el menú, y has aprendido cómo ordenar datos en toda una hoja o en un rango de celdas. Podrás llevar este
conocimiento contigo dondequiera que te desempeñes como analista de datos. Próximamente, aprenderemos la segunda
forma de ordenar en una hoja de cálculo: escribir una función. También llevaremos la ordenación a un próximo nivel al ordenar
tus datos de manera personalizada. Nos vemos ahí.

La conclusión clave es la diferencia entre ordenar una hoja por columna y ordenar un rango (los valores en la
columna).

En el último paso, los valores en la Columna A (títulos de las películas) se ordenaron de la A a la Z, pero las fechas
de estreno correspondientes, en la Columna B, no estaban ordenadas. Esto hizo que las películas se ordenaran con las
fechas de estreno incorrectas. Por ejemplo, antes de que ordenaras los valores en la Columna A, por orden de la A a la
Z, The Devil Inside era la película con la fecha de estreno más antigua, 2012-01-06. Después de haber ordenado los
títulos de las películas en la Columna A, en el orden de la A a la Z, 10 Cloverfield Lane pasó a ser la película con la
fecha de estreno 2021-01-06. ¡Pero esa es una fecha errónea para esa película!

Para ordenar los títulos de las películas en el orden de la A a la Z y preservar las fechas de estreno correctas, ordena la
hoja, en lugar del rango.

Si has seguido el vídeo, haz lo siguiente:

 Haz clic en el botón Deshacer para eliminar el orden previo en la Columna A.


 Haz clic en cualquier celda de la Columna A y haz clic en Datos, selecciona Ordenar hoja, y luego
selecciona Ordenar hoja por columna A (A a Z).
Ahora deberías ver la película 10 Cloverfield Lane en la parte superior con la fecha de estreno correcta, 2016-03-08.

CUESTIONARIO

Cuando usas la función del menú Rango de ordenación, no se reordena nada en la hoja de cálculo, excepto los
campos del rango especificado.
Verdadero
Falso
Correcto
La función del menú Rango de ordenación solo ordena campos en el rango especificado. Los datos de las
filas no se mantienen juntos cuando se ordenan.

¿Qué función de ordenación del menú se usa para mantener los datos juntos en las filas?
Rango de ordenación
Ordenar columna
Ordenar hoja
Ordenar fila
Correcto
Ordenar hoja es la función de ordenación del menú que mantiene los datos juntos en las filas. También
ordena todos los datos en la hoja, según la clasificación de una columna determinada.

La función SORT
Felices de tenerte de vuelta. Anteriormente en el programa, vimos algunos conceptos básicos de la ordenación en hojas de
cálculo. Aprendimos las diferencias entre ordenar un rango y una hoja entera, y cómo ordenar una hoja de cálculo usando el
menú. Ya sentamos las bases, es hora de pasar a formas más avanzadas de ordenar la información. Hablamos sobre los dos
métodos que existen para ordenar los datos en las hojas de cálculo. El primer método usa la pestaña Datos del menú de tu
programa de hoja de cálculos. El segundo método para almacenar información en una hoja de cálculo es escribir la función
SORT. En las hojas de cálculo, las funciones son comandos preestablecidos que realizan un proceso específico. Así que en este
caso, la función SORT, como te imaginarás, ordena tus datos.

Reproduce el video desde ::43 y sigue la transcripción0:43

Echemos un vistazo a esta hoja de cálculo de planes de ventas por demostración para ver a la función SORT en acción. Es
bueno recordar que cuando usas la función SORT, en realidad estás cambiando el conjunto de datos existente, a diferencia de
la pestaña Datos del menú que reorganiza los datos en el conjunto de datos original. El primer conjunto de datos organizado es
nuestro conjunto de datos original de invitados y cierta información sobre ellos. Así que supongamos que quieres ordenar a los
invitados de esta reunión de ventas por mesa para tener una idea de quién se sentará en cada lugar. Para hacer esto, empieza
por escribir una función en una celda vacía. Como con cualquier función, haces esto escribiendo el signo igual, y luego escribes
SORT después del signo.

Reproduce el video desde :1:28 y sigue la transcripción1:28

Después del primer paréntesis de apertura, indica la primera celda en la cual se recogen los datos. En este caso, es A2.

Reproduce el video desde :1:41 y sigue la transcripción1:41

Luego incluirás dos puntos y escribirás la última celda que quieres que se incluya en la función, que es la D6.

Reproduce el video desde :1:54 y sigue la transcripción1:54

A2 dos puntos D6 es el rango para esta función. Después, escribe una coma para separar el rango de lo que estás ordenando,
que es la columna B.

Reproduce el video desde :2:10 y sigue la transcripción2:10

Debes tener presente que esta parte de la función no reconoce letras de columna. Así que en este caso, usaremos el número
correspondiente, que es el 2, ya que la columna B es la segunda columna de nuestro rango.

Reproduce el video desde :2:28 y sigue la transcripción2:28

Ahora agrega otra coma.

En esta próxima parte deberás decidir si quieres que los datos de esta columna aparezcan
en orden ascendente o descendente, La instrucción TRUE indica el orden ascendente, y FALSE es descendente. Como
queremos que las mesas se enumeren a partir de la mesa número uno, escribiremos TRUE para el orden ascendente, y luego
terminaremos la función con un paréntesis de cierre. Ahora, veamos cómo actúa nuestra función.

Reproduce el video desde :2:59 y sigue la transcripción2:59

Los invitados de la reunión de ventas ahora están ordenados por la mesa en la cual se sentarán.
Reproduce el video desde :3:3 y sigue la transcripción3:03

Cuando ya tienes una idea de los datos que quieres ordenar y cómo quieres hacerlo, aplicar las funciones a tus datos es algo
simple. Ahora ya tienes dos herramientas diferentes en tu cinturón de herramientas para ordenar los datos. Después de haber
aprendido a escribir funciones SORT, también querrás personalizar los criterios de ordenación. El criterio de ordenación
personalizada es aquel que ordena los datos en una hoja de cálculo usando múltiples condiciones. Esto significa que la
ordenación se basará en el orden de las condiciones que selecciones. Volvamos a la hoja de cálculo de la reunión de ventas.
Imagínate que quieres que se ordenen los invitados según se les haya enviado o no invitación. En función de eso, queremos
que los nombres de esos invitados se orden alfabéticamente. Puedes hacer eso fácilmente con la opción "Ordenar rango" en la
pestaña Datos.

Reproduce el video desde :3:46 y sigue la transcripción3:46

Primero, resalta todos los datos en el conjunto de celdas de la A1 a la D6. Luego debajo de la pestaña Datos del menú, haz clic
en "Ordenar rango".

Reproduce el video desde :3:59 y sigue la transcripción3:59

En este caso, marca "Los datos tienen una fila de encabezado", que te asegura que el título de la columna no se mezcle en la
ordenación. Luego, nos aseguraremos que se ordene por "Invitación enviada".

Reproduce el video desde :4:13 y sigue la transcripción4:13

Aquí, queremos que primero aparezcan las respuestas que dicen "No" y después las que dicen "Sí", así que verificaremos que
esté marcado de la A a la Z para ordenar las respuestas en ese orden. Como queremos agregar una condición de ordenación
adicional, ahora haremos clic en "Agregar otra columna de ordenación". Los nombres de los invitados deberían estar en orden
alfabético. Así que seleccionemos "Nombre del invitado" y ordenemos de la A a la Z.

Luego haremos clic en Ordenar. Y, ¡listo! Has aplicado oficialmente un criterio de ordenación personalizada como un campeón.

Reproduce el video desde :4:50 y sigue la transcripción4:50

Bien, has aprendido a ordenar hojas de cálculo por hoja, por rango, mediante el menú y usando una función. No solo eso, has
sumado destrezas de organización al aprender cómo crear criterios de ordenación personalizada. Muy pronto aprenderás otra
herramienta poderosa: cómo ordenar datos usando SQL. Aunque a veces el tema de las bases de datos puede ser muy amplio,
el aprendizaje de estas habilidades te da el poder de reorganizar los datos de manera que cobren sentido para ti. Una vez que
hayas ordenado los datos de una forma que realmente encaje, entenderás por qué es algo tan valioso para ti como analista de
datos. ¡Hasta pronto!

¿Cuál de las siguientes instrucciones describe con precisión las diferencias entre ordenar desde la pestaña Datos de
una hoja de cálculo y hacerlo con una función SORT escrita? Selecciona todas las opciones que correspondan.
 La ordenación desde la pestaña Datos de una hoja de cálculo sobrescribe las celdas que contienen
los datos sin ordenar con los datos ordenados, mientras que la función SORT escrita inserta los
datos ordenados en un rango de celdas diferente.
Correcto La ordenación desde la pestaña Datos de una hoja de cálculo sobrescribe las celdas que
contienen los datos sin ordenar con los datos ordenados, mientras que la función SORT escrita
inserta los datos ordenados en un rango de celdas diferente.
 La ordenación desde la pestaña Datos de una hoja de cálculo solo puede ordenar los datos por
una única condición de ordenación o columna, mientras que la función SORT escrita puede
ordenar los datos por varias columnas.
 La ordenación desde la pestaña Datos de una hoja de cálculo puede excluir de la ordenación una
fila de encabezado en el rango de datos, mientras que el rango de datos para una función SORT
escrita nunca debe contener una fila de encabezado.
Correcto. La ordenación desde la pestaña Datos de una hoja de cálculo puede excluir de la
ordenación una fila de encabezado en el rango de datos, mientras que el rango de datos para una
función SORT escrita nunca debe contener una fila de encabezado.
 La ordenación desde la pestaña Datos de una hoja de cálculo puede ordenar en orden ascendente
o descendente, mientras que la función SORT escrita asume automáticamente el orden
ascendente.
Ordenación y filtrado en Sheets y Excel
En esta lectura, describiremos las opciones de ordenación y filtrado en Google Sheets y Microsoft Excel. Ambos ofrecen
ordenación y filtrado básicos a través de las opciones del menú de configuración. Pero si necesitas capacidades de
ordenación y filtrado más avanzadas, puedes usar sus respectivas funciones SORT y FILTER.

Ordenación y filtrado en Sheets


Ordenar en Google Sheets te ayuda a detectar rápidamente las tendencias en los números. Una tendencia podría ser
ingresos brutos por región de ventas. En este caso, podrías ordenar la columna de ingresos brutos en orden descendente
(de la Z a la A) para detectar las regiones de mayor rendimiento, en la parte superior, u ordenar la columna de ingresos
brutos en orden ascendente (de la A a la Z) para detectar las regiones de menor rendimiento, en la parte superior. Aunque
está implícito el orden alfabético, estas opciones de ordenación clasifican los números, como ha puesto de manifiesto
nuestro ejemplo de ingresos brutos.

Si quieres aprender más sobre las opciones del menú de configuración para ordenar y filtrar, empieza con estos
recursos:

 Ordenar y filtrar datos (Centro de Ayuda de Google): instrucciones para ordenar datos por orden alfabético o
numérico y crear vistas de filtro
 Ordenar datos mediante la selección de un rango de datos en una columna: vídeo de pasos para lograr la tarea
 Ordenar un rango de datos mediante criterios de ordenación para múltiples columnas : vídeo de trucos técnicos
para ordenar datos en múltiples columnas
Además de las opciones de menú estándar, hay una función SORT para ordenación más avanzada. Usa esta función
para crear una ordenación personalizada. Puedes ordenar las filas de un determinado rango de datos por los valores en
una o más columnas. Y puedes establecer los criterios de ordenación por columna. Consulta la página de la función
SORT para conocer la sintaxis.

Y como con la función SORT, puedes usar la función FILTER para filtrar por cualquier criterio de concordancia que
desees. Esto crea un filtro personalizado.

Quizás recuerdes que puedes filtrar los datos y luego ordenar los resultados filtrados. Usar las funciones FILTER y SORT
juntas en un rango de celdas puede lograr estos resultados de forma programada y automática.

Ordenación y filtrado en Excel


También puedes ordenar en orden ascendente (de A a Z) y descendente (de Z a A) en Microsoft Excel. Excel ofrece la
ordenación De menor a mayor y De mayor a menor cuando trabajas con cifras.

Al igual que la función SORT de Google Sheets, Excel incluye capacidades de ordenación personalizada que están
disponibles en el menú. Después de seleccionar el rango de datos, haz clic en el botón Ordenar y filtrar para seleccionar
los criterios de ordenación. Incluso puedes ordenar por datos de filas en lugar de datos de columnas si seleccionas
Ordenar de izquierda a derecha en Opciones. (Ordenar de arriba abajo es la configuración predeterminada para ordenar
los datos en columnas).

Si quieres aprender más sobre ordenación y filtrado en Excel, empieza con estos recursos:

 Ordenar datos en un rango o tabla (Soporte Técnico de Microsoft): instrucciones y vídeo para realizar ordenación
en 11 casos de uso diferentes
 Aprendizaje de Excel: Soporte Técnico de Microsoft): vídeos de ordenación y filtrado con transcripciones
 Excel: ordenar datos: vídeo sobre cómo usar las opciones de menú Ordenar y filtrar y Datos para la ordenación
de datos
Excel también tiene las funciones SORT, SORTBY y FILTER. Explora cómo puedes usar estas funciones para ordenar y
filtrar automáticamente tus datos en las hojas de cálculo sin tener que seleccionar ninguna opción de menú.

Emma: El recorrido hacia una carrera significativa


Soy Emma, analista de productos en Google Health. El producto para el que estoy ayudando a analizar los datos es una
herramienta destinada a los médicos, que les permitirá encontrar los datos de salud de sus pacientes con tanta facilidad como
cuando buscamos algo en Google Search. Específicamente me focalizo en la estandarización de los datos de atención médica,
los analizo para detectar anomalías o problemas en la calidad de los datos, y hablo con los gerentes de producto sobre qué
características deberíamos lanzar y por qué. He trabajado en temas que abarcan desde resolución de fallas en locomotoras
para prevenirlas antes de que ocurran, hasta proyecciones de ventas para carteras, incluso antes de su lanzamiento al
mercado, y ahora estoy trabajando con datos de atención médica para intentar que los médicos puedan tener los datos de sus
pacientes al alcance de la mano. Realmente me interesaba trabajar en análisis computacional de datos, pero quería darme
cuenta de con qué tipo de datos quería trabajar o en qué área del análisis computacional de datos quería concentrarme,
porque es algo tan vasto. Finalmente me atrajo trabajar con datos de atención médica. Me fascinó el tema, todos los
problemas que tenemos hoy en día en el área de atención médica y cómo podría mejorarse esta gran cantidad de datos
disponibles en el área de salud con el fin de ayudar a los pacientes y a los médicos, para mejorar la salud de la población.
Trabajar con conjuntos de datos significativos es lo que realmente me estimula a venir a trabajar cada día y me fascina resolver
estos problemas. En mi profesión aprendí que seguir los conjuntos de datos que me interesan, los tipos de problemas que me
interesan, siempre me dio los mejores resultados porque es lo que más me impulsa cada día a venir a trabajar y dar lo mejor
de mí para resolver estas cuestiones tan atrapantes que es justo lo que yo quería. Lo sorprendente es que hay datos por todas
partes, hay problemas de datos en todas las empresas, en todos los rubros, y llegas al punto de dejarte llevar por lo que te
apasiona.

CUESTIONARIO

1.
Pregunta 1
¿Qué función del menú de la hoja de cálculo se usa para ordenar todos los datos en una hoja de cálculo mediante la
clasificación de una columna ordenada específica?
1 / 1 punto

1. Rango de ordenación
2. Ordenar hoja
3. Ordenar datos
4. Ordenar por categoría
Correcto

Se usa Ordenar hoja para ordenar todos los datos en una hoja de cálculo mediante la clasificación de una columna
ordenada específica.
2.
Pregunta 2

En las hojas de cálculo, los analistas de datos pueden ordenar un rango en la pestaña Datos del menú o escribir una
función directamente en una celda vacía.
1 / 1 punto

Verdadero
Falso
Correcto

La ordenación de un rango y la ordenación de una hoja pueden hacerse desde el menú y escribirse como una función.
Los analistas pueden trabajar desde la pestaña Datos del menú o escribir directamente una función en una celda vacía.
3.
Pregunta 3

Un analista usa =SORT para ordenar datos de la hoja de cálculo en orden descendente. ¿Qué escribe al final de la
función ordenar?
1 / 1 punto

1. DESCEND
2. Z-A
3. TRUE
4. FALSE
Correcto

Para ordenar una hoja de cálculo en orden descendente con la función SORT, el analista escribe FALSE al final de su
función ordenar.

Ordenar datos usando SQL


Ordenar datos usando SQL
¡Hola! Si deseabas aprender sobre ordenación en SQL decididamente estás en el lugar indicado. Hasta ahora hemos ordenado
hojas de cálculo a través del menú y con una función escrita. Esto nos conduce a la siguiente parte de nuestro aprendizaje: más
funciones de ordenación, pero esta vez en SQL. Los analistas de datos aman jugar con la forma en que se presentan los datos.
La ordenación es una manera útil de reorganizar los datos porque puede ayudarte a comprender los datos que tienes, desde
una perspectiva diferente. Como te habrás dado cuenta, muchas de las cosas que puedes hacer en las hojas de cálculo,
también las puedes hacer en SQL. La ordenación es una de ellas. Ya hablamos sobre el uso de SQL con grandes conjuntos de
datos. Cuando una hoja de cálculo tiene demasiados datos, quizás recibas mensajes de error, o puede hacer colapsar tu
programa. Eso es algo que definitivamente queremos evitar. SQL reduce los procesos que de otra forma llevarían mucho más
tiempo o serían imposibles de completar en una hoja de cálculo. Personalmente, uso SQL para extraer y combinar diferentes
tablas de datos. Es mucho más rápido que una hoja de cálculo, y eso suele ser muy práctico. Aquí hay algo bastante útil que
puedes hacer con SQL. Puedes usar la cláusula ORDER BY para ordenar los resultados que arroja una consulta. Volvamos a
nuestra hoja de cálculo de películas para entender mejor cómo funciona esto. Siéntete libre de seguirlo en la herramienta SQL
que prefieras, a medida que avanzamos. Para repasar rápidamente, tenemos una base de datos de películas que incluye datos
como fecha de estreno, director, etc. Podemos ordenar esta tabla de muchas maneras diferentes usando la función ORDER BY.
Para este ejemplo, vamos a ordenar por fecha de estreno. Primero, tenemos la función SELECT y un asterisco.

Reproduce el video desde :1:51 y sigue la transcripción1:51


Ten en cuenta que el asterisco significa que se seleccionan todas las columnas. Luego tenemos FROM y el nombre de la base de
datos y la tabla en la que estamos justo ahora. Ahora vamos a verificar la línea siguiente. Está vacía, pero ahí es donde
escribiremos nuestra función ORDER BY. El comando ORDER BY<i> </i>suele ser la última cláusula de la consulta. Volvamos a la
ordenación real. Escribiremos ORDER BY<i> </i>con el espacio. Con esta cláusula, puedes ordenar los datos por campos en una
columna determinada. Como queremos ordenar por fecha de estreno, escribiremos fecha_de_estreno. En forma
predeterminada, la cláusula<i> </i>ORDER BY ordena los datos en forma ascendente. Si ejecutas la consulta así como está
ahora, las películas se ordenarán de la fecha de estreno más antigua a la más reciente. Ejecutemos esta consulta y veamos qué
sale. También puedes ordenar las fechas de estreno en sentido inverso, de la fecha más reciente a la más antigua. Para hacer
esto, simplemente especifica el orden descendente en el comando ORDER BY escrito como DESC, D-E-S-C. Vamos a ejecutar
esta consulta.

Como observarás, las películas más recientes ahora aparecen en la parte


superior de la base de datos. En las hojas de cálculo, puedes combinar ordenaciones y filtros para visualizar la información de
manera diferente. También puedes hacer algo similar en SQL. Tal vez recuerdes que si bien la ordenación ubica los datos en un
orden específico, los filtros acotan los datos, por eso solo ves los datos que se ajustan al filtro.

Por ejemplo, supongamos que queremos filtrar las películas por género de manera tal que solo trabajemos con las
comedias. Pero queremos seguir manteniendo las fechas de estreno ordenadas en orden descendente, de las películas más
recientes a las más antiguas. Podemos hacer esto con la cláusula WHERE. Probemos eso ahora. Primero, verificaremos que la
cláusula ORDER BY siempre sea la última línea. Eso nos asegura que todos los resultados de la consulta que estás ejecutando se
ordenen por esa cláusula. Luego, agregaremos una nueva línea para la cláusula WHERE después de FROM y antes de ORDER BY.

Reproduce el video desde :4:9 y sigue la transcripción4:09

Esto es lo que tenemos hasta ahora. A partir de aquí, queremos escribir la columna que estamos filtrando. En este caso,
queremos filtrar la base de datos para comedias. Después de la cláusula WHERE, escribiremos la palabra Género<i> </i>para la
columna de la lista. Ahora, agregaremos un signo igual después de Género porque solo queremos incluir los géneros que
coincidan con el dato que estamos filtrando. En este caso, estamos filtrando las comedias, así que escribiremos Comedia<i>
</i>entre comillas. Ahora, si revisas la consulta completa, observarás que estamos seleccionando todas las columnas, y
sabemos que son todas las columnas porque eso significa el asterisco. La cláusula FROM especifica el nombre de la base de
datos de películas que estamos usando, y la cláusula WHERE filtra los datos para incluir las entradas cuyo género se especifica
como comedia. Luego, en la última línea, tenemos la cláusula ORDER BY, que ordenará los datos que hemos elegido filtrar por
fecha de estreno, en orden descendente. Esto significa que cuando ejecutemos la consulta, solo veremos la lista de las
películas que son comedias desde los estrenos más recientes a los más antiguos. Ejecutémoslo y veamos si es así.

Genial. Corroboremos todas las películas que son comedias y la forma en


que se ordenaron las fechas.

Ahora, avancemos un poco más con esta consulta. Filtraremos por dos condiciones a la vez usando el filtro AND. Sigamos
trabajando en la consulta que hemos usado y agreguemos una segunda condición en la cláusula WHERE. Mantendremos la
misma ordenación. Supongamos que quieres filtrar las películas por comedias y aquellas que recaudaron más de 300 millones.
En este caso, después de la función AND, agregarás la condición de la recaudación escribiendo la palabra Ingresos. A partir de
ahí, especificarás que solo quieres que muestre las películas con una recaudación superior a los $300 millones. Para hacer eso,
escribe el signo mayor que y luego el número completo de 300 millones, sin comas. Vamos a ejecutar la consulta.
Aquí, los datos solo muestran las películas que son comedias con
recaudación superior a los $300 millones, y se ordenan por fecha de estreno, en orden descendente. Se ve realmente muy
bien. Acabas de filtrar y ordenar una base de datos como si fuera en tu trabajo. Y con práctica, un día lo lograrás. Así de fácil,
has completado otro paso en tu trayectoria de analista de datos. A estas alturas, realmente has profundizado y aprendido
sobre el proceso de análisis con especial énfasis en la forma en que la organización puede cambiar cómo examinas tus datos.
También has aprendido sobre hojas de cálculo y SQL, y cómo ordenar y filtrar datos en estos dos tipos de programas. Para que
te sientas más cómodo con el uso de las funciones de las hojas de cálculo y de SQL, recibirás algunos materiales que puedes
usar como recurso. A continuación, aprenderemos cómo la mentalidad organizativa puede potenciar aún más tus destrezas
analíticas. También abordaremos la conversión, el formateo y el ajuste de datos para combinar información de una manera que
tenga sentido. Aprender esas destrezas precozmente puede hacer que tu trabajo como analista de datos sea mucho más eficaz
y efectivo a largo plazo. Nos vemos pronto.

CUESTIONARIO VIDEO

Estás trabajando en un proyecto sobre música y tienes una tabla de géneros musicales que necesitas ordenar. La tabla
Genres contiene las columnas Genreld y Name.

Escribe una consulta en SQL para mostrar el nombre de cada género en esta tabla, en orden alfabético.

SELECT *

FROM Genres
ORDER BY Name

EjecutarRestablecer
+---------+--------------------+
| GenreId | Name |
+---------+--------------------+
| 23 | Alternative |
| 4 | Alternative & Punk |
| 6 | Blues |
| 11 | Bossa Nova |
| 24 | Classical |
| 22 | Comedy |
| 21 | Drama |
| 12 | Easy Listening |
| 15 | Electronica/Dance |
| 13 | Heavy Metal |
| 17 | Hip Hop/Rap |
| 2 | Jazz |
| 7 | Latin |
| 3 | Metal |
| 25 | Opera |
| 9 | Pop |
| 14 | R&B/Soul |
| 8 | Reggae |
| 1 | Rock |
| 5 | Rock And Roll |
| 20 | Sci Fi & Fantasy |
| 18 | Science Fiction |
| 10 | Soundtrack |
| 19 | TV Shows |
| 16 | World |
+---------+--------------------+
¿Cuáles son el primer y el último género que mostró, respectivamente? Separa tus respuestas con una coma seguida
por un espacio.
Alternative, World
Correcto
Se muestra Alternative e World cuando se realiza la siguiente consulta:

SELECT Name FROM genres ORDER BY Name

Si no especificas ascendente o descendente en tu consulta, ordenará por defecto en orden ascendente.


Esto es apropiado para ordenar por orden alfabético.

Estás trabajando en un proyecto sobre música y tienes una tabla de canciones que necesitas ordenar. La base de datos
que usas contiene una tabla llamada Tracks. La tabla tiene las siguientes columnas: TrackId, Name, AlbumId,
MediaTypeId, GenreID, Composer, Milliseconds, Bytes, y UnitPrice. Escribe una consulta en SQL para extraer todas
las columnas de la tabla Tracks solo para las canciones con Chris Cornell como compositor. Ordena los resultados en
orden descendente por GenreID.

SELECT *
FROM Tracks
WHERE Composer='Chris Cornell'
ORDER BY GenreID DESC

EjecutarRestablecer
+---------+---------------------------+---------+-------------+---------+---------------
+--------------+----------+-----------+
| TrackId | Name | AlbumId | MediaTypeId | GenreId | Composer |
Milliseconds | Bytes | UnitPrice |
+---------+---------------------------+---------+-------------+---------+---------------
+--------------+----------+-----------+
| 3388 | You Know My Name | 270 | 2 | 23 | Chris Cornell |
240255 | 3940651 | 0.99 |
| 3387 | Disappearing Act | 270 | 2 | 23 | Chris Cornell |
273320 | 4476203 | 0.99 |
| 3386 | Silence the Voices | 270 | 2 | 23 | Chris Cornell |
267376 | 4379597 | 0.99 |
| 3385 | Finally Forever | 270 | 2 | 23 | Chris Cornell |
217035 | 3565098 | 0.99 |
| 3384 | Your Soul Today | 270 | 2 | 23 | Chris Cornell |
205959 | 3385722 | 0.99 |
| 3383 | Scar On the Sky | 270 | 2 | 23 | Chris Cornell |
220193 | 3616618 | 0.99 |
| 3381 | Killing Birds | 270 | 2 | 23 | Chris Cornell |
218498 | 3588776 | 0.99 |
| 3380 | Ghosts | 270 | 2 | 23 | Chris Cornell |
231547 | 3799745 | 0.99 |
| 3379 | She'll Never Be Your Man | 270 | 2 | 23 | Chris Cornell |
204078 | 3355715 | 0.99 |
| 3378 | Safe and Sound | 270 | 2 | 23 | Chris Cornell |
256764 | 4207769 | 0.99 |
| 3377 | Arms Around Your Love | 270 | 2 | 23 | Chris Cornell |
214016 | 3516224 | 0.99 |
| 3376 | Poison Eye | 270 | 2 | 23 | Chris Cornell |
237120 | 3890037 | 0.99 |
| 3375 | No Such Thing | 270 | 2 | 23 | Chris Cornell |
224837 | 3691272 | 0.99 |
| 2522 | Bleed Together | 203 | 1 | 1 | Chris Cornell |
232202 | 7597074 | 0.99 |
| 2520 | Blow Up The Outside World | 203 | 1 | 1 | Chris Cornell |
347898 | 11379527 | 0.99 |
| 2519 | Burden In My Hand | 203 | 1 | 1 | Chris Cornell |
292153 | 9659911 | 0.99 |
| 2518 | Pretty Noose | 203 | 1 | 1 | Chris Cornell |
253570 | 8317931 | 0.99 |
| 2517 | Fell On Black Days | 203 | 1 | 1 | Chris Cornell |
282331 | 9256082 | 0.99 |
| 2515 | The Day I Tried To Live | 203 | 1 | 1 | Chris Cornell |
321175 | 10507137 | 0.99 |
| 2514 | Spoonman | 203 | 1 | 1 | Chris Cornell |
248476 | 8289906 | 0.99 |
| 2513 | Rusty Cage | 203 | 1 | 1 | Chris Cornell |
267728 | 8779485 | 0.99 |
| 2512 | Outshined | 203 | 1 | 1 | Chris Cornell |
312476 | 10274629 | 0.99 |
| 2508 | Loud Love | 203 | 1 | 1 | Chris Cornell |
297456 | 9660953 | 0.99 |
+---------+---------------------------+---------+-------------+---------+---------------
+--------------+----------+-----------+

¿Cuál es el nombre de la primera canción que muestra la consulta?


you know my name
Correcto
You Know My Name es el primer valor que muestra en la columna Name (Nombre) cuando se realiza la
siguiente consulta:

SELECT * FROM Tracks WHERE Composer='Chris Cornell' ORDER BY GenreId DESC

Cuando se ejecuta, esta consulta muestra una lista de canciones que fueron compuestas por Chris
Cornell. La lista se ordenará por Genreld en orden descendente.

Repaso opcional: Usar BigQuery


Para repasar rápidamente, BigQuery es un depósito de datos en Google Cloud que los analistas de datos pueden usar
para realizar consultas, filtrar conjuntos de datos grandes, agregar resultados y realizar operaciones complejas.

En la próxima actividad, usarás BigQuery para ordenar datos mediante consultas en SQL. Si saltaste de un curso a otro,
configura una cuenta BigQuery mediante las instrucciones incluidas en Usar BigQuery en el curso Preparar datos para la
exploración. Si ya tienes una cuenta BigQuery, puedes marcar esta lectura como completada y empezar la actividad
siguiente.

1.
Pregunta 1

Resumen de la actividad

Hasta ahora, has aprendido sobre SQL y usaste consultas SQL para interactuar con bases de datos. En esta actividad,
practicarás la ordenación de datos mediante el uso de consultas SQL con cláusulas ORDER BY y WHERE.

Al finalizar esta actividad, podrás escribir consultas que ordenen los datos según tus necesidades. Esto te permitirá
organizar y usar los datos de manera más eficiente en tu carrera como analista de datos.

Ordenación con SQL


Para practicar la ordenación de datos con SQL, consultarás el conjunto de datos públicos del Resumen de datos de
nacimiento de los Centros para el Control de Enfermedades (CDC). Las consultas que escribas te ayudarán a obtener
algunas respuestas sobre qué condados de los Estados Unidos tuvieron la mayor o menor cantidad de nacimientos entre
2016 y 2018.

Cargar el conjunto de datos

1. Inicia sesión en el espacio aislado de BigQuery. Si cuentas con una versión de prueba gratuita de BigQuery, puedes
utilizarla. En la página de BigQuery, haz clic en el botón Ir a BigQuery.

Nota: El espacio aislado de BigQuery actualiza frecuentemente su interfaz de usuario. Los últimos cambios posiblemente
no se vean reflejados en las capturas de pantalla presentadas en esta actividad, pero los principios siguen siendo los
mismos. Adaptarse a los cambios de las actualizaciones de software es una destreza esencial para los analistas de
datos, y es útil para ti para practicar la resolución de problemas. También puedes comunicarte con tu comunidad de
alumnos en el foro de debate para obtener ayuda.

2. Si nunca has creado un proyecto de BigQuery antes, haz clic en CREAR PROYECTO en el lado derecho de la
pantalla. Si has creado un proyecto antes, puedes utilizar uno existente o crear uno nuevo haciendo clic en la lista
desplegable del proyecto en la barra del encabezado azul y seleccionando NUEVO PROYECTO.

3. Coloca un nombre al proyecto que te permita identificarlo luego. Puedes colocarle un ID de proyecto único o utilizar
uno generado automáticamente. No te preocupes por seleccionar una organización si no sabes qué poner.

4. Ahora, verás la interfaz del Editor. En la mitad de la pantalla hay una ventana donde puedes escribir el código y, hacia
la izquierda, está el menú del Explorador donde puedes buscar conjuntos de datos.

5. Haz clic en + AGREGAR DATOS en la parte superior del menú del Explorador, luego en Explorar conjuntos de datos
públicos en la lista desplegable.

6. En la barra Búsqueda de marketplace, escribe sdoh_cdc_wonder_natality.

7. Haz clic en Resumen de datos de nacimientos de CDC.

8. Haz clic en Ver conjunto de datos. Esto te llevará nuevamente a la interfaz de espacio aislado de BigQuery en una
pestaña nueva.

Nota: Esto puede anclar la lista desplegable datos públicos de BigQuery del menú del Explorador. Puedes utilizar esto
para explorar los conjuntos de datos y las tablas.

9. Vuelve a hacer clic en la pestaña Editor. Aquí es donde usarás SQL durante esta actividad.

10. Copia, pega y ejecuta la siguiente consulta para mostrar las primeras 1,000 filas de la tabla country_natality:

SELECT

FROM

`bigquery-public-data.sdoh_cdc_wonder_natality.county_natality`
LIMIT

1000
Una vez ejecutada la consulta, los resultados deberían aparecer así:

Usar la cláusula ORDER BY

Examina el conjunto de datos que acabas de cargar. Tómate un momento para familiarizarte con las columnas y hacerte
una idea de lo que puede transmitirte cada una de ellas.

Ahora, imagínate que tu jefe te pide que averigües cuáles son los 10 condados que tuvieron el menor número de
nacimientos entre 2016 y 2018. Podrías conseguir esto modificando tu consulta para usar la cláusula ORDER BY.

Copia, pega y ejecuta la siguiente consulta:

SELECT

FROM

`bigquery-public-data.sdoh_cdc_wonder_natality.county_natality`
ORDER BY

Births

LIMIT

10
Los resultados de tu consulta deberían aparecer así:

Quizás hayas notado que la consulta no especificó si debía ordenarse por ASC (orden ascendente) o DESC (orden
descendente). Cuando no se especifica eso, SQL muestra en forma predeterminada la ordenación por orden ascendente.
Puedes ejecutar otra consulta para confirmar esto.

Copia, pega y ejecuta la siguiente consulta que incluye ASC:

SELECT

FROM

`bigquery-public-data.sdoh_cdc_wonder_natality.county_natality`

ORDER BY
Births

ASC

LIMIT

10
Verás que los resultados no cambiaron. Observa que el condado Tompkins, NY, tuvo apenas 735 nacimientos en 2018,
el menor número de nacimientos en los EE.UU. entre 2016 y 2018.

Usar DESC para revertir el orden de ordenación

Ahora, modifica la consulta para ordenar en otra dirección, es decir mostrar los 10 condados con el mayor número de
nacimientos entre 2016 y 2018.

Copia, pega y ejecuta la siguiente consulta:

SELECT

FROM
`bigquery-public-data.sdoh_cdc_wonder_natality.county_natality`

ORDER BY

Births

DESC

LIMIT

10
Tu tabla debería verse así:

Ahora, la consulta muestra las 10 filas con los valores más altos en la columna Nacimiento. El condado de Los Angeles
ocupa los tres primeros puestos.

Combinar las cláusulas ORDER BY y WHERE

A continuación, modifica la consulta para que muestre los 10 primeros condados con el mayor número de nacimientos
solo para 2018. Para hacer esto, agrega una cláusula WHERE a la consulta, que especifique solo las filas que tienen un
valor de Año igual a 2018-01-01. Observa cómo la cláusula ORDER BY aparece después de la cláusula WHERE. Copia,
pega y ejecuta la siguiente consulta:

8
9

SELECT *

FROM `bigquery-public-data.sdoh_cdc_wonder_natality.county_natality`

WHERE Year = '2018-01-01'

ORDER BY

Births

DESC

LIMIT 10
Tus resultados deberían verse parecidos a estos:

¡La consulta funcionó! Usaste correctamente las cláusulas ORDER BY y WHERE en la misma consulta.

Confirmación y reflexión

La última consulta que ejecutaste mostró los 10 primeros condados con el mayor número de nacimientos solo para 2018.
Elimina la instrucción LIMIT y ejecuta la consulta nuevamente. ¿Cuál es el undécimo condado con el mayor número de
nacimientos?
1 / 1 punto

Orange County, CA
Dallas County, TX
Condados no identificados, KY
Miami-Dade County, FL
Correcto

El undécimo condado con el mayor número de nacimientos en 2018 es Orange County, CA. Para obtener esta respuesta,
ejecutaste una consulta con una cláusula ORDER BY y una cláusula WHERE. En el futuro, puedes usar este
conocimiento sobre SQL para organizar y estructurar mejor tus datos.
2.
Pregunta 2
En esta actividad, practicaste la ordenación de datos mediante el uso de consultas SQL con cláusulas ORDER BY y
WHERE. En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una
de las siguientes preguntas:

¿Cómo te puede ayudar la cláusula ORDER BY a organizar y estructurar tus datos?

¿Por qué es útil usar las cláusulas ORDER BY y WHERE juntas cuando se ordenan y filtran datos?

¿Se te ocurre alguna cuestión empresarial que pudieras resolver a través de este método?
1 / 1 punto

Organiza en orden descendiente, es util

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta sería que la ordenación de los datos que
devuelven tus consultas es una herramienta fundamental para analizar y entender los datos.

También puedes abordar las cuestiones empresariales mediante la ordenación del conjunto de datos según una
determinada métrica. Por ejemplo, una tienda quiere saber qué productos venden más o menos. La ordenación ayuda a
responder cuestiones empresariales que involucran frases como “cuánto” “qué cantidad” “mejor” o “peor”, y esto será una
habilidad valiosa en tu carrera como analista de datos.

1.
Pregunta 1

Resumen de la actividad

Anteriormente, aprendiste cómo usar BigQuery para limpiar datos y prepararlos para el análisis. Ahora, consultarás un
conjunto de datos y guardarás los resultados en una nueva tabla. Esta es una destreza útil cuando la fuente de datos
original cambia continuamente y necesitas preservar un conjunto de datos específico para un análisis continuo. También
es valiosa cuando trabajas con un conjunto de datos grande y sabes que harás más de un análisis usando el mismo
subconjunto de datos.

En este escenario, eres un analista de datos en un programa de noticias local. Te han encargado que respondas las
preguntas de los meteorólogos sobre el clima. Trabajarás con los datos públicos de la Administración Nacional Oceánica
y Atmosférica (NOAA) que tiene los datos de todo Estados Unidos. Por eso necesitarás guardar un subconjunto de datos
en una tabla aparte.

Cuando hayas completado esta actividad, podrás usar las consultas SQL para crear nuevas tablas cuando manejes
conjuntos de datos complejos. Esto simplificará notablemente tus análisis en el futuro.

Acceder al conjunto de datos públicos

Para esta actividad, necesitarás los datos meteorológicos de la NOAA de los conjuntos de datos públicos de BigQuery.

1. Haz clic en el botón + AGREGAR DATOSen el panel del menú del Explorador y selecciona Explorar conjuntos de datos
públicos.Esto abrirá un menú nuevo donde puedas buscar conjuntos de datos públicos que ya estén disponibles
mediante Google Cloud. Si ya has cargados los conjuntos de datos públicos de BigQuery en tu consola, simplemente
puedes buscar noaa_gsod en tu menú del Explorador y omitir estos pasos.
2. Escribe noaa_gsod en la barra de búsqueda. Encontrarás el GSOD del resumen de superficie global de los datos
meteorológicos del día.

3. Haz clic en el conjunto de datos GSOD para abrirlo. Esto te proporcionará información más detallada sobre el conjunto
de datos si estás interesado. Haz clic en VER CONJUNTO DE DATOS para abrir este conjunto de datos en tu consola.

4. Busca noaa_gsod en el panel del menú del Explorador para encontrar el conjunto de datos. Haz clic en el menú
desplegable para explorar las tablas en este conjunto de datos. Desplázate hacia abajo, hasta gsod2020y abre el menú de
tablas haciendo clic en los tres puntos verticales.
5. Comprueba el esquema y la vista previa de la tablapara familiarizarte con los datos. Cuando estés listo, puedes hacer
clic en COMPONER CONSULTA NUEVApara iniciar una consulta en el conjunto de datos.
Consultar los datos

Los meteorólogos con los que trabajas te han pedido que obtengas la temperatura, la velocidad del viento y las
precipitaciones para las estaciones de La Guardia y JFK, en cada día de 2020, por orden descendiente de fecha y por
orden ascendente de ID de Estación. Usa la siguiente consulta para solicitar esta información:

SELECT stn,

date, -- Usa la función IF para reemplazar los valores 9999.9, que la descripción del conjunto de datos explica que es el
valor predeterminado cuando falta la temperatura, por NULLs en su lugar. IF(

temp=9999.9, NULL, temp) AS temperature,

-- Usa la función IF para reemplazar los valores 999.9, que la descripción del conjunto de datos explica que es el valor
predeterminado cuando falta la temperatura, por NULLs en su lugar. IF(

wdsp="999.9", NULL, CAST(wdsp AS Float64)) AS wind_speed,

-- Usa la función IF para reemplazar los valores 99.99, que la descripción del conjunto de datos explica que es el valor
predeterminado cuando falta la temperatura, por NULLs en su lugar. IF(

prcp=99.99, 0, prcp) AS precipitation FROM `bigquery-public-data.noaa_gsod.gsod2020` WHERE stn="725030" -- La


Guardia

OR stn="744860" -- JFK ORDER BY date DESC, stn ASC

Los meteorólogos también te hicieron algunas preguntas cuando se preparaban para el noticiero de la noche: Quieren la
temperatura promedio en junio de 2020 y la velocidad promedio del viento en diciembre de 2020.

En lugar de reescribir una y otra vez consultas similares, pero levemente diferentes, existe un enfoque más sencillo:
Guarda los resultados de la consulta original en una tabla para futuras consultas.

Guardar una nueva tabla


Para facilitar la consulta de este subconjunto de datos, puedes guardar la tabla de los datos meteorológicos en un nuevo
conjunto de datos.

1. Desde el panel de tu Explorador, borra tu consulta de búsqueda anterior. Luego, haz clic en los tres puntos verticales
junto a tu proyecto y selecciona Crear conjunto de datos.Nombra este conjunto de datos como weather_data y deja el resto
de las opciones predeterminadas. Haz clic en CREAR CONJUNTO DE DATOS.

2. Abre tu nuevo conjunto de datos y selecciona COMPONER CONSULTA NUEVA. Ingresa la misma consulta que
ejecutaste la última vez (se duplica, a continuación) para obtener la temperatura promedio, la velocidad del viento, la
visibilidad, ráfagas de viento, precipitaciones y caída de nieve, en las estaciones de La Guardia y JFK cada día de 2020,
por orden descendente de fecha y orden ascendente de ID de Estación:

SELECT stn,

date, -- Usa la función IF para reemplazar los valores 9999.9, que la descripción del conjunto de datos explica que es el
valor predeterminado cuando falta la temperatura, por NULLs en su lugar. IF(

temp=9999.9, NULL, temp) AS temperature,

-- Usa la función IF para reemplazar los valores 999.9, que la descripción del conjunto de datos explica que es el valor
predeterminado cuando falta la temperatura, por NULLs en su lugar. IF(

wdsp="999.9", NULL, CAST(wdsp AS Float64)) AS wind_speed,

-- Usa la función IF para reemplazar los valores 99.99, que la descripción del conjunto de datos explica que es el valor
predeterminado cuando falta la temperatura, por NULLs en su lugar. IF(

prcp=99.99, 0, prcp) AS precipitation FROM `bigquery-public-data.noaa_gsod.gsod2020` WHERE stn="725030" -- La


Guardia

OR stn="744860" -- JFK ORDER BY date DESC, stn ASC

3. Antes de ejecutar la consulta, selecciona el menú MÁS en el Editor de Consulta y abre el menú Configuración de
consultas. En el menú Configuración de consultas, selecciona Configurar una tabla de destino para los resultados de la
consulta. Establece la opción de conjunto de datos como weather_data (el nombre del conjunto de datos que creaste
antes) y designa a la tabla con el nombre nyc_weather.
4. Ejecuta la consulta que ya usaste, ahora se guardará como una tabla nueva en tu conjunto de datos weather_data.

5. Regresa al menú Configuración de consultas mediante el menú desplegable MÁS. Restablece la configuración para
Guardar los resultados de la consulta en una tabla temporal. Esto impedirá que añadas accidentalmente cada consulta
como una tabla a tu nuevo conjunto de datos.

Consultar tu nueva tabla


Ahora que ya tienes guardado el subconjunto de datos en una nueva tabla, puedes consultarlo con mayor facilidad. Usa
la siguiente consulta para encontrar la temperatura promedio de la primera pregunta de los meteorólogos:

SELECT

AVG(temperature)

FROM

`airy-shuttle-315515.weather_data.nyc_weather` --recuerda cambiar el nombre del proyecto a tu proyecto, antes de


ejecutar esta consulta

WHERE

date BETWEEN '2020-06-01' AND '2020-06-30'

Ahora puedes usar esta sintaxis para encontrar la velocidad promedio del viento o cualquier otra información de este
subconjunto de datos que te interese. Intenta realizar algunas consultas más para responder las preguntas de los
meteorólogos.

La capacidad de guardar los resultados en una tabla nueva es un recurso útil cuando solo te interesa un subconjunto de
un conjunto de datos más grandes que planeas consultar varias veces, como los datos del clima solo para La Guardia y
JFK. Esto también ayuda a minimizar errores durante tu análisis.

Confirmación y reflexión

¿Cuál fue la temperatura promedio en las estaciones de JFK y La Guardia entre el 1º de enero de 2020 y el 30 de junio
de 2020?
1 / 1 punto

 92.099
 74.909
 72.883
 87.671
Correcto

El promedio fue 72.883. Para averiguar la temperatura promedio durante ese período, creaste correctamente una tabla
nueva que usa una consulta y ejecutaste otra consulta respecto de esa tabla. De aquí en adelante, podrás usar esta
destreza para crear tablas con subconjuntos específicos de tus datos para consultarlos. Esto te ayudará a obtener
información de múltiples fuentes de datos en el futuro.
2.
Pregunta 2

En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las
siguientes preguntas:

¿Cómo puede ayudarte en el futuro crear tablas a partir de consultas para realizar el análisis de datos?

¿Por qué es importante poder ver subconjuntos específicos de un conjunto de datos?


1 / 1 punto

Para mi profesión como economista

Correcto

¡Felicitaciones por completar esta actividad práctica! En esta actividad, exportaste dos conjuntos de datos públicos y
creaste una tabla nueva mediante una consulta. Una buena respuesta sería que crear tablas mediante el uso de tus
consultas te permite trabajar con un subconjunto de datos sin cambiar el original.

Por ejemplo, ahora puedes consultar los datos del clima solo de las estaciones meteorológicas de Nueva York que
necesites. Esto es importante para encontrar tendencias dentro de un subconjunto de datos. En las próximas actividades
seguirás analizando datos como estos.
CUESTIONARIO
1.
Pregunta 1

Un analista de datos quiere ordenar una lista de arbustos de invernadero por precio, desde los más económicos hasta los
más costosos. ¿Qué instrucción debería usar?
1 / 1 punto

 WHERE shrub_price
 ORDER BY shrub_price
 ORDER BY shrub_price DESC
 WHERE shrub_price ASC
Correcto. Para ordenar una lista de arbustos de invernadero por precio, desde los más económicos hasta los más
costosos, debe usar ORDER BY shrub_price.

2.
Pregunta 2

Estás trabajando con una tabla de base de datos que contiene datos sobre géneros musicales. Quieres ordenar los
géneros por nombre, en orden ascendente. Los géneros se enumeran en la columna genre_name.

Escribe la consulta SQL a continuación. Agrega una cláusula ORDER BY que ordenará los géneros por nombre, en
orden ascendente.

SELECT *

FROM genre

ORDER BY genre_name
EjecutarRestablecer
+----------+--------------------+
| genre_id | genre_name |
+----------+--------------------+
| 23 | Alternative |
| 4 | Alternative & Punk |
| 6 | Blues |
| 11 | Bossa Nova |
| 24 | Classical |
| 22 | Comedy |
| 21 | Drama |
| 12 | Easy Listening |
| 15 | Electronica/Dance |
| 13 | Heavy Metal |
| 17 | Hip Hop/Rap |
| 2 | Jazz |
| 7 | Latin |
| 3 | Metal |
| 25 | Opera |
| 9 | Pop |
| 14 | R&B/Soul |
| 8 | Reggae |
| 1 | Rock |
| 5 | Rock And Roll |
| 20 | Sci Fi & Fantasy |
| 18 | Science Fiction |
| 10 | Soundtrack |
| 19 | TV Shows |
| 16 | World |
+----------+--------------------+
¿Qué género aparece en la fila 3 del resultado de la consulta?
1 / 1 punto

1. Alternativa
2. Música ligera
3. Clásica
4. Blues
Correcto

La cláusula ORDER BY genre_name ordenará los géneros por nombre, en orden ascendente. La consulta completa es
SELECT * FROM genre ORDER BY genre_name. La cláusula ORDER BY le indica a la base de datos cómo organizar
los datos que muestra. La cláusula ORDER BY ordena por defecto los datos en forma ascendente.

Aparece el género Blues en la fila 3 del resultado de la consulta.


3.
Pregunta 3

Estás trabajando con una tabla de base de datos que contiene datos de empleados. Quieres ordenar a los empleados
por fecha de contratación, en orden descendente. Las fechas de contratación se enumeran en la columna hire_date.

Escribe la consulta SQL a continuación. Agrega una cláusula ORDER BY que ordenará a los empleados por fecha de
contratación, en orden descendente.

SELECT *

FROM employee

ORDER BY hire_date DESC

EjecutarRestablecer
+-------------+-----------+------------+---------------------+------------
+---------------------+---------------------+-----------------------------+------------
+-------+---------+-------------+-------------------+-------------------
+--------------------------+
| employee_id | last_name | first_name | title | reports_to | birth_date
| hire_date | address | city | state | country |
postal_code | phone | fax | email |
+-------------+-----------+------------+---------------------+------------
+---------------------+---------------------+-----------------------------+------------
+-------+---------+-------------+-------------------+-------------------
+--------------------------+
| 8 | Callahan | Laura | IT Staff | 6 | 1968-01-09
00:00:00 | 2004-03-04 00:00:00 | 923 7 ST NW | Lethbridge | AB | Canada |
T1H 1Y8 | +1 (403) 467-3351 | +1 (403) 467-8772 | laura@chinookcorp.com |
| 7 | King | Robert | IT Staff | 6 | 1970-05-29
00:00:00 | 2004-01-02 00:00:00 | 590 Columbia Boulevard West | Lethbridge | AB | Canada |
T1K 5N8 | +1 (403) 456-9986 | +1 (403) 456-8485 | robert@chinookcorp.com |
| 5 | Johnson | Steve | Sales Support Agent | 2 | 1965-03-03
00:00:00 | 2003-10-17 00:00:00 | 7727B 41 Ave | Calgary | AB | Canada |
T3B 1Y7 | 1 (780) 836-9987 | 1 (780) 836-9543 | steve@chinookcorp.com |
| 6 | Mitchell | Michael | IT Manager | 1 | 1973-07-01
00:00:00 | 2003-10-17 00:00:00 | 5827 Bowness Road NW | Calgary | AB | Canada |
T3B 0C5 | +1 (403) 246-9887 | +1 (403) 246-9899 | michael@chinookcorp.com |
| 4 | Park | Margaret | Sales Support Agent | 2 | 1947-09-19
00:00:00 | 2003-05-03 00:00:00 | 683 10 Street SW | Calgary | AB | Canada |
T2P 5G3 | +1 (403) 263-4423 | +1 (403) 263-4289 | margaret@chinookcorp.com |
| 1 | Adams | Andrew | General Manager | None | 1962-02-18
00:00:00 | 2002-08-14 00:00:00 | 11120 Jasper Ave NW | Edmonton | AB | Canada |
T5K 2N1 | +1 (780) 428-9482 | +1 (780) 428-3457 | andrew@chinookcorp.com |
| 2 | Edwards | Nancy | Sales Manager | 1 | 1958-12-08
00:00:00 | 2002-05-01 00:00:00 | 825 8 Ave SW | Calgary | AB | Canada |
T2P 2T3 | +1 (403) 262-3443 | +1 (403) 262-3322 | nancy@chinookcorp.com |
| 3 | Peacock | Jane | Sales Support Agent | 2 | 1973-08-29
00:00:00 | 2002-04-01 00:00:00 | 1111 6 Ave SW | Calgary | AB | Canada |
T2P 5M5 | +1 (403) 262-3443 | +1 (403) 262-6712 | jane@chinookcorp.com |
+-------------+-----------+------------+---------------------+------------
+---------------------+---------------------+-----------------------------+------------
+-------+---------+-------------+-------------------+-------------------
+--------------------------+
¿Qué empleado aparece en la fila 1 del resultado de la consulta?
1 / 1 punto

Laura Callahan
Margaret Park
Nancy Edwards
Robert King
Correcto

La cláusula ORDER BY hire_date DESC ordenará a los empleados por fecha de contratación, en orden descendente. La
consulta completa es SELECT * FROM employee ORDER BY hire_date DESC. La cláusula ORDER BY le indica a la
base de datos cómo organizar los datos que muestra. La cláusula ORDER BY ordena por defecto los datos en forma
ascendente. Se usa el comando DESC para ordenar los datos en orden
descendente.

La empleada Laura Callahan aparece en la fila 1 del resultado de la


consulta.

Glosario
Análisis computacional de datos
Términos y definiciones

A
Agenda: Lista de citas programadas

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las oportunidades
de mejora en el futuro

Análisis: El proceso usado para dar sentido a los datos recopilados

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la eliminación
de información que pueda asociarse a ellas

Apertura: Aspecto de la ética de los datos que promueve el acceso libre, el uso y el uso compartido de los datos

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores

Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido
Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato comprimido
como por ejemplo MP4, MV4, MOV, AVI o FLV

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango seleccionado

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones

Base de datos: Recopilación de datos almacenados en un sistema informático

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otra cosa

C
Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

CASE: Instrucción SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

CAST: Función SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar, analizar,
archivar y destruir

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver clave
externa)

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos

Consulta: Solicitud de datos o información de una base de datos


Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger una
hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se puede
arrastrar a través de las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con un criterio especificado

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas que coinciden con un valor especificado

D
DATEDIF: Función de una hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos

Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema tiene
datos en varias filas

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas

Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo
Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos

Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos, correctos y que son pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de manera fácilmente identificable

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordinales: Datos cualitativos con un orden o escala establecidos

Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diseño de datos: Cómo se organiza la información

DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar y
compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y organizar
datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes específicas

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados
Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de una hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG

FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función matemática: Función que se utiliza como parte de una fórmula matemática

Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Fusión: Acuerdo que une dos organizaciones en una organización nueva

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

Hoja de cálculo: Hoja de cálculo digital

I
Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura confiable
Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población

L
LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Length: Número de caracteres en una cadena de texto

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

MAX: Función de la hoja de cálculo que muestra el resultado del valornumérico más alto de un rango de celdas

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada y
lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer, tanto
en el campo profesional como el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Metadatos: Datos sobre los datos

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados
Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un todo

N
Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Operador: Símbolo que designa la operación o cálculo a realizarse

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones

Ordenación: Proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de entender,
analizar y visualizar

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de conducir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas
P
Panel: Herramienta que monitorea los datos entrantes en vivo

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Pensamiento analítico: Proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de manera
organizada, paso a paso

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con otras
áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente relacionadas
entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente
Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta

Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que proporciona
y que tiene control primordial sobre su uso, procesamiento y uso compartido

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Q
Quitar duplicados: Herramienta de una hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

R
Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango: Conjunto de dos o más celdas en una hoja de cálculo

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila

Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones

Repositorio de metadatos: Base de datos creada para almacenar metadatos

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver Sesgo del observador)

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria

Sintaxis: Estructura predeterminada de un lenguaje, que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación
SPLIT: Función que divide el texto en función de un carácter específico y ubica cada fragmento en una nueva celda separada

SQL: (Ver Lenguaje de consulta estructurado)

Subcadena: Subconjunto de una cadena de texto

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

T
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados significativos

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo
de datos de texto)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo de
datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que puede
realizar

Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial

Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes de sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o de


una computadora a otra

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

U
Único: Valor que no puede tener un duplicado

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de datos

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos resultantes
son precisos y confiables

Visualización de datos: Representación gráfica de los datos

Visualización: (Ver Visualización de datos)

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados

CUESTIONARIO
1.
Pregunta 1

¿Qué fase del proceso de análisis de datos tiene el objetivo de identificar tendencias y relaciones?
0 / 1 punto

1. Preparar
2. Procesar
3. Analizar
4. Actuar
Incorrecto

Si necesitas hacer un repaso, vuelve a ver el vídeo sobre análisis de datos.


2.
Pregunta 2

¿Durante cuál de las cuatro fases del análisis comparas tus datos con fuentes externas?
1 / 1 punto

1. Formatear y ajustar los datos


2. Obtener comentarios de los demás
3. Organizar los datos
4. Transformar los datos
Correcto

La comparación de tus datos con fuentes externas se produce mientras obtienes los comentarios de los demás.
3.
Pregunta 3

Un analista de datos está trabajando en un conjunto de datos e inicia la fase de análisis abocada a la transformación de
los datos. ¿Cuáles son algunas de las acciones que ejecutará? Selecciona todas las opciones que correspondan.
1 / 1 punto

1. Ordenar datos
2. Encontrar una correlación en los datos
Correcto. En la fase de transformación de datos del análisis, el analista de datos identifica relaciones y patrones
entre los datos. Esto incluye encontrar correlaciones y realizar cálculos en los datos.

3. Realizar cálculos con los datos


Correcto. En la fase de transformación de datos del análisis, el analista de datos identifica relaciones y patrones
entre los datos. Esto incluye encontrar correlaciones y realizar cálculos en los datos.

4. Filtrar datos
4.
Pregunta 4

Completa el espacio en blanco: La ordenación clasifica los datos según una _____ específica que tú seleccionas.
1 / 1 punto

1. cálculo
2. métrica
3. observación
4. modelar
Correcto

La ordenación clasifica los datos según una métrica específica que tú seleccionas. Esto implica organizar los datos en un
orden significativo para que sea más fácil entenderlos, analizarlos y visualizarlos.
5.
Pregunta 5

Un analista de datos está ordenando datos en una hoja de cálculo. ¿Qué herramienta está usando si todos los datos
están ordenados por la clasificación de una columna ordenada específica y los datos de las filas se mantienen juntos?
1 / 1 punto

1. Ordenar juntos
2. Ordenar hoja
3. Ordenar categoría
4. Ordenar documento
Correcto

Ordenar la hoja ordena todos los datos en una hoja de cálculo mediante la clasificación de una columna ordenada
específica. Además, los datos de las filas se mantienen juntos durante la ordenación.
6.
Pregunta 6

Un analista de datos ordena el rango de una hoja de cálculo entre las celdas F19 y G82. Ordena en orden ascendente
por la segunda columna, la Columna G. ¿Cuál es la sintaxis que usa?
1 / 1 punto

1. =SORT(F19:G82, 2, FALSE)
2. =SORT(F19:G82, 2, TRUE)
3. =SORT(F19:G82, B, TRUE)
4. =SORT(F19:G82, B, FALSE)
Correcto

La sintaxis correcta es =SORT(F19:G82, 2, TRUE). La primera parte de la función ordena los datos en el rango
especificado. El 2 representa la segunda columna. Y la instrucción TRUE ordena en orden ascendente.
7.
Pregunta 7

Estás haciendo una consulta en una base de datos que contiene datos sobre música. Cada álbum tiene asignado un
número de ID. A ti solo te interesan los datos relacionados con el álbum con el número de ID 6. Los números de ID de
álbum se enumeran en la columna album_id.

Escribe la consulta SQL a continuación. Agrega una cláusula WHERE que te mostrará solo los datos sobre el álbum con
número de ID 6.

SELECT *

FROM track

WHERE album_id = 6
EjecutarRestablecer
+----------+-----------------------------+----------+---------------+----------
+-----------------------------------+--------------+----------+------------+
| track_id | name | album_id | media_type_id | genre_id | composer
| milliseconds | bytes | unit_price |
+----------+-----------------------------+----------+---------------+----------
+-----------------------------------+--------------+----------+------------+
| 38 | All I Really Want | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 284891 | 9375567 | 0.99 |
| 39 | You Oughta Know | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 249234 | 8196916 | 0.99 |
| 40 | Perfect | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 188133 | 6145404 | 0.99 |
| 41 | Hand In My Pocket | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 221570 | 7224246 | 0.99 |
| 42 | Right Through You | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 176117 | 5793082 | 0.99 |
| 43 | Forgiven | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 300355 | 9753256 | 0.99 |
| 44 | You Learn | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 239699 | 7824837 | 0.99 |
| 45 | Head Over Feet | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 267493 | 8758008 | 0.99 |
| 46 | Mary Jane | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 280607 | 9163588 | 0.99 |
| 47 | Ironic | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 229825 | 7598866 | 0.99 |
| 48 | Not The Doctor | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 227631 | 7604601 | 0.99 |
| 49 | Wake Up | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 293485 | 9703359 | 0.99 |
| 50 | You Oughta Know (Alternate) | 6 | 1 | 1 | Alanis
Morissette & Glenn Ballard | 491885 | 16008629 | 0.99 |
+----------+-----------------------------+----------+---------------+----------
+-----------------------------------+--------------+----------+------------+
¿Cuántas canciones hay en el álbum con el número de ID 6?
1 / 1 punto

 13
 20
 8
 5
Correcto

La cláusula WHERE genre_id = 6mostrará solo datos sobre el álbum con el número de ID 6. La consulta completa es
SELECT * FROM track WHERE album_ID = 6. La cláusula WHERE filtra los resultados que cumplen con ciertas
condiciones. La cláusula WHERE incluye el nombre de la columna, un signo de igual y el valor o los valores para incluir
en la columna.

Hay 13 canciones en el álbum con el número de ID 6.


8.
Pregunta 8

Estás trabajando con una base de datos que contiene datos de facturas sobre compras de música en línea. A ti solo te
interesan las facturas enviadas a clientes ubicados en la ciudad de Delhi. Quieres ordenar las facturas por total de
pedido, en orden ascendente. Los totales de los pedidos se enumeran en la columna total.

Escribe la consulta SQL a continuación. Agrega una cláusula ORDER BYque ordenará las facturas por total de pedido,
en orden ascendente.

SELECT *

FROM invoice

WHERE billing_city = "Delhi"


ORDER BY total
EjecutarRestablecer
+------------+-------------+---------------------+---------------------+--------------
+---------------+-----------------+---------------------+-------+
| invoice_id | customer_id | invoice_date | billing_address | billing_city |
billing_state | billing_country | billing_postal_code | total |
+------------+-------------+---------------------+---------------------+--------------
+---------------+-----------------+---------------------+-------+
| 120 | 58 | 2010-06-12 00:00:00 | 12,Community Centre | Delhi |
None | India | 110017 | 1.98 |
| 315 | 58 | 2012-10-27 00:00:00 | 12,Community Centre | Delhi |
None | India | 110017 | 1.98 |
| 412 | 58 | 2013-12-22 00:00:00 | 12,Community Centre | Delhi |
None | India | 110017 | 1.99 |
| 338 | 58 | 2013-01-29 00:00:00 | 12,Community Centre | Delhi |
None | India | 110017 | 3.96 |
| 360 | 58 | 2013-05-03 00:00:00 | 12,Community Centre | Delhi |
None | India | 110017 | 5.94 |
| 186 | 58 | 2011-03-23 00:00:00 | 12,Community Centre | Delhi |
None | India | 110017 | 8.91 |
| 131 | 58 | 2010-07-23 00:00:00 | 12,Community Centre | Delhi |
None | India | 110017 | 13.86 |
+------------+-------------+---------------------+---------------------+--------------
+---------------+-----------------+---------------------+-------+
¿Qué total aparece en la fila 4 del resultado de la consulta?
1 / 1 punto

 5.94
 3.96
 1.98
 8.91
Correcto

La cláusula ORDER BY total ordenará las facturas por total de pedido, en orden ascendente. La consulta completa es
SELECT * FROM invoice WHERE billing_city = "Delhi" ORDER BY total. La cláusula ORDER BY le indica a la base de
datos cómo organizar los datos que muestra. La cláusula ORDER BY ordena por defecto los datos en forma ascendente.

El total 3.96 aparece en la fila 4 del resultado de la consulta.

MODULO 2
Convertir y formatear datos
Primeros pasos con el formateo de datos
Hola, es genial tenerte de vuelta. Ya aprendiste mucho. Ahora puedes empezar a analizar datos. A continuación, vamos a
repasar algunas últimas cosas que necesitas hacer en tu análisis, así te aseguras de que tus datos estén bien formateados y
adaptados.

Reproduce el video desde ::16 y sigue la transcripción0:16

Vamos a empezar a convertir y formatear tus datos, y vamos a usar validación de datos y también formato condicional en las
hojas de cálculo. También aprenderás a combinar distintos tipos de datos. Por último, hablaremos sobre cómo recibir apoyo
durante el análisis y cómo encontrar recursos cuando sientes que no avanzas.

Reproduce el video desde ::33 y sigue la transcripción0:33

Esas destrezas sirven para garantizar que el proceso de análisis de datos sea lo más fluido posible. Y aunque no lo sea, sabrás
cómo enfrentar cualquier problema que surja.

Reproduce el video desde ::44 y sigue la transcripción0:44


Una parte importante de ser analista tiene que ver con resolver problemas. Cuando eres buen analista, haces las preguntas
correctas, por eso dedicaremos algo de tiempo a aprender sobre estrategias para resolver problemas durante el análisis de
datos. ¿Quieres empezar a aprender sobre formateo de datos y resolución de problemas? Pasa al siguiente vídeo para
empezar.

De un tipo a otro
¡Hola! Hasta ahora, aprendimos sobre conversión de tipos de datos con SQL para pasar de un tipo de datos a otro en las bases
de datos. Ahora, me gustaría explorar otra forma de formatear tipos de datos en hojas de cálculo. En este vídeo, hablaremos
sobre por qué es tan importante garantizar que tus datos estén bien formateados y sobre cómo formatear números y convertir
unidades de medición en tus hojas de cálculo. ¡Empecemos!

Reproduce el video desde ::29 y sigue la transcripción0:29

A veces, estás trabajando con tu hoja de cálculo y necesitas convertir datos. Eso significa cambiar ciertas cifras para que tengan
el formato de fecha, cadena de texto, porcentaje o, incluso, moneda.

Reproduce el video desde ::39 y sigue la transcripción0:39

Es importante que te fijes que todos tus datos tengan el formato correcto para tu análisis. A veces, ya terminaste de limpiar y
procesar los datos, pero notas que no están en el formato que necesitas.

Reproduce el video desde ::51 y sigue la transcripción0:51

Tomemos, por ejemplo, la tabla con los datos de películas que vimos antes. Había muchos tipos de datos distintos que incluían
cifras, como fechas y presupuestos, y también cadenas de texto, como nombres de actores y actrices.

Reproduce el video desde :1:3 y sigue la transcripción1:03

Estos son todos valores distintos, pero la hoja de cálculo no siempre lo detecta automáticamente. Aquí hay un ejemplo.
Digamos que, por ejemplo, quieres ordenar las películas según las más recientes. Si la hoja de cálculo toma los datos como
cadenas de texto y no como fechas, es posible que las ordene alfabéticamente. Si no cambias el tipo de datos, no podrás
ordenarlas de la forma que quieres. También puede pasar que tus conjuntos de datos contengan distintas unidades de
medición que tienes que convertir. Por ejemplo, puede que tu tabla contenga cifras en dólares estadounidenses y libras
esterlinas. Por eso, es importante que verifiques esos tipos de datos una vez más, así no tendrás problemas durante el análisis.
Volvamos al ejemplo de las fechas incorrectas en la tabla de películas. Si tu jefa necesita una lista de las 20 películas más
recientes, pero tu hoja de cálculo está ordenada alfabéticamente y no según las fechas más recientes, tu jefa no recibe la lista
de películas que necesita. Si los datos no están bien formateados, pueden ocurrir errores graves en tu análisis, y eso podría
afectar la toma de decisiones de los interesados.

Pero si te tomas tu tiempo para convertir y formatear tus datos, puedes evitar esos errores.

Ahora que ya sabes por qué necesitas convertir los tipos de datos mientras trabajas con las hojas de cálculo, veamos cómo
hacerlo.

- Primero, te mostraré un menú muy útil para especificar distintos tipos de datos en las hojas de cálculo. Aquí está la
tabla de películas que usamos antes, pero ahora la columna de moneda no tiene el tipo de formato de moneda. En la
barra de herramientas en la parte superior de la hoja, verás un menú que te puede ayudar a convertir estos números
en tipos de datos específicos. En el menú desplegable tienes muchas opciones, como cifra, moneda, fecha,
porcentaje... Si haces clic y abres todo el menú, tienes aún más opciones, incluida una para formato personalizado de
cifras. Sabemos que queremos que estas columnas tengan el formato de moneda, así que hagamos eso. Solo tengo
que seleccionar esta columna y hacer clic en el atajo de moneda.

Reproduce el video desde :3:8 y sigue la transcripción3:08

Ahora está todo bien escrito. Y eso no es todo. Hasta puedes convertir la unidad de medición que estás usando. Para este
ejemplo, veamos una tabla distinta. Imagina que trabajas para un canal que pronostica el tiempo y recopilas datos sobre la
temperatura diaria. Tienes una tabla con algunos datos sobre observaciones diarias de temperatura, velocidad del viento y
precipitaciones en la zona. En este momento, las temperaturas están en grados Fahrenheit, pero para el análisis las necesitas
en grados Celsius. No hay problema. Solo tienes que usar la función CONVERT para cambiar la unidad de medición. Usemos
esta columna vacía aquí. Esta es la primera temperatura de la tabla. Escribiremos la función CONVERT en nuestra nueva
columna para pasar la temperatura a Celsius. Luego, tenemos que elegir la celda que queremos convertir. Por último, tenemos
que convertirla.

¡Listo! Ahora, esta celda tiene la unidad de medición correcta para el análisis. Ya puedes propagarla al resto de la columna.
Ahora, estos datos de temperatura están todos en Celsius, y la unidad de medición es la misma en toda la tabla. ¿Quieres otro
consejo? Cuando agregas datos a una tabla usando una fórmula, puedes pegar los datos como valores más tarde. Así, quedan
bloqueados. Si no, la celda queda en formato de fórmula y podría ser un poco confuso cuando empiezas a trabajar con los
datos. Hagamos eso ahora. Copiaremos los valores y, luego, haremos clic con el botón derecho en una nueva columna. Hay una
opción que es "Pegado especial". También hay una opción que es "Pegar solo valores". Ahora, tenemos los valores estáticos en
esta columna. Es muy importante que garantices que los datos están en el formato correcto antes de empezar el análisis. Si lo
haces, tu análisis te devolverá el tipo de respuesta que necesitas. Ahora ya conoces algunas formas de convertir cifras y
unidades de medición en hojas de cálculo, así que puedes saber a ciencia cierta que tus datos tienen el formato correcto.

A continuación, hablaremos un poco más sobre cómo ajustar tus datos para el análisis y sobre la validación de datos. Nos
vemos pronto.

CUESTIONARIO:
Estás trabajando en una hoja de cálculo de Google y quieres pasar la temperatura de la celda B2 de grados Celsius a
grados Fahrenheit. ¿Cuál es la sintaxis correcta para la función CONVERT?
1. =CONVERT(B2, "C", "F")
2. =CONVERT(B2, "Fahrenheit", "Celsius")
3. =CONVERT(B2, "Celsius", "Fahrenheit")
4. =CONVERT(B2, "F", "C")
Correcto
Cuando trabajas en Google Sheets y quieres pasar la temperatura de la celda B2 de grados Celsius a
grados Fahrenheit, la sintaxis correcta para la función CONVERT es la siguiente: =CONVERT(B2, "C",
"F").

Convertir datos en hojas de cálculo


En esta lectura, aprenderás a pasar datos de un formato a otro. Una forma de garantizar que tu análisis de los datos sea
preciso es darles a todos el formato correcto. Esto es así aunque ya hayas limpiado y procesado tus datos. Necesitarás
convertir y formatear tus datos al principio. Eso forma parte del proceso de tener tus datos listos para el análisis.

Como analista de datos, hay muchas situaciones en las que quizá tengas que convertir datos en una hoja de cálculo:
Cadena de texto a fecha
 ¿Cómo pasar de texto a fecha en Excel?: Es muy común que tengas que convertir una serie de cifras a fechas. Este
recurso sirve para aprender a usar las funciones de Excel que te permitan pasar textos y cifras a fechas, y
también sirve para descubrir cómo convertir cadenas de texto en fechas sin necesidad de usar una fórmula.
 Google Sheets: Cambiar formato de fecha: Si estás trabajando con Google Sheets, este recurso te enseñará a
pasar tus cadenas de texto a fechas y a usar los distintos formatos de fechas disponibles en Google Sheets.
Cadena de texto a cifra
 ¿Cómo pasar de texto a cifra en Excel?: Si bien puede que tu hoja de cálculo contenga valores que parecen cifras,
es posible que, en realidad, no lo sean. Esta conversión es importante porque permite que sumes los números y
los uses en fórmulas sin que salten errores en Excel.
 ¿Cómo pasar de texto a cifra en Google Sheets?: Este recurso es útil si estás trabajando en Google Sheets, ya que
aprenderás cómo pasar de cadenas de texto a cifras en Google Sheets. También incluye distintas fórmulas que
puedes usar en tus propias hojas de cálculo, de modo que encuentres el método que te funciona mejor.
Combinar columnas
 Convertir texto de dos o más celdas: A veces, necesitas unificar texto de dos o más celdas. La página de soporte
técnico de Microsoft detalla dos formas distintas de llevar a cabo esa tarea sin perder o modificar tus datos.
También incluye un vídeo paso a paso para guiarte durante todo el proceso.
 ¿Cómo dividir o combinar celdas en Google Sheets?: En esta guía, aprenderás a dividir o combinar celdas usando
específicamente Google Sheets. Si estás usando Google Sheets, este es un recurso útil como referencia si
necesitas combinar celdas. Incluye un ejemplo con datos reales.
Cifras a porcentaje
 Formatear cifras como porcentajes: En cualquier proyecto, siempre sirve saber formatear cifras como porcentajes.
Esta página de soporte técnico de Microsoft detalla varias técnicas y brinda consejos para convertir tus cifras en
porcentajes.
 Fórmula TO_PERCENT: Esta página de soporte de Google Sheets te muestra cómo usar la fórmula
TO_PERCENT para pasar cifras a porcentajes. También incluye enlaces a otras fórmulas que sirven para
convertir cadenas de texto.
Consejo profesional: No te olvides de que es posible que tengas muchas columnas con datos que requieren distintos
formatos. La clave es ser uniforme, y la mejor práctica consiste en garantizar que toda la columna tenga el mismo
formato.

Recursos adicionales
Si necesitas convertir otros tipos de datos, puedes encontrar recursos útiles en el Soporte técnico de Microsoft para Excel
o la Ayuda de Editores de Google Docs para Google Sheets.

Puedes convertir datos en un abrir y cerrar de ojos usando siempre las mismas funciones. También puedes guardar
estos enlaces en tus favoritos para usarlos a futuro, así están siempre a mano en caso de que surja algún problema.
Ahora que sabes convertir datos, vas camino a convertirte en un analista de datos eficaz.

1.
Pregunta 1

Descripción general de la actividad

En actividades anteriores, practicaste cómo usar las funciones de la hoja de cálculo para manipular y limpiar datos. En
esta actividad, usarás las funciones CONCAT y CONCATENATE para combinar de forma rápida y eficaz distintos datos
sin procesar con datos nuevos.

Al finalizar esta actividad, podrás usar estas funciones para combinar datos. Así, podrás simplificar y condensar datos, y
esto es importante para cualquier analista de datos a la hora de procesar y limpiar datos.
Lo que necesitarás

Para empezar, vas a necesitar la hoja de cálculo de práctica de la función CONCAT.

Para usar la plantilla de esta hoja cálculo, haz clic en el enlace a continuación y elige “Usar plantilla”.

Enlace a la plantilla: Hoja de cálculo para practicar la función CONCAT

Si no tienes una cuenta de Google, puedes descargar la hoja de cálculo directamente desde el siguiente archivo adjunto.

Usar las funciones CONCAT y CONCATENATE

Puede que, de vez en cuando, te encuentres con un conjunto de datos con valores de datos en distintas celdas que
querrías combinar en un único valor en una única celda. Suele pasar cuando trabajas con nombres y fechas. Puede que
tengas un conjunto de datos con una columna para el nombre y otra para el apellido, y que quieras tener el nombre
completo en otra columna más.

Hay otras combinaciones que es bueno tener juntas, como ciudad/estado y mes/año, porque suelen registrarse en
conjunto.

La función CONCAT de la hoja de cálculo puede combinar estos tipos de datos.

Combinar datos de dos celdas

Primero que nada, vamos a usar la hoja de cálculo que descargaste para combinar los dos conjuntos de nombres en las
columnas Nombre y Apellido en una nueva columna llamada Nombre completo.

Para hacerlo, solo tienes que seguir estos pasos:

1. Haz clic en la celda F2. Aquí comenzarán los datos de la nueva columna. Después de hacer clic en la celda, escribe
=CONCAT(A2,B2) en la barra de funciones y presiona Enter (Windows)o Return (Mac).

Cuando lo hagas, deberían aparecer los siguientes datos en la celda:


Ya uniste o, en términos técnicos, concatenaste los dos valores de datos de las celdas A2 y B2. Como primero pusiste la
celda A2 en el argumento de la función CONCAT, aparece primero en el resultado final.

Pero fíjate que los dos nombres se combinaron sin un espacio en el medio.

Si quieres poner un espacio entre medio de los dos, debes usar la función CONCATENATE completa, ya que te permite
combinar distintas cadenas.

2. Vuelve a hacer clic en la celda F2. En la llamada de función, coloca un espacio entrecomillado entre A2 y B2 y
sepáralo con comas.

Una vez que presiones Enter o Return, deberías ver lo siguiente:


Ahora hay un espacio entre el nombre y el apellido.

Ahora, repite el proceso para todas las otras celdas de la ColumnaF. No es necesario que lo hagas manualmente con
cada celda. (Sobre todo si el conjunto de datos es más grande, sería un trabajo arduo ir celda por celda). Por suerte,
puedes completar los datos de la columna usando el mouse.

1. Haz clic en la celda F2. En la esquina inferior derecha de la celda, en el límite resaltado, verás un pequeño cuadrado.

2. Haz clic en el cuadrado y arrastra el mouse hasta el final de la columna. Luego, suéltalo. En todas las celdas de la
columna, debería aparecer el nombre completo del presidente correspondiente.
Nota: Si bien en este conjunto de datos no sucede, es posible que te encuentres con espacios extra en tu resultado
después de usar la función CONCAT. Si notas que hay espacios extra, puedes usar la función TRIM para eliminarlos.

Combinar datos de tres celdas

El procedimiento para combinar tres datos de distintas celdas es casi igual a lo que acabas de hacer. La única diferencia
es que tienes que incluir una tercera celda en el argumento de la función CONCATENATE completa.

Ahora, combinemos el mes, el día y el año en un único valor de datos: Fecha. Esto irá en la columna G.

1. Haz clic en la celda en la que te gustaría que empezaran tus datos nuevos. Esta es la celda G2, aquí. 2. Escribe el
comando CONCAT así: =CONCATENATE(C2," ",D2,", ",E2)
Presta especial atención a las cadenas extra que agregaste entre el mes y el día y entre el día y el año. Esa es la forma
en la que puedes insertar los espacios y la coma en tu resultado final.

3. Completa el resto de la columna usando la técnica de hacer clic y arrastrar que te mencionamos antes. Tu pantalla
debería aparecer así:
¡Felicidades! Combinaste datos de las hojas de cálculo usando las funciones CONCAT y CONCATENATE.

Confirmación y reflexión

En alguna celda vacía de la hoja de cálculo para practicar la función CONCAT, escribe la función =CONCATENATE(A7, "
", B7). ¿Qué te muestra esta función?
1 punto

1. John QuincyAdams
2. #N/A
3. JohnQuincyAdams
4. John Quincy Adams
Validación de datos
¡Es bueno verte de nuevo! Aprovecho mientras aprendemos a formatear datos para contarte sobre otra función de la hoja de
cálculo: la validación de datos. En este vídeo, te enseñaré un poco sobre la función de validación de datos y te mostraré cómo
usarla. Por ahora, cuando hablo de validación de datos, me refiero a la función, que es distinta al proceso de validación de datos.
Ya veremos eso también. Pero, primero, hablemos de qué hace la validación de datos en las hojas de cálculo. En pocas palabras,
te permite controlar qué datos puedes o no ingresar en tu hoja de cálculo. Por lo general, se usa la validación de datos para
agregar listas desplegables a las celdas con opciones predeterminadas para que los usuarios elijan. Si tu hoja de cálculo tiene
muchos colaboradores, esta opción hace que sea más fácil para ellos interactuar con la tabla. Es algo así como una pregunta de
respuestas múltiples en una evaluación. Como puedes controlar lo que se ingresa a la hoja de cálculo, limitas la cantidad de
datos que tendrás que limpiar más adelante. Veamos cómo puedes hacerlo. Para este ejemplo, trabajaremos en un proyecto que
tiene muchísimas metas y fechas de entrega que tienes que controlar. Imaginemos que nuestro equipo tiene una hoja de cálculo
que realiza un seguimiento del progreso de todos. Pero, en lugar de pedirles a todos que escriban en qué etapa se encuentran de
la tarea que tienen que hacer, les provees un menú desplegable con distintas opciones, como "Sin empezar", "En curso" y
"Finalizada". Así que seleccionaremos la columna en la que queremos agregar los menús desplegables. En este caso, es la
columna "Estado". Luego, vamos al menú desplegable de datos, aquí, en la parte superior, y hacemos clic en "Validación de
datos". Allí verás un menú emergente con opciones para la validación de datos. En este caso, ya sabemos que queremos agregar
una lista de elementos para que otros usuarios elijan el que quieran. Así que seleccionaremos la opción "lista de elementos" de
los criterios posibles, y escribiremos las opciones que queremos crear. Luego, hacemos clic en Guardar para que todas las celdas
tengan un menú desplegable que podamos usar para marcar el progreso de cada tarea fácilmente. También hay otras cosas que
puedes hacer con la validación de datos y las hojas de cálculo, por ejemplo, crear casillas personalizadas. Para eso,
seleccionamos las celdas de la columna "Revisar" y creamos una casilla que nos permita saber si se aprobaron o no las tareas.
Entonces, volvemos al menú de validación de datos. Pero, en lugar de elegir "Lista a partir de un rango", vamos a seleccionar
"Casilla". Hay una opción para usar valores personalizados para las celdas. Elijamos eso y escribamos "Aprobada" y "No
aprobada". Ahora, la persona que revise las tareas, por ejemplo, el gerente de proyectos, podrá tildar la casilla que quiera.
También puedes usar la validación de datos para proteger datos estructurados y fórmulas. Cuantas más personas trabajen juntas
en una hoja de cálculo, más probable será que alguien modifique una fórmula sin querer. La buena noticia es que el menú de
validación de datos tiene la opción de rechazar entradas inválidas. Así, garantizamos que nuestras herramientas personalizadas
sigan funcionando correctamente aunque alguien ingrese datos incorrectos sin querer. Bien, ya sabes tres usos que le puedes dar
a la validación de datos en tus hojas de cálculo: agregar listas desplegables, crear casillas personalizadas, y proteger datos
estructurados y fórmulas. La validación de datos puede ayudar a tu equipo a controlar el progreso de un proyecto, proteger tus
tablas para que no dejen de funcionar cuando tu equipo es muy grande, y personalizar las tablas según tus necesidades. A
continuación, aprenderemos un poco más sobre el formato condicional y las distintas formas en que puedes usar el formato
condicional y la validación de datos en conjunto. ¡Hasta pronto!

CUESTIONARIO:
Un analista de datos quiere agregar una lista desplegable con tres opciones para su hoja de cálculo: Borrador, Editado
y Final. ¿Qué opción del menú de validación de datos debería elegir?
1. Lista de elementos
2. Texto
3. Fórmula personalizada
4. Fecha
Correcto
El analista debería elegir Lista de elementos. Esta opción le permitirá seleccionar las tres opciones:
Borrador, Editado y Final.

Formato condicional
Hola de nuevo. Anteriormente, hablamos sobre el formato condicional, una herramienta de la hoja de cálculo que cambia la
forma en que aparecen las celdas cuando los valores cumplen con una condición específica. Esto te permite agregar distintas
marcas visuales a tus hojas de cálculo para poder entender tus tablas con un solo vistazo, y también ayuda a que los interesados
entiendan la información de la hoja de cálculo. En este vídeo, daremos un paso más: vamos a combinar el formato condicional y
la validación de datos para crear herramientas personalizadas para nuestras hojas de cálculo. Hasta ahora, usamos el formato
condicional para resaltar celdas vacías que necesitaban datos y, así, poder detectar rápidamente qué información faltaba en la
tabla y agregarla. Ahora, iremos un poco más lejos: lo usaremos para que sea más fácil leer de un vistazo nuestra tabla de
planificación.

Reproduce el video desde ::48 y sigue la transcripción0:48

Trabajamos con esta tabla cuando aprendimos sobre validación de datos. Sirve para controlar el estado de distintas tareas de
nuestro proyecto para que el equipo las verifique. Pero, ahora, hay más tareas que la última vez que la usamos. Esta tabla tiene
información útil, pero no se entiende a simple vista. En este momento, no tenemos ninguna marca visual que indique cuántas
tareas están en curso o cuántas fechas de entrega se avecinan. Pero si les agregáramos códigos de color a esos elementos de la
tabla, podríamos ver a simple vista los datos clave. Empecemos con la columna Estado, la columna C. En el último ejemplo,
creamos menús desplegables con la herramienta de validación de datos. Ahora, podemos usar formato condicional para agregar
algo de color. Nos dirigimos a la opción formato condicional en el menú Formato.

Reproduce el video desde :1:37 y sigue la transcripción1:37

Aparece una barra lateral en la que podemos seleccionar nuestra regla para el rango en el estilo de formato. Tenemos que decidir
qué filas queremos formatear cuando coinciden con la condición que establecimos. Podemos hacer clic en este botón en las
opciones de rango para seleccionar todas las filas en las que usaremos el formateo en lugar de escribirlas. Ahora que elegimos
las celdas, podemos elegir la regla que queremos usar para esas celdas. Ya tenemos menús desplegables con texto específico. Así
que podemos elegir "Formatear celdas si... el texto es exactamente" entre las reglas. Para nuestra primera regla, la condición de
texto va a ser "Sin empezar". Luego, elegimos el color que van a tener esas celdas que contienen el texto "Sin empezar". Vamos
a usar rojo. Ahora, todas las celdas en las que se seleccionó "Sin empezar" del menú desplegable van a ser rojas.

Reproduce el video desde :2:26 y sigue la transcripción2:26

Hacemos clic en el botón "Agregar otra regla" para darle formato condicional a las otras opciones de estado. Ahora, agreguemos
la condición "En curso". Esa puede ser amarilla. Y agregamos una última regla para la condición "Finalizada". Verde podría ser,
¿no? Listo. Ahora, tenemos marcas visuales fáciles de entender que nos indican cuántas tareas están en curso y cuántas
finalizaron. También podemos combinar validación de datos y formato condicional para realizar un seguimiento de las fechas de
entrega venideras. Tenemos una columna de fechas que dice "Revisar para esta fecha". Primero, usamos la función de validación
de datos para garantizar que los usuarios solo escriban fechas válidas. Volvemos al menú desplegable Datos, en la parte superior,
elegimos Validación de datos y seleccionamos nuestro criterio: Fecha.

Reproduce el video desde :3:15 y sigue la transcripción3:15

Luego, vamos al menú Formato, ubicado en la parte superior. Bajamos hasta formato condicional y abrimos la barra lateral de
nuevo. Hacemos clic en el ícono "Seleccionar rango" y seleccionamos la columna "Revisar para esta fecha". En la sección
Reglas de formato, elegimos "Fecha es posterior", lo que nos brinda otra opción. Elegimos "hoy".

Reproduce el video desde :3:38 y sigue la transcripción3:38

Por último, elegimos el color de esas celdas. Así que si la fecha de las filas es posterior al día de hoy, se pintarán de naranja. Si
necesitas, puedes elegir una fecha específica para bloquear. Por ahora, elegimos hoy y listo. Ahora, todas las fechas de revisión a
futuro tienen una distinción simple por color, así que cualquier persona que use esta tabla podrá ver esas fechas de entrega
rápidamente. Ya verás que algunos programas de hoja de cálculo, como Excel, tienen código de color integrados que también
puedes usar. Listo. Ahora sabes usar validación de datos y formato condicional para crear herramientas personalizadas y marcas
visuales que te permitan entender la información fácilmente. Existen muchos modos diferentes de usar estas herramientas, así
que no dudes en experimentar en tu hoja de cálculo. A continuación, seguiremos aprendiendo sobre nuevas herramientas de la
hoja de cálculo y de SQL. Hasta pronto.

Cuestionario:

¿Para qué tareas de la hoja de cálculo sirve el formato condicional? Selecciona todas las opciones que correspondan.
1. Agregar un menú desplegable
2. Aplicar color a celdas que contienen fechas posteriores al día de hoy.
Correcto. El formato condicional es una herramienta de la hoja de cálculo que cambia la forma en que se ven
las celdas cuando los valores cumplen con condiciones específicas. Se puede usar para modificar el color de
una celda y resaltarla.
3. Resaltar celdas que contengan la palabra “finalizada”.
Correcto. El formato condicional es una herramienta de la hoja de cálculo que cambia la forma en que se ven
las celdas cuando los valores cumplen con condiciones específicas. Se puede usar para modificar el color de
una celda y resaltarla.
4. Permitir que los usuarios ingresen solo datos estructurados y fórmulas

Transformar datos en SQL


Por lo general, los analistas de datos necesitan pasar datos de un formato a otro para completar el análisis. Pero, ¿qué
pasa si están usando SQL y no una hoja de cálculo? Al igual que las hojas de cálculo, SQL usa reglas estándar para
pasar de un tipo de datos a otro. Quizá te preguntas por qué es tan importante que los analistas de datos sepan convertir
datos: es lo mismo que un conductor que sabe cambiar una llanta desinflada. Si sabes convertir datos al formato
correcto, tu análisis es más rápido. No tienes que esperar que alguien más lo haga por ti.
En esta lectura, repasarás las distintas conversiones que puedes hacer usando la función CAST. También hay funciones
más especializadas, como COERCION para trabajar con números muy grandes y UNIX_DATE para trabajar con fechas.
La función UNIX_DATE te devuelve la cantidad de días que pasaron desde el 1° de enero de 1970 y se usa para
comparar fechas en distintos husos horarios y trabajar con esos datos. Es probable que uses CAST más a menudo.

Conversiones más comunes


La siguiente tabla resume algunas de las conversiones más comunes que puedes hacer con la función CAST. Para ver la
lista completa de funciones y reglas asociadas, consulta Reglas de conversión en SQL estándar.

Para empezar La función CAST puede convertir datos en lo siguiente:


- Enteros
- Datos numéricos (cifras)
Datos numéricos (cifras) - Números grandes
- Enteros flotantes
- Cadenas
- Booleanos
- Enteros
- Datos numéricos (Cifras)
- Números grandes
- Enteros flotantes
Cadena - Cadenas
- Bytes
- Fechas
- Horario y fecha
- Horario
- Marca de tiempo
- Cadena
- Fecha
Fecha
- Horario y fecha
- Marca de tiempo

La función CAST (sintaxis y ejemplos)


La función CAST es una función del Instituto Nacional Estadounidense de Estándares (ANSI) que se utiliza en muchos
lenguajes de programación, incluido BigQuery. En esta sección, podrás encontrar la sintaxis de BigQuery y ejemplos
para convertir tipos de datos de la primera columna de la tabla anterior. La sintaxis de la función CAST es la siguiente:

CAST (expression AS typename)

CAST (expression AS typename)

Expression constituye el dato que se tiene que convertir y typename es el dato que la fórmula tiene que devolver.

Convertir cifra a cadena de texto


La siguiente instrucción de la función CAST devuelve una cadena de texto a partir de un número que la variable MyCount
detectó en la tabla llamada MyTable.
SELECT CAST (MyCount AS STRING) FROM MyTable

SELECT CAST (MyCount AS STRING) FROM MyTable

En el enunciado anterior de SQL, ocurre lo siguiente:

 SELECT indica que vas a seleccionar datos de una tabla


 CAST indica que vas a pasar el tipo de dato que seleccionaste a un tipo de dato distinto
 AS aparece antes y detecta el tipo de dato al que quieres convertir
 STRING indica que quieres pasar los datos a cadena de texto
 FROM establece de qué tabla seleccionas datos
Convertir cadena de texto a cifra
El siguiente enunciado de la función CAST devuelve un entero a partir de una cadena de texto que la variable
MyVarcharCol detectó en la tabla llamada MyTable. (Cuando hablamos de enteros, nos referimos a números enteros).

SELECT CAST(MyVarcharCol AS INT) FROM MyTable

SELECT CAST(MyVarcharCol AS INT) FROM MyTable

En el enunciado anterior de SQL, ocurre lo siguiente:

 SELECT indica que vas a seleccionar datos de una tabla


 CAST indica que vas a pasar el tipo de dato que seleccionaste a un tipo de dato distinto
 AS aparece antes y detecta el tipo de dato al que quieres convertir
 INT indica que quieres pasar los datos a números enteros
 FROM establece de qué tabla seleccionas datos
Convertir fecha a cadena de texto
La siguiente instrucción de la función CAST devuelve una cadena de texto a partir de una fecha que la variable MyDate
detectó en la tabla llamada MyTable.

En el enunciado anterior de SQL, ocurre lo siguiente:

 SELECT indica que vas a seleccionar datos de una tabla


 CAST indica que vas a pasar el tipo de dato que seleccionaste a un tipo de dato distinto
 AS aparece antes ydetecta el tipo de dato al que quieres convertir
 STRING indica que quieres pasar los datos a cadena de texto
 FROM establece de qué tabla seleccionas datos
Convertir fecha a horario y fecha
Los valores de horario y fecha tienen el siguiente formato: YYYY-MM-DD hh: mm: ss. Eso quiere decir que la fecha y la
hora no se separan. La siguiente instrucción CAST devuelve un valor de horario y fecha a partir de una fecha.
En el enunciado anterior de SQL, ocurre lo siguiente:

 SELECT indica que vas a seleccionar datos de una tabla


 CAST indica que vas a pasar el tipo de dato que seleccionaste a un tipo de dato distinto
 AS aparece antes ydetecta el tipo de dato al que quieres convertir
 DATETIME indica que quieres pasar los datos a un valor de horario y fecha
 FROM establece de qué tabla seleccionas datos

La función SAFE_CAST
Cuando usamos la función CAST en una consulta que falla, salta un error en BigQuery. Para evitar errores si falla la
consulta, podemos usar la función SAFE_CAST. La función SAFE_CAST devuelve un valor nulo en lugar de un error
cuando falla la consulta.

La sintaxis de la función SAFE_CAST es la misma que la de la función CAST. Solo tienes que reemplazar la función
directamente en tus consultas. El siguiente enunciado SAFE_CAST devuelve una cadena de texto a partir de una fecha.

SELECT SAFE_CAST (MyDate AS STRING) FROM MyTable

SELECT SAFE_CAST (MyDate AS STRING) FROM MyTable

Más información
Para más información sobre cómo convertir datos usando otros dialectos de SQL (y no BigQuery), consulta estos
recursos:

 CAST y CONVERT: Documentos de referencia de SQL Server


 Funciones y operadores CAST de MySQL: Documentos de referencia de MySQL
¿Cómo puedo...?: Convertir en SQL: Blog sobre cómo convertir distintos tipos de datos. Contiene enlaces a otras guías
breves de SQL

CUESTIONARIO:
Pregunta 1

Una celda de la hoja de cálculo contiene la temperatura más baja que se registró alguna vez en Nueva Zelanda: -22 °C.
¿Qué función mostraría esa temperatura en grados Fahrenheit?
0 / 1 punto

=CONVERT(-22, F, C)
=CONVERT(-22, C, F)
=CONVERT(-22, "C", "F")
=CONVERT(-22, "F", "C")
2.
Pregunta 2

Un analista de datos quiere estar seguro de que las fórmulas de la hoja de cálculo seguirán funcionando correctamente
aunque alguien escriba un dato incorrecto por error. ¿Qué opción de validación de datos debería seleccionar del menú
para marcar errores en el ingreso de datos?
1 / 1 punto

Rechazar entradas inválidas


Prohibir entradas
Denegar texto de ayuda
Eliminar validación
Correcto

Para garantizar que las fórmulas de la hoja de cálculo sigan funcionando correctamente aunque alguien escriba un dato
incorrecto por error, selecciona Rechazar entradas inválidas para marcar esos datos como inválidos.
3.
Pregunta 3

Un analista de datos abre el menú desplegable y hace clic en la opción Formato de celdas. Luego, selecciona El texto es
exactamente noviembre. Así, se modifica el color de todas las celdas que contengan la palabra noviembre. ¿Qué
herramienta de la hoja de cálculo está usando el analista?
1 / 1 punto

Validación de datos
CONVERT
Formato condicional
Filtrado
Correcto. El analista de datos está usando el formato condicional. El formato condicional es una herramienta de la hoja
de cálculo que cambia la forma en que se ven las celdas cuando los valores cumplen con condiciones específicas.

Combinar distintos conjuntos de datos


Opcional: Prepárate para usar el conjunto de datos sobre bicicletas
compartidas en BigQuery
El siguiente vídeo te muestra cómo puedes usar la función CONCAT en una consulta de SQL para que te devuelva datos
de dos columnas en una sola.

Si deseas seguir adelante con la instructora, necesitarás iniciar sesión en tu cuenta de BigQuery para usar el conjunto de
datos abierto (público) llamado new_york_citibike. Si necesitas hacer un repaso, la lectura llamada El uso de BigQuery
del curso Preparar datos para la exploración explica cómo configurar una cuenta de BigQuery.

Prepárate para el siguiente vídeo


Paso 1: Para encontrar el conjunto de datos new_york_citibike en bigquery-public-data, ingresa al explorador de BigQuery
y escribe citibike en la barra de búsqueda.

Paso 2: Para ver los datos en la tabla, haz clic en la tabla citibike_trips y, luego, en la pestaña Vista preliminar.
Qué esperar de la consulta
Vas a usar la función CONCAT para combinar los datos de la columna start_station_name con los datos de la columna
end_station_name y, así, crear una tercera columna con información de la ruta. Por ejemplo, la ruta desde la Estación 509
hasta la Estación 442 en la primera fila de la tabla anterior sería 9 Ave & W 22 St hasta W 27 St & 7 Ave, es decir, una
combinación de los nombres de las estaciones de inicio y finalización.

Unión y distintas fuentes


¡Qué bueno volver a verte! En este vídeo, ampliaremos lo que ya aprendimos sobre la función CONCATENATE e IMPORTRANGE
explorando una nueva consulta de SQL: CONCAT. Puede que recuerdes que CONCATENATE es una función que te permite unir
dos o más cadenas de texto. A modo de recordatorio, una cadena de texto es un grupo de caracteres dentro de una celda, casi
siempre compuesta por letras. Ya viste cómo funciona en una hoja de cálculo. Pero hay una función similar en SQL que te
permite unir distintas cadenas de texto de distintas fuentes: CONCAT. ¿Por qué no usamos CONCAT para combinar cadenas de
texto de distintas tablas para crear nuevas cadenas? Para este ejemplo, usaremos datos abiertos de Citi Bike, un sistema
público para compartir bicicletas en Nueva York. Como ya aprendiste, estas iniciativas de datos abiertos han generado
muchísimos datos que los analistas pueden usar. Los datos abiertos implican acceso gratuito a los datos, así como uso e
intercambio libre. Es un gran recurso si quieres practicar o experimentar con las herramientas de análisis de datos que
aprendiste aquí. Tienes acceso abierto a los datos de bicicletas compartidas de la ciudad de Nueva York, y estos datos
contienen información sobre el uso de las bicicletas compartidas en toda la ciudad. Ahora, podemos usar CONCAT para extraer
y combinar datos de distintas columnas almacenadas allí. Lo primero que debemos hacer es decidir qué columnas
necesitamos. Así podemos indicarle a SQL donde están las cadenas que queremos. Por ejemplo, la empresa de bicicletas de
uso compartido tiene dos tipos distintos de clientes: los que pagan por vez y los que se suscriben. Imaginemos que queremos
saber cuáles son las rutas más populares según los distintos tipos de usuario. Para eso, necesitamos crear cadenas de texto con
nombres reconocibles de rutas que podamos contar y ordenar. Sabemos que la información que necesitamos está en la tabla
de estaciones y viajes. Empezaremos a crear nuestra consulta desde ese punto. Primero, escribimos SELECT tipo de usuario
para que SQL sepa que queremos el tipo de usuario en una columna. Luego usaremos CONCAT para combinar los nombres de
las estaciones de inicio y finalización de cada viaje en una nueva columna. Así crearemos una columna según las rutas que
toman las personas. También necesitamos darle un título a esta nueva columna. Escribimos Ruta AS para titular la columna de
rutas usando los nombres de las estaciones de inicio y finalización que combinamos con CONCAT. Así, los nombres de las rutas
serán más fáciles de leer y de comprender. Luego, queremos que SQL cuente la cantidad de viajes. Así que escribimos COUNT.
Podemos usar un asterisco para indicarle que cuente la cantidad de filas en los datos que seleccionamos. En este caso, cada fila
representa un viaje, por eso simplemente podemos contar todas las filas que seleccionamos. Ese resultado tendrá el siguiente
nombre: cant_viajes.

Reproduce el video desde :2:46 y sigue la transcripción2:46

Ahora, calculemos el promedio de la duración de los viajes por ruta. En este caso, no necesitamos un promedio exacto, así que
podemos usar la función ROUND para redondear. Escribimos primero eso y, después, entre paréntesis, usamos AVERAGE para
obtener el promedio de duración de los viajes. También queremos que estos datos estén enteros para este cálculo, así que
escribimos cast as int 64. BigQuery almacena los números en un sistema de memoria de 64 bits, por eso está el número 64
después de int en este caso. Ahora, lo dividiremos por la cantidad de filas y le indicaremos cuánto queremos redondear: a dos
decimales. Ese resultado tendrá el siguiente nombre: duración. Tenemos que indicarle a SQL dónde se almacena esa
información. Usaremos FROM y la ubicación de donde extraemos los datos.

Como estamos usando las funciones COUNT


y AVERAGE en nuestra cláusula SELECT, tenemos que usar GROUP BY para agrupar las filas de resumen. Agrupemos según
estación de inicio, estación de finalización y el tipo de usuario para esta consulta. Por último, usamos ORDER BY para indicarle
cómo queremos organizar estos datos. Para eso, queremos saber cuáles son los viajes más comunes, de modo que podamos
escribir cuál es la columna con cantidad de viajes y usar DESC para que se ordene de forma descendente. Por último, solo
queremos los primeros 10 viajes, así que agregamos LIMIT 10. Ahora, gracias a la función CONCAT, podemos leer fácilmente los
nombres de estas rutas y asociarlos con lugares de la vida real. Podemos ver qué tipos de clientes toman tal o cual ruta, y así
ayudar a la empresa de bicicletas de uso compartido a entender su base de usuarios en distintas partes de la ciudad y dónde
poner más bicicletas para alquiler. Cuando sabes combinar distintos tipos de datos, descubres nuevas formas de organizarlos y
analizarlos. Hay muchísimas herramientas que pueden ayudarte. Ahora vimos la función CONCAT en acción, y más adelante
verás una consulta similar: JOIN. Pero, a continuación, hablaremos un poco más sobre cómo trabajar con cadenas de texto. Nos
vemos pronto.

Cadenas de texto en hojas de cálculo


Hola de nuevo. Ya trabajamos con cadenas de texto en SQL y en hojas de cálculo, y aprendimos que, por lo general, tienen
funciones similares. En este vídeo, repasaremos las funciones LEN, LEFT, RIGHT y FIND.

Reproduce el video desde ::16 y sigue la transcripción0:16

Ya usaste estas funciones en SQL, pero ahora verás cómo funcionan en hojas de cálculo. Volvamos al conjunto de datos sobre
bicicletas de uso compartido. Veamos una de sus hojas de cálculo. Esta es una de las hojas de cálculo con Datos de viajes. En
las columnas horadeinicio y horadefinalización, hay cadenas de texto con información sobre la fecha y el horario de cada viaje.

Reproduce el video desde ::38 y sigue la transcripción0:38

Estos datos son muy útiles, pero es probable que solo necesitemos una parte de la cadena de texto para hacer una fórmula o
responder una pregunta. Por ejemplo, estas cadenas contienen múltiples puntos de datos, como fecha y hora. Pero si
queremos saber el tiempo promedio entre los horarios de inicio, no vamos a necesitar la fecha. Así que podemos usar las
funciones LEN, LEFT, RIGHT y FIND para dividir fecha y hora en columnas separadas. Generemos una fórmula simple para
separar las fechas en estas cadenas de texto. Sabemos que, al usar LEN, podemos conocer la longitud de una cadena de texto.
Veamos la longitud de las cadenas datetime. Para empezar, escribimos la primera parte de la fórmula. Luego, seleccionamos
una de las celdas con la cadena datetime. Estas cadenas tienen 19 caracteres.

Ahora, usamos la función FIND para ubicar ciertos caracteres específicos en una cadena. Acuérdate de que distingue entre
mayúsculas y minúsculas. Así que si usas FIND para encontrar una subcadena, tienes que asegurarte de haberla escrito
correctamente. Vemos que todas las cadenas datetime tienen un espacio que separa la fecha de la marca de tiempo. Así que
podemos usar FIND para saber dónde termina la fecha. Bueno, parece que el espacio es el carácter número 11 en la cadena.
Así que la subcadena de horario empieza en el carácter 12. Podemos usar las funciones LEFT y RIGHT para seleccionar qué
partes de la cadena queremos separar en una nueva columna. Usaremos RIGHT en una de estas celdas para indicar que
queremos recortar la parte derecha.

Reproduce el video desde :2:18 y sigue la transcripción2:18

Como ya hemos visto, LEFT funciona exactamente igual. Ahora, podemos usar lo mismo en el resto de la columna C para
extraer esas marcas de tiempo.

Reproduce el video desde :2:29 y sigue la transcripción2:29

Como analista de datos, saber trabajar con cadenas de texto es una destreza clave, en especial cuando trabajas con datos de
fuentes externas. Espero que te sientas más seguro usando las funciones LEN, RIGHT y LEFT, y también la función FIND, tanto
en SQL como en hojas de cálculo. Más adelante, usaremos estas funciones para generar fórmulas más complicadas, así que no
dudes en ir probándolas en algunos datos, quizá algunos datos abiertos como los que usamos hoy. Nos vemos más tarde.

CUESTIONARIO:

En una hoja de cálculo, la celda J10 contiene la fecha y el horario siguientes: 2/23/2021 7:00. ¿Cuál sería la sintaxis
correcta para obtener solamente el horario de cuatro dígitos del valor de la celda?
=RIGHT(4,J10)
=LEFT(4.J10)
=RIGHT(J10, 4)
=LEFT(J10, 4)
Correcto
Para obtener solamente el horario del valor de la celda, la sintaxis correcta es =RIGHT(J10, 4). El horario, 7:00, se
encuentra cuatro caracteres a la derecha de la cadena de texto.

Manipular cadenas de texto en SQL


Para que el análisis sea correcto, es importante que el analista de datos sepa convertir y manipular sus datos. En esta
lectura, aprenderás acerca de distintas funciones de SQL y su uso, en especial las que tienen que ver con
combinaciones de cadenas de texto.

Una cadena de texto es un conjunto de caracteres que ayuda a declarar los textos en lenguajes de programación,
como SQL. Las funciones de SQL para cadena de texto se usan para obtener distintos tipos de información sobre
caracteres o, en este caso, manipularlos. Una de las funciones más usadas es CONCAT. Repasa la tabla a
continuación para aprender más sobre la función CONCAT y sus variantes.

Función Uso Ejemplo


Función que une cadenas y crea
CONCAT nuevas cadenas de texto que se CONCAT (‘Google’, ‘.com’);
puedan usar como claves únicas
CONCAT_WS (‘ . ’, ‘www’, ‘google’, ‘com’) *El separador (en
Función que une dos o más cadenas
CONCAT_WS este caso, el punto) coloca información antes y después de la
de texto con un separador
palabra Google cuando ejecutas la función en SQL
CONCAT con Une dos o más cadenas de texto con
‘Google’ + ‘.com’
+ el operador +
CONCAT en funcionamiento
Cuando unes dos o más cadenas de texto, como ‘Análisis’ y ‘datos’, la fórmula sería la siguiente:

 SELECT CONCAT (‘Análisis’, ‘datos’);


El resultado será el siguiente:

 Análisisdatos
A veces, según las cadenas de texto que uses, necesitas agregar un carácter de espacio, entonces la función es la
siguiente:
 SELECT CONCAT (‘Análisis’, ‘ ‘, ‘Datos’);
El resultado será el siguiente:

 Análisis datos
Usa la misma regla cuando combines tres o más cadenas de texto: Por ejemplo:

 SELECT CONCAT (‘Análisis’,’ ‘, ‘de’, ‘ ‘, ‘datos’, ‘ ‘, ‘increíble.’);


El resultado será el siguiente:

 Análisis de datos increíble.

A practicar
W3 Schools es un recurso excelente para aprender sobre lenguaje SQL de forma interactiva. Los siguientes enlaces te
guiarán paso a paso para convertir tus datos con SQL:

 Funciones de SQL: Lista exhaustiva de funciones para arrancar. Haz clic en cada función y aprende su
definición, su uso, ejemplos y hasta cómo crear y ejecutar tu propia consulta para practicar. ¿Por qué no lo
pruebas?
 Palabras clave de SQL: Referencia útil con palabras clave de SQL para que guardes en favoritos a medida que
conozcas más sobre SQL. Esta lista de palabras clave constituye palabras reservadas que vas a usar cada vez
más a medida que necesites realizar distintas operaciones en tu base de datos.
 Esta lectura repasó los puntos básicos de cada una de estas funciones, pero hay más por aprender, y hasta
puedes combinar tus propias cadenas de texto.
1. Practica el uso de CONCAT
2. Practica el uso de CONCAT WS
3. Practica el uso de CONCAT con +
Consejo profesional: Es posible que se usen las funciones incluidas en los recursos anteriores de forma un poco
distinta según la base de datos que estés usando (por ejemplo, mySQL versus SQL Server). Sin embargo, la
descripción general de cada función te preparará para personalizar estas funciones según el uso que quieras darles.

CONVERT: Combina filas de dos o más tablas basadas en una columna relacionada
JOIN: Cambia la unidad de medida de un valor en los datos
CONCAT: Devuelve un cierto número de registros
ROUND: Limitar los registros a un cierto número de decimales
LIMIT: Agrega cadenas para crear nuevas cadenas de texto que puedan usarse como claves únicas

CUESTIONARIO:
1.
Pregunta 1

Completa el espacio en blanco: En SQL, se usa _____ para combinar cadenas de texto de distintas tablas y, así, crear
una nueva cadena.
1 / 1 punto

COMBINE
CONCAT
CONCATENATE
CONNECT
Correcto. En SQL, se usa CONCAT para combinar cadenas de texto de distintas tablas y, así, crear una nueva cadena.

2.
Pregunta 2

Estás trabajando con una tabla de base de datos que contiene datos sobre listas de reproducción de diferentes tipos de
medios digitales. Solo te interesan las primeras 4 listas de reproducción.
Escribe la consulta SQL a continuación. Agrega una cláusula LIMIT para que solo puedas ver las primeras 4 listas de
reproducción.

SELECT *

FROM playlist

LIMIT 4
EjecutarRestablecer
+-------------+------------+
| playlist_id | name |
+-------------+------------+
| 1 | Music |
| 2 | Movies |
| 3 | TV Shows |
| 4 | Audiobooks |
+-------------+------------+
¿Qué lista de reproducción aparece en la fila 2 del resultado de la consulta?
1 / 1 punto

Programas de TV
1. Audiolibros
2. Música
3. Películas
4. Correcto

La cláusula LIMIT 4 te permitirá ver solo las primeras 4 listas de reproducción. La consulta completa es SELECT * FROM
playlist LIMIT4. La cláusula LIMIT te permite establecer un límite en la cantidad de filas que te muestra tu consulta.

La lista de reproducción Películas aparece en la fila 2 del resultado de la consulta.


3.
Pregunta 3

¿Qué función puedes usar para ver el número de caracteres en la celda B8 de modo que puedas confirmar que contiene
exactamente 20 caracteres?
0 / 1 punto

=LEN(B8, 20)
=LEN(B8)
=LEN(20, B8)
=LEN(20)
Incorrecto

La función =LEN(B8) te mostrará el número de caracteres en la celda B8. La función LEN devuelve la longitud de una
cadena de texto al contar el número de caracteres que contiene.

Obtener ayuda durante el análisis


Qué hacer cuando no puedes avanzar
Hola. Los analistas de datos pasan mucho tiempo resolviendo problemas, y, por ende, es posible que alguna vez se queden
atascados en alguna situación. El truco es saber qué hacer cuando pasa eso. En este vídeo, hablaremos sobre la importancia de
saber cómo buscar ayuda, ya sea pidiéndole a alguien que nos dé una mano o buscando las respuestas en la Internet. Charlar
con otros sobre un problema que tenemos puede ayudarnos a encontrar nuevas soluciones que nos permitan avanzar con el
proyecto. Siempre es buena idea contactarnos con pares y mentores, en especial si están trabajando con nosotros en ese
proyecto. Los miembros del equipo tienen conocimiento e información útiles que pueden ayudarnos a encontrar la solución
para poder avanzar. A veces, pasamos mucho tiempo dándole vueltas al asunto, diciendo: "Yo puedo hacer esto por mi
cuenta". Pero podemos ser mucho más productivos si nos contactamos con otras personas, buscamos nuevos recursos que nos
ayuden e intentamos involucrar a todas las personas que podamos. Por ejemplo, digamos que estás trabajando con los datos
de la duración de los viajes en bicicleta que vimos en vídeos anteriores. Quizá necesitas encontrar el tiempo promedio entre
viajes en bicicleta durante cierto mes. Si tienes que calcular la diferencia entre viajes en bicicleta antes de medianoche no hay
problema, pero puede que sí tengas problemas si el viaje empieza un día y termina al siguiente. Si alguien empezó un viaje en
bicicleta a las 11 p.m., pero el próximo viaje no arrancó hasta las 6 a.m. del día siguiente, tu fórmula te devolverá un número
negativo porque el horario de finalización es menor al horario de inicio. Ya sabes que puedes sumar uno menos el horario de
inicio si dos viajes arrancan y finalizan en días distintos, pero esa fórmula no va a funcionar en horarios del mismo día, y no es
muy eficaz tener que andar buscando en todos los viajes en bicicleta para detectar esos casos especiales. Tienes que encontrar
la manera de generar una fórmula condicional, pero no sabes bien cómo. Entonces decides consultar con otros analistas de tu
equipo para ver si tienen alguna idea. Podrías mandarles un mail breve, o pasar por su escritorio a ver si tienen un minuto para
charlarlo contigo. Al parecer, ya tuvieron un problema similar en un proyecto anterior y te muestran una fórmula condicional
que puedes usar para agilizar tus cálculos. ¡Excelente! Te sugieren usar una fórmula IF así. En pocas palabras, dice: "Si el
horario de finalización es mayor al horario de inicio, reemplaza el horario estándar de finalización menos la fórmula de horario
de inicio con uno menos horario de inicio más horario de finalización". Ahora, también puede pasar que los miembros del
equipo no tengan una respuesta, pero no hay problema. Sin lugar a dudas, en la Internet, vas a encontrar a alguien que tenga
el mismo problema y haga las mismas preguntas. Si sabes buscar soluciones en línea, cuentas con una herramienta invaluable
para resolver problemas de análisis de datos. También hay muchos tipos de foros en los que usuarios de hojas de cálculo hacen
preguntas, y nunca sabes lo que puedes encontrar con tan solo hacer una búsqueda básica. Por ejemplo, digamos que buscas
"calcular cantidad de horas entre horarios" en hojas de cálculo y encuentras instrucciones útiles para redactar una fórmula más
compleja usando MOD. Esa fórmula convierte valores negativos en valores positivos y resuelve tu problema de cálculo. No
importa si le preguntas a alguien que conoces o buscas las respuestas en la Internet: buscar ayuda puede brindarte soluciones
muy interesantes y nuevas formas de resolver problemas para tus análisis a futuro. Próximamente, aprenderemos aún más
sobre buscar soluciones en línea. Nos vemos pronto.

Consejos y trucos avanzados para hojas de cálculo


Como muchas de las cosas que estás aprendiendo en este programa, cuanto más practiques, más fáciles de abordar se
volverán las hojas de cálculo. Esta lectura te brinda una lista de recursos que pueden ayudarte a ampliar tu
conocimiento sobre las funciones y la funcionalidad de las hojas de cálculo, así como tu experiencia. El objetivo es
brindarte acceso a distintos consejos y trucos avanzados que te servirán para ser más eficiente y efectivo a la hora de
trabajar con hojas de cálculo para llevar a cabo análisis de datos. Lee la descripción de los recursos a continuación,
haz clic en los enlaces para obtener más información y guarda o coloca entre tus favoritos los enlaces que te sean
útiles. Pon en práctica todo lo que aprendas tan pronto como puedas; así, aumentan las probabilidades de que
comprendas las hojas de cálculo y te familiarices con ellas. Esta lectura te brinda distintos recursos, así que explora
los que te sirvan y descarta los que no.

Google Sheets
 Atajos en el teclado para Google Sheets: Este es un excelente recurso para aprender rápidamente distintos
atajos de teclado que sirven para llevar a cabo ciertas tareas en un abrir y cerrar de ojos, por ejemplo, navegar
en tu hoja de cálculo o acceder a algunas fórmulas y funciones. Esta lista contiene atajos para la versión de
Google Sheets para computadora de escritorio y dispositivos móviles, de modo que puedes usarlas en tu
trabajo desde cualquier dispositivo.
 Lista de funciones de Google Sheets: Esta es una lista exhaustiva de funciones y sintaxis de Google Sheets.
Cada función viene con un enlace para obtener más información.
 23 fórmulas de Google Sheets que debes conocer: Este artículo de un blog resume y describe 20 de las
fórmulas más útiles para Google Sheets.
 18 consejos y técnicas para usar las fórmulas de Google Sheets: Este artículo incluye consejos para usar
los atajos de Google Sheets cuando trabajas con fórmulas.
Excel
 Atajos de teclado para Excel: En esta lista, ya te proporcionamos un recurso que contiene atajos de teclado
para Google Sheets. Este recurso es similar: te brinda una lista de atajos para Excel que sirven para que tus
tareas habituales sean más eficientes al trabajar con hojas de cálculo. Incluye atajos de teclado para las
versiones de Excel para computadora de escritorio y dispositivos móviles, así que puedes usarlos en cualquier
plataforma.
 222 atajos de Excel: Es un compilado de atajos que incluye enlaces para obtener explicaciones más
detalladas sobre su uso. Es excelente para consultar rápidamente los atajos de teclado. La lista está organizada
según su funcionalidad, así que puedes ir directamente a las secciones que más te sirvan.
 Lista de funciones de la hoja de cálculo: Es una lista exhaustiva de funciones de la hoja de cálculo de Excel
que incluye enlaces con explicaciones más detalladas. Es un recurso útil para guardar y usar como referencia a
menudo. Así, tendrás acceso a funciones y ejemplos para usar en tu trabajo.
 Lista de fórmulas de la hoja de cálculo: Al igual que el recurso anterior, esta lista exhaustiva de fórmulas
para la hoja de cálculo de Excel incluye enlaces con explicaciones más detalladas. Guárdalo y úsalo como
referencia cada vez que necesites corroborar una fórmula para tu análisis.
 Destrezas vitales en Excel para analizar datos: Esta publicación de un blog incluye funcionalidades más
avanzadas para algunas herramientas de la hoja de cálculo que ya conoces, como tablas dinámicas y formato
condicional. Estas destrezas son particularmente útiles para el análisis de datos. Cada sección incluye un vídeo
paso a paso que te guiará durante todo el proceso para usar estas funciones, de modo que puedas ejecutarlas
en tu propio análisis.
 Destrezas avanzadas para la hoja de cálculo: La presentación de Mark Jhon C. Oxillo empieza con un
repaso básico de la hoja de cálculo, pero también incluye funciones y ejercicios avanzados para que ejecutes
las fórmulas en datos reales en Excel. Es una muy buena forma de repasar algunos conceptos básicos y
practicar las destrezas que aprendiste hasta ahora.
Hay muchos recursos en línea sobre trucos y consejos avanzados para la hoja de cálculo. Probablemente, descubras
nuevos recursos y herramientas por tu cuenta, pero esta lista es un excelente punto de partida para que te vayas
familiarizando con las hojas de cálculo.

Layla: Todo sobre la etapa de análisis


Guardar nota

Hola. Me llamo Layla y soy directora de análisis de datos en Google. Un director de análisis de datos ayuda a que los
publicistas comprendan el valor del dinero que invierten en publicidad. También los ayuda a comprender dónde deberían
invertir ese dinero extra que quizá tienen para publicidad y qué podrían obtener a cambio. Para este tipo de puesto, las
habilidades que necesitas tienen muchísimo que ver con poder observar un conjunto de datos y darle sentido. Luego, se
trata de contar una historia para las personas que quizá no tienen esa experiencia trabajando con datos. ¿Qué está
pasando con los datos? ¿Qué impulsa el crecimiento de tu cliente o de tu empresa? ¿Qué podrían hacer más o qué
podrían hacer menos para que pase lo que quieren que pase? La etapa de análisis se parece a preparar un plato
delicioso. Ya limpiaste todo y preparaste los ingredientes y cocinaste y, finalmente, vas a poder probar tu comida para ver
si lo que esperabas que pasara o lo que querías que pasara finalmente pasó. ¿Está rico? ¿Es exactamente lo que
esperabas? ¿O está medio insulso y necesitas agregar un poco de sal? La etapa de análisis empieza una vez que
preparaste y limpiaste tus datos. No quieres tener celdas en blanco que vayan a impedir el análisis o entradas duplicadas
que hagan que tu conjunto de datos sea más grande de lo que es. En la etapa de análisis, te vuelves experto en tu
conjunto de datos. Es allí donde vas a entender todos los campos. Vas a entender sus promedios, y quizá la mediana de
los datos. Vas a comprender en qué se diferencian las distintas filas de tus datos. Y también ganarás la confianza que
necesitas para explicar tus resultados ante una audiencia que quizá no tenga la misma experiencia con los datos que tú
tienes. Cuando analizo datos, por lo general, me gusta usar SQL y hojas de cálculo. Puedes usar estas herramientas, por
ejemplo, para ordenar tus datos y entender qué entradas son más largas que otras. También puedes ver cuántas veces
pasa algo si seleccionas las distintas entradas. Aquí, también puedes filtrar datos que te interesan concretamente para el
análisis o, en una hoja de cálculo, puedes usar el formato condicional para ver qué entradas tienen un resultado más
positivo y cuáles quizá uno más negativo. Sin duda, es vital usar SQL y hojas de cálculo durante la etapa de análisis. Con
estas herramientas, puedes formatear tu conjunto de datos de forma que sea asimilable y, luego, empezar a contar una
historia con los datos. Lo que más me gusta de trabajar con una hoja de cálculo es, finalmente, tener limpios los datos
que quieres y exportarlos de tu consulta de SQL. Entonces puedes convertirlos en una tabla dinámica y planificar
específicamente qué datos que querías analizar tienen prioridad y cuáles son las tendencias que puedes ver allí. Cuando
logras hacer eso, es como si desbloquearas todo un mundo de información y entonces puedes elegir qué historia quieres
contar con tus datos sin decir cosas como: "Esta es la cifra máxima, esta es la cifra mínima". Aquí, puedes mostrar lo que
podría pasar en el tiempo o lo que posiblemente pase en el futuro.
¿Te encontraste con un desafío? No te preocupes.
Guardar nota

Bienvenido de nuevo. Anteriormente, hablamos un poco sobre buscar recursos en línea para encontrar soluciones a distintos
problemas durante el análisis. En la Internet, podemos conseguir tanta información y tantos consejos... Pero tienes que saber
cómo encontrarlos. En este vídeo, hablaremos un poco más sobre cómo encontrar respuestas en línea. Quizá creas que un
buen analista de datos no suele buscar ayuda en recursos externos, pero eso no es verdad. Los mejores analistas de datos
saben que buscar las respuestas a sus preguntas en línea puede ser inspirador y también puede brindarles conocimiento a
futuro. Si encuentras nuevas ideas y las combinas con lo que ya sabes, puedes lograr cosas increíbles. No temas recurrir a la
Internet para encontrar las respuestas que necesitas. Es un gran recurso que muchísimos analistas usan. Me incluyo. Pero
hablemos un poco más sobre cómo puedes asegurarte de estar aprovechando al máximo los recursos en línea. Hay distintas
mejores prácticas que puedes usar para guiarte en la búsqueda de respuestas en línea. Cuando pones en práctica las
habilidades de razonamiento que aprendimos en este programa, usas los términos correctos para análisis de datos y utilizas tu
conocimiento básico sobre herramientas de análisis, tienes todo lo que necesitas para encontrar respuestas y usarlas en tu
propio trabajo. El punto de partida es cómo abordar un problema desde el pensamiento. Ya aprendiste distintas habilidades de
razonamiento y también la forma de ponerlas en práctica en tu trabajo de análisis de datos. Hemos visto desde pensamiento
analítico hasta matemático, pasando por razonamiento estructurado. Esto te ayuda a construir un modelo mental, en otras
palabras, un proceso de razonamiento, y también a pensar la forma en que encaras un problema. Los analistas de datos usan
estas habilidades de razonamiento para abordar un problema desde la lógica y dividirlo en partes más pequeñas. Si integras
esto en tu propio proceso para resolver problemas, puedes detectar preguntas específicas que puedes usar para encontrar
recursos con más facilidad. Por ejemplo, quizá te sigue apareciendo el mismo error durante tu análisis. Acotas el problema, y
crees que hay dos posibles razones: tu fórmula o los datos en sí. Corroboras tu fórmula y ves que es correcta. Entonces tienes
que asegurarte de haber ingresado los datos correctamente. Analizas el problema desde la lógica y llegas a la raíz usando tu
modelo mental. Ahora, es importante usar los términos correctos para buscar soluciones. Si sabes cómo formular las preguntas
de análisis computacional de datos y usas el mismo lenguaje que otros analistas, encontrarás más resultados de búsqueda, y
podrás entender mejor qué dicen otros analistas. Por ejemplo, quizá necesitas los cuatro caracteres de una cadena de texto
empezando desde la izquierda en una columna de SQL. ¿Cómo buscarías eso? Buscar "cuatro caracteres en una columna" es
poco específico y quizá no surjan recursos específicos. Pero si escribes "consulta de cadena desde izquierda en SQL", estás
usando algunas palabras clave que otros analistas de datos también usan para hablar sobre esto. Además de saber usar los
términos correctos para la búsqueda en línea, también tienes que conocer las herramientas básicas. Así, cuando un recurso en
línea te muestre una nueva función en una herramienta que ya usaste, sabrás cómo funciona. Por ejemplo, si encuentras en
línea una fórmula para la hoja de cálculo, debes entender cómo funcionan las fórmulas para usarlas en tu propia hoja de
cálculo, o quizá el conjunto de datos que estás usando es demasiado grande para una única hoja de cálculo y debes pasarte a
SQL. Como analista de datos, es importante tener distintas herramientas en tu kit, pero también es importante saber cómo
usarlas. Si sientes que no puedes avanzar porque tienes un problema, quizá sea buena idea retroceder un poco y volver a
pensar cómo estás encarando la tarea. En este programa, aprendimos sobre muchísimas herramientas que puedes usar como
analista de datos. Pronto, aprenderás sobre una más: R. Ya hablaremos sobre R, pero te voy a dar una pequeña introducción
para que te entusiasmes. R es otro lenguaje de programación, pero no es un lenguaje de base de datos como SQL. Es un
lenguaje de programación que suele usarse para análisis estadístico, visualización y otros tipos de análisis de datos. R no es
igual a otras herramientas con las que hemos trabajado, pero es un complemento genial para las herramientas que ya usas. Y
te dará algunas otras posibles soluciones cuando tengas problemas. Si usas las habilidades de razonamiento que aprendiste en
este programa, los términos correctos y tu conocimiento sobre las distintas herramientas de análisis, estarás listo para los
próximos pasos de este proceso: ponerte a buscar respuestas en línea. Hay muchísimos recursos, por ejemplo, sitios web y
foros de ayuda para programación en los que otros analistas de datos hacen preguntas y las responden. En un vídeo anterior,
tuvimos un problema cuando intentamos calcular el tiempo que pasa entre los recorridos en bicicleta y los datos de bicicletas
de uso compartido. Quizá, nuestra primera búsqueda, "Calcular tiempo en hojas de cálculo", no nos brindó las respuestas que
necesitábamos. Si pensamos en la pregunta específica que queremos responder y cómo otros analistas de datos hacen la
misma pregunta, podemos cambiar la búsqueda: "Fórmula condicional para calcular tiempo transcurrido en hojas de cálculo".
Ahora, tenemos soluciones más específicas para nuestro problema. Por último, es muy útil poder modificar el código de
ejemplo según nuestras necesidades. Cuando entiendes la sintaxis de las fórmulas y las funciones de distintas herramientas,
puedes usar lo que aprendiste en línea y hacer que funcione para ti. Quizá sigues avanzando por ese camino y creas una
solución completamente nueva. Un buen ejemplo es la fórmula MOD que generamos para contabilizar los viajes que
empezaron un día y terminaron al día siguiente para los datos de bicicletas de uso compartido. La fórmula MOD que
encontramos en línea no se creó específicamente para los datos con los que trabajábamos. Pero como conocemos las
herramientas de la hoja de cálculo, pudimos usarla con nuestros datos como solución a nuestro problema. Los buenos analistas
de datos saben cómo buscar recursos en línea y usarlos para crear nuevas soluciones para los problemas que tienen. Cuando
pones en práctica las habilidades de razonamiento que aprendiste en este programa y usas el conocimiento que tienes sobre
herramientas de análisis computacional de datos y sobre términos, tú también puedes crear soluciones. Una vez que
encuentres algunas respuestas a tus problemas, podrás desarrollarlas para tu trabajo de análisis y superar cualquier desafío
que enfrentes.

Cuándo usar cada herramienta


Guardar nota

Hola. En estos vídeos, te presentamos las hojas de cálculo, SQL y muchas otras herramientas. También hablamos sobre elegir la
herramienta indicada antes de empezar un proyecto. Pero, a veces, sientes que algún problema te impide avanzar con el
análisis de datos. Quizá es hora de repensar qué herramienta estás usando para tu trabajo. Por ejemplo, si trabajas con una
hoja de cálculo simple, quizá de cinco a diez filas y unas pocas columnas, las tablas dinámicas sirven mucho para visualizar tus
datos. Pero si tu hoja de cálculo tiene más de un millón de filas, se empezará a colgar, y es posible que la tabla dinámica no se
complete. Cuando trabajas con una hoja de cálculo enorme que se sigue colgando, quizá es mejor pasar a SQL para extraer los
datos que necesitas de diferentes ubicaciones en la base de datos y no de una sola hoja de cálculo. Quizá recuerdes que SQL
puede manejar billones de filas de datos y, hoy por hoy, es uno de los lenguajes estándar para trabajar con programas de base
de datos. SQL es una herramienta excelente de consulta, actualización y optimización de datos. Pero si intentas analizar tus
datos solo con SQL, puede que se complique un poco todo. A medida que progreses como analista de datos, puede que pases
muchísimo tiempo creando consultas largas y anidadas y, luego, depurándolas. Quizá sea momento de buscar otra
herramienta, como R. R es una herramienta nueva que vamos a explorar más adelante, pero, por ahora, te contaré un poco
sobre ella para despertar tu curiosidad. R es otro lenguaje de programación, pero no es un lenguaje de base de datos como
SQL. Es un lenguaje de programación que suele usarse para análisis estadístico, visualización y otros tipos de análisis de datos.
R no es igual a otras herramientas con las que hemos trabajado, pero es un complemento genial para las herramientas que ya
usas. Con R, podrás analizar y visualizar datos de muchas formas innovadoras. Ya hablaremos sobre R, pero espero que esta sea
una buena introducción para entusiasmarte. Como analista de datos, es importante tener distintas herramientas en tu kit, pero
también es importante saber cómo usarlas. Si sientes que no puedes avanzar porque tienes un problema, una buena idea es
retroceder un poco y volver a pensar cómo estás encarando la tarea. ¿Tienes demasiados datos en una sola hoja de cálculo?
Pásate a SQL. ¿Pasas más tiempo depurando consultas que analizando datos? ¿Por qué no probar R? Ahora también sabes
buscar respuestas en línea. Así que si alguna vez tienes un problema y necesitas una herramienta distinta, una búsqueda rápida
puede ser muy útil. Quizá haya recursos en línea o alguien más ya tuvo ese problema y publicó algo al respecto. Es muy útil
cuando sientes que te atascaste con un problema, y quizá hasta encuentres una nueva forma de usar una herramienta que ya
conoces. Eso nos lleva al final de este módulo. Buen trabajo. Hemos cubierto muchísima información. Aprendimos a convertir y
formatear datos, a combinar distintos tipos de datos, y a buscar ayuda cuando necesitamos una mano durante el análisis. A
continuación, podrás hacer el desafío semanal. Como siempre, siéntete libre de volver a repasar lo que aprendimos en estos
vídeos. Nos vemos en el próximo vídeo. Buena suerte.

Pregunta
R es un lenguaje de programación: ¿para qué tareas se usa habitualmente? Selecciona todas las opciones que
correspondan.
1. Análisis estadístico
Correcto
R es un lenguaje de programación que suele usarse para análisis de datos, análisis estadístico y visualización.
2. Análisis de datos
Correcto
R es un lenguaje de programación que suele usarse para análisis de datos, análisis estadístico y visualización.
3. Visualización
Correcto
R es un lenguaje de programación que suele usarse para análisis de datos, análisis estadístico y visualización.
4. Protección de datos
Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Lista de citas programadas

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las oportunidades
de mejora en el futuro

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la eliminación
de información que pueda asociarse a ellas

Apertura: Aspecto de la ética de los datos que promueve el acceso libre, el uso y el uso compartido de los datos

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores

Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido

Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato comprimido
como por ejemplo MP4, MV4, MOV, AVI o FLV

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango seleccionado

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones

Base de datos: Recopilación de datos almacenados en un sistema informático

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otra cosa
C
Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

CASE: Instrucción SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

CAST: Función SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar, analizar,
archivar y destruir

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver clave
externa)

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos

Consulta: Solicitud de datos o información de una base de datos

Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger una
hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se puede
arrastrar a través de las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

COUNT: Función de la hoja de cálculo que cuenta la cantidad de celdas en un rango que cumplen con un criterio específico

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas que coinciden con un valor especificado
D
DATEDIF: Función de una hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos

Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema tiene
datos en varias filas

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas

Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos

Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos, correctos y que son pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de manera fácilmente identificable

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordinales: Datos cualitativos con un orden o escala establecidos

Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos


Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diseño de datos: Cómo se organiza la información

DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar y
compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y organizar
datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes específicas

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados

Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de una hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG


FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función matemática: Función que se utiliza como parte de una fórmula matemática

Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Fusión: Acuerdo que une dos organizaciones en una organización nueva

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

Hoja de cálculo: Hoja de cálculo digital

I
Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura confiable

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población

L
LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene
Length: Número de caracteres en una cadena de texto

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

MAX: Función de la hoja de cálculo que muestra el resultado del valornumérico más alto de un rango de celdas

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada y
lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer, tanto
en el campo profesional como el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Metadatos: Datos sobre los datos

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un todo
N
Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Operador: Símbolo que designa la operación o cálculo a realizarse

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones

Ordenación: Proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de entender,
analizar y visualizar

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de conducir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas

P
Panel: Herramienta que monitorea los datos entrantes en vivo

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Pensamiento analítico: Identificar y definir un problema para luego resolverlo mediante el uso de datos de manera organizada,
paso a paso

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con otras
áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente
Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente relacionadas
entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente
Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta

Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que proporciona
y que tiene control primordial sobre su uso, procesamiento y uso compartido

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Q
Quitar duplicados: Herramienta de una hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

R
Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango: Conjunto de dos o más celdas en una hoja de cálculo

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila

Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones

Repositorio de metadatos: Base de datos creada para almacenar metadatos


Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver Sesgo del observador)

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria

Sintaxis: Estructura predeterminada de un lenguaje, que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación

SPLIT: Función que divide el texto en función de un carácter específico y ubica cada fragmento en una nueva celda separada

SQL: (Ver Lenguaje de consulta estructurado)

Subcadena: Subconjunto de una cadena de texto

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

T
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados significativos
Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo
de datos de texto)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo de
datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que puede
realizar

Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial

Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes de sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o de


una computadora a otra

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

U
Único: Valor que no puede tener un duplicado

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de datos

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos resultantes
son precisos y confiables

Visualización de datos: Representación gráfica de los datos

Visualización: (Ver Visualización de datos)

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados
CUESTIONARIO

1.
Pregunta 1

Un analista nota que el número “160” en la celda A9 tiene formato de texto, pero debería ser dólares australianos. ¿Qué
herramienta de la hoja de cálculo podría ayudarlo a seleccionar el formato correcto?
1 / 1 punto

Formato de moneda
Formato de dólar
EXCHANGE
CURRENCY
Correcto

La herramienta Formato de moneda se puede usar para cambiar el texto a dólares australianos.
2.
Pregunta 2

Creaste una hoja de cálculo que te ayude a buscar trabajo. Cada vez que encuentras un trabajo que te interesa, lo
agregas a la hoja de cálculo. Luego, tienes que marcar alguna de las dos opciones posibles: Tengo que postularme o Ya
me postulé. Para ahorrar tiempo, ¿qué herramienta de la hoja de cálculo te permitiría crear una lista desplegable con las
opciones Tengo que postularme o Ya me postulé?
0 / 1 punto

Validación de datos
Formato condicional
Buscar
Menús emergentes
Incorrecto

Si necesitas hacer un repaso, vuelve a ver el vídeo sobre funciones de la hoja de cálculo para formatear datos.
3.
Pregunta 3

Un analista de datos de recursos humanos está usando una hoja de cálculo para realizar un seguimiento del aniversario
de trabajo de los empleados. Agrega color a la celda de los empleados que hayan trabajado en la empresa durante 10
años o más. ¿Qué herramienta de la hoja de cálculo usa para cambiar el formato de las celdas cuando el valor es igual a
10 o superior?
1 / 1 punto

Validación de datos
CONVERT
Añadir color
Formato condicional
Correcto

El formato condicional cambia la forma en que se ven las celdas cuando los valores cumplen con condiciones
específicas, como tener un valor igual a 10 o superior.
4.
Pregunta 4

Estás trabajando con una base de datos de SQL que contiene tablas para rutas de entrega en California. La tabla
contiene una columna con los nombres de los puntos de retiro. Otra columna de la misma tabla contiene los nombres de
los puntos de entrega. ¿Qué función usarías para crear una tercera columna que contenga ambos nombres, es decir, los
de retiro y los de entrega?
1 / 1 punto

COMBINE
CONCAT
GROUP
JOIN
Correcto

Usarías la función CONCAT, que te permite unir distintas cadenas de texto de fuentes diferentes.
5.
Pregunta 5
Estás consultando una base de datos sobre sabores de helado para ver qué tiendas venden la mayor cantidad de menta
granizada. Para tu proyecto, solo necesitas los primeros 80 registros. ¿Qué cláusula deberías agregar a la siguiente
consulta de SQL?

1 / 1 punto

LIMIT_80
LIMIT = 80
LIMIT,80
LIMIT 80
Correcto. Para obtener resultados de los primeros 80 registros, escribe LIMIT 80.

6.
Pregunta 6

Completa el espacio en blanco: Un analista de datos está trabajando con una hoja de cálculo que tiene cadenas de texto
muy largas. Usa la función LEN para contar la cantidad de _____ en las cadenas de texto.
1 / 1 punto

1. campos
2. valores
3. caracteres
4. subcadenas
Correcto

Usa la función LEN para contar la cantidad de caracteres en las cadenas de texto.
7.
Pregunta 7

La celda F2 de la hoja de cálculo contiene la cadena de texto “Tablero de instrumentos”. Para que devuelva la subcadena
“instrumentos”, ¿cuál sería la sintaxis correcta?
1 / 1 punto

=LEFT(5,F2)
=RIGHT(5,F2)
=RIGHT(F2, 5)
=LEFT(F2, 5)
Correcto. La función =RIGHT(F2, 5) mostrará como resultado “instrumentos”. La función RIGHT arroja un número
establecido de caracteres a la derecha de una cadena de texto. En este caso, muestra una subcadena de cinco
caracteres desde el final de la cadena de texto en la celda F2 si empezamos por la derecha.

8.
Pregunta 8

Cuando los analistas de datos trabajan con una hoja de cálculo, pueden usar la función WHERE para ubicar ciertos
caracteres específicos en una cadena.
0 / 1 punto

verdadero
falso

7.
Pregunta 7

La celda L6 de la hoja de cálculo contiene la cadena de texto “Función”. Para que devuelva la subcadena “Fun”, ¿cuál
sería la sintaxis correcta?
1 / 1 punto
=RIGHT(3,L6)
=LEFT(3,L6)
=LEFT(L6, 3)
=RIGHT(L6, 3)
Correcto. La función =LEFT(L6, 3) mostrará como resultado “Fun”. La función LEFT devuelve un número establecido de
caracteres a la izquierda de una cadena de texto. En este caso, muestra una subcadena de tres caracteres desde el final
de la cadena de texto en la celda L6 si empezamos por la izquierda.

8.
Pregunta 8

Cuando los analistas de datos trabajan con una hoja de cálculo, pueden usar la función FIND para ubicar ciertos
caracteres específicos en una cadena. Como la función FIND distingue entre minúsculas y mayúsculas, es necesario que
escribas la subcadena exactamente como aparece en la hoja de cálculo.
1 / 1 punto

verdadero
falso
Correcto. Como la función FIND distingue entre minúsculas y mayúsculas, es necesario que escribas la subcadena
exactamente como aparece en la hoja de cálculo.

MODULO 3
Agregar datos para análisis
¡Bienvenido nuevamente! En los próximos vídeos, exploraremos algo que se llama agregación de datos. Agregación significa
recolectar o juntar muchas partes separadas en un todo. Por ejemplo, la Vía Láctea es una agregación de estrellas, polvo y
gases. Y la agregación de datos es el proceso de recolectar datos de múltiples fuentes para combinarlos en una sola colección
resumida. En el análisis computacional de datos, una colección resumida, o resumen, es identificar los datos que necesitas y
reunirlos todos en un lugar. Por ejemplo, digamos que tienes un armario lleno de rompecabezas. Un día, una repisa se rompe y
todas las cajas se caen, desperdigando las piezas de los rompecabezas por todos lados. Para volver a organizar cada
rompecabezas, necesitas identificar las piezas que corresponden a cada rompecabezas, juntarlas y volverlas a poner en las
cajas correctas. Solo entonces puedes trabajar con esas piezas y crear una imagen completa. Por eso es que en el análisis de
datos, las piezas del rompecabezas representan los datos contenidos en conjuntos de datos diferentes. Organizarlos es el
proceso de agregación. Luego las pilas de piezas que completan un solo rompecabezas se convierten en tu resumen. Y, por
último, volver a juntar esas piezas es como analizarlas para sacar conclusiones importantes. La agregación de datos ayuda a los
analistas de datos a identificar tendencias, hacer comparaciones y sacar conclusiones que no serían posibles analizando cada
uno de los elementos de los datos por separado. Por ejemplo, los datos sobre graduaciones de secundaria para estudiantes
individuales se pueden agregar a una sola tasa de graduación para toda una clase. Los datos también se pueden agregar en un
período determinado para brindar estadísticas, como promedios, mínimos, máximos y sumas. Por ejemplo, esos mismos datos
de tasa anual de graduación pueden volver a agregarse en un resumen que nos muestre las tasas de graduación por distrito,
estado y país. Aquí tienes otro ejemplo. Digamos que tienes datos sobre ventas inmobiliarias anuales en un vecindario puntual
durante los últimos 10 años. Si agregaras todos esos datos, podrías descubrir el precio promedio de una casa en esa zona y
cómo los valores aumentaron o disminuyeron con el tiempo. Las funciones ayudan mucho a posibilitar la agregación de datos.
Pronto aprenderás a usar algunas de las más comunes para crear resúmenes. Además, hablaremos sobre agregar datos usando
algo que se llama subconsulta. Ya has visto el SQL en acción y comprendes que una consulta es una solicitud de información
proveniente de una base de datos. Por lo tanto, una subconsulta, también llamada consulta interna o anidada, es una consulta
dentro de otra consulta. Después de los próximos vídeos, sabrás cómo agregar datos y comprenderás las herramientas que
usarás en el camino. ¡Empecemos!

Preparar para VLOOKUP


Hola de nuevo. En este vídeo, prepararemos nuestros datos para VLOOKUP, una herramienta de agregación de datos. Como ya
aprendiste, la agregación de datos es el proceso de recolectar datos de múltiples fuentes para combinarlos en una sola
colección resumida. La agregación de datos puede darte todo tipo de información sobre los datos que estás mirando. Por
ejemplo, en marketing, puedes agregar datos de una campaña publicitaria para ver cómo le fue a lo largo del tiempo y con
clientes particulares. Las agencias de viajes usan agregación de datos para averiguar cuánto cobran sus competidores por un
determinado vuelo, habitación de hotel o tipo de auto de alquiler. Luego, pueden asegurarse de ponerle un precio lo más
competitivo posible a sus propios productos. Una cosa que todas estas empresas tienen en común es que pueden usar
VLOOKUP para ayudarles a alcanzar estos objetivos. A modo de recordatorio, VLOOKUP quiere decir búsqueda vertical.
Básicamente es una función que busca un determinado valor en una columna para devolver la información correspondiente.
Previamente, usamos VLOOKUP para tomar el valor de una celda y buscar una coincidencia en otra. Pudimos hacer coincidir un
código de producto con números y letras que había en una hoja de cálculo con el nombre real del producto que estaba en otra
hoja. Pero antes de que pueda hacerse todo eso, necesitamos asegurarnos de que nuestros datos estén bien preparados.
Como escuchaste muchas veces, los datos limpios tienen muchas más probabilidades de darte resultados precisos.
Empecemos con la primera tarea común de limpieza de datos: los diferentes tipos de datos. Por ejemplo, las fechas de un
conjunto de datos podrían formatearse como números o los números podrían representarse como cadenas de texto en vez de
valores numéricos. Cuando los datos no están en un formato uniforme o en un formato que la aplicación de hoja de cálculo
reconoce, VLOOKUP no sabrá qué hacer con esos datos, y dará error. Anteriormente, aprendiste cómo convertir números a
fechas usando la herramienta de Formato. Ahora, enfoquémonos en convertir texto a valores numéricos. Para hacerlo, podrías
usar el menú de Formato para seleccionar un tipo de número, pero también podrías usar la función VALUE. VALUE es una
función que convierte una cadena de texto que representa un número en un valor numérico. Aquí hay un ejemplo. En esta hoja
de cálculo, los números en la columna A actualmente son cadenas de texto. Podemos confirmarlo ejecutando una función
simple de SUM. La sintaxis es signo igual SUM, abre paréntesis, y luego los ítems que quieres sumar. Aquí, es de la A2 a la A4.
Los dos puntos dicen que incluimos todo entre estas dos referencias. Ahora puedes agregar un paréntesis de cierre y presionar
Enter o puedes hacer clic y arrastrar las celdas que quieres dentro del paréntesis para ahorrar un poco de tiempo. El resultado
es cero. Eso es porque la función no funciona en cadenas de texto. Pero si aplicamos la función VALUE, convierte
automáticamente ese texto en un valor numérico. Para hacerlo, escribiremos signo igual VALUE, luego un paréntesis abierto.
Dentro, hacemos referencia a la celda cuyo valor queremos convertir, en este caso A2. Ahora, si cerramos el paréntesis y
presionamos Enter, verás que el 1, 2, 3 es numérico. Si lo arrastramos por la columna, el 4, 5, 6 y 7, 8, 9 también se hacen
numéricos. Ahora podemos ponerlo a prueba ejecutando otra función SUM. Escribiremos signo igual SUM y un paréntesis
abierto, luego B2, dos puntos y B4. B2, B3 y B4 están incluidos en la suma. Cierra el paréntesis y presiona Enter. Ahora muestra
que el total es 1,368. El siguiente error común se origina en tener espacios adicionales en tu hoja de cálculo. Como aprendiste,
cuando los datos se copian de una fuente a la otra, a veces se acoplan algunos espacios al principio o al final. Estos espacios
pueden causar problemas al usar VLOOKUP. Debemos asegurarnos de usar TRIM durante el proceso de limpieza de datos. TRIM
borra automáticamente cualquier espacio adicional agregado a la celda. Otro error típico en VLOOKUP, que se puede detectar
fácilmente en la limpieza de datos, son los duplicados. Si existen filas duplicadas en la búsqueda, devolverá solo la primera
coincidencia que encuentre. Como ya aprendiste, Quitar duplicados es una herramienta que automáticamente busca y elimina
entradas duplicadas de una hoja de cálculo. El uso de Quitar duplicados, como viste en un vídeo hace un rato, es una manera
excelente de eliminar duplicados y ayudar a asegurarte de encontrar el registro correcto durante la búsqueda. Siempre es
bueno recordar que los datos limpios son la base sobre la que se construye todo lo demás. VLOOKUP puede ser una
herramienta muy útil para limpiar datos. En el siguiente vídeo, seguiremos explorando más maneras en que puedes usar
VLOOKUP. Nos vemos ahí.

La función VALUE convierte la cadena de texto en un valor numérico.

VLOOKUP en acción
¡Hola y bienvenido nuevamente! En un vídeo anterior, hablamos de VLOOKUP para limpieza de datos. También
analizamos la importancia de preparar nuestra hoja de cálculo antes de usar VLOOKUP. Ahora vamos a verla en acción.
A modo de recordatorio, VLOOKUP es una función de hoja de cálculo que busca verticalmente un valor determinado en
una columna para devolver la información correspondiente. Empecemos con la sintaxis de VLOOKUP. En este ejemplo,
103 es un valor a buscar. A2:B26 es el rango en que se buscará. Quizás recuerdes que VLOOKUP no reconoce nombres
de columna como A, B, o C. Usamos un número para indicar la columna. Por último, FALSE le indica a VLOOKUP que
encuentre una coincidencia exacta. Si esto dijera <i>true</i>, la función devolvería solo una coincidencia cercana, que
podría no ser lo que queremos. Ahora usemos VLOOKUP. Una de las cosas más comunes que hacen los analistas de
datos con VLOOKUP es rellenar datos en una hoja de cálculo proveniente de otra. Aquí hay un ejemplo. Digamos que
trabajamos con datos que están en dos hojas de cálculo diferentes, pero necesitamos información de ambas para
responder a nuestra pregunta de negocios. VLOOKUP puede conectar dos hojas entre sí en una columna coincidente
para rellenar una sola hoja. Vamos a analizarlo. En esta hoja de cálculo, tenemos números de ID de empleados y sus
tarifas. En esta hoja de cálculo, tenemos los mismos números de ID de empleados y cuántas horas trabajó cada persona.
Podemos usar VLOOKUP para buscar su tarifa en la hoja de cálculo de tarifas de empleados y agregarla a la hoja de
cálculo de horas de los empleados. La fórmula es signo de igual VLOOKUP abro paréntesis, después A2, que es el
primer número de ID de empleado y la hoja de cálculo de horas de los empleados. Luego agregamos una coma y el
nombre de la hoja de cálculo en la que queremos buscar: tarifas de los empleados. Asegúrate de colocar comillas
simples alrededor del nombre de la hoja de cálculo y agregar un signo de exclamación después del nombre. Esta es la
manera de hacer referencia a la otra hoja de cálculo. Ahora, añadimos el rango, que es de A2 a B5. Como viste en un
vídeo anterior, también podemos optar por agregar signos de dólar para bloquear el rango con referencias a celdas
absolutas. Esto evita que cambien al copiar la fórmula a otras celdas. Agrega otra coma, luego un dos. El dos indica que
queremos buscar una coincidencia en la segunda columna, la columna B, para la tarifa. Por último, una coma más y
agregamos <i>false</i> para buscar una coincidencia exacta. Arrastra la fórmula hacia abajo en la columna y ahora
podemos usar una fórmula de multiplicación simple para calcular el sueldo de cada persona multiplicando las horas
trabajadas por nuestra columna recién creada de tarifa. ¡Excelente trabajo! En una próxima lectura, aprenderás aún más
sobre VLOOKUP y accederás a recordatorios y recursos útiles sobre VLOOKUP. VLOOKUP es una de las funciones más
complicadas, así que sigue practicando.

Si ingresas FALSE como el último parámetro de entrada en una función VLOOKUP, VLOOKUP buscará _____.
una coincidencia exacta
la coincidencia más cercana
una cadena de texto
un valor numérico
Correcto. Si ingresas FALSE como el último parámetro de entrada en una función VLOOKUP, VLOOKUP buscará
una coincidencia exacta.

Identificación de errores comunes en VLOOKUP


Cuando las personas empiezan a trabajar en análisis computacional de datos, a menudo piensan que quienes estamos en el
campo hace un tiempo sabemos todo. Pero, créanme, todos seguimos aprendiendo cosas. Y gran parte del tiempo eso significa
resolver problemas. La resolución de problemas se refiere a hacer la preguntas correctas, y en esto nos centraremos en el este
vídeo. Aprenderemos a usar la resolución de problemas para resolver todo tipo de problemas. Para hacerlo, necesitaremos
hablar de algunas de las limitaciones de VLOOKUP y luego practicar cómo resolver los problemas más comunes que enfrentan
los analistas de datos. Algunas de las preguntas de resolución de problemas que me gusta hacerme: ¿Cómo debería priorizar
estos temas? Intentar resolver muchos problemas juntos puede ser algo abrumador. Siento que es útil abordar de a un tema a
la vez Luego pregunto: En una sola oración, ¿qué problema enfrento? Esto ayuda a aclarar qué es lo que pasa realmente,
entonces no me enredo con detalles adicionales. A fin de cuentas, si no tienes una meta clara antes de analizar los datos,
puedes encontrar cualquier cosa. Siempre es mejor empezar entendiendo bien la situación uno mismo. Luego dejar que los
datos te indiquen si estás o no en el camino correcto. La siguiente pregunta que me hago es, ¿Qué recursos me pueden ayudar
a resolver el problema? Internet es uno de los mejores recursos que existen. Si tienes una pregunta, probablemente miles de
otras personas se toparon con lo mismo. Por eso, puede ser muy útil hacer una búsqueda rápida. Y es bueno recordar que las
personas también son recursos. No tengas miedo a hacer preguntas. No solo es una gran manera de aprender, sino que
también puede ayudarte a desarrollar grandes relaciones con tus colegas. Y una pregunta final importante que me hago:
¿Cómo puedo evitar que este problema se produzca en el futuro? Si un nuevo procedimiento o directriz puede evitar que
vuelva a surgir el mismo problema, eso ahorra mucho tiempo. Muy bien. Comencemos observando que VLOOKUP solo
devuelve la primera coincidencia que encuentra, aun si existen muchas coincidencias posibles. Otra cosa a tener en cuenta es
que VLOOKUP solo puede devolver un valor de los datos a la derecha. No puede ver lo de la izquierda.

Buenas noticias. Existe una solución simple. Los analistas de datos generalmente resuelven el problema copiando y pegando
una columna a la izquierda de los datos que quieren analizar. De esa manera, el valor de búsqueda está en la columna más a la
izquierda y los datos que quieren están a la derecha.

Este es otro problema que veo mucho. Digamos que las primeras filas de una VLOOKUP devolvieron el resultado correcto. Pero
cuando vas bajando la función por la columna, empiezan a surgir problemas.

Esto probablemente se deba a que la parte de matriz de tabla de la función no se ha bloqueado o hecho absoluta.

Una referencia absoluta es una referencia que está bloqueada para que las filas y columnas no cambien al copiarse. Puedes
resolver este problema encapsulando la matriz de tabla en signos de dolar. Como aprendiste antes, el signo de dólar controla
cómo se actualizará la referencia. Garantiza que la parte correspondiente de la referencia no cambie. Otra cosa que puede
afectar tus resultados VLOOKUP son los problemas de control de versión. Es decir, una función al principio funcionaba
perfectamente, pero después algo cambió en la hoja de cálculo a la que hacía referencia. Por ejemplo, quizás un usuario
insertó una columna. Entonces ahora las columnas en tu función ya no dirigen a VLOOKUP al lugar correcto. Cuando sucede
algo así, devolverá un valor incorrecto. Existen algunas cosas que los analistas de datos pueden hacer para asegurarse de que
esto no suceda. Primero, bloquear la hoja de cálculo. Esto evita que otras personas hagan cambios.
Para hacerlo en Sheets, selecciona Datos, luego Hojas protegidas y rangos. En otras aplicaciones de hojas de cálculo, existen
herramientas que hacen lo mismo. Luego, elige qué quieres proteger. En este caso, queremos proteger toda la hoja. Luego
puedes fijar permisos para mostrar una advertencia o restringir quién puede editar. Elige que solo tú, y después Aceptar.

Pero ten en cuenta que habrá veces en que otras personas necesiten trabajar en la hoja de cálculo, entonces bloquearlos
podría traerte problemas con tus colegas. En ese caso, puedes usar MATCH, que es una función usada para ubicar la posición
de un valor de búsqueda específico y puede ayudarte con el control de versiones. Ahora no entraremos en ese tema, pero solo
quiero que sepas que esa es una opción, en caso de que alguna vez la necesites. El problema final que abordaremos tiene que
ver con las coincidencias exactas y aproximadas. Al usar VLOOKUP, probablemente obtengas diferentes resultados,
dependiendo de si escribes la palabra TRUE o FALSE dentro de tu función. TRUE le indica a VLOOKUP que busque coincidencias
aproximadas, y FALSE le indica a VLOOKUP que busque coincidencias exactas. Entonces si una función luce así, le dice a
VLOOKUP que busque la coincidencia más cercana al texto o número que buscamos. Es importante saber que VLOOKUP
comienza en la parte superior de un rango especificado y busca hacia abajo verticalmente en cada celda para encontrar el valor
correcto. Deja de buscar cuando encuentra cualquier valor superior o igual al valor de búsqueda.

Es por eso que los analistas de datos generalmente usan FALSE, así. De esa manera, VLOOKUP solo devuelve la coincidencia
exacta con lo que escribiste en el valor de búsqueda. VLOOKUP es una de las funciones de búsqueda y referencia más
populares en las hojas de cálculo. También es una de las más complicadas. A continuación, aprenderás sobre otros de estos
desafíos comunes. Todo lo que aprenderás te ayudará a tener menos problemas cuando comiences a usar VLOOKUP como
futuro analista de datos.

VLOOKUP solo devuelve la primera coincidencia que encuentra dentro de un rango especificado y solo puede buscar en
columnas a la derecha.

En la función =VLOOKUP(K2,'Sheet 4'!A:B,2,TRUE), ¿qué indica la palabra TRUE?


TRUE le indica a VLOOKUP que inicie en la parte superior del rango especificado.
TRUE le indica a VLOOKUP que busque coincidencias aproximadas.
TRUE le indica a VLOOKUP que busque coincidencias exactas.
TRUE le indica a VLOOKUP que busque la mayor cantidad de coincidencias que pueda dentro del rango
especificado.
Correcto
En la función =VLOOKUP(K2,'Sheet 4'!A:B,2,TRUE), TRUE le indica a VLOOKUP que busque
coincidencias aproximadas.

Conceptos centrales de VLOOKUP


Las funciones pueden usarse para encontrar información rápidamente y realizar cálculos usando valores específicos. En
esta lectura, aprenderás la importancia de una de estas funciones, VLOOKUP, o Vertical Lookup (búsqueda vertical),
que busca un valor determinado en una columna de hoja de cálculo y devuelve una información específica de la fila en la
que se encuentra el valor buscado.
¿Cuándo hace falta usar VLOOKUP?
Dos razones comunes para usar VLOOKUP son:

 Rellenar datos en una hoja de cálculo


 Combinar datos de una hoja de cálculo con datos de otra

Sintaxis de VLOOKUP
La función de VLOOKUP está disponible tanto en Microsoft Excel como en Google Sheets. Se te presentará la sintaxis
general en Google Sheets. (Puedes consultar los recursos al final de esta lectura para obtener más información acerca
de VLOOKUP en Microsoft Excel).

Esta es la sintaxis.

search_key
 El valor a buscar.
 Por ejemplo, 42, "Gatos", o I24.
range
 El rango a tener en cuenta para la búsqueda
 La primera columna en el rango se busca para ubicar datos que coincidan con el valor especificado por
search_key.
index
 El índice de columna del valor a devolver, en que la primera columna en el rango se numera 1.
 Si el índice no está entre 1 y el número de las columnas dentro del rango, se devuelve #VALUE!.
is_sorted
 Indica si la columna a buscar (la primera columna del rango especificado) está ordenada. TRUE como valor
predeterminado.
 Se recomienda configurar is_sorted en FALSE. Si está configurada en FALSE, se devuelve una coincidencia
exacta. Si existen múltiples valores coincidentes, se devuelve el contenido de la celda que corresponde al primer
valor encontrado y si no se encuentra un valor coincidente, se devuelve #N/A.
 Si is_sorted es TRUE o se omite, se devuelve la coincidencia más cercana (menor o igual a la clave de
búsqueda). Si todos los valores en la columna de búsqueda son mayores a la clave de búsqueda, se devuelve
#N/A.

¿Qué pasa si aparece #N/A?


Como acabas de leer, #N/A indica que no se puede devolver un valor coincidente como resultado de VLOOKUP. El error
no significa que haya algo que esté realmente mal con los datos, pero las personas pueden tener preguntas si ven el
error en un informe. Puedes usar la función IFNA para reemplazar el error #N/A con algo más descriptivo, como “Does
not exist” (no existe).

Esta es la sintaxis.

value
 Este es un valor requerido.
 La función verifica si el valor de la celda coincide con el valor, como #N/A.
value_if_na
 Este es un valor requerido.
 La función devuelve este valor si el valor de la celda coincide con el valor en el primer argumento; devuelve este
valor cuando el valor de la celda es #N/A.

Recordatorios útiles de VLOOKUP


 TRUE significa una coincidencia aproximada, FALSE significa una coincidencia exacta en la clave de búsqueda.
Si los datos usados para la clave de búsqueda están ordenados, se puede usar TRUE.
 Lo deseable es que la columna que coincide con la clave de búsqueda en una fórmula de VLOOKUP esté en el
lado izquierdo de los datos. VLOOKUP solo observa datos a la derecha después de que se encuentra una
coincidencia. En otras palabras, el índice para VLOOKUP indica columnas a la derecha únicamente. Esto puede
requerir que muevas las columnas de lugar antes de usar VLOOKUP.
 Después de haber rellenado datos con la fórmula VLOOKUP, puedes copiar y pegar los datos como valores
solamente para quitar las fórmulas para que puedas volver a manipular los datos.

Recursos de VLOOKUP para Microsoft Excel


VLOOKUP puede diferir levemente en Microsoft Excel, pero generalmente los conceptos generales pueden aplicarse de
todos modos. Consulta los siguientes recursos si trabajas con Excel.

Cómo usar VLOOKUP en Excel: Este tutorial incluye un vídeo para ayudarte a lograr una comprensión general de
cómo opera la función VLOOKUP en Excel, así como ejemplos prácticos para analizar.
 Tutorial de VLOOKUP en Excel: Sigue esta lección en vídeo y aprende cómo escribir una fórmula VLOOKUP en
Excel y domina consejos y trucos útiles para ahorrar tiempo.
 23 cosas que deberías saber sobre VLOOKUP en Excel: Explora esta lista de 23 hechos de VLOOKUP así como
desafíos que podrías tener y comienza a aprender cómo controlarlos.
 Cómo usar la función VLOOKUP de Excel: Este artículo comparte un ejemplo específico sobre cómo aplicar
VLOOKUP en tus búsquedas.
VLOOKUP en Excel versus Google Sheets: Esta guía ofrece una comparación de VLOOKUP en Excel y Google Sheets.
1.
Pregunta 1

Resumen de la actividad

Anteriormente, aprendiste acerca de VLOOKUP, una función que utiliza una búsqueda vertical para encontrar valores
específicos en una hoja de cálculo. En esta actividad, practicarás el uso de VLOOKUP para consolidar información entre
dos hojas de cálculo, limpiar datos y crear una tabla de resumen de una consulta.

Al completar esta actividad, podrás usar VLOOKUP para completar diversas tareas en hojas de cálculo. Esto te permitirá
limpiar y analizar datos con mayor eficiencia, lo cual es importante para trabajar con grandes conjuntos de datos en tu
carrera como analista de datos.

Lo que necesitarás

Para empezar, primero debes acceder a la Hoja de cálculo de práctica de VLOOKUP.

Haz clic en el enlace a la hoja de cálculo para crear una copia. Si no tienes una cuenta de Google, puedes descargar la
Hoja de cálculo de práctica de VLOOKUP directamente desde los siguientes archivos adjuntos:

Enlace a la hoja de cálculo: Hoja de cálculo de práctica de VLOOKUP

Descarga la Hoja de cálculo de práctica de VLOOKUP:

Busca con VLOOKUP

Si bien generalmente limpiarías tus datos antes de usar VLOOKUP, este primer paso ejemplificará por qué es importante
limpiar primero los datos.

Imagínate que tu investigación requiere que sepas cuántas horas trabajó un empleado en una fecha específica. Esto es
fácil de hacer manualmente en una hoja de cálculo pequeña y se dificulta a medida que crece la cantidad de información
o se distribuye en múltiples hojas de cálculo. La función VLOOKUP te brinda una manera de hacer que la hoja de cálculo
reúna la información por ti.

Supón que necesitas determinar cuántas horas trabajó el empleado Daniel Chan el 3 de enero de 2020. En la hoja de
cálculo que descargaste, es fácil observar qué número contiene el nombre de Daniel. Pero imagina que tienes miles de
empleados en tu hoja de cálculo. Quizás no sea fácil encontrar su nombre sin buscar cada celda. En este paso, usarás el
nombre de Daniel Chan como el lookup_value (valor de búsqueda) que a veces se conoce como clave de búsqueda, en
VLOOKUP.

La sintaxis de la función de VLOOKUP es =vlookup(valor_buscado, matriz_buscar_en, indicador_columnas,


[búsqueda_en_rango], verdadero/falso).

Busca la cantidad de horas que Daniel Chan trabajó el 3 de enero de 2020.

1. En B11digita Chan, Daniel.


2. En B12digita =VLOOKUP(B11, B2:E6, 4, false).

Como recordatorio, esta sintaxis significa que el valor de búsqueda está dentro de la celda B11, la matriz de la tabla
contiene las celdas B2 a E6, quieres buscar en la columna 4 de esta matriz, y quieres una coincidencia exacta. Recuerda que
columna se refiere a la columna de la matriz, que representa los límites de tu consulta.

3. Pulsa Enter (Windows) o Return (Mac). La celda ahora contendrá un error, #N/A.

Observa que la entrada para Daniel Chan tiene espacios adicionales después de la coma. Como B11 no contiene esos
espacios adicionales, la búsqueda indica un error.

Una opción para solucionarlo es ajustar el número de espacios hasta tener una coincidencia exacta. No obstante, esto no
es muy eficiente, y si pudieras identificar el nombre, probablemente solo usarías el número de celda para tu consulta.

La mejor manera de gestionarlo es recortar cualquier espacio adicional en los datos. Es por esto que es importante
limpiar tus datos antes de usar VLOOKUP.

Prepara los datos


Ahora, prepararás los datos para determinar con mayor facilidad cuántas horas trabajaron los empleados. Primero,
necesitas limpiar y etiquetar los datos. Luego puedes combinar datos de dos hojas de cálculo usando la fiel función
VLOOKUP.

Limpia y etiqueta los datos

Para recortar los datos, sigue estos pasos:

1. En la celda B15escribe =trim(B2).

2. Haz clic y arrastra hacia abajo la esquina inferior derecha de la celda hasta llegar a B19. El resto de los nombres se
rellenarán.

Para este ejercicio, no estás reemplazando los datos recortados en la tabla original. Hay muchos casos en los que
necesitas limpiar los datos para tu uso, pero no quieres modificar datos en el conjunto con el que trabajas.

3. Desplázate por debajo de los datos originales. En la celda C15 escribe =value(C2).

4. Haz clic en la esquina inferior derecha de la celda y arrastra la celda hacia abajo para rellenar las horas de los demás
empleados.

También es útil etiquetar las diferentes columnas de los datos. El trabajo con datos se embrolla con facilidad, y es
importante mantener un registro de tus referencias de valor.

Ingresa en las siguientes etiquetas:

B14: Nombres

C14 – H14: (Ingresa las fechas 1/1/2020 a 1/6/2020)

I14:Horas

J14: Tarifa
K14: Pago total

Rellena y suma las horas restantes

Usa celdas ya rellenadas en C15 a C19 para rellenar las horas restantes que se necesitan para cada empleado.

1. Haz clic y arrastra la esquina de C15a H15para rellenar las horas restantes de Daniel Chan.

2. Repite este proceso con los empleados restantes.

Ahora, rellena la columna de Horas para los empleados.

3. En la celda I15 escribe =sum(C15:H15).

4. Haz clic y arrastra hacia abajo la equina inferior de la celda I15 para rellenar las sumas para los empleados restantes.
Importa los datos de tarifas

Quizás hayas notado que falta la información de tarifas en la hoja de cálculo. El análisis de datos a menudo requiere que
se importe información de diferentes fuentes de datos. En este caso, los datos requeridos están en la Hoja2 Para
importar estos datos:

1. Haz clic en Hoja2, que puedes encontrar en la parte inferior de la hoja de cálculo. En esta hoja, se encuentran datos
sobre ID de empleados, fecha de contratación (DOH), estado y tarifa .

Ahora, usa VLOOKUP para importar datos de tarifas.

2. En J15 (de la hoja 1) escribe: =VLOOKUP(A2, Sheet2!$A$2:$D$6, 4, false).Analiza la sintaxis de esta función de
VLOOKUP:

A2 hace referencia a la celda A2 en la Hoja1.

Nota: En la Hoja2, la tarifa, y los campos relacionados, tienen como referencia la ID en vez del nombre del empleado.
Necesitas usar la ID del empleado para importar la tarifa de la Hoja2.

Sheet2! se refiere a la hoja desde la cual quieres acceder a los datos.


$A$2:$D$6se refiere a las celdas que conforman la matriz de la tabla. El $ que se coloca frente a las pestañas de
columna y los números de celda bloquea la fórmula para que se pueda copiar arrastrando hacia abajo la celda J15 para
importar la tarifa de los otros empleados.

4hace referencia a la columna de la que provendrá el valor devuelto. 4 significa que el valor devuelto provendrá de la
cuarta columna en la matriz seleccionada.

False significa que quieres una coincidencia exacta, carácter por carácter, con el valor de búsqueda. Si en cambio
colocas true, VLOOKUP devolverá una coincidencia aproximada (o la coincidencia más cercana disponible) del valor de
búsqueda. Esto no se usa muy a menudo en situaciones reales.

3. Rellena la tarifa de los empleados restantes arrastrando hacia abajo la esquina de la celda para copiar la fórmula.

Ahora, calcula el pago total.

4. En K15escribe =product(I15, J15).

5. Arrastra la celda K15 hacia abajo para rellenar el pago total para los empleados restantes.

Crea una tabla de resumen


Ahora que los datos están limpios e incluyen información de tarifas, puedes crear una tabla de resumen, o tabla
dinámica. La sección siguiente demuestra cómo crear una tabla dinámica en Google Sheets. Si usas Excel, sigue la
documentación sobre cómo crear manualmente una Tabla dinámica en Excel.

En Google Sheets, crea una tabla para datos en las celdas (B14:K19)siguiendo estos pasos:

1. Selecciona los datos en las celdas (B14:K19).

2. Haz clic en la pestaña de Datos, luego selecciona Tabla dinámica.

3. Aparecerá una ventana emergente. Haz clic en Nueva hoja,luego haz clic en el botón Crear.
Al costado de la nueva hoja, se mostrará el Editor de tablas dinámicas. La tabla dinámica que estás creando contendrá el
nombre de cada empleado, la tarifa y el pago total. Sigue estos pasos para crear la tabla dinámica:

1. Haz clic en el botón Agregar para Filas.Selecciona Nombres.

2. Haz clic en el botón Agregar para Valores.Selecciona Tarifa.

3. Haz clic en el botón Agregar para Valores nuevamente. Selecciona Pago total.

El resultado debería mostrarse así:

Luego convierte las celdas en la columna Suma del pago total en divisas.

4. Selecciona las celdas en la columna Suma del pago total.

5. Haz clic en el símbolo $ en la barra de herramientas.


Como alternativa, puedes hacer clic en la pestaña de Formato, selecciona Número, luego selecciona Divisas.
¡Felicidades! Ya has usado VLOOKUP y creado una tabla dinámica, dos herramientas esenciales para analizar datos en
hojas de cálculo.

Confirmación y reflexión

Imagina que la empleada Anika Patel te pide que confirmes su tarifa. Sin usar la tabla dinámica, ¿qué función de
VLOOKUP devolvería su tarifa de acuerdo con los datos importados en la Hoja1?
1 / 1 punto

=VLOOKUP(B19, B15:J19, 9, false)


=VLOOKUP(B20, B15:J20, 9, false)
=VLOOKUP(B19, B15:J19, 9, true)
=VLOOKUP(B19, B15:J19, 8, false)
Correcto. La función VLOOKUP =VLOOKUP(B19, B15:J19, 9, false) devolvería el valor 3000, que es la tarifa de Anika
Patel. Puedes usar VLOOKUP para encontrar problemas o incoherencias como estos en tus datos. De ahora en
adelante, puedes aplicar tus conocimientos de VLOOKUP para encontrar, recortar y convertir información importante en
grandes conjuntos de datos.

1.
Pregunta 1
Para cambiar una cadena de texto en la celda F8 de una hoja de cálculo a un valor numérico, ¿cuál es la función correcta?
1 / 1 punto

=NUM(F8)
=CONVERT(F8)
=VALUE(F8)
=MATCH(F8)
Correcto. Para cambiar una cadena de texto en la celda F8 de una hoja de cálculo a un valor numérico, la sintaxis correcta es
=VALUE(F8). Dentro del paréntesis, la sintaxis VALUE debe incluir una referencia a la celda específica cuyo valor la función debería
convertir.

2.
Pregunta 2

¿Cuál es la finalidad de una referencia absoluta dentro de una función como "$C$3"?
1 / 1 punto

Bloquear filas y columnas para que no cambien cuando se copie una función
Representar valores faltantes en una fórmula o función
Que las fórmulas y funciones sean incondicionales
Eliminar instrucciones innecesarias de una fórmula o función
Correcto. La finalidad de una referencia absoluta es bloquear la referencia a una fila o columna para que los valores no cambien
cuando se copie una función.

3.
Pregunta 3

En VLOOKUP, TRUE le indica a la función que busque coincidencias exactas y FALSE le dice a la función que busque coincidencias
aproximadas.
1 / 1 punto

verdadero
falso
Correcto. En VLOOKUP, TRUE le indica a la función que busque coincidencias aproximadas y FALSE le dice a la función que busque
coincidencias exactas.

4.
Pregunta 4

La siguiente es una selección de una hoja de cálculo:

A B C
1 País Población en 2020 (millones) Crecimiento de la població
2 China 1,439,323,776 13.4%
3 India 1,380,004,385 37.1%
4 Estados Unidos 331,002,651 17.3%
5 Indonesia 273,523,615 27.7%
6 Paquistán 220,892,340 44.9%
7 Brasil 212,559,417 21.9%
8 Nigeria 206,139,589 66.3%
9 Bangladesh 164,689,383 27.9%
10 Rusia 145,934,462 -0.8%
Para buscar la población de Nigeria, ¿cuál es la sintaxis correcta de VLOOKUP?
0 / 1 punto

=VLOOKUP(Nigeria, A2,C10, 2, true)


=VLOOKUP("Nigeria", A2:C10, 2, false)
=VLOOKUP(Nigeria, A2:C10, 3, true)
=VLOOKUP(Nigeria, A2:C10, 3, false)
Incorrecto
Para buscar la población de Nigeria, la sintaxis es =VLOOKUP("Nigeria", A2:C10, 2, falso). “Nigeria” es la referencia. A2:C10 es la
matriz de la tabla. El 2 indica la posición de la columna de la que debe devolverse el valor. Y la palabra false le indica a la función que
devuelva una coincidencia exacta.
5.
Pregunta 5

La siguiente es una selección de una hoja de cálculo:

A B C
1 Ubicación Edificación Altura
2 Dubai Burj Khalifa 2,717 pies
3 Shanghái Shanghai Tower 2,073 pies
4 La Meca Makkah Royal Clock Tower 1,972 pies
5 Shenzhen Ping An Finance Center 1,965 pies
6 San Petersburgo Lakhta Center 1,516 pies
7 Chicago Willis Tower 1,451 pies
Para buscar la altura de la construcción en La Meca, ¿cuál es la sintaxis correcta de VLOOKUP?
0 / 1 punto

=VLOOKUP(Mecca, A2,D7, 3, true)


=VLOOKUP(Mecca, A2:D7, 2, true)
=VLOOKUP(Mecca, A2:D7, 2, false)
=VLOOKUP("Mecca", A2:D7, 3, false)
Para buscar la altura de la construcción en La Meca, la sintaxis correcta es =VLOOKUP("Mecca", A2:D7, 3, false).
“Mecca” es la referencia. A2:D7 es la matriz de la tabla. El 3 indica el número de la columna de la que debe devolverse el
valor. Y la palabra false le indica a la función que devuelva una coincidencia exacta.

Usa JOINS para agregar datos en SQL


Opcional: Cargar el conjunto de datos de empleados en BigQuery
El próximo vídeo demuestra cómo usar JOINS para fusionar y devolver datos de dos tablas con base en un atributo
común usado en ambas tablas.

Si deseas seguir al instructor, necesitarás iniciar sesión en tu cuenta de BigQuery y cargar los datos de empleados
suministrados como dos archivos CSV. Si saltaste de un curso a otro, El uso de BigQuery del curso Preparar datos para la
exploración explica cómo configurar una cuenta de BigQuery.

Prepárate para el siguiente vídeo


 Primero, descarga los archivos CSV de los siguientes archivos adjuntos:

DAC5M3L3V1B-ATTACHMENT_SPA

CSV File

DAC5M3L3V1A-ATTACHMENT_SPA

CSV File

 A continuación, completa los siguientes pasos en tu consola de BigQuery para cargar las tablas de employees y
departments.
Paso 1: Abre tu consola de BigQuery y haz clic en el proyecto al que quieres subir los datos.
Paso 2: En el Explorador de la izquierda, haz clic en el icono de Acciones (tres puntos verticales) junto al nombre de tu
proyecto y selecciona Crear conjunto de datos.

Paso 3: Introduce employee_data como ID del conjunto de datos.

Paso 4: Haz clic en CREAR CONJUNTO DE DATOS (botón azul) para añadir el conjunto de datos a tu proyecto.

Paso 5: En el Explorador de la izquierda, haz clic para expandir tu proyecto, y luego haz clic en el conjunto de datos
employee_data que acabas de crear.

Paso 6: Haz clic en el icono de Acciones (tres puntos verticales) junto a employee_data y selecciona Abrir.

Paso 7: Haz clic en el icono azul + de la parte superior derecha para abrir la ventana Crear tabla.

Paso 8: En Origen, para Crear tabla desde la selección, elige de dónde vendrán los datos.

 Selecciona Cargar.
 Haz clic en Examinar para seleccionar el archivo CSV de la tabla de empleados que descargaste.
 Elige CSV en el menú desplegable de formato de archivo.
Paso 9: Si piensas seguir el vídeo, introduce employees como nombre de la Tabla.

Paso 10: Para Esquema, haz clic en la casilla Detección automática.

Paso 11: Haz clic en Crear tabla (botón azul). Ahora verás la tabla employees bajo tu conjunto de datos employee_data en
tu proyecto.

Paso 12: Vuelve a hacer clic en el conjunto de datos employee_data.

Paso 13: Haz clic en el icono para volver a abrir la ventana de Crear tabla.

Paso 14: En Origen, para Crear tabla desde la selección, elige de dónde vendrán los datos.

 Selecciona Cargar.
 Haz clic en Examinar para seleccionar el archivo CSV de la tabla de departamentos que descargaste.
 Elige CSV en el menú desplegable de formato de archivo.
Paso 15: Si piensas seguir el vídeo, introduce departments como nombre de la tabla.

Paso 16: Para Esquema, haz clic en la casilla Detección automática.


Paso 17: Haz clic en Crear tabla (botón azul). Ahora verás la tabla departments bajo tu conjunto de datos employee_data
en tu proyecto.

Paso 18: Haz clic en la tabla de employees y haz clic en la pestaña Previsualizar para verificar los datos que se muestran
debajo.

Paso 19: Haz clic en la tabla de departments y haz clic en la pestaña Previsualizar para verificar los datos que se muestran
debajo.

Paso 19: Haz clic en la tabla de departments y haz clic en la pestaña Previsualizar para verificar los datos que se muestran
debajo.
Si tus previsualizaciones de datos coinciden, estás listo para seguir el próximo vídeo.

Comprender JOIN
Hola de nuevo. Hasta ahora, hemos visto algunas herramientas que puedes usar para agregar datos dentro de hojas de cálculo.
En este vídeo, hablaremos acerca de cómo usar JOIN en SQL para agregar datos en bases de datos. Primero, te contaré un poco
sobre qué es una JOIN, y luego exploraremos algunos de las JOIN más comunes en acción. ¡Empecemos! JOIN es una cláusula
SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada. Básicamente, una JOIN puede
entenderse como la versión SQL de VLOOKUP que acabamos de analizar. Existen cuatro JOIN comunes que usan los analistas
de datos: inner, left, right y outer. Esta es una visualización útil de lo que hace en realidad cada JOIN. Los usaremos para
ayudarnos a comprender estas funciones. Las JOIN te ayudan a combinar columnas coincidentes o relacionadas de diferentes
tablas. Cuando aprendimos sobre bases de datos relacionales, nos referimos a estos valores como claves primarias y externas.
Las claves primarias hacen referencia a columnas en las que cada valor es único a esa tabla. Pero esa tabla puede tener muchas
claves externas que son claves primarias en otras tablas. Por ejemplo, en una tabla sobre empleados, la ID de empleado es una
clave primaria y la ID de la oficina es una clave externa. Las JOIN usan estas claves para identificar relaciones y valores
correspondientes. Una inner JOIN es una función que devuelve registros con valores coincidentes en ambas tablas. Si
pensamos en las tablas como círculos de este diagrama de Venn, una inner JOIN devolvería los registros que existen donde se
superponen las tablas. Para que los registros aparezcan en la tabla de resultados, tienen que ser valores clave en ambas tablas.
Los registros solo se fusionarán si son coincidencias en ambas tablas. Cuando ingresamos JOIN en SQL, generalmente toma
inner JOIN como predeterminado. Muchos analistas usan JOIN como abreviatura en vez de escribir toda la consulta. LEFT JOIN
es una función que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla derecha. Así
puedes darte cuenta de qué tabla es izquierda o derecha. En inglés y en SQL leemos de izquierda a derecha. La tabla
mencionada primero es izquierda y la tabla mencionada segundo es derecha. También puedes pensar en izquierda como un
nombre de tabla a la izquierda de la instrucción JOIN y en derecha como un nombre de tabla a la derecha de la instrucción
JOIN. En este diagrama, verás que toda la tabla izquierda está coloreada, y esa es la superposición con la tabla derecha, que
nos muestra que la tabla izquierda y los registros que comparte con la derecha están siendo seleccionados. Cada fila en la tabla
izquierda aparece en los resultados aun si no hay coincidencias en la tabla derecha. RIGHT JOIN hace lo opuesto. Devuelve
todos los registros de la tabla derecha y solo los registros coincidentes de la izquierda. Puedes obtener los mismos resultados si
inviertes el orden de las tablas y usas una LEFT JOIN. Por ejemplo, SELECT from table A, LEFT JOIN table B es lo mismo que
SELECT from table B, RIGHT JOIN table A. Por último, está OUTER JOIN. OUTER JOIN combina RIGHT y LEFT JOIN para devolver
todos los registros coincidentes en ambas tablas. Esto significa que devolverá todos los registros en ambas tablas. Si hay
registros en una tabla sin coincidencias, creará un registro sin valores para la otra tabla. El uso de las JOIN puede facilitar
mucho el trabajo con múltiples fuentes de datos y puede hacer que las relaciones entre las tablas sean más claras. Aquí hay un
ejemplo. Digamos que trabajamos con datos de empleados de múltiples departamentos. Tenemos una tabla de empleados y
una tabla de departamentos, y ambas tienen algunas columnas como ID de departamento. Podemos usar diferentes cláusulas
JOIN para ayudarnos a colocar diferentes datos de nuestras tablas y agregarlos. Quizás queremos obtener una lista de
empleados con su nombre de departamento, excluyendo a empleados sin ID de departamento. Dado que el registro de ID de
departamento se usa en ambas tablas, podemos usar una INNER JOIN para que devuelva una lista únicamente con esos
empleados. A modo de recordatorio, los analistas a veces solo ingresan JOIN para una INNER JOIN, pero para este ejemplo, lo
escribiremos completo. Para armar esta consulta, comenzaremos con SELECT y AS para decirle a SQL cómo queremos que se
titulen las columnas.

Reproduce el video desde :4:43 y sigue la transcripción4:43

Luego usaremos FROM para decirle de dónde obtenemos estos datos, en este caso, la tabla de empleados. Luego ingresaremos
INNER JOIN y la otra tabla que usamos, que es departamentos.

Reproduce el video desde :4:58 y sigue la transcripción4:58

Podemos especificar qué columna y cada tabla contendrá la clave JOIN coincidente escribiendo ON employees.department_id
equals departments.departments_id. Ahora, ejecutémoslo.

Ahora tenemos una lista de nombres de empleados e ID de departamento para los empleados que tienen esas ID. Pero
podríamos usar LEFT o RIGHT join para obtener una lista de todos los nombres de empleados y sus departamentos cuando
estén disponibles. Probemos ambas opciones rápidamente. Esto comenzará de manera similar a la última consulta,
escribiremos SELECT AS y FROM nuevamente. Pero esta vez escribiremos LEFT JOIN y usaremos ON como hicimos en la última
consulta. Cuando ejecutamos la consulta, volvemos a esta nueva lista con los nombres de empleados y departamentos. Pero
notarás que hay valores nulos. Estos son los lugares en los que la tabla derecha, que es departamentos en este caso, no tenía
valores correspondientes. Probemos RIGHT JOIN solo a modo de ensayo. Esta consulta será casi igual. La única diferencia es
que usaremos la cláusula RIGHT JOIN para devolver todas las filas de la tabla derecha, ya sea que tengan valores coincidentes
en una tabla a la izquierda de la instrucción JOIN o no. En este caso, la tabla derecha es departamentos.

Ahora probemos una última JOIN: OUTER. OUTER JOIN


recuperará todos los nombres de empleados y departamentos. Nuevamente, esta consulta comenzará de manera muy similar
a las otras que hicimos, usaremos SELECT AS y FROM para elegir qué datos queremos y cómo. Captaremos esto de la tabla de
empleados y colocaremos FULL OUTER JOIN en la tabla de departamentos para obtener todos los registros de ambas. También
volveremos a usar ON aquí. Ahora podemos ejecutarlo, y obtenemos todos los nombres de los empleados y los departamentos
de estas tablas. Habrá valores nulos en las columnas nombre de departamento, nombre de empleado y puesto porque unimos
columnas que no tienen valores coincidentes.

Ahora ya sabes cómo funcionan las JOIN. Las JOIN son súper útiles cuando necesitas trabajar con datos de múltiples tablas
relacionadas. Te dan mucha flexibilidad en cuanto a cómo combinar y visualizar esos datos. Si alguna vez tienes problemas para
recordar qué hacen INNER, RIGHT, LEFT o OUTER JOIN, piensa en nuestro diagrama de Venn. Seguiremos aprendiendo sobre
agregación de datos en SQL la próxima. Nos vemos pronto.

Correcto
JOIN es una cláusula SQL que combina filas de dos o más tablas basadas en una columna relacionada. Hay
disponibles variaciones INNER JOIN, OUTER JOIN, LEFT JOIN y RIGHT JOIN. Si se usa JOIN, se supone que es
un INNER JOIN.
Correcto
La cláusula OUTER JOIN permite combinar funcionalidad RIGHT y LEFT JOIN para devolver registros
coincidentes de cualquiera de las tablas.

Identidades secretas: La importancia de los alias


En esta lectura, aprenderás a usar alias para simplificar tus consultas SQL. Los alias se usan en consultas SQL para
crear nombres temporarios para una columna o tabla. Los alias hacen que te sea mucho más simple hacer referencia a
tablas y columnas en tus consultas SQL cuando tienes nombres de tabla o columna que son demasiado largos o
complejos para usar en consultas. Imagina un nombre de tabla como special_projects_customer_negotiation_mileages.
Sería muy difícil tener que volver a escribirlo cada vez que usas esa tabla. Con un alias, puedes crear un apodo
significativo que puedes usar para tu análisis. En este caso, “special_projects_customer_negotiation_mileages” puede
recibir el alias de “mileage”. En vez de tener que escribir el nombre largo de la tabla, puedes usar un apodo significativo
que decidas.

Sintaxis básica para asignar alias


La asignación de alias es el proceso de usar alias. En las consultas SQL, los alias se implementan usando el comando
AS. La sintaxis básica del comando AS puede verse en la siguiente consulta para asignar un alias a una tabla:

Observa que AS es precedido por el nombre de la tabla y seguido del nuevo apodo. Es un enfoque similar para asignarle
un alias a una columna:
En ambos casos, tienes un nuevo nombre que puedes usar para referirte a la columna o tabla a la que se le asignó un
alias.

Sintaxis alternativa para alias


Si el uso de AS provoca un error al ejecutar una consulta porque la base de datos SQL con la que trabajas no es
compatible, puedes omitirlo. En los ejemplos anteriores, la sintaxis alternativa para asignar un alias a una tabla o
columna sería:

 FROM table_name alias_name


 SELECT column_name alias_name
La conclusión clave es que las consultas pueden ejecutarse con o sin AS para asignar alias, pero el uso de AS tiene el
beneficio de hacer que las consultas sean más legibles. Ayuda a que los alias se destaquen con mayor claridad.

Alias en acción
Veamos un ejemplo de una consulta SQL que usa alias. Digamos que trabajas con dos tablas: una tiene datos de
empleados y la otra tiene datos de departamentos. La instrucción FROM para asignar alias a esas tablas podría ser:

FROM work_day.employees AS employees

Estos alias igualmente te informan exactamente qué hay en estas tablas, pero ahora no tienes que ingresar
manualmente esos nombres largos de tabla. Los alias pueden ser muy útiles para consultas largas y complicadas. Es
más fácil leer y escribir tus consultas cuando tienes alias que te dicen qué está incluido dentro de tus tablas.

Para obtener más información


Si te interesa aprender más sobre alias, estos son algunos recursos para ayudarte a comenzar:

 Alias SQL: Este tutorial sobre asignación de alias es un recurso muy útil cuando comienzas a practicar por tu
cuenta la escritura de consultas y la asignación de alias a tablas. Además, demuestra cómo funciona la
asignación de alias con tablas reales.
 Alias en SQL: Esta introducción detallada a la asignación de alias incluye múltiples ejemplos. Este es otro gran
recurso de consulta si necesitas más ejemplos.
 Uso de alias para columnas: Esta es una guía que se enfoca específicamente en alias de columnas.
Generalmente, asignarás alias a tablas enteras, pero si necesitas asignar un alias solo a una columna, este es un
gran recurso para tener en cuenta.

Uso efectivo de JOIN


En esta lectura, repasarás cómo se usan las JOIN y habrá una introducción de algunos recursos que puedes usar para
aprender más acerca de ellas. Una JOIN combina tablas usando una clave primaria o externa para alinear la información
proveniente de ambas tablas en el proceso de combinación. Las JOIN usan estas claves para identificar relaciones y
valores correspondientes entre tablas.

Si necesitas un repaso de claves primarias y externas, consulta el glosario para este curso o vuelve a las Bases de datos
en análisis computacional de datos.

La sintaxis general de JOIN


Como puedes ver en la sintaxis, la instrucción JOIN forma parte de la cláusula FROM de la consulta. JOIN en SQL indica
que vas a combinar datos de dos tablas. ON en SQL identifica cómo se deben asociar las tablas para que se combine la
información correcta de ambas.

Tipos de JOIN
Existen cuatro maneras generales de usar JOIN en consultas SQL: INNER, LEFT, RIGHT y FULL OUTER.

The circles represent left and right tables, and where they are joined is highlighted in blue

Los círculos representan tablas izquierdas y derechas, y el lugar de unión está resaltado en azul

Esto es lo que hacen estas diferentes consultas JOIN.

INNER JOIN
INNER es opcional en esta consulta SQL porque es la opción predeterminada, así como la operación de JOIN más
usada. Puedes verlo como JOIN a secas. INNER JOIN devuelve registros si los datos están dentro de ambas tablas. Por
ejemplo, si usas INNER JOIN para las tablas de 'customers' y 'orders' y asocias los datos usando la clave customer_id,
combinarás los datos de cada customer_id que existen en ambas tablas. Si una customer_id existe en la tabla de
clientes, pero no en la tabla de pedidos, los datos de esa customer_id no se asocian ni son devueltos por la consulta.

Los resultados de la consulta podrían ser así: el customer_name es de la tabla de clientes y la product_id y ship_date
son de la tabla de pedidos:

customer_name product_id ship_date


Martin's Ice Cream 043998 2021-02-23
Beachside Treats 872012 2021-02-25
Mona's Natural Flavors 724956 2021-02-28
... etc. ... etc. ... etc.
Los datos de ambas tablas se unieron asociando la customer_id común a ambas tablas. Observa que la customer_id no
aparece en los resultados de la consulta. Simplemente se usa para establecer la relación entre los datos en las dos
tablas para que los datos se unan y devuelvan.

LEFT JOIN
Quizás veas esto como LEFT OUTER JOIN, pero la mayoría de los usuarios prefieren LEFT JOIN. Ambas opciones son
sintaxis correcta. LEFT JOIN devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla
derecha. Usa LEFT JOIN cuando necesites los datos de toda la primera tabla y los valores de la segunda tabla, si
existen. Por ejemplo, en la consulta que aparece debajo, LEFT JOIN devolverá customer_name con el sales_rep
correspondiente, de estar disponible. Si existe un cliente que no interactuó con un representante de ventas, de todos
modos aparecerá el cliente en los resultados de la consulta, pero con un valor NULL para sales_rep.

Los resultados de la consulta podrían ser como el ejemplo siguiente, en el que el customer_name es de la tabla de
clientes y el sales_rep es de la tabla de ventas. Nuevamente, los datos de ambas tablas se unieron asociando la
customer_id común a ambas tablas aunque no se devolvió la customer_id en los resultados de la consulta.

customer_name sales_rep
Martin's Ice Cream Luis Reyes
Beachside Treats NULL
customer_name sales_rep
Mona's Natural Flavors Geri Hall
...etc. ...etc.
RIGHT JOIN
Quizás te aparezca como RIGHT OUTER JOIN o RIGHT JOIN. RIGHT JOIN devuelve todos los registros de la tabla
derecha y solo los registros correspondientes de la tabla izquierda. A nivel práctico, raras veces se usa RIGHT JOIN. La
mayoría de las personas simplemente cambia las tablas y sigue usando LEFT JOIN. Pero usando el ejemplo anterior de
LEFT JOIN, la consulta usando RIGHT JOIN sería así:

Los resultados de la consulta son iguales al ejemplo anterior de LEFT JOIN.

customer_name sales_rep
Martin's Ice Cream Luis Reyes
Beachside Treats NULL
Mona's Natural Flavors Geri Hall
...etc. ...etc.
FULL OUTER JOIN
Quizás a veces te aparezca como FULL JOIN. FULL OUTER JOIN devuelve todos los registros de las tablas
especificadas. Puedes combinar las tablas de esta manera, pero recuerda que como resultado puede ser potencialmente
una gran extracción de datos. FULL OUTER JOIN devuelve todos los registros de ambas tablas aun si los datos no se
rellenaron en una de las tablas. Por ejemplo, en la consulta que aparece a continuación, verás todos los clientes y las
fechas de envío de sus productos. Como estás usando FULL OUTER JOIN, quizás se te devuelvan clientes sin las
fechas de envío correspondientes o las fechas de envío sin los clientes correspondientes. Se devuelve un valor NULL si
los datos correspondientes no existen en ninguna de las tablas.

Los resultados de la consulta pueden ser similares a los siguientes.

customer_name ship_date
Martin's Ice Cream 2021-02-23
Beachside Treats 2021-02-25
customer_name ship_date
NULL 2021-02-25
The Daily Scoop NULL
Mountain Ice Cream NULL
Mona's Natural Flavors 2021-02-28
...etc. ...etc.

Para obtener más información


Las JOIN son útiles para trabajar con bases de datos relacionales y SQL, y tendrás muchísimas oportunidades de
practicarlas por tu cuenta. Estos son algunos otros recursos que pueden darte más información sobre las JOIN y cómo
usarlas:

 JOIN de SQL: Esta es una buena explicación básica de JOIN con ejemplos. Si necesitas un repaso rápido de qué
hacen las diferentes JOIN, este es un gran recurso para marcar y volver a consultar más adelante.
 JOIN de bases de datos - Introducción a tipos y conceptos de JOIN: Esta es una introducción muy completa a las
JOIN. Este artículo no solo explica qué son las JOIN y cómo usarlas, sino que también explica en mayor detalle
las diferentes situaciones en las que usarías y por qué usarías las diferentes JOIN. Este en un gran recurso si
estás interesado en aprender más sobre la lógica detrás del uso de JOIN.
 Tipos de JOIN en SQL explicados en elementos visuales: Este recurso tiene una representación visual de las
diferentes JOIN. Es una manera muy útil de comprender las JOIN si aprendes mejor con lo visual y puede ser
una manera muy útil de recordar las diferentes JOIN.
 JOIN en SQL: Uniendo datos JOIN por JOIN: Este recurso no solo tiene una explicación detallada de las JOIN
con ejemplos, sino que también brinda datos de ejemplo que puedes usar para seguir su guía paso a paso. Esta
es una manera útil de practicar las JOIN con datos reales.
 JOIN en SQL: Este es otro recurso que brinda una explicación clara de las JOIN y usa ejemplos para demostrar
cómo funcionan. Los ejemplos también combinan JOIN con asignación de alias. Esta es una gran oportunidad
para ver cómo se pueden combinar las JOIN con otros conceptos de SQL que has aprendido en este curso.

1.
Pregunta 1

Resumen de la actividad

Has avanzado mucho en tu trabajo con bases de datos relacionales y SQL. Ahora, obtendrás práctica escribiendo
consultas que unen múltiples tablas.

En esta actividad, trabajarás con el Conjunto de datos internacional de educación del Banco Mundial. Al dominar las
instrucciones JOIN, podrás aprovechar plenamente el poder de las bases de datos relacionales combinando datos
vinculados por claves.

Carga y examina el conjunto de datos

1. Inicia sesión en el espacio aislado de BigQuery. Si cuentas con una versión de prueba gratuita de BigQuery, puedes
utilizarla. En la página de BigQuery, haz clic en el botón Ir a BigQuery.

Nota: El espacio aislado de BigQuery actualiza frecuentemente su interfaz de usuario. Los últimos cambios posiblemente
no se vean reflejados en las capturas de pantalla presentadas en esta actividad, pero los principios siguen siendo los
mismos. Adaptarse a los cambios de las actualizaciones de software es una destreza esencial para los analistas de
datos, y es útil para ti para practicar la resolución de problemas. También puedes comunicarte con tu comunidad de
alumnos en el foro de debate para obtener ayuda.
2. Si nunca has creado un proyecto de BigQuery antes, haz clic en CREAR PROYECTO en el lado derecho de la
pantalla. Si has creado un proyecto antes, puedes utilizar uno existente o crear uno nuevo haciendo clic en la lista
desplegable del proyecto en la barra del encabezado azul y seleccionando NUEVO PROYECTO.

3. Coloca un nombre al proyecto que te permita identificarlo luego. Puedes colocarle un ID de proyecto único o utilizar
uno generado automáticamente. No te preocupes por seleccionar una organización si no sabes qué poner.

4. Ahora, verás la interfaz del Editor. En la mitad de la pantalla hay una ventana donde puedes escribir el código y, hacia
la izquierda, está el menú del Explorador donde puedes buscar conjuntos de datos.

Antes de comenzar a unir las dos tablas, primero necesitarás determinar qué tablas unir. Recuerda que las dos tablas
tienen que estar conectadas para poder unirlas. Dos tablas pueden unirse si la clave primaria de una tabla está incluida
en la otra tabla como clave externa.

Para determinar qué información contienen las tablas e identificar claves en que puedes unirlas, repasa el esquema de
las tablas. Para acceder al esquema:

5. Haz clic en + AGREGAR DATOSen la parte superior del menú del Explorador, luego en Explorar conjuntos de datos
públicos en la lista desplegable que aparecerá.

6. En la barra Búsqueda de marketplace, escribe educación internacional.

7. Haz clic en el primer resultado, el conjunto de datos de Educación Internacional del Banco Mundial.

8. Haz clic en Ver conjunto de datos. Esto te llevará nuevamente a la interfaz de espacio aislado de BigQuery en una
pestaña nueva.

Nota: Esto puede anclar la lista desplegable datos públicos de BigQuerydel menú delExplorador. Puedes utilizar esto para
explorar los conjuntos de datos y las tablas.

9. En el menú del Explorador, busca world_bank_intl_education. Haz clic en la flecha de la lista desplegable para
expandir el conjunto de datos.
10. Haz clic en la tabla de international_education. Esto mostrará el esquema de la tabla. Si no aparece el esquema, haz
clic en la pestaña Esquema en el visor de tablas.

11. Luego, selecciona la tabla country_summary y examina su esquema. Verás que la columna country_code aparece en
los esquemas de ambas tablas.

Nota: Las claves externas no siempre tienen los mismos nombres en diferentes tablas. Si en algún momento tienes
dudas de si las columnas son iguales, puedes revisarlo. Puedes consultar la columna de cada tabla y confirmar que
contengan los mismos tipos de información.

Repaso de las JOIN

Antes de unir las dos tablas con consultas, tómate un momento para repasar los diversos tipos de instrucciones JOIN.
Los dos tipos más comunes de instrucciones JOIN son las INNER JOIN y las OUTER LEFT JOIN (también conocidas
simplemente como LEFT JOIN). Como repaso:

INNER JOIN: Devuelve solo las filas donde el objetivo aparece en ambas tablas.

LEFT JOIN: Devuelve todas las filas de la tabla izquierda, así como cualquier fila de la tabla derecha con claves
coincidentes encontradas en la tabla izquierda.

Observa la diferencia entre INNER JOIN y LEFT JOIN y las implicancias de cuándo debería usarse cada uno. Analiza
estas consultas:

-- Digamos que la table_1 tiene 100 filas y la table_2 tiene 10 filas.-- Tienen 10 claves en común.-- Usando INNER JOIN
--> Obtenemos 10 filas en nuestros resultados.SELECT COUNT(*)FROM table_1INNER JOIN table_2ON table_1.key =
table_2.key;-- Usando LEFT JOIN --> Obtenemos 100 filas en nuestros resultados.SELECT COUNT(*)FROM
table_1LEFT JOIN table_2ON table_1.key = table_2.key;

La conclusión es que el tipo de JOIN que usas importa. Al escribir una consulta, puedes dibujar un diagrama de Venn
como el gráfico de ejemplo de arriba para ayudarte a decidir qué tipo de JOIN necesitas.

Consultas con las JOIN y los alias

Ahora es momento de consultar de verdad el conjunto de datos. Como punto de partida, prueba una consulta que tome
información de las tablas international_education y country_summary. Copia, pega y ejecuta la siguiente consulta:

SELECT `bigquery-public-data.world_bank_intl_education.international_education`.country_name, `bigquery-public-


data.world_bank_intl_education.country_summary`.country_code, `bigquery-public-
data.world_bank_intl_education.international_education`.valueFROM `bigquery-public-
data.world_bank_intl_education.international_education`INNER JOIN `bigquery-public-
data.world_bank_intl_education.country_summary` ON `bigquery-public-
data.world_bank_intl_education.country_summary`.country_code = `bigquery-public-
data.world_bank_intl_education.international_education`.country_code

Esta consulta básica junta las tablas en la clave externa country_code y devuelve la columna del nombre del país, código
del país y valor. ¡Esta es una consulta bastante larga y difícil de manejar para un resultado tan básico! La longitud de
cada nombre de tabla (que debe incluir la dirección completa de cada tabla para que BigQuery sepa de dónde sacar los
datos) hace que sea difícil leer y trabajar con esto.

Sin embargo, puedes resolverlo asignando un alias a cada tabla.

Usa alias descriptivos

Intenta usar alias descriptivos que te digan lo que representan. Esta próxima consulta es la misma que la anterior, pero
con alias para mejorar la legibilidad. Copia, pega y ejecuta la siguiente consulta:

SELECT edu.country_name, summary.country_code, edu.valueFROM `bigquery-public-


data.world_bank_intl_education.international_education` AS eduINNER JOIN `bigquery-public-
data.world_bank_intl_education.country_summary` AS summaryON edu.country_code = summary.country_code

Tus resultados deberían verse así:

Esta consulta es mucho más fácil de leer y comprender. Recuerda que puedes configurar alias para tablas especificando
el alias para la tabla después del nombre de la tabla en instrucciones FROM y/o JOIN.

En este ejemplo, la tabla international_education fue renombrada como edu y la tabla country_summary como summary.
Usar alias descriptivos es una práctica recomendada y te ayudará a que tus consultas sean limpias, legibles y fáciles de
trabajar.

Usa una JOIN para responder una pregunta

Ahora que confirmaste que la instrucción JOIN funciona, intenta responder una pregunta real de datos usando este
conjunto de datos. ¿Cuál es la cantidad promedio de dinero gastado por región en educación? Copia, pega y ejecuta la
siguiente consulta:

SELECT AVG(edu.value) average_value, summary.regionFROM `bigquery-public-


data.world_bank_intl_education.international_education` AS eduINNER JOIN `bigquery-public-
data.world_bank_intl_education.country_summary` AS summaryON edu.country_code = summary.country_codeWHERE
summary.region IS NOT nullGROUP BY summary.regionORDER BY average_value DESC
Tus resultados deberían verse así:

Observa cómo en esta consulta también se asigna un alias para darle a AVG(edu.value) un nombre más descriptivo para
la tabla temporal que la consulta devuelve.

Además, observa que la instrucción WHERE excluye filas con cualquier información nula. Esto es necesario para
presentar los datos de manera sucinta y mostrar solo siete filas para las siete regiones representadas en los datos. No
obstante, esta instrucción WHERE significa que los resultados devueltos serán los mismos sin importar qué JOIN uses.
En la próxima sección, exploraremos una situación en que necesitas usar un tipo específico de JOIN en tu consulta...

INNER JOIN versus OUTER JOIN

En la última consulta, usaste una INNER JOIN para encontrar la cantidad promedio de dinero gastado por región en
educación. Debido a la instrucción WHERE en esta consulta, usar cualquier tipo de JOIN produce el mismo resultado.

Ahora, deberás escribir una LEFT JOIN, un tipo de OUTER JOIN, en una situación en que el tipo de consulta que usas
modificará el resultado devuelto.

Analiza este escenario:

Se te pidió que brindes datos para un artículo deportivo sobre la carrera de básquetbol de Michael Jordan. El escritor
quiere incluir un giro divertido y te pide que averigües si Michael Jordan jugó mejor en escuelas con mascotas animales.

Para analizar los principios de su carrera, comienzas con los años en que jugó básquetbol en la universidad. Necesitas
analizar las estadísticas de básquetbol universitario de la National Collegiate Athletic Association (NCAA) desde 1984.

Necesitarás una lista de todos los colleges y universidades de la División I de la NCAA; sus mascotas, de ser aplicable; y
su número de victorias y derrotas. Puedes encontrar esta información en el conjunto de datos público ncaa_basketball en
BigQuery.

Luego, escribirás una consulta. Tu consulta debería unir las estadísticas de la temporada de una tabla con la información
de mascotas de otra tabla. Necesitarás usar una LEFT JOIN en vez de una INNER JOIN porque no todos los equipos
tienen mascotas. Si usas una INNER JOIN, excluirás a los equipos sin mascotas.

Para demostrarlo, copia, pega y ejecuta la siguiente consulta:

SELECT seasons.market AS university, seasons.name AS team_name, seasons.wins, seasons.losses, seasons.ties,


mascots.mascot AS team_mascotFROM `bigquery-public-data.ncaa_basketball.mbb_historical_teams_seasons` AS
seasonsLEFT JOIN `bigquery-public-data.ncaa_basketball.mascots` AS mascotsON seasons.team_id =
mascots.idWHERE seasons.season = 1984 AND seasons.division = 1ORDER BY seasons.market

Este es un ejemplo de cuándo una LEFT JOIN es más útil que una INNER JOIN. Con esta consulta, puedes observar las
estadísticas de básquetbol universitario para entender mejor los inicios de la carrera de Michael Jordan, obtener más
información sobre qué equipos tenían mascotas y responder tu pregunta de negocios.

Confirmación y reflexión

En la última consulta, usas una LEFT JOIN en vez de una INNER JOIN para encontrar la información correcta. Debajo de
los resultados de la consulta, verás que el número de filas en tu tabla unida es 281. Si vuelves a ejecutar esta consulta
con una INNER JOIN en vez de una LEFT JOIN, ¿cuántas filas devolvería?
1 / 1 punto

274
281
272
301
Correcto

El número de filas devueltas por una INNER JOIN es 274. Cuando ejecutas la consulta con una INNER JOIN en vez de
una LEFT JOIN, excluyes universidades sin mascotas y se devuelven menos filas de datos. Saber qué JOIN usar es muy
importante para analizar datos. De aquí en adelante, puedes usar tus conocimientos sobre las JOIN para combinar datos
de múltiples tablas.
2.
Pregunta 2

En esta actividad, usaste instrucciones JOIN para combinar datos de múltiples tablas. En el cuadro de texto a
continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿Por qué piensas que las instrucciones JOIN son importantes para trabajar con bases de datos?

¿Cómo distingues las INNER JOIN de las OUTER JOIN?


1 / 1 punto

Las JOIN permiten combinar datos de tablas vinculadas. Es una de las partes más importantes de SQL, porque combinar
datos de múltiples tablas de bases de datos.

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que las JOIN te permiten combinar
datos de tablas vinculadas, que te ayuda a hacer comparaciones y responder a preguntas de negocios.

El dominio de las instrucciones JOIN es una de las partes más importantes de SQL, ya que combinar datos de múltiples
tablas de bases de datos es una destreza básica para los analistas de datos. Y cuando apliques a trabajos, ¡recuerda
que las instrucciones JOIN son un tema común en las entrevistas a analistas de datos! Cuantas más instrucciones JOIN
escribas, más preparado estarás para un puesto de analista de datos.

Opcional: Cargar el conjunto de datos del depósito en BigQuery


El siguiente vídeo demuestra cómo usar COUNT y COUNT DISTINCT en SQL para contar y devolver el número de
determinados valores en un conjunto de datos.

Si deseas seguir al instructor, necesitarás iniciar sesión en tu cuenta de BigQuery y cargar los datos de depósitos
suministrados como dos archivos CSV. Si saltaste de un curso a otro, El uso de BigQuery del curso Preparar datos para
la exploración explica cómo configurar una cuenta de BigQuery.

Prepárate para el siguiente vídeo


 Primero, descarga los dos archivos CSV de los archivos adjuntos de abajo:
DAC5M3L3R4B-ATTACHMENT_SPA

CSV File

DAC5M3L3R4A-ATTACHMENT_SPA

CSV File

Luego completa los siguientes pasos en tu consola de BigQuery para cargar el conjunto de datos de Warehouse Orders
(pedidos del depósito) con las dos tablas de Warehouse y Orders.

Paso 1: Abre tu consola de BigQuery y haz clic en el proyecto al que quieres subir los datos.

Paso 2: En el Explorador de la izquierda, haz clic en el icono de Acciones (tres puntos verticales) junto al nombre de tu
proyecto y selecciona Crear conjunto de datos.

Paso 3: En el próximo vídeo, se usará el nombre "warehouse_orders" para el conjunto de datos. Si piensas seguir el
vídeo, introduce warehouse_orders como ID del conjunto de datos.
Paso 4: Haz clic en CREAR CONJUNTO DE DATOS (botón azul) para añadir el conjunto de datos a tu proyecto.

Paso 5: En el Explorador de la izquierda, haz clic para expandir tu proyecto, y luego haz clic en el conjunto de datos
warehouse_orders que acabas de crear.

Paso 6: Haz clic en el icono de Acciones (tres puntos verticales) junto a warehouse_orders y selecciona Abrir.

Paso 7: Haz clic en el icono azul + de la parte superior derecha para abrir la ventana Crear tabla.
Paso 8: En Origen, para Crear tabla desde la selección, elige de dónde vendrán los datos.

 Selecciona Cargar.
 Haz clic en Examinar para seleccionar el archivo CSV de Warehouse Orders - Warehouse que descargaste.
 Elige CSV en el menú desplegable de formato de archivo.
Paso 9: Si piensas seguir el vídeo, introduce Warehouse como nombre de la tabla.

Paso 10: Para Esquema, haz clic en la casilla Detección automática.

Paso 11: Haz clic en Crear tabla (botón azul). Ahora verás la tabla Warehouse bajo tu conjunto de datos warehouse_orders
en tu proyecto.

Paso 12: Vuelve a hacer clic en el conjunto de datos warehouse_orders.

Paso 13: Haz clic en el icono para volver a abrir la ventana de Crear tabla.

Paso 14: En Origen, para Crear tabla desde la selección, elige de dónde vendrán los datos.

 Selecciona Cargar.
 Haz clic en Examinar para seleccionar el archivo CSV de Warehouse Orders - Orders que descargaste.
 Elige CSV en el menú desplegable de formato de archivo.
Paso 15: Si piensas seguir el vídeo, introduce Orders como nombre de la Tabla.

Paso 16: Para Esquema, haz clic en la casilla Detección automática.

Paso 17: Haz clic en Crear tabla (botón azul). Ahora verás la tabla Orders bajo tu conjunto de datos warehouse_orders en
tu proyecto.

Paso 18: Haz clic en la tabla de Warehouse y haz clic en la pestaña Previsualizar para verificar que tengas 10 filas de
datos.
Paso 19: Haz clic en la tabla de Orders y haz clic en la pestaña Previsualizar para verificar que tengas los datos que se
muestran debajo.

Si tus previsualizaciones de datos coinciden, estás listo para seguir el próximo vídeo.
COUNT y COUNT DISTINCT
Hola, es genial tenerte de vuelta. Hasta ahora hemos descubierto que las hojas de cálculo y SQL tienen muchas herramientas
en común. Antes en este programa, aprendimos sobre COUNT en las hojas de cálculo. Ahora es momento de analizar
herramientas similares en SQL: COUNT y COUNT DISTINCT. En este vídeo, hablaremos sobre cuándo usarías estas consultas y
veremos un ejemplo. ¡Empecemos! COUNT puede usarse para contar el número total de valores numéricos dentro de un rango
específico en las hojas de cálculo. COUNT en SQL hace lo mismo. COUNT es una consulta que devuelve el número de filas en un
rango especificado, pero COUNT DISTINCT es un poco diferente. COUNT DISTINCT es una consulta que solo devuelve los
valores distintos en ese rango. Básicamente, esto significa que COUNT DISTINCT no cuenta valores repetidos. Como analista de
datos, usarás COUNT y COUNT DISTINCT cada vez que quieras responder preguntas sobre cantidad. Como, ¿cuántos clientes
hicieron esto? O, ¿cuántas transacciones hubo este mes? O, ¿cuántas fechas hay en este conjunto de datos? Y los usarás a lo
largo del proceso de análisis de datos en diferentes etapas. Por ejemplo, quizás los necesites cuando estés limpiando datos
para verificar cuántas filas quedan en tu conjunto de datos. O podrías usar COUNT y COUNT DISTINCT durante el análisis en sí
para responder una pregunta de cantidad. Te toparás mucho con este tipo de preguntas. Por eso es muy útil conocer COUNT y
COUNT DISTINCT. Pero veamos un ejemplo para ver a COUNT y COUNT DISTINCT en acción. Para este ejemplo, estamos
trabajando con una empresa que fabrica calcetines. Tenemos dos tablas: Depósito y Pedidos. Miremos rápidamente estas
tablas antes de comenzar a hacer consultas. Primero, analicemos la tabla de Depósito.

Reproduce el video desde :1:46 y sigue la transcripción1:46

Puedes ver las columnas aquí: ID de depósito, alias de depósito, capacidad máxima, número total de empleados y estado en
que está ubicado el depósito. Luego veamos las 100 filas superiores de la tabla de Pedidos. Aquí podemos usar LIMIT para
limitar el número de filas devueltas. Esto es útil si trabajas con grandes conjuntos de datos, especialmente si solo quieres
explorar una pequeña muestra de ese conjunto de datos. A partir de esta consulta, vamos a comenzar con una instrucción
FROM para poder asignar alias a nuestras tablas. La asignación de alias es cuando nombras temporalmente una tabla o
columna en tu consulta para que sea más fácil de leer y escribir. Dado que estos nombres son temporarios, solo se mantienen
por la consulta dada. Podemos usar nuestra instrucción FROM para escribir cuáles serán nuestros alias para las tablas para
ahorrarnos tiempo en otras partes de la consulta. Comenzaremos con FROM y usaremos alias para nombrar simplemente
como "pedidos" a los pedidos de depósito.

Una sintaxis alternativa usa la clave AS para asignar un alias: FROM warehouse_orders.Orders AS orders

Las consultas pueden ejecutarse con o sin la clave AS. Pero el uso de AS permite que el alias destaque para que la
consulta sea más fácil de leer.

Digamos que necesitamos tanto los detalles del depósito como los detalles del pedido porque queremos informar sobre la
distribución de pedidos por estado. Juntaremos con JOIN estas dos tablas porque queremos datos de ambas y asignaremos un
alias a nuestra tabla de depósito en el proceso. En este caso, usamos JOIN como abreviatura de INNER JOIN porque queremos
datos correspondientes de ambas tablas.

Y ahora que asignamos alias, desarrollemos la instrucción SELECT que viene antes de FROM.

Ejecutemos eso. Y listo. Ahora ya juntamos los datos de ambas tablas, y


sabemos cómo crear estos alias tan útiles. Ahora queremos contar cuántos estados hay en nuestros datos ordenados. Para
hacerlo, usaremos COUNT y COUNT DISTINCT ahora. Podemos probar primero una consulta simple de COUNT. Juntaremos con
JOIN las tablas de Pedidos y Depósito en nuestra instrucción FROM. Y en este caso, empezaremos seleccionando con SELECT y
contando con COUNT el número de estados. Ejecutemos esta consulta y veamos qué sale.

Esperen, algo falló. Esta consulta devolvió más de 9,000 estados porque contamos cada fila que incluía un estado. Pero lo que
queremos en realidad es contar los estados distintos.

Volvamos a probar con COUNT DISTINCT. Esta consulta será similar a la última, pero usaremos DISTINCT para eliminar los casos
repetidos que obtuvimos la última vez. Usaremos la consulta que acabamos de armar, pero reemplazaremos COUNT por
COUNT DISTINCT en nuestra instrucción SELECT. Probemos esta consulta.

Ahora sí. Según estos resultados, tenemos tres estados distintos en nuestros datos de Pedidos. Veamos qué pasa cuando
agrupamos según la columna de estados en nuestra tabla de depósito, que llamaremos depósito punto estado. Usaremos JOIN
y GROUP BY en nuestra instrucción FROM. Empecemos nuevamente por ahí. Luego GROUP BY estado del depósito.

Ahora
desarrollemos nuestra instrucción SELECT a partir de eso. Usaremos COUNT DISTINCT. Ejecutemos eso. Ahora tenemos tres
filas, una por cada estado representado en los datos de Pedidos. Y nuestro COUNT DISTINCT en el número de pedidos resume
el recuento que ejecutamos antes: 9,999. Verás que usas COUNT y COUNT DISTINCT en cada etapa del proceso de análisis de
datos. Comprender qué son estas consultas y en qué se diferencian es clave. ¡Excelente trabajo y nos vemos pronto!

COUNT devuelve el número de filas en un rango especificado. COUNT DISTINCT solo devuelve los valores distintos en un
rango especificado.

1.
Pregunta 1

Un analista de datos quiere recuperar solo registros de una base de datos que tengan valores coincidentes en dos tablas
diferentes. ¿Qué función JOIN debe usar?
1 / 1 punto

OUTER JOIN
RIGHT JOIN
INNER JOIN
LEFT JOIN
Correcto
Para recuperar solo registros de una base de datos que tengan valores coincidentes en dos tablas diferentes, el analista
debería usar INNER JOIN.
2.
Pregunta 2

Estás escribiendo una consulta SQL para instruirle a una base de datos que recuente valores en un rango especificado.
Solo quieres recontar cada valor una vez, aunque aparezca en múltiples ocasiones. ¿Qué función deberías incluir en tu
consulta?
1 / 1 punto

COUNT
COUNT RANGE
COUNT DISTINCT
COUNT VALUES
Correcto

Para decirle a una base de datos que devuelva valores distintos en un rango especificado, el analista debería usar
COUNT DISTINCT en su consulta.
3.
Pregunta 3

Un analista de datos quiere nombrar temporalmente una columna en su consulta para que sea más fácil de leer y
escribir. ¿Qué técnica debería usar?
1 / 1 punto

Nomenclatura
Asignación de alias
Etiquetado
Filtrado
Correcto

Para nombrar temporalmente una columna en una consulta para que sea más fácil de leer y escribir, el analista debería
usar asignación de alias.

Funcionan con subconsultas


Consultas dentro de consultas
Hola, es genial tenerte de vuelta. En este vídeo, te voy a presentar otra consulta SQL: las subconsultas. Una subconsulta es una
consulta SQL que está anidada dentro de una consulta más grande. ¿Alguna vez viste una de esas muñecas que van una
adentro de otra? También se las conoce como muñecas rusas mamushkas o matrioshkas. Las subconsultas se parecen mucho a
estas muñecas rusas. No, en serio. Tu consulta más grande puede tener una subconsulta en su interior y luego esa subconsulta
podría tener una subconsulta, y después esa subconsulta podría tener otra subconsulta. Pero después cuando las apilas todas
juntas forman una consulta. Con las subconsultas puedes combinar distintas piezas de lógica entre sí. Dado que la lógica de tu
consulta externa depende de la consulta interna, puedes hacer más cosas con una sola consulta. Esto significa que toda la
lógica está en un solo lugar, lo que hace que sea más eficiente y fácil de leer. La instrucción que contiene la subconsulta
también puede llamarse consulta externa o selección externa. Esto convierte a la subconsulta en la consulta interna o selección
interna. La consulta interna se ejecuta primero para que los resultados puedan pasarse a la consulta externa para que los use.
Las subconsultas pueden ser un poco confusas porque hay muchas capas. Pero si tienes en cuenta que la consulta más interna
se ejecuta primero, será más fácil ordenar tus subconsultas cuando quieres ejecutarlas. Las subconsultas también pueden
anidarse dentro de todo tipo de otras consultas. Generalmente encontrarás subconsultas anidadas en cláusulas FROM o
WHERE. Probemos algunas subconsultas comunes. Empecemos con una subconsulta en una instrucción SELECT usando los
datos de bicicletas compartidas de un ejemplo anterior. Para la primera instrucción, digamos que queremos comparar el
número de bicicletas disponibles en una estación con el número promedio de bicicletas disponibles. Usaremos esta consulta
para obtener el número promedio de bicicletas disponibles. Después vamos a incorporarlo como subconsulta.

Ahora desarrollemos nuestra consulta externa de SELECT. Queremos seleccionar la ID de la estación y el número de bicicletas
disponibles. Luego pondremos la consulta SELECT que extrae el número promedio de bicicletas dentro de esa consulta externa
usando paréntesis. También incorporaremos FROM a la subconsulta antes de cerrarla con otro paréntesis y completar la
consulta externa.
El final de la consulta OUTER JOIN tiene AS para mostrar qué nombre le queremos poner a esta columna y una última
instrucción FROM para indicar a qué tabla nos referimos.

Ahora ejecutemos eso. ¡Listo! Tenemos una tabla con el número de bicicletas disponibles y el número promedio de bicicletas
disponibles en diferentes estaciones. Es muy común ver subconsultas anidadas en instrucciones FROM y WHERE. Así que
probemos ahora esas. Podríamos usar una instrucción FROM para calcular el número de viajes que comenzaron en cada
estación en un período. Empezaremos con nuestra consulta externa y escribiremos SELECT station_id, name y
number_of_rides. Usaremos AS para indicarle qué etiqueta queremos para la tabla, y FROM para indicarle de dónde sacamos
los datos. Pero antes de terminar esa consulta, agregaremos una subconsulta. Pondremos nuestros paréntesis aquí y luego
SELECT start_station_id. Después podemos decirle que COUNT number_of_rides FROM los datos del viaje y lo agrupe por
start_station_id.

Después de eso, cerraremos la subconsulta con un paréntesis para poder seguir desarrollando la consulta externa. Volveremos
a usar AS y después usaremos INNER JOIN y ON para juntarlos con los datos de la ID de la estación.

Por último, le indicaremos que los coloque en orden descendente. Veamos qué pasa cuando ejecutamos eso. Ahora tenemos
el número de viajes iniciados en cada estación.

Reproduce el video desde :4:27 y sigue la transcripción4:27

Un último ejemplo. Usemos una instrucción WHERE. La empresa de bicicletas compartidas tiene dos tipos de usuarios:
suscriptores y clientes ocasionales. Supongamos que queremos una lista de las estaciones que usaron los suscriptores. Como
siempre, empezamos con la consulta externa. SELECT station_ id y el nombre FROM el conjunto de datos público que estamos
usando. Esta vez, usaremos una instrucción WHERE. Además, usaremos IN para poder especificar múltiples valores y esta
instrucción WHERE. Después pondremos nuestra subconsulta entre paréntesis. Volveremos a agregar SELECT, FROM y WHERE.
Pero esta vez diremos que solo queremos datos sobre clientes específicos.

Es bueno observar que puedes usar operadores de


comparación en las subconsultas, incluso operadores de filas múltiples como IN, ANY o ALL. En este caso, usaremos el signo
igual para indicar que solo queremos los datos de los usuarios suscriptores.

Ahora ejecutamos la consulta y tenemos la ID y el nombre de las estaciones que cumplen con nuestros criterios. Así son las
subconsultas en acción. Las subconsultas pueden ser complicadas. Hay muchas capas para analizar y es posible que te surjan
errores cuando practiques. No tiene nada de malo. Atravesar ese desafío significa que estás creciendo. Si todo fuera fácil, no
encontraríamos nuevas maneras de crecer. Para mí, se trata de cuánto trabajo y cuánto tiempo necesito invertir para hacerlo.
Date tiempo para practicar este nuevo concepto. Próximamente tendrás la oportunidad de usar las subconsultas para agregar
datos o poder avanzar al desafío semanal. Tomarás todo lo que aprendiste, usando VLOOKUP, diferentes JOINS y subconsultas,
y lo aplicarás a esta próxima evaluación. Hicimos muchos trabajos complejos. Si quieres tomarte un momento para repasar
estos vídeos antes de avanzar, siéntete libre de hacerlo. Una vez que termines un desafío, te volveré a ver para nuestra próxima
gran aventura. Nos vemos pronto.

En SQL, una subconsulta es una consulta anidada dentro de otra consulta.

Uso de subconsultas para agregar datos


Tenemos algo de experiencia anidando subconsultas en nuestras instrucciones SQL para realizar consultas más complicadas.
Ahora es momento de hablar sobre cómo agregar datos con subconsultas. A continuación, aprenderemos acerca de algunas
nuevas instrucciones de subconsultas y las usaremos para agregar datos. La consulta que construiremos en este vídeo es
bastante avanzada. Va a ser un poco complicada, pero sé que puedes hacerlo. ¡Empecemos! Ya usamos funciones como
WHERE para filtrar nuestros datos, pero la función WHERE no puede usarse con funciones de agregado. Por ejemplo, puedes
usar WHERE en una instrucción y luego acompañarla de GROUP BY. Pero cuando quieres usar GROUP BY primero y después
usar WHERE sobre esos resultados, necesitarás una función diferente. En este punto, aparece HAVING. HAVING básicamente te
permite agregar un filtro a tu consulta en vez de a la tabla subyacente cuando trabajas con funciones de agregado. De esa
manera, solo devuelve registros que cumplen tus condiciones específicas. Asimismo, CASE devuelve registros dentro de tus
condiciones permitiéndote incluir instrucciones IF/THEN en tu consulta. Intentemos agregar nuestros datos con subconsultas y
probar estas nuevas funciones. Digamos que trabajamos con una compañía que fabrica calcetines como comentamos antes. Se
nos pidió que calculáramos qué porcentaje de los pedidos son completados por cada depósito. Básicamente, nos interesa
saber qué depósitos entregan más pedidos. Ya hemos visto estas tablas, pero para repasar rápidamente, esta es nuestra tabla
de Pedidos.

Puedes ver las


columnas aquí: id_pedido, id_cliente, id_depósito, fecha_pedido y fecha_envío. Si mostramos la tabla de depósito, podemos
ver sus columnas. Tenemos id_depósito, alias_depósito, capacidad_máxima, el número total de empleados y el estado en que
está ubicado el depósito. Antes de comenzar a armar el resto de nuestra consulta, deberíamos asignarles un alias a nuestros
nombres de tabla. Como repaso, la asignación de alias es cuando nombras temporalmente una tabla o columna en tu consulta
para que sea más fácil de leer y escribir. Esta consulta de ejemplo es un poco más complicada que las que vimos antes. La
asignación de alias nos ayudará a ahorrar tiempo. Comenzaremos por asignarle un alias a la tabla de Depósito en nuestra
instrucción FROM. La instrucción FROM en esta consulta está cerca del final, pero armaremos esto primero para que podamos
usar el alias en el resto. Lo simplificaremos a Depósito para el resto de esta consulta. Sabemos que juntaremos estas tablas con
JOIN. Agreguemos eso ya que estamos mientras trabajamos en esta parte de la consulta. Aquí usamos una LEFT JOIN porque
queremos toda la información de nuestros datos de Depósito, aun si no aparece en la tabla de Pedidos. Luego asignaremos un
alias a la tabla de Pedidos como parte de esta instrucción.

Reproduce el video desde :3: y sigue la transcripción3:00

Ahora nuestras dos tablas tienen nombres temporales que podemos usar. Ya terminamos una instrucción JOIN. Pero antes de
que podamos desarrollar el principio de esta consulta, avancemos y agreguemos nuestra instrucción GROUP BY después de
esta JOIN. Los agruparemos por id_depósito y nombre. Ahora volveremos al principio de la consulta. Seleccionaremos la
id_depósito. Usaremos CONCAT para combinar las cadenas con el estado del depósito y alias AS (como) el nombre del
depósito. Luego usaremos COUNT para obtener el número de pedidos por depósito.

Reproduce el video desde :3:49 y sigue la transcripción3:49

Luego incorporaremos una subconsulta para sacar el número total de pedidos hechos en todos los depósitos. Escribiremos
SELECT nuevamente y luego escribiremos la subconsulta entre paréntesis. Colocaremos un asterisco después de COUNT para
indicar que queremos incluir todo de la tabla de Pedidos. Por último, cerraremos la subconsulta y usaremos AS para nombrar
pedidos_totales a esta columna.

Reproduce el video desde :4:19 y sigue la transcripción4:19

Ahora que completamos la lógica de nuestra subconsulta, podemos usar una instrucción CASE para crear categorías para
nuestros depósitos según cuántos pedidos completarán. Los representaremos como porcentajes. Observa que aparece COUNT
en la instrucción varias veces. Comenzaremos diciendo que WHEN (cuando) el número de pedidos FROM (de) nuestra tabla de
Pedidos sea inferior o igual a 0.2, THEN (entonces) la tabla dirá "Completó 0-20% de los pedidos".

Luego usaremos WHEN de nuevo para indicar que cuando el número de pedidos sea superior a 0.2 e inferior o igual a 0.6,
dirá, "completó 21-60% de los Pedidos". Después de eso, podemos usar ELSE para que todo lo que no cumpla con los criterios
de nuestra instrucción CASE diga, "Completó más del 60% de los Pedidos". Luego usaremos END AS para nombrar esta
columna resumen_de_cumplimiento.

Eso nos trae de vuelta a la parte de la consulta que ya escribimos. Pero vamos a agregar una instrucción HAVING al final de
esta consulta. Nuestra tabla de Depósito tiene depósitos que actualmente están en construcción, y queremos excluirlos porque
aún no completan pedidos. Podemos usar HAVING para solo incluir depósitos que tengan al menos un pedido.

Ahora, antes de ejecutar esta consulta, tomemos un momento para observar todo. Tenemos una SELECT externa, una
subconsulta COUNT, una instrucción CASE, una JOIN y una HAVING, todo incluido en una consulta. Armamos una consulta
realmente compleja. Así que ejecutemos la consulta para ver la nueva tabla. Ahí está. Ahora podemos identificar con facilidad
qué porcentaje de los pedidos totales de nuestra empresa son completados por cada depósito. Estos depósitos cumplen con
nuestros criterios. Y podemos ver aquí en la columna resumen_de_cumplimiento las categorías de porcentajes que indicamos
en nuestra instrucción CASE. Evidentemente, como incluimos una instrucción HAVING para especificar solo depósitos con al
menos un pedido, no hay ningún depósito que actualmente esté en construcción en esta tabla. Esa consulta tan complicada
que escribimos creó esta tabla específica de datos que podemos usar para comparar fácilmente el desempeño que están
teniendo estos depósitos. Ahí lo tienes. Esa es una pequeña muestra de cómo es trabajar con subconsultas y agregación de
datos. Cláusulas como HAVING y CASE emparejadas con subconsultas te ayudarán a crear consultas cada vez más complejas, lo
que te permite hacer cosas cada vez más complejas en SQL.

Funciones y subconsultas SQL: Una amistad funcional


En esta lectura, aprenderás sobre funciones SQL y cómo a veces se usan con subconsultas. Las funciones SQL son
herramientas integradas a SQL para posibilitar la realización de cálculos. Una subconsulta (también llamada consulta
interna o anidada) es una consulta dentro de otra consulta.

¿Cómo funcionan las funciones SQL?


Las funciones SQL son lo que posibilita la agregación de datos. (Como recordatorio, la agregación de datos es el proceso
de recolectar datos de múltiples fuentes para combinarlos en una sola colección resumida). Entonces, ¿cómo funcionan
las funciones SQL? Volviendo a W3Schools, repasemos algunas de estas funciones para comprender mejor cómo
ejecutar estas consultas:
 SQL HAVING: Esta es una descripción general de la cláusula HAVING, incluyendo qué es y un tutorial de cómo
y cuándo funciona.
 SQL CASE: Explora el uso de la instrucción CASE y ejemplos de cómo funciona.
 SQL IF: Este es un tutorial de la función IF y ofrece ejemplos que puedes usar para practicar.
 SQL COUNT: La función COUNT es igual de importante que el resto, y este tutorial ofrece múltiples ejemplos
para repasar.

Subconsultas: la guinda del pastel


Piensa en una consulta como un pastel. Un pastel puede tener múltiples capas en su interior e incluso capas dentro de
esas capas. Cada una de estas capas son nuestras subconsultas y cuando juntas todas las capas, obtienes un pastel
(consulta). Habitualmente las subconsultas están anidadas en las cláusulas SELECT, FROM o WHERE. No existe una
sintaxis general para las subconsultas, pero la sintaxis de una subconsulta básica es la siguiente:

SELECT account_table.* FROM ( SELECT * FROM transaction.sf_model_feature_2014_01 WHERE day_of_week =


'Friday' ) account_table WHERE account_table.availability = 'YES'

Verás que dentro de la primera cláusula SELECT existe otra cláusula SELECT. La segunda cláusula SELECT marca el
inicio de la subconsulta en esta instrucción. Existen muchas maneras diferentes de utilizar las subconsultas, y los
recursos indicados te ofrecerán orientación adicional a medida que aprendes. Pero, primero, repasemos las reglas de las
subconsultas.

Existen algunas reglas que deben seguir las subconsultas:

 Las subconsultas tienen que estar dentro de paréntesis


 Una subconsulta puede tener una sola columna especificada en la cláusula SELECT. Si quieres que una
subconsulta compare varias columnas, esas columnas deben haberse seleccionado en la consulta principal.
 Las subconsultas que devuelven más de una fila solo pueden usarse con múltiples operadores de valor, tales
como el operador IN que permite especificar múltiples valores en una cláusula WHERE.
 Una subconsulta no puede estar anidada en un comando SET. El comando SET se usa con UPDATE para
especificar qué columnas (y valores) se deben actualizar en una tabla.
Recursos adicionales
Los siguientes recursos ofrecen más orientación sobre subconsultas y su uso:

 Subconsultas SQL: Esta instrucción detallada incluye la definición de una subconsulta, su finalidad en SQL,
cuándo y cómo usarla, y cuáles serán los resultados
 Escritura de subconsultas en SQL: Explora los conceptos básicos de las subconsultas en este tutorial interactivo,
incluyendo ejemplos y problemas de práctica que puedes resolver
A medida que sigues aprendiendo más sobre el uso de SQL, las funciones y las subconsultas, te darás cuenta de todo el
tiempo que realmente puedes ahorrarte memorizando estos consejos y trucos.
Las subconsultas habitualmente están anidadas en las cláusulas SELECT, FROM o WHERE. Las subconsultas no pueden estar
anidadas en las consultas SET.
Los operadores de comparación como >, <, o = te ayudan a comparar datos en las subconsultas. También puedes usar
operadores de varias filas, entre ellos, IN, ANY o ALL.
La instrucción que incluye una subconsulta se denomina consulta externa o selección externa. Las subconsultas están anidadas
dentro de estas instrucciones, denominadas consultas internas o selección interna.
La consulta más interna se ejecuta primero. Su consulta primaria se ejecuta última, por lo tanto, puede usar los resultados
devueltos por las consultas internas.
Los paréntesis se utilizan para marcar el comienzo y el final de una subconsulta.
Para que una subconsulta compare varias columnas, esas columnas deben haberse seleccionado en la consulta principal.
Un comando SET no puede tener una subconsulta anidada porque se utiliza con UPDATE para ajustar columnas y valores
específicos en una tabla.
Las subconsultas que devuelven más de una fila dependen de operadores de varios valores como el comando IN.

Justin: A dónde te lleva el análisis de datos


Guardar nota

Hola, soy Justin. Trabajo aquí en Google en el espacio de Google Cloud. Lidero un pequeño equipo de analistas de datos que
responden a problemas de negocios para nuestro equipo ejecutivo. Lo primero que les diría sobre mi camino hasta el análisis
de datos es que no fue directo. Llegué a Google hace tres años y hago análisis computacional de datos y realmente disfruto ese
rol. Está todo unido por el entusiasmo por los datos y por responder preguntas que tienen un impacto. Tu trayectoria
profesional no siempre es directa. Quizás el análisis computacional de datos no sea mi destino final. Pero lo que diría es: sigue
cambiando poco a poco, descubre qué te entusiasma de tu rol actual. En mi caso era que me encantaba evitar la política y la
formación de coaliciones y simplemente quería aportar mejores hechos y mejores conocimientos para realmente motivar
decisiones. Entonces descubre qué te gusta sobre tu rol actual, tu trabajo actual y luego descubre qué rol diferente podrías
desempeñar para basarte en eso, pero quizás obtener más de lo que te gusta. Sé curioso. La principal destreza realmente es
solo preguntar por qué y luego intentar responder esa pregunta. Te marcará el camino, ya sea Wikipedia para comprender este
modelo... Generalmente hay alguien que dice: "¿Por qué usaron ese modelo?". Busca ese modelo y sigue ese hilo. O existen
tantos recursos excelentes para diferentes lenguajes. Si quieres entender SQL, existen tantas herramientas excelentes. Pero
creo que lo principal es simplemente seguir tu curiosidad. Cuando reviso currículums, lo primero que busco obviamente son
esas destrezas centrales, la capacidad de analizar datos, demostrarlos, experiencia con algunas de las herramientas que
usamos. Pero también busco pasión real por responder preguntas. Un ejemplo es cuando alguien realmente se plantó e
intentó comprender el porqué y siguió preguntando: "¿Por qué pasa esto, por qué pasa esto?" y realmente se planta.

1.
Pregunta 1

¿Cuáles de las siguientes consultas contienen subconsultas? Selecciona todas las opciones que correspondan.

1
2

3
Correcto. Las tres consultas con instrucciones entre paréntesis contienen subconsultas.

Correcto. Las tres consultas con instrucciones entre paréntesis contienen subconsultas.

Correcto. Las tres consultas con instrucciones entre paréntesis contienen subconsultas.

2.
Pregunta 2

Completa el espacio en blanco: Un analista de datos usa la asignación de alias para que sea más fácil leer y escribir una
consulta. La asignación de alias implica _____ temporalmente una tabla o columna en una consulta.
1 / 1 punto

copiar
nombrar
eliminar
ocultar
Correcto

La asignación de alias implica nombrar temporalmente una tabla o columna en una consulta.
Pregunta 3

Al trabajar con subconsultas, la consulta exterior se ejecuta primero.


1 / 1 punto

verdadero
falso
Correcto

La consulta interior se ejecuta primero, luego los resultados se pasan a


la consulta exterior para su uso.

Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Lista de citas programadas

Agregación de datos: Proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida

Agregación: Proceso de recolectar o juntar muchas partes separadas en un todo

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las oportunidades
de mejora en el futuro

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la eliminación
de información que pueda asociarse a ellas

Apertura: Aspecto de la ética de los datos que promueve el acceso libre, el uso y el uso compartido de los datos

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores
Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido

Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato comprimido
como por ejemplo MP4, MV4, MOV, AVI o FLV

Asignación de alias: Nombrar temporalmente una tabla o columna en una consulta para que sea más fácil de leer y escribir

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango seleccionado

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones

Base de datos: Recopilación de datos almacenados en un sistema informático

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otra cosa

C
Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

CASE: Instrucción SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

CAST: Función SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar, analizar,
archivar y destruir
Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver clave
externa)

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos

Consulta: Solicitud de datos o información de una base de datos

Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger una
hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se puede
arrastrar a través de las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

COUNT DISTINCT: Función de SQL que solo devuelve los valores distintos en un rango especificado
COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con un valor especificado

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas que coinciden con un valor especificado

D
DATEDIF: Función de una hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos

Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema tiene
datos en varias filas

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas
Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos

Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos, correctos y que son pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de manera fácilmente identificable

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordinales: Datos cualitativos con un orden o escala establecidos

Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diseño de datos: Cómo se organiza la información

DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar y
compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)
Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y organizar
datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes específicas

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados

Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de una hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo
Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG

FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función matemática: Función que se utiliza como parte de una fórmula matemática

Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Fusión: Acuerdo que une dos organizaciones en una organización nueva

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

Hoja de cálculo: Hoja de cálculo digital

I
Informe: Recopilación estática de datos que se entrega periódicamente a los interesados
Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura confiable

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

INNER JOIN: Función de SQL que devuelve registros con valores coincidentes en ambas tablas

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población

J
JOIN: Función de SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada

L
LEFT JOIN: Función de SQL que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla
derecha

LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Length: Número de caracteres en una cadena de texto

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido


Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

MATCH: Función de la hoja de cálculo que se usa para ubicar la posición de un valor de búsqueda específico

MAX: Función de la hoja de cálculo que muestra el resultado del valornumérico más alto de un rango de celdas

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada y
lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer, tanto
en el campo profesional como el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Metadatos: Datos sobre los datos

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto
MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un todo

N
Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Operador: Símbolo que designa la operación o cálculo a realizarse

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones

Ordenación: Proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de entender,
analizar y visualizar

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de conducir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas

OUTER JOIN: Función de SQL que combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas tablas

P
Panel: Herramienta que monitorea los datos entrantes en vivo

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Pensamiento analítico: Proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de manera
organizada, paso a paso

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con otras
áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente relacionadas
entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente

Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta
Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que proporciona
y que tiene control primordial sobre su uso, procesamiento y uso compartido

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Q
Quitar duplicados: Herramienta de una hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

R
Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango: Conjunto de dos o más celdas en una hoja de cálculo

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia absoluta: Referencia dentro de una función que está bloqueada para que las filas y las columnas no cambien si se
copia la función

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila
Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones

Repositorio de metadatos: Base de datos creada para almacenar metadatos

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión

RIGHT JOIN: Función de SQL que devuelve todos los registros de la tabla derecha y solo los registros coincidentes de la
izquierda

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver Sesgo del observador)

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria
Sintaxis: Estructura predeterminada de un lenguaje, que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación

Split: Función que divide el texto en función de un carácter específico y ubica cada fragmento en una nueva celda separada

SQL: (Ver Lenguaje de consulta estructurado)

Subcadena: Subconjunto de una cadena de texto

Subconsulta: Consulta de SQL anidada dentro de una consulta más grande

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

T
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados significativos

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo
de datos de texto)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo de
datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que puede
realizar

Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial
Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes de sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o de


una computadora a otra

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

U
Único: Valor que no puede tener un duplicado

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de datos

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

VALUE: Función de la hoja de cálculo que convierte una cadena de texto que representa un número en un valor numérico

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos resultantes
son precisos y confiables

Visualización de datos: Representación gráfica de los datos

Visualización: (Ver Visualización de datos)

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente
W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados

1.
Pregunta 1

En el análisis computacional de datos, ¿qué es la agregación de datos?


1 / 1 punto

El proceso de modificar datos para que sean adecuados para el análisis.


El proceso de garantizar que los datos de una empresa se almacenen, gestionen y mantengan de manera correcta.
El proceso de mover determinados puntos de datos a un rango o posición superior.
El proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida.
Correcto

Feedback: La agregación de datos es el proceso de recolectar datos de múltiples fuentes y combinarlos en una sola
colección resumida.
2.
Pregunta 2

Un analista de datos quiere asegurarse de que todos los números en una hoja de cálculo sean numéricos. ¿Qué función
debería usar para convertir el texto en valores numéricos?
1 / 1 punto

EXCHANGE
CONVERT
PROCESS
VALUE
Correcto

El analista debería usar la función VALUE para convertir texto en valores numéricos.
3.
Pregunta 3

Al usar VLOOKUP, existen algunas limitaciones comunes que los analistas de datos deberían conocer. Una de estas
limitaciones es que VLOOKUP solo devuelve la primera coincidencia que encuentra, aun si existen muchas coincidencias
posibles dentro de la columna.
1 / 1 punto

verdadero
falso
Correcto

Una de las limitaciones de VLOOKUP es que solo devuelve la primera coincidencia que encuentra, aun si existen
muchas coincidencias posibles dentro de la columna.
4.
Pregunta 4

Un analista de datos crea una referencia absoluta alrededor de una matriz de función. ¿Cuál es la finalidad de la
referencia absoluta?
1 / 1 punto

Para cambiar automáticamente valores numéricos a valores de divisa


Para mantener la coherencia de una matriz de función para que las filas y columnas cambien automáticamente si se
copia la función
Para copiar una función y aplicarla a todas las filas y columnas
Bloquear una función para que las filas y columnas no cambien si se copia la función
Correcto

La finalidad de una referencia absoluta es bloquear la función para que las filas y columnas no cambien si se copia la
función.
5.
Pregunta 5

La siguiente es una selección de una hoja de cálculo:

A B C
1 País Población en 2020 (millones) Crecimiento de la població
2 China 1,439,323,776 13.4%
3 India 1,380,004,385 37.1%
4 Estados Unidos 331,002,651 17.3%
5 Indonesia 273,523,615 27.7%
6 Paquistán 220,892,340 44.9%
7 Brasil 212,559,417 21.9%
8 Nigeria 206,139,589 66.3%
9 Bangladesh 164,689,383 27.9%
10 Rusia 145,934,462 -0.8%
Para buscar el crecimiento de la población de Indonesia, ¿cuál es la sintaxis correcta de VLOOKUP?
0 / 1 punto

=VLOOKUP(Indonesia, A2*C10, 3, false)


=VLOOKUP("Indonesia", A2:C10, 3, false)
=VLOOKUP("Indonesia", A2:C10, 2, false)
=VLOOKUP(Indonesia, A2:C10, 2, false)
Incorrecto

Si necesitas hacer un repaso, consulta la sección sobre VLOOKUP.


6.
Pregunta 6

Al crear una consulta de SQL, ¿qué cláusula JOIN devuelve todos los registros coincidentes en dos o más tablas de
bases de datos?
0 / 1 punto

RIGHT
INNER
OUTER
LEFT
Incorrecto

Vuelve a mirar el vídeo sobre funciones JOIN para hacer un repaso.


7.
Pregunta 7

Un analista de datos escribe una consulta solicitando a una base de datos que devuelva el número de filas en un rango
especificado. ¿Qué función usa?
1 / 1 punto

RANGE
COUNT
RETURN RANGE
COUNT DISTINCT
Correcto

Al escribir consultas SQL, un analista puede usar la función COUNT para devolver el número de filas en un rango
especificado.
8.
Pregunta 8

¿Cuál de los siguientes términos describe una subconsulta? Selecciona todas las opciones que correspondan.
1 / 1 punto

- Consulta pequeña
- Consulta interna
Correcto. Una subconsulta también puede llamarse consulta interna, selección interna o consulta anidada.

- Consulta anidada
Correcto. Una subconsulta también puede llamarse consulta interna, selección interna o consulta anidada.

- Selección interna
Correcto. Una subconsulta también puede llamarse consulta interna, selección interna o consulta anidada.

MODULO 4
Empecemos con los cálculos de datos
Cálculos de datos
Hola. Es genial tenerte de vuelta. A continuación, haremos un repaso de algunos conceptos familiares y, luego, los utilizaremos
para explorar conceptos nuevos. Como analista de datos, utilizarás herramientas y procesos clave una y otra vez, pero también
aprenderás cosas nuevas a medida que crezcas en tu trabajo. Podría ser cualquier cosa, desde crear un nuevo tipo de análisis
hasta inventar un atajo que ahorre tiempo. Cuando llegué a Google, confiaba en muy pocos programas y herramientas para
acceder a los datos y hacer mi análisis. Pero pronto me di cuenta de que no estaba trabajando tan eficientemente como quería.
Cuando me sentí más cómodo extrayendo datos y analizándolos con SQL, pude ser mucho más eficiente que antes. Y a medida
que mejoraba utilizando SQL y extrayendo los datos de las tablas de datos, completaba mi análisis con mayor rapidez. Me
enganché. En los próximos videos, te mostraré algunas maneras de ser lo más eficiente posible a la hora de realizar cálculos
durante tu análisis. Comenzaremos por revisar las hojas de cálculo, donde observaremos las fórmulas de los cálculos básicos.
Luego, pasaremos a las fórmulas condicionales que utilizan la función IF para verificar si se cumple una condición a través de
un cálculo. Después exploraremos la función multifuncional SUMPRODUCT. ¡Intenta decir esa función rápidamente cinco
veces! SUMPRODUCT suma y multiplica todo en un solo paso, así que es muy útil. Luego, echaremos otro vistazo a las tablas
dinámicas. Si te has salteado una parte y es la primera vez que escuchas hablar de ellas, aprenderás todo sobre las tablas
dinámicas. Tienen un montón de usos, que incluyen la organización de tus cálculos. Y pasaremos dinámicamente a SQL (un
juego de palabras). Te mostraremos cómo las consultas y los cálculos van de la mano en SQL. También echaremos un vistazo a
las tablas temporales en SQL, que son útiles para almacenar temporalmente tus datos durante el análisis. Cubriremos un
montón de conceptos nuevos en estos videos, así que siéntete libre de presionar el botón de pausa en cualquier momento
para analizar el problema o probar los pasos por tu cuenta. Y siempre puedes volver a ver los videos la cantidad de veces que
necesites.

Entonces, para recapitular, haremos una breve revisión y, luego, aprenderemos conceptos totalmente nuevos relacionados con
los cálculos. ¿Estás listo? Bien. Yo también.

Fórmulas de cálculos comunes


¡Hola! Quizás hagas muchos cálculos en tu vida cotidiana. Para calcular cuánta propina le das a alguien o para realizar un
balance de tu presupuesto. Quizás realices algunos de estos cálculos mentalmente, con papel y lápiz, o con la calculadora de tu
teléfono. Es posible que incluso utilices atajos para realizar los cálculos de manera más sencilla. También realizarás muchos
cálculos como analista de datos. Pero involucrarán más números en un rango más amplio de cálculos. Allí es donde pondrás en
práctica tus herramientas como analista de datos. Te mostraremos cómo puedes utilizar fórmulas en una hoja de cálculo para
realizar algunos de los cálculos más básicos. Las fórmulas son uno de los muchos atajos que utilizan los analistas de datos. Pero
quédate tranquilo, que aunque sean atajos realizan los cálculos con una precisión absoluta. Hemos cubierto muchos de estos
cálculos anteriormente en el programa. Pero si te salteaste esa parte y quieres un recordatorio, los repasaremos aquí. Estos
cálculos también serán más avanzados que los que hemos cubierto hasta ahora. Pero también se acercarán más a los que
utilizarás en el trabajo. En este video usaremos Google Sheets, pero también puedes usar Excel. Los pasos pueden verse un
poco diferentes en Excel, pero los resultados serán los mismos. Probemos algunos cálculos con datos de ventas de una cadena
de tiendas de descuento. Observaremos los datos de una de las tiendas de la cadena. Nuestro objetivo: utilizar los datos de
ventas existentes para encontrar cualquier tendencia. Esta es una excelente manera de ver muchas de las formas en que
puedes usar las fórmulas en tu análisis. Comenzaremos por buscar las ventas anuales a lo largo de los años 2011-2020. Estos
datos ya están organizados en columnas por mes y en filas por año. Pero todavía no tenemos las ventas totales para cada año.
Podemos usar la función SUM para ayudarnos a averiguarlo. Primero sumaremos las ventas de 2011. Agregaremos un
encabezado en la columna de ventas anuales, y, luego, podemos escribir nuestra función SUM y una fórmula. Todas las
fórmulas comienzan con el signo igual. Lo escribiremos primero, seguido de SUM, y luego abriremos paréntesis. Después de
abrir paréntesis, necesitamos indicarle a la fórmula qué ventas estamos sumando. En este caso, necesitamos datos de toda la
fila que empieza en la celda B2. B2 es la referencia de celda que utilizaremos. En lugar de escribir cada celda, una por una,
podemos agregarlas rápidamente a la fórmula seleccionando la celda B2 y arrastrando el controlador de relleno por toda la fila
hasta la última celda con datos de ventas, M2.

Correcto
Para calcular la suma de un rango de celdas desde A2 hasta F2, la sintaxis correcta es =SUM(A2:F2). Las fórmulas
comienzan con el signo igual. A2:F2 son las referencias de las celdas que se deben sumar. Y los dos puntos entre las
dos referencias de celda indican que es un rango de celdas.
Ahora completaremos la fórmula cerrando el paréntesis y presionando Enter.

Así, hemos calculado las ventas totales de 2011. Este es otro atajo con el que trabajamos en un video anterior. El controlador
de relleno es una pequeña casilla en la esquina de cada venta. Puedes utilizarla para muchas cosas, por ejemplo, para
seleccionar muchas ventas para una fórmula o para continuar un patrón a lo largo de muchas ventas; el controlador de relleno
definitivamente califica como un atajo. Podemos usar la fórmula que creamos para calcular las ventas totales de los otros años
del conjunto de datos. Lo único que tenemos que hacer es arrastrar el controlador de relleno hacia abajo, por todas las otras
ventas de la columna de ventas anuales y obtendremos los datos de las ventas totales para el resto de los años del conjunto de
datos. Digamos que también necesitamos averiguar el crecimiento de las ventas anuales de un año a otro. Este sería un buen
momento para pensar en el problema antes de intentar resolverlo. ¿Tenemos los datos que necesitamos para resolverlo?
Todavía no. Pensar en retrospectiva, como ahora, nos ayuda a planificar los pasos para avanzar. Lo primero que necesitamos
hacer es calcular las ventas totales por año. Después mediremos la tasa de cambio entre los años. Empezaremos por etiquetar
una nueva columna.

En este caso, no necesitaremos usar una


función o un paréntesis, ya que solo estamos utilizando datos de dos ventas. Podemos usar el nombre de esas ventas, escribir
un signo igual y luego hacer clic en la "Celda N3", que automáticamente rellena la venta en la fórmula. Luego, agregaremos un
signo menos a la fórmula porque estamos restando para averiguar la diferencia entre dos años consecutivos. Hacer clic en la
"Celda N2" nos da el total desde 2011, que luego podemos restar del total de 2012. Luego presionamos Enter y obtenemos el
crecimiento de ventas de 2011-2012. Definitivamente estamos obteniendo datos muy útiles aquí. Sigamos adelante. También
podemos utilizar nuestro crecimiento de ventas para calcular la tasa de crecimiento entre los dos años. La mostraremos como
un porcentaje. Encabezaremos nuestra columna con el signo de porcentaje y el crecimiento. Para hacer esto, dividiremos el
total de la celda O3 por las ventas anuales de 2011 de la celda N2. La barra es el símbolo que una fórmula reconoce como
división, así que la colocaremos entre las dos referencias de celda y listo, allí está la tasa de crecimiento. Las tasas de
crecimiento suelen aparecer como porcentajes, que pueden ser más fáciles de leer y de comprender que un decimal.
Cambiemos este número por un porcentaje. Es hora de otro atajo. Lo único que tenemos que hacer es hacer clic en el botón de
estilo porcentual y nuestra tasa de crecimiento se convertirá en un porcentaje. Podemos seleccionar las ventas del crecimiento
total y de la tasa de crecimiento para rellenar el resto de las dos columnas.

Hay algunos números negativos, pero eso solo significa que hubo un crecimiento negativo de un año al siguiente. Solo nos
queda calcular algunas cosas para nuestros interesados. El siguiente paso es calcular el promedio de ventas. Queremos
comparar las ventas entre los meses para averiguar si hay una tendencia. Agregaremos esto en una fila en lugar de una
columna. Esto alineará nuestros promedios debajo de cada mes.
Para averiguar nuestros promedios, calcularemos el total y, luego, dividiremos el total por el número de valores agregados para
obtenerlo. Podemos hacerlo usando la función AVERAGE.

Entre paréntesis, seleccionaremos las celdas que contengan los datos de ventas para enero, de B2 a B11.

Duplicaremos esa fórmula por toda la fila de diciembre para buscar tendencias.

De inmediato, sabemos que los meses de verano y diciembre tienen los mayores promedios de ventas.

Dado que los interesados querrán comprender nuestros hallazgos de forma rápida y sencilla, agregaremos una pequeña
visualización a los datos con un formato condicional. Pronto aprenderás más sobre la visualización de datos, como el formato
condicional. Pero aquí tienes un adelanto. El formato condicional es una herramienta de la hoja de cálculo que cambia la forma
en que aparecen las celdas cuando los valores cumplen ciertas condiciones. Apliquemos el formato condicional a las celdas con
los promedios de ventas por mes.

Utilizaremos una escala de colores para mostrar el rango de promedios. Bueno, dejaremos el mes con el promedio más bajo de
color blanco y aplicaremos tonalidades de verde al resto de los valores.

Cuanto más brillante sea el verde, más alto será el promedio. Cuando compartamos nuestro análisis con los interesados,
podrán ver de inmediato qué meses tienen los mayores promedios de ventas. Solo nos quedan unos pasos para terminar
nuestro análisis. Ahora necesitamos encontrar el promedio mínimo y máximo de las ventas mensuales. Con un conjunto de
datos tan pequeño, tendría que ser fácil calcular los valores mínimo y máximo sin una fórmula, pero también es bueno poner
una en práctica. Además, una fórmula nos ayuda a evitar errores humanos. Confiaremos de nuevo en las fórmulas con
Funciones para realizar estos cálculos; comenzaremos con el mes con el promedio mensual más bajo.

Aquí nuestra función es MIN, seguida de las celdas con el promedio mensual B2 a M2.
Después de presionar Enter, aparece el cálculo del promedio mensual más bajo. Podemos repetir los mismos pasos para
calcular el promedio mensual más alto;

en esta fórmula, usaremos los mismos datos, pero reemplazaremos MIN por MAX, por máximo.

Para la ubicación de esta tienda, las ventas son mayores en diciembre y menores en enero. Podremos compartir estos
resultados con los interesados si cumplen con los objetivos. Si no lo hacen, tendremos que continuar con nuestro análisis. De
todas formas, espero que hayas aprendido que las fórmulas de las hojas de cálculo pueden ser herramientas valiosas cuando
realizas cálculos. A continuación, aprenderemos más fórmulas. Nos vemos pronto.

Funciones y condiciones
¡Es bueno verte de nuevo! Uno de los primeros cálculos que la mayoría de los niños aprende a hacer es contar. Luego,
aprenden a sumar y nunca lo olvidan. Sin importar la edad que tengamos, siempre estamos contando o sumando algo, ya sea
el cambio en una tienda de comestibles o las medidas en una receta. Los analistas de datos también cuentan y suman mucho.
Y con la cantidad de datos con la que te cruzarás como analista de datos, estarás agradecido de tener funciones que puedan
contar y sumar por ti. Aprendamos cómo las funciones COUNTIF y SUMIF pueden ayudarte a realizar los cálculos de tu análisis
de manera más simple y exacta. Comenzaremos con la función COUNTIF. Quizás recuerdes COUNTIF de algunos videos
anteriores sobre limpieza de datos. COUNTIF muestra el número de celdas que coinciden con un valor específico. Ya hemos
visto cómo COUNTIF puede utilizarse para encontrar y contar errores en un conjunto de datos.

Reproduce el video desde ::55 y sigue la transcripción0:55

Aquí solamente contaremos. A modo de recordatorio, aunque no buscaremos activamente errores en este video, de todas
maneras tendremos cuidado con cualquier dato que no parezca correcto mientras realizamos nuestro análisis. Como analista
de datos, buscarás y corregirás errores a cada paso del camino.

Reproduce el video desde :1:13 y sigue la transcripción1:13

En este ejemplo, observaremos una muestra de datos de un minorista en línea de suministros para cocina.

Reproduce el video desde :1:19 y sigue la transcripción1:19

Nuestros interesados nos pidieron respuestas a algunas preguntas sobre los datos para comprender mejor las transacciones de
los clientes, incluso los ingresos que están aportando. Hemos añadido las preguntas que debemos responder a la hoja de
cálculo.

Reproduce el video desde :1:34 y sigue la transcripción1:34

Configuraremos una tabla de resumen simple, que es una tabla que se utiliza para resumir información estadística sobre los
datos. Utilizaremos las preguntas para crear los atributos de la columna de nuestra tabla: recuento, ingreso total e ingresos
promedio por transacción.

Reproduce el video desde :1:52 y sigue la transcripción1:52


Cada pregunta pide información sobre transacciones con un ítem o transacciones con más de un ítem, así que esas serán las
observaciones para nuestras filas.

Reproduce el video desde :2:6 y sigue la transcripción2:06

Le pondremos Cantidad al encabezado de nuestras observaciones.

Reproduce el video desde :2:14 y sigue la transcripción2:14

También agregaremos bordes para que nuestra tabla de resumen se vea bien y sea clara.

Reproduce el video desde :2:22 y sigue la transcripción2:22

La primera pregunta dice: ¿Cuántas transacciones incluyen exactamente un ítem? Para responderla, agregaremos una fórmula
con la función COUNTIF en la celda G11.

Reproduce el video desde :2:33 y sigue la transcripción2:33

Comenzaremos con un signo igual, COUNTIF y abriremos paréntesis.

Reproduce el video desde :2:40 y sigue la transcripción2:40

La columna B tiene datos sobre cantidad. Así que seleccionaremos desde la celda B3 hasta la B50 y, luego, pondremos una
coma.

Luego, tenemos que decirle a la fórmula el valor que estamos buscando en las celdas que
seleccionamos. Queremos que los datos cuenten el número de transacciones si son iguales a 1. En este caso, entre comillas,
escribiremos un signo igual y el número 1 porque ese es el valor exacto que necesitamos contar. Cuando cerremos el
paréntesis y presionemos Enter, obtendremos el recuento total de las transacciones con un solo ítem, que es 25. Podemos
seguir los mismos pasos para contar valores mayores que uno.

Pero esta vez, ya que solo queremos valores mayores que 1, escribiremos el signo mayor que en nuestra fórmula dentro de un
signo igual.

Esta información nos ayuda a comparar los datos sobre la cantidad.

De acuerdo, ahora necesitamos averiguar el ingreso total que cada tipo de transacción generó. Dado que los datos no están
organizados por cantidad, utilizaremos la función SUMIF para que nos ayude a sumar los ingresos de las transacciones con un
ítem y con más de un ítem, por separado. SUMIF es una función que suma datos numéricos basados en una condición. Crear
una fórmula con SUMIF es un poco diferente que crear una con COUNTIF. Ambas empiezan de la misma manera, con un signo
igual y la función, pero una fórmula SUMIF contiene el rango de celdas que van a ser evaluadas por tus criterios, y los criterios.
Es decir, SUMIF tiene una lista de celdas para verificar en base a los criterios que configuraste en la fórmula. Luego, colocamos
el rango donde queremos sumar los números en la fórmula, en caso de que ese rango sea diferente del rango que estamos
evaluando. Hay comas entre cada una de estas partes. Agregar un espacio luego de cada coma es opcional. Hagamos una
prueba. Escribiremos nuestra fórmula en la celda H11.
Un analista de datos utiliza la siguiente fórmula: =COUNTIF(C2:C50, “=100”). ¿Qué parte de la fórmula nombra la
condición que deben cumplir los datos para que puedan contarse?
1. C2
2. =100
3. C50
4. COUNTIF
Correcto. En la fórmula =COUNTIF(C2:C50, “=100”), “=100” nombra la condición que deben cumplir los
datos para que puedan contarse. En esta fórmula, las celdas desde C2 hasta C50 se contarán si su valor
equivale a 100.
El rango que vamos a evaluar está en la columna B, así que seleccionaremos esas celdas.

Reproduce el video desde :5:14 y sigue la transcripción5:14

La condición que queremos que los datos cumplan es que los valores de la columna sean igual a uno. Entonces, escribiremos
una coma y luego, entre comillas, un signo igual y el número uno.

Reproduce el video desde :5:24 y sigue la transcripción5:24

Luego, seleccionaremos el rango a sumar si los datos de nuestro primer rango son iguales a uno. Este rango está en la columna
C, que contiene los ingresos de cada transacción.

Así, cada cantidad de ingresos recaudados de una transacción


con un solo ítem será sumada de forma conjunta. Y así obtendremos el total. Como estos son ingresos, cambiaremos el
formato de números a moneda, para que nos muestre dólares y centavos.

Reproduce el video desde :6: y sigue la transcripción6:00

Entonces, las transacciones con exactamente un ítem recaudaron ingresos por USD 1,555.00. Veamos cuánto recaudaron las
transacciones con más de un ítem.

Reproduce el video desde :6:38 y sigue la transcripción6:38

Echemos un vistazo a los resultados. Al igual que en nuestros ejemplos con COUNTIF, la segunda fórmula SUMIF será igual a la
primera, excepto por la condición, que será mayor que uno.

Cuando ejecutamos la fórmula, descubrimos que el ingreso total es mucho mayor:


USD 4,735.00. Eso tiene sentido porque los ingresos vienen de transacciones con más de un ítem. Buenas noticias. Para
completar nuestro objetivo, haremos dos cálculos rápidos más. Primero, averiguaremos los ingresos promedio por transacción
dividiendo cada total por su recuento. Esto mostrará a nuestros interesados la diferencia de ingresos que hay por transacción
entre transacciones con un ítem y transacciones con muchos ítems. Esa información puede ser útil por muchas razones. Por
ejemplo, para averiguar si es conveniente agregar un descuento en compras de más de un ítem para alentar a los clientes a
comprar más. Pondremos estos cálculos en la última columna de nuestra tabla de resumen. Quizás recuerdes que utilizamos
una barra en una fórmula como operador para los cálculos de divisiones.

Reproduce el video desde :7:44 y sigue la transcripción7:44

Los ingresos promedio de las transacciones con un ítem son USD 62.20.
Y los ingresos
promedio de las transacciones con más de un ítem son USD 205.87. Y así termina nuestro análisis. Ahora nuestra tabla de
resumen ofrece a los interesados y a los miembros del equipo una instantánea del análisis que es fácil de comprender. Las
funciones COUNTIF y SUMIF tuvieron un papel importante. El uso de estas funciones para realizar cálculos, sobre todo en
conjuntos de datos grandes, puede ayudarnos a acelerar nuestro análisis. También pueden hacer que sea más interesante
contar y sumar. No hay nada malo en eso. Y a continuación, exploraremos más funciones para que realices tus cálculos sin
problemas. Hasta pronto.

Funciones con varias condiciones


En esta lectura, aprenderás más sobre las funciones condicionales y sobre cómo crear funciones con varias condiciones.
Recuerda que las funciones y las fórmulas condicionales realizan cálculos en función de condiciones específicas.
Anteriormente, aprendiste cómo utilizar funciones como SUMIF y COUNTIF que tienen una condición. Puedes utilizar las
funciones SUMIFS y COUNTIFS si tienes dos o más condiciones. Aprenderás la sintaxis básica en Google Sheets y
analizarás un ejemplo.

Puedes consultar los recursos al final de esta lectura acerca de funciones similares en Microsoft Excel.

SUMIF o SUMIFS
La sintaxis básica de una función SUMIF es: =SUMIF(rango, criterio, rango_suma)

El primer rango es donde la función buscará la condición que hayas configurado. El criterio es la condición que estás
aplicando y rango_suma es el rango de celdas que se incluirán en el cálculo.

Por ejemplo, podrías tener una tabla con una lista de gastos, su costo y la fecha en la que se realizaron.

A B C
1 Gastos Precio Fecha
2 Combustible USD 48.00 14/12/2020
3 Comida USD 12.34 14/12/2020
4 Taxi USD 21.57 14/12/2020
5 Café USD 2.50 15/12/2020
6 Combustible USD 36.00 15/12/2020
7 Taxi USD 15.88 15/12/2020
8 Café USD 4.15 15/12/2020
9 Comida columna USD 6.75 15/12/2020
Podrías utilizar SUMIF para calcular el precio total del combustible en esta tabla, de la siguiente manera:

Pero, podrías crear también varias condiciones utilizando la función SUMIFS. SUMIF y SUMIFS son muy similares, pero
SUMIFS puede incluir varias condiciones.

La sintaxis básica es: =SUMIFS(rango_suma, rango_criterios1, criterio1, [rango_criterios2, criterio2, ...])

Los corchetes indican que se trata de un campo opcional. Los puntos suspensivos al final de la instrucción te permiten
saber que puedes tener tantas repeticiones de estos parámetros como sea necesario. Por ejemplo, si desearas calcular
la suma de los costos de combustible para una las fechas de esta tabla, podrías crear una instrucción SUMIFS con varias
condiciones, como la siguiente:
La fórmula proporciona el costo total de cada gasto de combustible desde la fecha incluida en las condiciones. En este
ejemplo, C1:C9 es nuestro segundo rango_criterio y la fecha 15/12/2020 es la segunda condición. Siempre que sigas la
sintaxis básica, ¡puedes sumar hasta 127 condiciones a una instrucción SUMIFS!

COUNTIF o COUNTIFS
Al igual que la función SUMIFS, COUNTIFS te permite crear una función COUNTIF con varias condiciones.

La sintaxis básica para COUNTIF es: =COUNTIF(rango, criterio)

Al igual que SUMIF, configuras el rango y luego la condición que se debe cumplir. Por ejemplo, si quisieras contar la
cantidad de veces que aparecía Food (Comida) en la columna de Gastos, podrías utilizar la función COUNTIF de la
siguiente manera:

COUNTIFS tiene la misma sintaxis básica que SUMIFS: =COUNTIFS(rango_criterios1, criterio1, [rango_criterios2,
criterio2, ...])

rango_criterios y criterio están en el mismo orden, y puedes agregar más condiciones al final de la función. Por eso, si
desearas hallar la cantidad de veces que aparecía Café en la columna Gastos el 15/12/2020, podrías utilizar COUNTIFS
para aplicar esas condiciones, de la siguiente manera:

La fórmula sigue la sintaxis básica para crear condiciones para “Café” y la fecha específica. Ahora, podemos buscar cada
instancia donde las dos condiciones sean verdaderas.

Para obtener más información


SUMIFS y COUNTIFS son solo dos ejemplos de funciones con varias condiciones. Ayudan a demostrar cómo es posible
crear varias condiciones en la sintaxis básica de una función. Pero, existen otras funciones con varias condiciones que
puedes utilizar en tu análisis de datos. Existen muchos recursos disponibles en línea que pueden ayudarte a avanzar con
estas otras funciones:

 Cómo utilizar la función IFS de Excel: Este recurso incluye una explicación y un ejemplo de la función IFS de
Excel. Esta es una gran referencia si estás interesado en aprender más sobre la función IFS. El ejemplo es una
manera útil de entender esta función y cómo puede utilizarse.
 VLOOKUP en Excel con varios criterios: Similar al recurso anterior, este recurso especifica en más detalle más
cómo utilizar VLOOKUP con varios criterios. Tener la capacidad de aplicar VLOOKUP con varios criterios será
una habilidad útil, por eso consulta este recurso para obtener una mayor orientación sobre cómo comenzar a
utilizarlo en los datos de tu propia hoja de cálculos.
 INDEX y MATCH en Excel con varios criterios: Este recurso explica cómo utilizar las funciones INDEX y MATCH
con varios criterios. Incluye además un ejemplo que ayuda a demostrar cómo trabajan estas funciones con varios
criterios y datos reales.
 Cómo utilizar las funciones IF con AND, OR y NOT en Excel: Este recurso combina las funciones IF con AND, OR
y NOT para crear funciones más complejas. Al combinar estas funciones, puedes realizar las tareas de manera
más eficiente y abarcar más criterios de inmediato.

1.
Pregunta 1
Resumen de la actividad

En actividades anteriores, usaste funciones básicas de la hoja de cálculo como COUNT, SUM, AVERAGE y MAX. En
esta actividad, trabajarás con las versiones condicionales de estas funciones: COUNTIF, SUMIF, AVERAGEIF y
MAXIFS.

Las funciones condicionales son funciones que realizan una tarea específica, pero solo sobre celdas que reúnen algunos
criterios definidos. Por lo general, están identificadas con el sufijo IF unido a la operación deseada. Con frecuencia se
usan al escribir consultas más complejas que no pueden lograrse usando funciones más básicas.

Una vez que completes esta actividad, podrás usar las funciones condicionales y comprender cuándo y por qué son
adecuadas. Esto te permitirá hacer un análisis más complejo con hojas de cálculo a medida que continúes desarrollando
tu conjunto de habilidades como analista de datos.

Lo que necesitarás

Para empezar, primero acede a la hoja de cálculo Cómo trabajar con condiciones.

Haz clic en el enlace a la hoja de cálculo para crear una copia. Si no tienes una cuenta de Google, puedes descargar la
hoja de cálculo directamente de los siguientes archivos adjuntos. Asegúrate de seleccionar "Usar plantilla" en el elemento
descargable.

Enlace a la hoja de cálculo: Cómo trabajar con condiciones

Descarga la hoja de cálculo:

Este conjunto de datos tiene siete columnas y 20 filas (sin incluir los encabezados). Los contenidos son varias métricas
que pertenecen a un equipo ficticio de vendedores.

Uso de la función COUNTIF

Primero, abre la hoja de cálculo Cómo trabajar con condiciones.

Supongamos que deseas calcular el número de vendedores que la empresa tiene en el estado de Nueva York. La
función COUNTIF te permite hacer esto de forma fácil. La sintaxis básica de COUNTIF es: =COUNTIF(rango, criterios).

El rango es la matriz (o conjunto) de celdas que estás consultando y los criterios son qué es lo que estás consultando.
Todas las celdas de la matriz que coinciden con los criterios provistos se contarán y este número se devolverá como el
valor de la función.

Para usar esta función para contar el número de vendedores que trabajan desde "NY", haz clic en una celda abierta. En
la barra de funciones, escribe =COUNTIF(B2:B21, "NY").
Ten en cuenta que has ingresado el rango como la matriz de celdas de B2 a B21. Incluye toda la columna B, excepto por
el encabezado. La función verifica todas las celdas en esta matriz contra el valor "NY" (ingresado entre comillas) que son
los criterios. Se contará cada celda en esta matriz con un valor de "NY" y el resultado se devolverá en la celda. Es 6 en
este caso.

Pulsa Enter (Windows) o Return (Mac). El resultado debería mostrarse así:

Como una alternativa al ingreso de los criterios "NY" en la función COUNTIF, puedes lograr el mismo resultado
ingresando una dirección de celda como los criterios. La función luego usará el valor de la celda citada como los criterios.
Por ejemplo, la celda J10 tiene el valor "NY". Si ingresas esto en la barra de funciones, la función COUNTIF buscará el
valor en la celda J10 y lo usará como los criterios. Esto arroja el mismo resultado que lo anterior:
Uso de la función SUMIF

La función SUMIF se usa para crear una suma de los valores de las celdas que reúnen criterios específicos. Acepta los
operadores lógicos (>, <, <>, =). La sintaxis para esta función es =SUMIF(rango, criterios, [rango_suma] ).

El rango de entrada es la matriz de celdas que cotejas con el valor de los criterios. La sintaxis rango_suma es la matriz de
valores que sumarás si se reúnen los criterios. En la sintaxis anterior, los corchetes alrededor de rango_suma indican
que esta entrada es opcional. Sin embargo, no agregas los corchetes cuando escribes la función. Si el argumento
rango_suma está ausente, entonces, la función SUMIF sumará los valores en el rango como valor predeterminado.

Como ejemplo de esta función, supongamos que deseas crear una suma de todas las ventas de más de USD 500.00.
Esto se puede ejecutar como =SUMIF(D2:D21, ">500").

El resultado es:

Debido a que no incluiste la entrada rango_suma, todos los valores en las celdas D2 a D21 que coinciden con los
criterios se sumaron como valor predeterminado. Para sumar solo las ventas de Nueva York, pero no limitarse a aquellas
superiores a USD 500, escribe la siguiente función: =SUMIF(B2:B21, "NY", D2:D21).
Este resultado es:

Observa que en la función SUMIF, la primera entrada, B2:B21 es el rango de celdas que se marcan para el criterio de
"NY" y la suma se hace alrededor de la entrada rango_suma de celdas D2:D21 que tienen el estado que reúne los
criterios "NY". Esto es diferente al primer caso. En ese caso, la matriz que marcas es la misma matriz que sumas.

Uso de la función AVERAGEIF

Al igual que las dos funciones anteriores, la función AVERAGEIF promediará los valores en una matriz basada en
criterios determinados. La sintaxis es =AVERAGEIF(rango, criterios, [rango_suma]).

Las entradas a esta función, rango, criterios, y rango_suma, funcionan exactamente de la misma forma que la función
SUMIF. Nuevamente, la entrada rango_suma es opcional.

Ahora, encuentra las ventas promedio por vendedor en Nueva York. Escribe la siguiente función: =AVERAGEIF(B2:B21,
"NY", D2:D21).
Esto arroja 902.83333 como resultado.

Uso de la función MAXIFS

La función MAXIFS es algo diferente a las otras tres funciones. La manera más fácil de observar la diferencia es
examinar la sintaxis: =MAXIFS(rango_max, rango1, criterios1, [rango2], [criterios2], ...).

Nota para usuarios de Microsoft Excel: MAXIFS solo se puede usar con una suscripción de Office 365 en Excel 2016 o en
una versión más nueva. Si no puedes usar una versión de Excel que permita la función MAXIFS, usa Google Sheets para
esta parte de la actividad.

El primer argumento, rango_max, es la matriz sobre la cual estás buscando el máximo. El segundo argumento (rango1)
es la matriz que estás marcando. El tercer argumento (criterios1) es el valor que estás verificando. Las entradas en los
corchetes son para limitaciones adicionales opcionales.

Usa esta función para encontrar el máximo de ventas de cualquier vendedor en Nueva York. Escribe lo siguiente:
=MAXIFS(D2:D21, B2:B21, "NY").
El cálculo resultante es 1666.61.

Recuerda, el orden en el que escribes las entradas importa. Intenta revertir la posición de las matrices del primer ejemplo
y escribe =MAXIFS(B2:B21, D2:D21, "NY").

El resultado es 0.

Esto sucede porque le estás pidiendo a la función que encuentre el máximo de la matriz B2:B21 donde las ventas
equivalen a "NY". Esto es imposible porque los valores en la matriz D2:D21 (el grupo de ventas) son numéricos. Por lo
tanto, ninguno de ellos equivale a "NY", que es una cadena. La función devuelve 0 cuando nada en el rango reúne los
criterios.

La función MAXIFS puede ingresar más de una restricción. Esto sucede cuando las entradas rango2 y restricción2 entran
en juego. Restricciones adicionales siguen la lógica de que cada restricción debe cumplirse para que una celda en la
entrada rango_max sea considerada.

Por ejemplo, para encontrar las ventas máximas en Nueva York cuando el Costo máximo de cada artículo es inferior a
USD 400, escribe lo siguiente en la barra de funciones: =MAXIFS(D2:D21, B2:B21, "NY", E2:E21, "<400").

Las primeras tres entradas son iguales a lo anterior, pero ahora agregaste la restricción adicional que el Costo máximo
de cada artículo debe ser inferior a USD 400. La matriz E2:E21 es la matriz Artículo máximo y sus celdas se cotejan con
los criterios <400. La función arroja lo siguiente, que son las ventas máximas de cualquier vendedor de Nueva York que
no vendió ningún artículo superior (o igual) a USD 400.
Cada una de las funciones anteriores (COUNTIF, SUMIF y AVERAGEIF) tienen equivalentes que trabajan de forma
similar a MAXIFS. Estos equivalentes incluyen COUNTIFS, SUMIFS y AVERAGEIFS. La sintaxis y la funcionalidad de
estas funciones, aparte del cálculo específico, son idénticas a MAXIFS. Por ejemplo, la función SUMIFS dará la suma
para una sola restricción o restricciones múltiples al igual que la función MAXIFS lo hace para el máximo. Tiene la misma
sintaxis que la función MAXIFS.

Confirmación y reflexión

En esta actividad, probaste la consulta =COUNTIF(B2:B21, "NY"), que arrojó el valor 6. Supongamos que deseas
determinar cuántos de estos 6 vendedores tienen 1 solo cliente. Ejecutas la consulta =COUNTIFS(B2:B21, "NY", C2:C21,
"1") para encontrar esta información. ¿Qué valor arroja esto?
1 / 1 punto

- 5
- 3
- 4
- 1
Correcto

La consulta =COUNTIFS(B2:B21, "NY", C2:C21, "1") arroja el valor 4, ya que existen 4 vendedores en Nueva York que
tienen solo un cliente. Para encontrar esta información, usaste la función COUNTIFS con restricciones adicionales. A
medida que avanzas, puedes usar otras funciones condicionales para encontrar información específica de tus datos, que
te ayudarán a realizar análisis más complejos.
2.
Pregunta 2

En esta actividad, usaste funciones con condiciones múltiples para responder a preguntas sobre tus datos. En el cuadro
de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes
preguntas:

¿Cómo puedes usar instrucciones condicionales con funciones para crear consultas complejas?

¿Cuándo es apropiado usar una función con restricciones múltiples, como SUMIFS, en lugar de una función con una sola
limitación, como SUMIF?

¿Cuáles son algunas otras situaciones en las que preferirías usar una función condicional en lugar de una regular?
1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría cómo pueden usarse instrucciones
condicionales para crear consultas y funciones complejas para realizar tareas en una matriz que reúna uno o más
criterios.
El sufijo -IF es una adición común de sintaxis que te permitirá implementar consultas y funciones más complejas. Muchas
de las funciones básicas permiten un sufijo -IF y la mayoría de ellas también permiten un sufijo -IFS. Al usar estas
funciones más complejas, puedes expandir tu conjunto de habilidades relacionadas con las hojas de cálculo y analizar
datos de manera más efectiva en programas como Google Sheets y Microsoft Excel.

Funciones compuestas
Hola de nuevo. A los analistas de datos les encanta descubrir nuevas formas de trabajar en su análisis, en especial, cuando esas
nuevas formas simplifican su trabajo. Sé que soy una gran fanática de aprender nuevos trucos para realizar tareas complicadas.
En lugar de intentar encontrar una nueva manera de hacer algo cada vez que realizo un análisis, intento aprender de otras
personas, haciéndoles preguntas y pidiéndoles ayuda cuando la necesito. A las personas con las que trabajo les gusta usar la
expresión "robar con orgullo". Esto quiere decir que no deberías avergonzarte de utilizar un proceso en tu análisis que hayas
aprendido de otra persona o en otro lugar. Otros miembros del equipo, publicaciones en foros, búsquedas en línea; utilicé
todos estos recursos para obtener ideas. ¡Con orgullo! Por supuesto, siempre cito mis fuentes cuando las utilizo. Ese es un paso
muy importante para recordar. La función SUMPRODUCT también es uno de esos trucos que los analistas descubren por su
cuenta o por otro lado. También puedes considerarla un atajo para hacer cálculos más complejos. Te mostraremos cómo
funciona SUMPRODUCT y cuándo podrías utilizarla para facilitar tu vida laboral. SUMPRODUCT es una función que multiplica
las matrices y muestra el resultado de la suma de esos productos. Así se ve la fórmula SUMPRODUCT: signo igual,
SUMPRODUCT seguido de un paréntesis abierto, y las matrices multiplicadas y luego sumadas. Cada matriz está separada por
una coma. Una matriz es como un rango en una hoja de cálculo. Pero recuerda que una matriz es una recolección de los
valores de las celdas, no las celdas en sí. Cuando se la agrega a una fórmula, la función SUMPRODUCT multiplica cada valor en
dos o más matrices. Por ejemplo, cada valor en la matriz de las celdas B3 a B7 puede multiplicarse por su valor
correspondiente en la matriz de las celdas C3 a C7. B3 por C3, B4 por C4, y así sucesivamente.

Luego, dará como resultado la suma de todas esas multiplicaciones. Veamos un ejemplo utilizando los datos de una empresa
de suministros para cocina. Quizás recuerdes este ejemplo del video de COUNTIF y SUMIF. Nos han brindado algunos datos
sobre el pedido de productos, que incluyen la cantidad de cada producto que se vendió en el pedido y el precio por unidad,
que indica cuánto cuesta cada uno de los productos. Nuestro trabajo es utilizar los datos de estas dos columnas para averiguar
el ingreso total de este pedido. Y aquí es donde aparece SUMPRODUCT. Para averiguar el ingreso total, necesitamos realizar
cálculos de suma y multiplicación. Primero, necesitamos calcular los ingresos que cada ítem generó por separado. Si
hiciéramos esto sin SUMPRODUCT, tendríamos que multiplicar cada cantidad por su precio unitario: 50 por USD 1.25, 25 por
USD 5, y así sucesivamente. Luego, tendríamos que sumar todos esos ingresos para obtener el ingreso total. Afortunadamente,
la función SUMPRODUCT hace todo eso por nosotros. Agreguemos la etiqueta Ingreso Total en la celda G5 y, luego, hagamos
clic en G6 para ingresar la fórmula. Luego, comenzaremos nuestra fórmula con un signo igual y la función seguida de un
paréntesis abierto. Es bueno recordar que las matrices que agreguemos a nuestra fórmula siempre deben ir entre paréntesis. A
continuación, seleccionaremos las celdas B3 a B7 para la primera matriz y, luego, escribiremos una coma. La coma funciona
como un separador entre las dos matrices y la fórmula. Después, seleccionaremos las celdas C3 a C7 para la segunda matriz y
cerraremos el paréntesis para completar nuestra fórmula. No tendremos que incluir corchetes en esta fórmula. Los incluimos
en el ejemplo de sintaxis para definir con claridad cada matriz. Luego presionamos Enter para obtener el ingreso total. Como
estamos trabajando con ingresos, aplicaremos a los números el formato de moneda. Así, averiguamos que el ingreso total es
USD 655. Pero esa no es la ganancia real de las ventas de estos suministros para cocina porque no hemos incluido el margen de
beneficio en estos cálculos. El margen de beneficio es un porcentaje que indica cuántos centavos de beneficio se generaron por
cada dólar de venta. En nuestro conjunto de datos, el producto número 789 tiene un margen de beneficio del 20%, lo que
quiere decir que cada producto vendido obtiene un beneficio total de USD 0.20 por cada dólar. Y como ocurrió con el cálculo
para los ingresos, podemos ahorrar tiempo si averiguamos el margen de beneficio con la función SUMPRODUCT. Solo hay una
diferencia entre la fórmula para el margen de beneficio y los ingresos en esta hoja de cálculo. Pero es una diferencia
importante. Para comenzar, en la celda G7 escribimos la misma primera parte de la fórmula. Luego, incluimos las dos matrices
de la misma manera.
Reproduce el video desde :4:54 y sigue la transcripción4:54

Pero en lugar de terminar nuestra fórmula, agregamos otra coma seguida de otra matriz. Esta vez seleccionaremos las celdas
con un margen de beneficio, D3 a D7. Terminaremos nuestra fórmula y nuestro cálculo estará listo.

La función SUMPRODUCT nos ahorra tener que multiplicar cada cantidad de ingresos individual por cada porcentaje de margen
de beneficio, y, luego, sumar cada cantidad de margen de beneficio. Utilizar SUMPRODUCT para realizar cálculos nos ahorra
tiempo y nos ayuda a evitar errores. Definitivamente, es un truco que vale la pena recordar, y, a continuación, verás que hay
mucho más que vale la pena tener en mente a la hora de realizar cálculos.

Deseas calcular los ingresos anuales de una empresa mediante el uso de datos financieros. Utilizas la función
SUMPRODUCT para multiplicar cada uno de los valores en los conjuntos B3:B7 y C3:C7, luego los sumas. ¿Cuál es
la sintaxis correcta para completar este cálculo?
=SUMPRODUCT+(B3:B7/C3:C7)
SUMPRODUCT(B3,B7:C3,C7)
=SUMPRODUCT(B3:B7,C3:C7)
=(SUMPRODUCT)(B3:B7*C3:C7)
Correcto
La sintaxis correcta es =SUMPRODUCT(B3:B7,C3:C7). Mediante esta sintaxis se multiplica cada valor en
el primer rango por su valor correspondiente en el segundo rango. Luego, los valores se suman.

1.
Pregunta 1

¿Cuál es la fórmula correcta de una hoja de cálculo para multiplicar 50 y 233?


1 / 1 punto

=50x233
=50*233
50x233
50*233
Correcto

=50*233 es la fórmula correcta para multiplicar 50 y 233. Todas las fórmulas comienzan con el signo (=). A esto le siguen
los valores a calcular. Un asterisco (*) es el operador de multiplicación en las hojas de cálculo.
2.
Pregunta 2

La siguiente es una selección de una hoja de cálculo:

A B
1 Gasto Mo
2 Alquiler USD
3 Cuidado de la salud USD
4 Compra de víveres USD
5 Vestimenta USD
6 Transporte USD
7 Teléfono móvil USD
8 Salidas a cenar USD
9 Seguro de automóvil USD
10 Paseador de perros USD
11 Membresía de gimnasio USD
12 Manicura USD
Estás tratando de determinar qué porcentaje de tus ingresos mensuales gastas en conceptos costosos, como alquiler y
compra de víveres. Para sumar solo los valores de la columna B que cuestan más de USD 150, ¿cuál es la sintaxis
correcta?
1 / 1 punto

=SUMIF(B2:B12,"<150")
=SUMIF(B2:B12,>150)
=SUMIF(B2:B12,<150)
=SUMIF(B2:B12,">150")
Correcto

Para sumar solo los valores de la columna B que cuestan más de USD 150, la sintaxis correcta es
=SUMIF(B2:B12,">150"). B2:B12 es el rango y más de 150 (>150) es el criterio.
3.
Pregunta 3

Un analista de datos está trabajando con una hoja de cálculo de una empresa de cosméticos.

Puedes hacer clic en el enlace para crear un conjunto de datos: Cosmetics Inc. O, si no tienes una cuenta de Google,
descarga la plantilla directamente desde el siguiente archivo adjunto.

¿Cuál de los siguientes es un ejemplo de una matriz en esta hoja de cálculo?


1 / 1 punto

Celdas D7 y D14
Todas las celdas con valores mayores que 100
Los valores en las celdas B2 a B31
Todas las celdas con valores numéricos
Correcto

Los valores en las celdas B2 a B31 juntas son un ejemplo de una matriz. Una matriz es un conjunto de valores en celdas
de una hoja de cálculo.

Tabla dinámica…
Comienza a trabajar con tablas dinámicas
¡Hola! Ahora ya sabes mucho sobre funciones y fórmulas. Son herramientas muy útiles para tu caja de herramientas y son
geniales para encontrar atajos para realizar cálculos. Pero hay otra herramienta que hace las mismas cosas en una hoja de
cálculo: la tabla dinámica. A modo de recordatorio, las tablas dinámicas<b> </b>te permiten ver los datos de varias formas
para hallar conclusiones y tendencias. Ya hemos visto cómo las tablas dinámicas te ayudan a limpiar y organizar datos, incluso a
ordenar y agrupar los datos. Pero las tablas dinámicas también ayudan a realizar cálculos. Por ejemplo, son geniales para
calcular rápidamente sumas y promedios. Regresemos a nuestro conjunto de datos sobre películas para ver cómo las tablas
dinámicas y los cálculos fueron de la mano. Anteriormente, resumimos y organizamos los datos en tablas dinámicas. También
lo haremos aquí. Pero en este caso, la organización es algo más que logras cuando usas las tablas dinámicas para realizar
cálculos. También puedes seguir estos pasos en Excel, aunque algunos podrían verse diferentes. Si estás utilizando Excel,
puedes revisar la lectura luego de este video para ver más detalles sobre las tablas dinámicas y las hojas de cálculo de Excel. En
este ejemplo, tu superior te pide que encuentres algunas tendencias para ayudarle a pensar nuevas ideas para una película,
utilizando los cálculos de ingresos. Esta hoja de cálculo tiene datos sobre películas de hace algunos años. Así que posiblemente
no sea tan útil en este momento. No obstante, los pasos que seguiremos para analizar los datos aplican tanto entonces como
ahora. Comencemos. Primero, necesitamos averiguar cuántos ingresos se generaron cada año. Una tabla dinámica es una
buena manera de organizar esto. Crearemos una tabla dinámica para ilustrarlo. En nuestra tabla dinámica también podemos
encontrar los ingresos promedio por película. Luego, podemos verificar nuestros hallazgos en busca de posibles tendencias.
Comenzaremos por buscar los ingresos generados cada año. Esto nos brinda la fecha de estreno de cada película en la columna
B y los ingresos de taquilla en la columna N. En lugar de organizar la tabla por año y crear una fórmula para calcular los
ingresos por año, crearemos una tabla dinámica. En la tabla dinámica, en una nueva hoja, mantendremos el rango de datos de
la celda A1 hasta la celda N509.

Reproduce el video desde :2:27 y sigue la transcripción2:27

Agregar una nueva hoja es muy útil en especial cuando trabajas con un conjunto de datos grande, como este. Te ayuda a
mantener tus cálculos juntos en un mismo lugar, y separados del resto de tus datos. Le cambiaremos el nombre a esta hoja por
el de ingresos para destacar dónde están nuestros cálculos, en caso de que nosotros o cualquier persona del equipo necesite
nuestro análisis. Ahora podemos crear nuestra tabla dinámica, comenzando por las filas. Ordenaremos las filas por fecha de
estreno para averiguar los ingresos de cada año. Puedes ver que esto crea una fila para cada fecha en que una o más películas
de este conjunto de datos se estrenaron. Como solo necesitamos los años, haremos clic con el botón derecho del mouse en
una de las celdas de la columna de las fechas de estreno para crear un grupo de fechas dinámico agrupado por año. Ahora
tenemos una fila por cada año en que estas películas se estrenaron. A continuación, queremos trabajar con los valores.
Colocaremos los datos de los ingresos de taquilla aquí. Esto completa las columnas que están al lado de las fechas de estreno
con los ingresos totales de taquilla y de cada año. Estos cálculos son automáticos porque la tabla dinámica ya está configurada
para resumir los datos utilizando la función SUM. Así que no es necesario cambiar esta configuración. Aunque hay otras
funciones y las resumidas en el menú, como MIN para la cantidad mínima de ingresos de cada año y contar para el número de
películas que generaron ingresos cada año. De acuerdo, veamos qué obtuvimos aquí. Estos datos muestran que los ingresos
más altos ocurrieron en 2014, mientras que los más bajos en 2016. Esta información podría ser útil, pero sería mucho más
probable que fuera más útil encontrar los ingresos promedio por película, ya que hubo un número diferente de películas que
se estrenaron cada año. Así que agregaremos otra columna para los ingresos promedio obtenidos por película en cada año.
Podemos hacerlo en la misma tabla dinámica. Agregaremos otro valor y cambiaremos la función que usamos para resumir de
SUM a AVERAGE.

Reproduce el video desde :4:40 y sigue la transcripción4:40

La función AVERAGE nos da los ingresos promedio por año para las películas del conjunto de datos. Podemos ver que los
ingresos promedio en 2015 fueron mucho más bajos que en otros años. Como estos datos se destacan demasiado, sigamos
explorando para encontrar la razón. Llevar tu análisis a otro nivel, como estamos haciendo, es un signo de que eres un gran
analista. Cuando estás haciendo tu trabajo, quieres responder las preguntas que tu superior y los interesados formulan. Pero
también quieres responder aquellas preguntas que surgen mientras estás realizando tu análisis. Así que tratemos de averiguar
esto. Primero, averiguaremos cuántas películas de cada año se incluyeron en el conjunto de datos, agregaremos un nuevo valor
y utilizaremos la función COUNT esta vez.

Reproduce el video desde :5:28 y sigue la transcripción5:28

Esto nos muestra que hay más películas en el conjunto de datos de 2015 que en cualquier otro año. Pero 2015 está en el
segundo lugar de los ingresos totales de taquilla más bajos. Esto puede querer decir algunas cosas. Es probable que muchas de
las películas de 2015 no hayan generado muchos ingresos en comparación con otros años, lo que bajaría los ingresos promedio
totales. Incluso si los ingresos totales permanecieran equitativos con los de los otros años. Aquí solo exploraremos esta
posibilidad. Pero siempre puedes seguir explorando cuando analices los datos en tu propio trabajo. Dependerá de tus objetivos
y de las respuestas que necesites responder. Por ahora, copiaremos y pegaremos nuestra tabla dinámica para poder probar
nuestra hipótesis.

Reproduce el video desde :6:23 y sigue la transcripción6:23

Cambiaremos los nombres de las columnas y de nuestra tabla copiada para diferenciarla de la tabla original. Le pondremos
nombre en base a los datos que estamos buscando, que explicaré en el siguiente video.

Reproduce el video desde :6:48 y sigue la transcripción6:48

Ahora nuestra tabla dinámica copiada está lista para que probemos nuestra hipótesis. A continuación, utilizaremos filtros para
averiguar cómo muchas películas generaron ingresos por menos de 10 millones de dólares en 2015. Luego crearemos un
campo calculado para determinar qué porcentaje del total de películas de ese año representan. Estaré aquí cuando estés listo
para aprender más sobre tablas dinámicas.
Tablas dinámicas (continuación)
Bienvenido de nuevo. En el último video, creamos una tabla dinámica sobre los datos de una película y sobre los cálculos de los
ingresos para ayudar a que nuestro gerente piense nuevas ideas para una película. Utilizamos nuestra tabla dinámica para
hacer algunas observaciones iniciales sobre los ingresos anuales. También descubrimos que los ingresos promedio de 2015
fueron más bajos que los de otros años, aunque se estrenaron más películas durante ese año. Nuestra hipótesis fue que esto
se debió a que la mayoría de las películas que recaudaron menos de 10 millones de dólares de ingresos se estrenaron en 2015.
Para probar esta teoría, creamos una copia de nuestra tabla dinámica original. Ahora aplicaremos filtros en los campos
calculados para explorar más a fondo estos datos. ¡Empecemos! Recordarán que la opción de filtrado nos permite ver
solamente los valores que necesitamos. Seleccionaremos una celda en nuestra copia de la tabla dinámica y agregaremos un
filtro en la columna de los ingresos de taquilla. Luego aplicaremos el filtro a toda la tabla. Cuando abrimos el menú de estado,
podemos elegir filtrar los datos para que muestren valores específicos.

Reproduce el video desde :1:11 y sigue la transcripción1:11

Sin embargo, en nuestro caso, queremos filtrar por condición, para poder averiguar cuántas películas recaudaron menos de 10
millones de dólares en cada año. La condición que utilizaremos en nuestro filtro es menor que y el valor será 10 millones de
dólares, por eso ya habíamos cambiado el nombre de estas columnas previamente. Escribiremos el número en un formato de
dólares y centavos para que la condición coincida con los datos de nuestra tabla dinámica. Quizás esto no sea necesario, pero
evita que sucedan posibles errores. Ahora sabemos que 20 películas que se estrenaron en 2015 recaudaron menos de 10
millones de dólares. Parece un número enorme en comparación a otros años. Pero ten en cuenta que había más películas en
nuestro conjunto de datos que se estrenaron en 2015. Antes de continuar, utilicemos un campo calculado para verificar
nuestro promedio porque lo habíamos copiado de otra tabla dinámica antes de filtrarlo. De esa forma podemos verificar que
es correcto. Crearemos una columna personalizada denominada campo calculado, utilizando nuestro menú de valores. Un
campo calculado es un campo nuevo en una tabla dinámica que realiza ciertos cálculos en base a los valores de otros campos.
También puedes realizarlo en Excel, utilizando las configuraciones de campo y el menú para crear fórmulas. Para la fórmula en
nuestro campo calculado, utilizaremos la función de suma y dividiremos la suma de los datos de los ingresos de taquilla de
nuestra tabla original por el recuento de los mismos datos. Como ya habíamos aplicado nuestro filtro a esta tabla dinámica,
esta fórmula solo nos brindará los ingresos promedio de películas por debajo de 10 millones de dólares. Eso funcionó. Pudimos
verificar la exactitud de algunos datos antes de analizarlos. Eso siempre es bueno. Pero todavía es difícil saber el impacto que
tuvieron estas películas de pocas ganancias en los ingresos promedio. Ejecutaremos una fórmula rápida para averiguar el
porcentaje de películas para cada año en que la recaudación fue inferior a 10 millones de dólares. Esto hará que sea más fácil
comparar un año con otro. En lugar de agregar un campo calculado, agregaremos esto como una fórmula en una columna
nueva; de ese modo, podemos extraer datos de ambas tablas dinámicas. Pondremos un encabezado en nuestra tabla, en la
celda G10, y lo denominaremos porcentaje de películas totales. Luego, agregaremos nuestra fórmula a la siguiente celda de la
columna. Dividiremos el número de películas de la tabla que copiamos por el número de películas de la tabla original. Luego,
utilizaremos el controlador de relleno en la celda con la fórmula y la arrastraremos para aplicar la fórmula al resto de los años.
Finalmente, formatearemos estos números como porcentajes. Ahora nuestro análisis muestra que el 16% de las películas
estrenadas en 2015 recaudó menos que 10 millones de dólares de ingresos. Los otros años están cerca del 10%. Esa es una
posible explicación de por qué los ingresos promedio son comparativamente bajos en 2015. En la vida real, es posible que
tengamos que hacer un análisis más exhaustivo, según nuestros objetivos. Pero, por ahora, estamos listos. Has aprendido cómo
puedes utilizar las tablas dinámicas para hacer cálculos de datos. Requiere práctica, pero las tablas dinámicas lo valen porque
hacen mucho más que calcular. También organizan y filtran los datos. Juntos hemos cubierto funciones, fórmulas y tablas
dinámicas. Herramientas geniales para usar en el análisis. Con práctica y experiencia, sentirás que las has utilizado siempre.
Solo tómate tu tiempo para conocer cómo funcionan. Sigue explorando estos videos y las lecturas. ¡Excelente trabajo!

¿Un campo calculado dentro de una tabla dinámica se utiliza para realizar cálculos basados en qué?
Los valores de otros campos
La sintaxis de las fórmulas disponibles
La función en el campo calculado
Los valores filtrados
Correcto
Un campo calculado dentro de una tabla dinámica se utiliza para realizar cálculos basados en los valores
de otros campos. El campo calculado se añade como una fila o columna adicional en una tabla dinámica.
Elementos de una tabla dinámica
Anteriormente, aprendiste que una tabla dinámica es una herramienta que se utiliza para ordenar, reorganizar, agrupar,
contar, totalizar o promediar datos en las hojas de cálculo. En esta lectura, aprenderás más sobre las partes de una tabla
dinámica y cómo los analistas de datos las utilizan para resumir datos y responder las preguntas sobre sus datos.

Las tablas dinámicas posibilitan el hecho de ver los datos de varias maneras a fin de identificar las conclusiones y las
tendencias. Pueden ayudarte a que rápidamente encuentres sentido a conjuntos de datos más grandes comparando la
métrica, realizando cálculos y generando informes. También son útiles para responder preguntas específicas sobre tus
datos.

Una tabla dinámica tiene cuatro partes básicas: filas, columnas, valores y filtros.

Las filas de una tabla dinámica organizan y agrupan los datos que seleccionas horizontalmente. Por ejemplo, en el video
de Cómo trabajar con tablas dinámicas, los valores de la fecha de lanzamiento se utilizaron para crear filas que agrupen
los datos por año.

Las columnas organizan y muestran verticalmente los valores de tus datos. Al igual que las filas, las columnas se pueden
extraer directamente del conjunto de datos o se pueden crear utilizando valores. Los valores se utilizan para calcular y
contar datos. Aquí es donde ingresas las variables que deseas medir. Esto es también cómo creas los campos
calculados en tu tabla dinámica. A modo de repaso, un campo calculado es un campo nuevo dentro de una tabla dinámica
que realiza ciertos cálculos en función de los valores de otros campos.

En el ejemplo anterior de datos de películas, el editor de Valores creó columnas para la tabla dinámica, que incluye las
columnas SUMA de la recaudación de taquilla, el PROMEDIO de la recaudación de taquilla y el CONTEO de la
recaudación de taquilla.
Por último, la sección de filtros de una tabla dinámica te permite aplicar filtros en función de criterios específicos;
simplemente como filtros en hojas de cálculo habituales. Por ejemplo, se agregó un filtro a la tabla dinámica de datos de
películas para que solo incluya películas que generaron menos que 10 millones de dólares en ingresos.

Poder utilizar las cuatro partes del editor de la tabla dinámica te permitirá comparar las diferentes métricas de tus datos y
realizar cálculos, que te ayudarán a obtener conclusiones valiosas.

Cómo utilizar las tablas dinámicas para el análisis


Las tablas dinámicas pueden ser una herramienta útil para responder preguntas específicas acerca de un conjunto de
datos para que puedas compartir rápidamente respuestas con los interesados. Por ejemplo, a un analista de datos que
trabaja en una tienda departamental le solicitan determinar las ventas totales para cada departamento y el número de
productos que vende cada uno. También estaba interesado en conocer con exactitud qué departamento generó más
ingresos.

En lugar de hacer cambios en los datos de la hoja de datos original, utilizó una tabla dinámica para responder esas
preguntas y comparar fácilmente los ingresos de las ventas y el número de productos vendidos por cada departamento.
Utilizó el departamento como las filas para esta tabla dinámica para agrupar y organizar el resto de los datos de las
ventas. Luego, escribió dos valores como columnas: la SUMA de las ventas y un recuento de los productos vendidos.
También ordenó los datos en la columna SUMA de ventas a fin de determinar qué departamento generó más ingresos.
Ahora sabe que el departamento Juguetes generó la mayor cantidad de ingresos.

Las tablas dinámicas son una herramienta eficaz para los analistas de datos que trabajan con hojas de cálculos porque
destacan las conclusiones clave de los datos de la hoja de cálculo sin tener que hacerle cambios. Próximamente, crearás
tu propia tabla dinámica para analizar los datos e identificar tendencias que serán muy valiosas para los interesados.

Cómo utilizar las tablas dinámicas para el análisis


En esta lectura, aprenderás cómo crear y utilizar las tablas dinámicas para el análisis de datos. También obtendrás
algunos recursos sobre las tablas dinámicas que puedes guardar para tu propia referencia cuando comiences a crear las
tablas dinámicas tú mismo. Las tablas dinámicas son una hoja de cálculo que te permite ver los datos de varias maneras
para hallar conclusiones y tendencias.

Las tablas dinámicas te permiten encontrarle el sentido a los conjuntos de datos grandes, ya que te proporcionan
herramientas para comparar fácilmente las métricas, realizar cálculos rápidos y generar informes legibles. Puedes crear
una tabla dinámica que te ayude a responder preguntas específicas sobre tus datos. Por ejemplo, si tuvieras que analizar
datos de ventas, podrías utilizar tablas dinámicas para responder preguntas como: “¿En qué mes se obtuvieron las
mayores ventas?” y “¿Qué productos generaron más ingresos este año?” Cuando necesitas respuestas a preguntas
sobre tus datos, las tablas dinámicas pueden ayudarte a simplificar el desorden y a centrarte solo en los datos
necesarios.

Cómo crear tu tabla dinámica


Antes de que puedas analizar los datos con las tablas dinámicas, deberás crear una tabla dinámica con tus datos. A
continuación se incluyen los pasos para crear una tabla dinámica en Google Sheets, pero la mayoría de los programas
de hojas de cálculo tendrán herramientas similares.

Primero, abrirás el menú Datos desde la barra de herramientas; habrá una opción para la Tabla dinámica.

Aparecerá este menú emergente:


There is an option to select New sheet or
Existing sheet and a Create button

Hay una opción para seleccionar Hoja nueva u Hoja existente y un botón Crear

Generalmente, querrás crear una hoja nueva para tu tabla dinámica para mantener separados los datos sin procesar y tu
análisis. También puedes almacenar todos tus cálculos en un lugar para fácil referencia. Una vez que hayas creado tu
tabla dinámica, habrá un editor de tabla dinámica al que puedes acceder en la parte derecha de tus datos.
Aquí es donde podrás personalizar tu tabla dinámica, inclusive cuántas variables deseas incluir para el análisis.

Cómo utilizar tu tabla dinámica para el análisis


Puedes realizar una amplia variedad de tareas de análisis con tus tablas dinámicas para sacar conclusiones significativas
rápidamente a partir de tus datos, incluida la realización de cálculos, la ordenación y el filtrado de los datos. A
continuación, hay una lista de recursos en línea que te ayudarán a aprender a realizar cálculos básicos en tablas
dinámicas, además de recursos para aprender a ordenar y filtrar datos en tus tablas dinámicas.

Cómo realizar cálculos


Microsoft Excel Google Sheets
Cómo crear y utilizar las tablas dinámicas: Esta guía se
Cómo calcular valores en una tabla dinámica:
centra en la utilización de las tablas dinámicas en Google
Introducción del soporte técnico de Microsoft para cálculos
Sheets y proporciona instrucciones para crear campos
en tablas dinámicas de Excel. Este es un punto de partida
calculados. Esta es una guía práctica rápida que puedes
útil si estás aprendiendo cómo realizar cálculos con las
guardar y consultar como un recordatorio rápido sobre cómo
tablas dinámicas específicamente en Excel.
agregar campos calculados.
Ejemplo de campo calculado de la tabla dinámica: Este
Toda la información sobre el campo calculado en las
recurso incluye un ejemplo detallado de una tabla dinámica
tablas dinámicas: Esta es una guía integral para los campos
que se utiliza para cálculos. Este proceso paso a paso
calculados de Google Sheets. Si estás trabajando con Sheets
demuestra cómo funcionan los campos calculados y te
te interesa aprender más sobre las tablas dinámicas, este es u
proporciona una idea de cómo se pueden utilizar para el
gran recurso.
análisis.
Campos calculados de la tabla dinámica: Tutorial paso a Tablas dinámicas en Google Sheets: Esta guía de
paso: Este tutorial para crear tus propios campos calculados principiantes abarca los aspectos básicos de las tablas
en las tablas dinámicas es generalmente un recurso útil para dinámicas y de los campos calculados en Google Sheets y
guardar y marcar cuando comiences a aplicar los campos utiliza ejemplos y videos prácticos que ayudan a demostrar
calculados a tus propias hojas de cálculo. estos conceptos.
Ordena tus datos

Microsoft Excel Google Sheets


Cómo ordenar los datos en una tabla dinámica o
Cómo personalizar una tabla dinámica: Esta guía del
PivotChart: Esta es una guía práctica rápida del soporte
soporte técnico de Google se centra en la ordenación de la
técnico de Microsoft para ordenar datos en las tablas
tablas dinámicas en Google Sheets. Esta es una referencia
dinámicas. Esta es una referencia útil si estás trabajando con
útil y rápida si estás trabajando en la ordenación de datos
Excel y estás interesado en comprobar cómo aparecerá el
en Sheets y necesitas una guía paso a paso.
filtrado en Excel específicamente.
Tablas dinámicas: Ordenación de datos: Este tutorial para Cómo ordenar las columnas de la tabla dinámica: Esta
ordenación de datos en las tablas dinámicas incluye un guía detallada utiliza datos reales para demostrar cómo
ejemplo con datos reales que demuestra cómo funciona la funciona el proceso de ordenación para las tablas
ordenación en las tablas dinámicas de Excel. Este ejemplo es dinámicas de Google Sheets. Este es un gran recurso si
una buena manera de experimentar todo el proceso desde el necesitas una guía apenas más detallada con capturas de
comienzo hasta el final. pantalla del entorno real de Sheets.
Cómo ordenar una tabla dinámica por valor: Este recurso Orden ascendente y descendente de la tabla dinámica:
utiliza un ejemplo para explicar la ordenación por valor en las Esta guía de principiantes de 1 minuto es una buena
tablas dinámicas. Incluye un video, que es una guía útil si manera de repasar la ordenación en las tablas dinámicas si
necesitas una demostración del proceso. estás interesado en un repaso rápido.
Cómo filtrar tus datos

Microsoft Excel Google Sheets


Cómo filtrar los datos en una tabla dinámica: Este recurso
Cómo personalizar una tabla dinámica: Esta es una
de la página de soporte técnico de Microsoft proporciona una
página de soporte técnico de Google sobre cómo filtrar lo
explicación de cómo filtrar datos en las tablas dinámicas en
datos de la tabla dinámica. Este es un recurso útil si estás
Excel. Si estás trabajando en hojas de cálculo de Excel, este es
trabajando con tablas dinámicas en Google Sheets y
un gran recurso para tener marcado a modo de referencia
necesitas un recurso rápido para revisar el proceso.
rápida.
Cómo filtrar varios valores en la tabla dinámica: Esta
Cómo filtrar los datos de la tabla dinámica en Excel: Esta
guía incluye detalles sobre cómo filtrar varios valores en
guía práctica para filtrar datos en las tablas dinámicas
las tablas dinámicas de Google Sheets. Este recurso amplí
demuestra el proceso de filtrado en una hoja de cálculo de
algunas de las funcionalidades que ya aprendiste y te
Excel con datos e incluye consejos y recordatorios para
prepara para que generes filtros más complejos en Google
cuando comiences a utilizar estas herramientas por tu cuenta.
Sheets.
Cómo darles formato a tus datos

Microsoft Excel Google Sheets


Cómo diseñar la distribución y el formato de una tabla dinámica: Cómo crear y editar las tablas dinámicas: Este
El artículo del soporte técnico de Microsoft describe cómo cambiar el artículo del Centro de ayuda proporciona
formato de la tabla dinámica aplicando un estilo predefinido, filas con información sobre cómo editar una tabla dinámica
bandas y formato condicional. para cambiar su estilo y agrupar datos.
Las tablas dinámicas son una herramienta poderosa que puedes utilizar para realizar cálculos rápidamente y obtener
conclusiones significativas en tus datos directamente desde el archivo de la hoja de cálculo en la que estás trabajando. Al
utilizar las herramientas de la tabla dinámica para calcular, ordenar y filtrar tus datos, puedes hacer observaciones de alto
nivel de inmediato acerca de tus datos que puedes compartir con los interesados en los informes.

Pero, como la mayoría de las herramientas que hemos abordado en este curso, la mejor manera de aprender es
mediante la práctica. Esto fue simplemente una pequeña muestra de lo que puedes hacer con las tablas dinámicas, pero
cuanto más trabajes con las tablas dinámicas, más información descubrirás.

1.
Pregunta 1
Resumen de la actividad

En el video anterior, te presentamos las tablas dinámicas como una herramienta para comparar métricas rápidamente,
hacer cálculos y generar informes legibles. En esta actividad, crearás y trabajarás con tablas dinámicas usando la hoja
de cálculo de películas del video para arrojar nueva información sobre este conjunto de datos y crear visualizaciones
para compartir con los interesados.

Al finalizar esta actividad, podrás aplicar tablas dinámicas en tus propios proyectos de análisis. Esto te permitirá obtener
información y crear informes directamente de tus hojas de cálculo, lo cual es importante para tu carrera como analista de
datos.

Lo que necesitarás

Para empezar, primero accede a la hoja de cálculo de películas del video anterior.

Haz clic en la hoja de cálculo de películas para crear una copia. Si no tienes una cuenta de Google, puedes descargar los
datos directamente desde los siguientes archivos adjuntos.

Enlace a los datos de películas: movie data starter project

Descargar datos:

Movie Data Starter Project

XLSX File

Cómo crear tu tabla dinámica

Una vez que tengas la hoja de cálculo con los datos de películas, puedes crear una tabla dinámica para ejecutar cálculos
y generar informes.

Abre la hoja de cálculo. Usa el menú Datospara crear una tabla dinámica.
Inserta tu tabla dinámica en una nueva hoja de cálculo. Haz clic en Crear. El rango de datos se completará como ‘Movie
Data’!A1:N509.
Cambia el nombre de tu nueva hoja comoResumen.

Esto abrirá el editor de tabla dinámica, donde podrás editar tu tabla dinámica y agregar cálculos personalizados.

Usar tablas dinámicas para responder preguntas

Ahora que has creado tu tabla dinámica, puedes usarla para responder preguntas específicas sobre tus datos de forma
rápida y fácil. Por ejemplo:

¿Cuál es el presupuesto promedio para cada género?

¿Cuáles son los ingresos promedio para cada género?

¿Qué género es por lo general el más rentable?

Las tablas dinámicas son una manera de extraer esta clase de información directamente de tus datos de la planilla de
cálculo.

1. Para obtener el presupuesto y los ingresos promedio para cada género de película, primero usarás el botón Agregar
junto a la sección Filas del editor de tabla dinámica y seleccionarás Género (1) de la lista desplegable.
2. Luego, usarás la sección Valores para agregar el presupuesto promedio y la recaudación promedio de taquilla. Haz clic
en el botón Agregar junto a Valores y selecciona Presupuesto.
La tabla dinámica resumirá estos valores de los datos originales automáticamente mediante la función SUM. Cambia por
la función AVERAGE usando el menú desplegable.
Ahora, deberías tener una columna en tu tabla dinámica denominada AVERAGE of Budget ($). Repite estos pasos para
crear otra columna para AVERAGE of Box Office Revenue ($).Tu tabla dinámica debe ahora verse de la siguiente manera:
Ahora puedes encontrar fácilmente el Presupuesto (USD) promedio y la Recaudación de taquilla (USD) para cada
género.

3. Para encontrar las ganancias netas promedio de cada género, deberás crear un campo calculado. Usa el botón
Agregar en la sección Valores y selecciona Campo calculado de la lista desplegable.
Ingresa Personalizado bajo la opción Resumir por y pega esta fórmula para obtener las ganancias promedio:

=AVERAGE('Box Office Revenue ($)')-AVERAGE('Budget ($)')

Marca Resumir por, Personalizado para evitar crear un error. Coloca un título a la nueva columna que creaste con el campo
calculado AVERAGE Profit en la celda D1.Tu tabla dinámica debe ahora verse de la siguiente manera:
4. Por último, puedes usar la opción Ordenar por en la sección Filas de la tabla dinámica para ordenar y organizar tu
tabla dinámica. Por ejemplo, intenta ordenar por los valores AVERAGE Profit para ver qué género produce las mayores
ganancias en promedio.
Visualización de los datos

Puedes crear algunas visualizaciones básicas en base a tus tablas personalizadas para compartir tus resultados con los
interesados.

Selecciona cualquiercelda en tu tabla dinámica y, luego, navega hacia el menú Insertar. Selecciona Insertar gráfico.
Esto creará un gráfico en la misma hoja de cálculo que tu tabla dinámica. Muévelo junto a tu tabla dinámica. En el editor
de gráficos, selecciona Gráfico de barras. Este tipo de gráfico hace que los interesados puedan comparar fácilmente los
diferentes géneros.
Ingresa A1:D18 para el rango Datos para seleccionar los valores significativos de tu tabla dinámica. Configura el eje Y
como Género(1). Agrega AVERAGE Profit a la lista de Serie y marca Usar fila 1 como encabezados y Usar columna 1 como
etiquetas.
Por último, cambia el título de tu visualización para que los interesados sepan exactamente qué estás comunicando.
También puedes personalizar la paleta de colores usando el menú Personalizar en el panel del editor de gráficos.
Confirmación y reflexión

¿Qué género de películas genera las mayores ganancias promedio?


1 / 1 punto

Aventura
Fantasía
Comedia
Suspenso
Correcto

Para descubrir qué género de película genera las mayores ganancias promedio, creaste una tabla dinámica con un
campo calculado y ordenaste los datos en consecuencia. Más adelante, podrás usar tablas dinámicas para resumir
rápidamente datos para obtener información e incluso crear visualizaciones directamente en tu hoja de cálculo. Esto te
ayudará en el futuro a medida que continúes trabajando con hojas de cálculo como analista de datos.
2.
Pregunta 2

En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las
siguientes preguntas:

¿Cómo puedes usar tablas dinámicas directamente en tus hojas de cálculo para ayudarte a analizar los datos en el
futuro?

¿Cuáles son algunos de los beneficios de poder resumir datos directamente en tu hoja de cálculo?
1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! En esta actividad, creaste una tabla dinámica y algunas
visualizaciones básicas directamente en tu hoja de cálculo para obtener información sobre tus datos. Una buena
respuesta incluiría que esto te permitirá analizar datos de forma rápida usando una herramienta de análisis.
Esto puede ayudarte a encontrar respuestas rápidamente para los interesados e incluso generar informes que se puedan
compartir. Por ejemplo, pudiste responder preguntas específicas sobre los datos y compartir tus resultados. En las
próximas actividades, continuarás analizando y compartiendo datos con las hojas de cálculo.

1.
Pregunta 1

El siguiente es un ejemplo de una tabla dinámica de una hoja de cálculo de una empresa de muebles:

producto SUMA de precio_de_compra


cama USD 799.99
biblioteca USD 58.89
silla USD 234.50
diván USD 399.95
sillón USD 9,000.00
escritorio USD 509.85
ventilador USD 111.92
lámpara USD 160.97
espejo USD 199.95
otomana USD 299.99
alfombra USD 808.65
jarrón USD 19.98
Total general 12604.635
¿Cuál es el propósito de la tabla dinámica en esta hoja de cálculo?
1 / 1 punto

1. Encontrar el precio promedio de cada producto


2. Resumir los datos sobre cada producto
3. Calcular la suma de precios individuales para cada tipo de producto
4. Organizar todos los datos en un formato más pequeño
Correcto

El propósito de la tabla dinámica es calcular la suma de los precios de compra individuales para cada tipo de producto.
También muestra un total general para todas las compras de productos.
2.
Pregunta 2

producto SUMA de precio_de_compra


cama USD 799.99
biblioteca USD 58.89
silla USD 234.50
diván USD 399.95
sillón USD 9,000.00
escritorio USD 509.85
ventilador USD 111.92
lámpara USD 160.97
espejo USD 199.95
otomana USD 299.99
alfombra USD 808.65
jarrón USD 19.98
Total general 12604.635
¿Cómo podría ajustarse la tabla dinámica para mostrar los mismos datos, pero solo para productos categorizados como
beige?
1 / 1 punto

1. Resumir los valores por producto


2. Agregar una nueva columna etiquetada como beige
3. Ordenar la fila actual por color del producto
4. Agregar un filtro para mostrar solo productos de color beige
Correcto

Para mostrar los mismos datos, pero solo para productos categorizados como beige, agrega un filtro para mostrar solo
productos de color beige.
3.
Pregunta 3

producto SUMA de precio_de_compra C


cama USD 799.99 U
biblioteca USD 58.89 U
silla USD 234.50 U
diván USD 399.95 U
sillón USD 9,000.00 U
escritorio USD 509.85 U
ventilador USD 111.92 U
lámpara USD 160.97 U
espejo USD 199.95 U
otomana USD 299.99 U
alfombra USD 808.65 U
jarrón USD 19.98 U
Total general 12604.635 U
¿Qué herramienta de la hoja de cálculo debes usar si deseas encontrar un valor promedio usando valores generados
dentro de una tabla dinámica?
1 / 1 punto

1. Formato condicional
2. Un filtro
3. Un campo calculado
4. Validación de datos
Correcto

Para encontrar un valor promedio usando valores generados en una tabla dinámica, usa un campo calculado. Un campo
calculado es un campo nuevo dentro de una tabla dinámica que realiza ciertos cálculos en función de los valores de otros
campos.

Aprende más sobre los cálculos de SQL


Consultas y cálculos
Ya debes saber que hay más de una manera de hacer la tarea diaria de un analista de datos. Los cálculos no son una excepción.
Como hemos visto en videos anteriores, puedes realizar los mismos cálculos de muchas formas diferentes en las hojas de
cálculo. También puedes realizarlos utilizando SQL. En este video, te daremos una descripción general de cómo difieren los
cálculos en SQL de los cálculos en hojas de cálculo. Echemos un vistazo a los operadores aritméticos que se utilizan tanto en las
hojas de cálculo como en SQL. Un operador es un símbolo que designa el tipo de operación o cálculo a realizarse en una
fórmula. Como ya aprendiste antes, los cuatro operadores aritméticos básicos en las fórmulas de las hojas de cálculo son el
signo más para la suma, el menos o el guion para la resta, el asterisco para la multiplicación y la barra inclinada para la división.
Estos operadores calculan los datos de la misma manera cuando escribimos consultas en SQL. Los operadores están integrados
en las consultas cuando extraes datos de una base de datos. Al igual que en las fórmulas de las hojas de cálculo, hay algunas
formas diferentes para realizar cálculos utilizando consultas. Echemos un vistazo a la sintaxis de una posible consulta. La
sintaxis de una consulta es su estructura. Debería incluir todos los detalles específicos de los datos que quieres extraer a una
nueva tabla donde esos detalles deben colocarse. Si quieres sumar valores de dos columnas de una tabla, comienzas con el
comando SELECT, seguido del nombre de la primera columna y, luego, el nombre de la segunda columna. Luego agregas los
nombres de ambas columnas con un signo más entre ellas. Luego, escribirás AS seguido del nombre que te gustaría darle a la
columna con los totales sumados. Finalmente, realizas tu consulta escribiendo FROM y, luego, el nombre de la tabla de la que
estás extrayendo los datos. Realizar esta consulta dará como resultado una tabla en la que se verán las dos columnas con sus
valores sumados y, además, una nueva columna con las sumas de esos valores. El operador en esta consulta es un signo más,
dado que los valores se están sumando. Si necesitaras restar, multiplicar o dividir, seguirías los mismos pasos y utilizarías los
operadores correspondientes. Si necesitas utilizar más de un operador aritmético en un cálculo, usarás paréntesis para
controlar el orden de los cálculos. Si incluyéramos la columna C en nuestra consulta, podríamos colocar paréntesis que
encierren la columna A más la columna B. Si estamos multiplicando, agregamos un asterisco seguido de la columna C. Esta
consulta dará como resultado una nueva columna con la suma de los valores de las columnas A y B, multiplicados por los
valores de la columna C. Ahora bien, digamos que solo querías el resto de un cálculo de división. Necesitas un operador
diferente para esto, el operador de módulo. El operador de módulo está representado por el símbolo de porcentaje.

Este es un operador que da como resultado el resto cuando se divide un número por otro. En una hoja de cálculo, puedes
realizar el mismo cálculo con la función MOD. Esto muestra otra similitud entre los cálculos en hojas de cálculo y en SQL.
Muchas veces puedes utilizar funciones en lugar de operadores para realizar cálculos. Por ejemplo, la función SUM puede
resolver problemas de suma en hojas de cálculo y en SQL. La función AVERAGE de una hoja de cálculo es igual a la función AVG
en SQL. Ambas dan como resultado el valor promedio de un conjunto de números.

En SQL, estas funciones son consideradas funciones de agregado porque realizan un cálculo con uno o más valores y dan como
resultado un único valor. Pronto aprenderás más sobre cómo se utilizan con el comando GROUP BY en una consulta. Esos son
los conceptos básicos sobre los cálculos en SQL. Saber cómo escribir una consulta para un cálculo es un buen primer paso.
Sigue con nosotros y aprenderás más sobre los cálculos en SQL. Hasta pronto.

Un analista de datos escribe una consulta de SQL. ¿Qué comandos debería utilizar para primero multiplicar los
valores de una tabla y, luego, colocar los productos resultantes en una nueva columna? Selecciona todas las opciones
que correspondan.
1. DIVIDE
2. FROM
Correcto. Utiliza los comandos SELECT, FROM y AS en una consulta para primero multiplicar los
valores de una tabla y, luego, colocar los productos resultantes en una nueva columna. Esto
SELECCIONARÁ los valores DE una tabla y les colocará un nombre nuevo COMO el nombre de la
columna con los valores calculados.
3. SELECT
Correcto. Utiliza los comandos SELECT, FROM y AS en una consulta para primero multiplicar los
valores de una tabla y, luego, colocar los productos resultantes en una nueva columna. Esto
SELECCIONARÁ los valores DE una tabla y les colocará un nombre nuevo COMO el nombre de la
columna con los valores calculados.
4. AS
Correcto. Utiliza los comandos SELECT, FROM y AS en una consulta para primero multiplicar los
valores de una tabla y, luego, colocar los productos resultantes en una nueva columna. Esto
SELECCIONARÁ los valores DE una tabla y les colocará un nombre nuevo COMO el nombre de la
columna con los valores calculados.

Para hallar el promedio de un conjunto de valores, un analista de datos puede escribir AVERAGE en ambas hojas de
cálculo y en SQL.
VERDADERO
FALSO
Correcto. La función AVERAGE calcula el promedio de un conjunto de valores en las hojas de cálculo.
Cuando se utiliza SQL, la función es AVG.

pcional: Cargar el conjunto de datos de aguacate en BigQuery


Utilizar conjuntos de datos públicos es una buena manera de practicar cómo trabajar con SQL. Más adelante en el curso,
vas a utilizar los datos históricos sobre los precios del aguacate para realizar cálculos en BigQuery. Esta es una guía
paso a paso que te ayuda a cargar estos datos en tu propia consola de BigQuery para que puedas seguir adelante con el
siguiente video.

Si saltaste de un curso a otro, El uso de BigQuery del curso Preparar datos para la exploración abarca cómo configurar
una cuenta de BigQuery.

Paso 1: Descargar el archivo CSV de Kaggle


Precios del aguacate: El conjunto de datos de aguacate disponible públicamente por parte de Kaggle que vas a utilizar
(puesto a disposición por Justin Kiggins en virtud de la licencia de Open Data Commons).

Puedes descargar estos datos en tu propio dispositivo y luego cargarlos en BigQuery. Existen también otros conjuntos de
datos públicos en Kaggle que puedes descargar y utilizar. Puedes seguir estos pasos para cargarlos en tu consola y
practicar por tu cuenta.

En esta página encontrarás más información acerca del conjunto de datos de aguacate, incluido el contexto, el contenido
y la fuente original. Por ahora, puedes simplemente descargar el archivo.

Paso 2: Abre la consola de BigQuery y crea un nuevo conjunto de datos


Abre BigQuery. Una vez que hayas descargado el conjunto de datos de Kaggle, puedes cargarlo en tu consola de
BigQuery.
En el Explorador, en la parte izquierda de tu consola, haz clic en el proyecto donde deseas agregar un conjunto de datos;
observa que tu proyecto no llevará el mismo nombre que el del ejemplo ("oval-flow-286322"). No elijas "bigquery-public-
data" como tu proyecto porque es un proyecto público que no puedes cambiar.

Haz clic en el ícono de Acciones (tres puntos verticales) junto a tu proyecto y selecciona Crear conjunto de datos.

Aquí, nombrarás al conjunto de datos, en este caso, escribe avocado_data. Luego, haz clic en Crear conjunto de datos
(botón azul) en la parte inferior para crear un conjunto de datos nuevo. Esto agregará datos al Explorador a la izquierda
de tu consola.
Paso 3: Abre un nuevo conjunto de datos y crea una nueva tabla
Navega en el conjunto de datos en tu consola haciendo clic para ampliar tu proyecto y seleccionando el conjunto de
datos correcto de la lista. En este caso, será avocado_data.
Haz clic en el ícono de Acciones (tres puntos verticales) junto a tu conjunto de datos y selecciona Abrir. Luego, haz clic
en el ícono + para crear una tabla.

Luego, haz lo siguiente:

 En Origen, Crear tabla desde selección, selecciona Cargar.


 Haz clic en Examinar y selecciona el archivo CSV que recién descargaste en tu computadora desde Kaggle. El
formato de archivo debería cambiar automáticamente de Avro a CSV cuando seleccionas el archivo.
 En Nombre de la tabla, escribe avocado_prices para designar a esa tabla.
 En Esquema, haz clic en la casilla Detección automática. Luego, haz clic en Crear tabla (botón azul).

there are options to upload data, name


a project, name the table, and more

Existen opciones para cargar datos, asignar el nombre a un proyecto, asignar el nombre a la tabla y mucho más

En el Explorador, los datos del aguacate aparecerán en la tabla en el conjunto de datos que creaste. ¡Ahora estás listo
para seguir adelante con el video y conocer más sobre cómo realizar cálculos con las consultas!

Más información
Introducción a la carga de datos: Esta guía paso por paso es un recurso útil que puedes marcar y guardar para más
adelante. Puedes consultarlo la próxima vez que necesites cargar datos en BigQuery.

Cómo insertar cálculos simples en SQL


Hola de nuevo. Anteriormente hemos visto cómo realizar cálculos en SQL. Aunque existen diferentes modos de realizarlos, uno
muy útil es incluirlos en las consultas. Cuando incluyes un cálculo en una consulta con otros comandos, puedes realizar más
trabajo de manera más rápida. Aquí hay una sintaxis de consulta básica de la que ya hemos hablado. Comenzamos con SELECT
y los nombres de las columnas que queremos utilizar en nuestros cálculos. Luego, agregamos los detalles del cálculo, incluso un
operador, como una barra inclinada para la división. A continuación, escribimos AS seguido del nombre de la nueva columna
para etiquetar la columna con los valores calculados. Por último, terminamos nuestra consulta con el comando FROM y el
nombre de la tabla de la que estamos extrayendo los datos. Ahora, pasemos al siguiente nivel con algunos cálculos integrados
que utilizan una sintaxis como esta. O, aún mejor, haremos esto con algunos datos sobre aguacates.

Lo lamento por aquellos que no aman los aguacates como yo. ¡Empecemos! Siéntete libre de seguir mirando mientras te
mostramos los pasos en BigQuery. Si te estás sumando ahora, abre tu herramienta preferida para usar SQL. Asegúrate de leer
las instrucciones de la lectura antes de ver el video para que te ayuden a empezar. Los datos siempre están cargados, así que
podemos empezar ya mismo. Nuestro objetivo es encontrar el número total de bolsas de aguacates que se vendieron cada día
en cada ubicación con estos datos. Ya hay una columna que nos muestra el total, pero queremos asegurarnos de que
comprendemos cómo se calculó ese total. Queremos asegurarnos de que la columna del total es la suma de las bolsas
pequeñas, grandes y extragrandes. Sumaremos los valores de esas tres columnas juntas en nuestra consulta y, luego, los
compararemos con la columna de las bolsas totales del conjunto de datos. Comenzaremos con el comando SELECT, que
utilizaremos para extraer ciertas columnas de la tabla. Estamos seleccionando varias columnas, así que presionaremos Enter
luego de SELECT y, luego, agregaremos una coma después de cada nombre de columna. A continuación, escribiremos esos
nombres de columnas: Date, Region,

Reproduce el video desde :2:11 y sigue la transcripción2:11

Small_bags, Large_bags, XLarge_Bags y Total_Bags. Los guiones bajos son las líneas que se usan para subrayar palabras y
conectar caracteres de texto. No utilizamos espacios porque pueden ser confusos para algunos servidores y aplicaciones. En
cambio, los guiones bajos ayudan a evitar posibles problemas y permiten leer correctamente los nombres. Ahora agregaremos
el cálculo a la consulta con los nombres de las tres columnas con signos más entre ellas: bolsas pequeñas más bolsas grandes
más bolsas extragrandes.

Como queremos este cálculo en una nueva columna, utilizaremos el comando AS para nombrar la columna Total_Bags_Calc.

Agregamos la palabra "Calc" para poder comparar las columnas una vez que hayamos obtenido los resultados. Ahora,
terminaremos nuestra consulta con FROM y el nombre del conjunto de datos y del subconjunto del que estamos extrayendo
los datos: avocado_data.avocado_prices.

Vamos a ejecutar la consulta.


En la columna "Total Bags Calc", los datos muestran la suma de cada fecha para el número de bolsas pequeñas, grandes y
extragrandes de aguacates que se vendieron en cada ubicación. Si comparamos rápidamente las dos columnas con el número
total de bolsas, veremos que los valores son los mismos.

Esto nos permite saber que los datos que queremos usar son los correctos. Ahora que hemos verificado el número total de
bolsas, podemos utilizar esos valores en otra consulta. Necesitamos averiguar qué porcentaje del número total de bolsas era
de bolsas pequeñas. Averiguar esto podría ayudar a los interesados a tomar decisiones sobre cómo empaquetar los aguacates
o en qué tamaño de bolsa organizar la venta. Nuestro trabajo es obtener esa información para los interesados. Así que
configuraremos una nueva consulta. Seleccionaremos las columnas de Date, Region, Total Bags y Small Bags para esta consulta.

A continuación, configuraremos una nueva columna para comenzar con nuestro cálculo. Para averiguar el porcentaje de bolsas
pequeñas, primero necesitamos dividir el número de bolsas pequeñas por el número de bolsas totales utilizando una barra
como operador. Pondremos esta parte del cálculo entre paréntesis para indicarle al servidor que este cálculo debe realizarse
primero. Luego, multiplicaremos este total por 100, utilizando un asterisco como operador. Multiplicar por 100 nos da un valor
que es un porcentaje en lugar de un decimal. Los porcentajes suelen facilitar y agilizar la comprensión cuando compartes los
resultados con otras personas. Utilizaremos el comando AS para nombrar esta nueva columna "Small Bags Percent".

Luego, agregaremos FROM y el nombre del conjunto del que estamos extrayendo, y ejecutaremos nuestra consulta.

Obtuvimos un error en nuestros resultados. Dice que no podemos dividir por cero. Como estamos buscando porcentajes,
dividir por cero no funcionará. Esto quiere decir que en algún lugar del conjunto de datos hay un total de bolsas igual a cero.
Tendremos que arreglar esto en nuestra consulta. Podemos hacerlo utilizando el comando WHERE. WHERE nos permite
agregar una condición a nuestro cálculo. Luego de escribir WHERE; escribiremos Total_Bags seguido por un signo menor que y,
luego, un signo mayor que. Estos símbolos le indican al servidor que los valores que estamos calculando no deben ser iguales al
valor que especificamos. En este caso, ese valor es cero. Así que agregaremos un cero a nuestra consulta. Ahora, cuando
ejecutemos la consulta, notaremos que nuestra nueva columna muestra el porcentaje de bolsas pequeñas en el recuento de
bolsas totales.

Obtendremos el mismo resultado si usamos un


signo de exclamación seguido de un signo igual en lugar de los signos menor que y mayor que.

Esta es una manera de hacerlo. Pero hay funciones


como SAFE_DIVIDE que también te permiten evitar este error. Estos son solo algunos ejemplos para que vayas comenzando.
Con SQL, puedes realizar casi cualquier cálculo que quieras durante tu análisis. Incluir los cálculos en tus consultas te ayudará a
mantenerte organizado mientras obtienes tus resultados. Los métodos de cálculo que te mostramos aquí son solo el comienzo.
Así que hay más a continuación. Nos vemos pronto.
Al utilizar SQL, ¿cuál de los siguientes son motivos para utilizar guiones bajos en los nombres de las columnas?
Selecciona todas las opciones que correspondan.

5. Indica al servidor que los valores en las columnas son para los cálculos
6. Verifica que los valores en las columnas sean precisos
7. Ayuda a evitar posibles problemas con los servidores y las aplicaciones
Correcto. Utilizar guiones bajos en lugar de espacios ayuda a evitar posibles problemas con los
servidores y las aplicaciones. También ayuda a mantener los nombres de la columna legibles.
8. Mantiene los nombres de la columna legibles
Correcto. Utilizar guiones bajos en lugar de espacios ayuda a evitar posibles problemas con los
servidores y las aplicaciones. También ayuda a mantener los nombres de la columna legibles.

Pregunta
What will appear in the Total_Small_Bags_Cost column after the following query is run¿Qué aparecerá en la
columna Total_Small_Bags_Cost luego de la ejecución de la siguiente consulta?

SELECT Small_Bags, Small_Bags_Cost, Small_Bags * Small_Bags_Cost AS Total_Small_Bags_Cost FROM


avocado_data.avocado_prices
- La suma de los valores en las columnas Small_Bags y Small_Bags_Cost
- El producto de los valores en las columnas Small_Bags y Small_Bags_Cost
- La suma de los valores en las columnas “Small_Bags_Cost” y “avocado_data.avocado_prices”
- El producto de los valores en las columnas “Small_Bags_Cost” y “avocado_data.avocado_prices”
Correcto
El producto de los valores en las columnas Small_Bags y Small_Bags_Cost aparecerá en la columna
Total_Small_Bags_Cost. La consulta multiplicará los valores en las dos columnas.

Cálculos con otras instrucciones


Qué bueno volver a encontrarnos. Como analista de datos, verás que tus cálculos aparecen en distintas formas y tamaños.
Anteriormente te mostramos como hacer algunos de los cálculos más básicos en SQL. Aunque los cálculos básicos son
fantásticos, algunas veces necesitarás agrupar los datos antes de completar los cálculos. Los comandos GROUP BY y ORDER BY
te ayudarán a hacerlo. Generalmente estos comandos están combinados con funciones agregadas como SUM o COUNT. Te
mostraremos cómo usar estos comandos y funciones para calcular y resumir datos de grupos de filas de una tabla. Exploremos
primero el comando GROUP BY. GROUP BY es un comando que agrupa filas que tienen los mismos valores de una tabla en filas
de resumen. El comando GROUP BY se usa con instrucciones SELECT. En una consulta básica SELECT FROM o SELECT-FROM-
WHERE, GROUP BY aparece al final de la consulta. Muy bien, probemos usar GROUP BY. Trabajaremos con una base de datos,
con datos de un sistema de bicicletas compartidas. Queremos averiguar cuántos paseos se realizaron en esas bicicletas por
año.

Estos datos contienen varias columnas, pero, para esta tarea, solo necesitamos la columna de la hora de inicio.

Dado que estos datos no están organizados por fecha, y la columna de la hora de inicio no está organizada por año, tendremos
que incluir pasos en nuestro código para organizarlo. También queremos obtener el total de paseos de cada año. De modo que
tendremos que incluir un cálculo en nuestra consulta para esto. Y dependiendo de las preguntas que debemos responder, esto
podría ser el primer paso de muchos otros en nuestro análisis.

Reproduce el video desde :1:44 y sigue la transcripción1:44

Comenzaremos nuestra consulta con el comando SELECT. Luego, agregaremos EXTRACT a nuestra consulta.
Reproduce el video desde :1:54 y sigue la transcripción1:54

El comando EXTRACT nos permite extraer una parte de una fecha dada para usar. Extraeremos el año de la columna de la hora
de inicio. Para ello, agregaremos un paréntesis abierto, seguido por YEAR, que le permite al servidor saber qué parte de la
fecha necesitamos. Luego agregaremos el comando FROM y STARTIME de modo que podemos obtener el año de todas las
horas de inicio en esa columna. Cerraremos el paréntesis y, luego, usaremos AS y la palabra año para nombrar la columna que
estamos creando.

Reproduce el video desde :2:24 y sigue la transcripción2:24

En la línea siguiente de la consulta, usaremos la función de agregado COUNT seguida por un asterisco entre paréntesis. Esto
contará los paseos en bicicleta en la columna de la hora de inicio. Usar el asterisco asegura que todas las horas de inicio se
cuenten en los datos. Luego, nombraremos nuestra columna número de paseos con un guion bajo entre cada palabra en lugar
de espacios.

Reproduce el video desde :2:45 y sigue la transcripción2:45

Agregaremos FROM en la base de datos que extraemos en la línea siguiente. En este caso, es bigquery-public-
data.new_york.citybike_trips.

Y aquí está nuestro comando GROUP BY. Lo usaremos


para agrupar los datos por año. De esta manera, escribiremos GROUP BY seguido del año.

Podemos seguir organizando nuestros resultados mediante el uso del comando ORDER BY. Agregar esto después de GROUP BY
ordena los resultados.

Agregaremos el año para ordenar los datos por año. Es bueno tener en cuenta que, de manera predeterminada, ORDER BY
organiza los datos en orden ascendente.

Ahora podemos ejecutar nuestra consulta para obtener los resultados.

Los años se ordenan con inicio en 2013 y finalización en 2016. Si deseamos cambiar a orden descendente, podemos agregar la
palabra clave DESC al final de la consulta y volver a ejecutar.
Pero independientemente del orden usado, los comandos GROUP BY y ORDER BY son fantásticos para ayudarnos a completar y
organizar los cálculos para nuestro análisis. Esta es una forma de incluir cálculos cuando agregamos datos. Y es solo una de las
muchas maneras en que SQL ayuda a que su análisis funcione sin problemas y siga adelante. Aún hay más por venir sobre
cálculos y SQL. Próximamente, aprenderemos más sobre validación de datos. Nos vemos pronto.

¿Cuál de las siguientes opciones se obtendrán con esta consulta?

SELECT Yes_Responses, Total_Responses, Total_Responses - Yes_Responses AS No_Responses FROM Survey_1


9. La diferencia cuando se restan las respuestas con "Sí" del número total de respuestas
10. El resultado de dividir el número total de respuestas por las respuestas con "Sí"
11. El número de respuestas con "Sí" y "No" combinadas
12. El total cuando las respuestas con "Sí" se ordenan desde las respuestas con "No"
Correcto
Esta consulta devolverá la diferencia cuando las respuestas con "Sí" se resten del número total de
respuestas. El cálculo aparecerá en una columna nueva denominada No_Responses. El operador de la
división (/) podría utilizarse para dividir estos valores.

¿Cuál es el propósito del comando EXTRACT en una consulta?


- Extraer una parte de una fecha dada
- Extraer un valor único de una columna
- Extraer una columna de una base de datos
- Extraer una sola palabra de una cadena
Correcto
El propósito del comando EXTRACT en una consulta es extraer una parte de una fecha dada. El comando
EXTRACT puede extraer cualquier parte de un valor de fecha/hora.

¡Felicitaciones! ¡Aprobaste!
Calificación recibida 100 %

Para Aprobar 100 % o más

Ir al siguiente elemento

1.
Pregunta 1

Resumen de la actividad

En las lecciones anteriores, te presentamos SQL. En esta actividad, lo practicarás aprendiendo cómo escribir cálculos
básicos en una consulta SQL.
Al finalizar esta actividad, podrás usar operadores en consultas SQL. Esto te permitirá hacer cálculos usando SQL y
combinar operaciones aritméticas múltiples en una sola consulta. También te ayudará a trabajar más rápido y de forma
más eficiente en SQL a medida que descubras rápidamente patrones significativos en tus datos (una habilidad clave para
los analistas de datos).

Operaciones en SQL

En SQL, los símbolos para las cuatro operaciones aritméticas básicas son:

+suma

-resta

*multiplicación

/división

Para esta actividad, imagina que te han pedido analizar datos de cantidad de pasajeros del metro para ayudar a mejorar
la calidad del transporte público de la ciudad. Puedes usar cálculos básicos en SQL para ayudarte a que estos datos
tengan sentido.

Acceder al conjunto de datos

Inicia sesión en el espacio aislado de BigQuery. Si cuentas con una versión de prueba gratuita de BigQuery, puedes
usarla. En la página de BigQuery, haz clic en el botón Ir a BigQuery.

Nota: El espacio aislado de BigQuery actualiza frecuentemente su interfaz de usuario. Es posible que los últimos cambios
no se vean reflejados en las capturas de pantalla presentadas en esta actividad, pero los principios siguen siendo los
mismos. Adaptarse a los cambios de las actualizaciones de software es una destreza esencial para los analistas de
datos, y es útil para que practiques la resolución de problemas. También puedes comunicarte con tu comunidad de
alumnos en el foro de debate para obtener ayuda.

En esta actividad, usarás datos que describen el promedio semanal de cantidad de pasajeros del metro en la ciudad de
Nueva York de 2013 a 2018. Las columnas incluyen: estaciones de metro, rutas del metro, cantidad semanal de
pasajeros semanal para cada año (2013-2018), el cambio en la cantidad de pasajeros de 2017 a 2018 (tanto en números
crudos como en porcentaje) y la clasificación de cantidad de pasajeros en cada estación en 2018. Cada fila corresponde
a una estación diferente en un sistema de metro.

Nota: El nombre de este conjunto de datos es new_york_subway y se puede encontrar en bigquery-public-data. Sin
embargo, parece haber un problema con la búsqueda del conjunto de datos. Buscar por su nombre en el Marketplace no
arroja resultados, a pesar del conjunto de datos existente en la lista desplegable de bigquery-public-data del menú del
Explorador. El equipo del certificado de análisis computacional de datos está investigando este problema. Mientras tanto,
la consulta que escribirás en esta actividad se ejecutará correctamente y te permitirá examinar los datos y proceder
correctamente.

Para examinar el conjunto de datos, sigue estos pasos:

1. Asegúrate de que bigquery-public-data esté marcado en el menú del Explorador de tu espacio de trabajo de SQL.

2. Si no está marcado, haz clic en + AGREGAR DATOS y añade cualquier conjunto de datos públicos de BigQuery
(como noaa_lightning).

3. Abre la lista desplegable bigquery-public-data en el menú del Explorador y desplázate hasta que encuentres
new_york_subway.

4. Abre la lista desplegable y haz clic en subway_ridership_2013_present para abrir y examinar el conjunto de datos.

Usa un cálculo con un solo operador


La columna change_2018_raw describe el cambio semanal en la cantidad de pasajeros de 2017 a 2018 en números sin
procesar. Imagina que deseas encontrar datos en el cambio en la cantidad semanal de pasajeros de 2013 a 2014.
Puedes usar SQL para restar el número de pasajeros en 2013 del número de pasajeros en 2014.

Para hacerlo, solo tienes que seguir estos pasos:

1. En el editor de Consulta, escribe SELECT. Agrega los nombres de las columnas que deseas usar en tus cálculos.
Estás seleccionando varias columnas, por lo tanto, presiona Enter (Windows) o Return (Mac) después de SELECT.
Agrega una coma después de cada nombre de columna. Incluye las siguientes columnas: station_name, ridership_2013 y
ridership_2014.

2. Agrega el cálculo a la consulta. Escribe los nombres de las dos columnas con un signo menos entre ellas:
ridership_2014 - ridership_2013.

3. Indica el resultado en una columna nueva. Para hacer esto, escribe AS seguido del nombre de la columna nueva.
Nombrarla change_2014_rawdescribe el cambio semanal en la cantidad de pasajeros de 2013 a 2014 en números sin
procesar.

4. Termina tu consulta con el comando FROM y el nombre del conjunto de datos y el subconjunto desde donde extraes
los datos. Después de FROM, presiona Entero Return y escribe bigquery-public-
data.new_york_subway.subway_ridership_2013_present.

5. Ahora, haz clic en Ejecutar y obtén los resultados.

Los resultados muestran el cambio en la cantidad de pasajeros de 2013 a 2014. Por ejemplo, la estación Atlantic Av -
Barclays Ctr ganó un promedio de 1,774 pasajeros por semana. La estación 4 Av perdió 321 pasajeros.

Al incluir un cálculo básico en tu consulta, puedes tener una idea del cambio en la cantidad de pasajeros para cada
estación de metro en un determinado año. Los cálculos básicos te ayudan a obtener conocimiento importante sobre tus
datos de forma rápida.

Usa un cálculo con múltiples operadores


El conjunto de datos describe la cantidad promedio de pasajeros semanales para cada año individual. Supongamos que
deseas encontrar la cantidad promedio de pasajeros semanales durante un largo período, por ejemplo, un período de
múltiples años desde 2013 a 2016.

Para hacer esto, puedes combinar operaciones aritméticas múltiples en una consulta. El promedio de un conjunto de
números es la suma de los números divididos por el total de valores en el conjunto. Hay cuatro valores en tu nuevo
conjunto (datos de la cantidad de pasajeros para 2013, 2014, 2015, 2016). Puedes usar SQL para sumar las cantidades
para cada año y dividir esa suma por 4.

1. Primero, haz clic en el botón COMPONER CONSULTA NUEVA para refrescar el editor de consultas.

2. Escribe SELECT para seleccionar las columnas que deseas extraer de la tabla. Estas seleccionando varias columnas,
por lo tanto, presiona Enter o Return después SELECT y agrega una coma después de cada nombre de columna. Para
esta consulta, ingresa station_name, ridership_2013, ridership_2014, ridership_2015 y ridership_2016.

3. Agrega el cálculo a la consulta. Si usas más de un operador aritmético en un cálculo, necesitas usar paréntesis para
controlar el orden de las operaciones. En este caso, deseas sumar los años y, luego, dividir la suma por 4. Por lo tanto,
coloca paréntesis alrededor de la suma de los cuatro nombres de columnas. Escribe (ridership_2013 + ridership_2014 +
ridership_2015 + ridership_2016). Luego escribe un operador de división / y el número 4.

4. Luego, indica el resultado en una columna nueva escribiendo AS seguido del nombre de la nueva columna. Colócale a
la nueva columna el nombre average, ya que representa el promedio de los pasajeros semanales para el período de 2013
a 2016.

5. Termina tu consulta con el comando FROMy el nombre del conjunto de datos y el subconjunto desde donde extraes
los datos. Después de FROM, presiona Enter y escribe bigquery-public-
data.new_york_subway.subway_ridership_2013_present.

En este punto, tu pantalla debe mostrarse así:

6. Haz clic en el botón Ejecutar para obtener los resultados. Los resultados muestran claramente la tendencia en el
número de pasajeros en cada estación de 2013 a 2016. Por ejemplo, la cantidad de pasajeros semanales en la estación
Atlantic Av - Barclays Ctr aumentó cada año desde 2013. Además, para los años 2014, 2015 y 2016, la cantidad de
pasajeros semanales en Atlantic Av - Barclays Ctr superó el promedio general para el período 2013-2016 (indicado en la
columna average).
Esta clase de datos es útil para gestionar el transporte público. Puede ayudar a determinar qué estaciones o rutas
expandir debido al aumento en la cantidad de pasajeros. Usar los cálculos básicos en tu consulta te permite descubrir
rápidamente patrones significativos en tus datos.

Confirmación y reflexión

Con la misma fórmula promedio que la última consulta que escribiste, escribe una consulta para encontrar la cantidad
promedio de pasajeros semanales de los años 2016 a 2018. ¿Cuál es la cantidad promedio de pasajeros semanales
para la estación Atlantic Av - Barclays Ctr en este período?
1 / 1 punto

13212.67
42672.33
4903.67
49255
Correcto. La cantidad promedio de pasajeros semanales para la estación Atlantic Av - Barclays Ctr de los años 2016 a
2018 es 42672.33. Para encontrar la cantidad promedio de pasajeros semanales de la estación, tendrías que usar el
cálculo SQL para sumar las tres columnas ridership_2016, ridership_2017 y ridership_2018 y, luego, dividir la suma por 3.
A medida que avanzas, puedes usar SQL para realizar cálculos matemáticos con datos y analizar patrones en
situaciones del mundo real.

2.
Pregunta 2

En esta actividad, escribes consultas con un solo cálculo y cálculos múltiples para encontrar patrones en datos de
cantidad promedio de pasajeros del metro. En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60
palabras) en respuesta a cada una de las siguientes preguntas:

¿Qué otros patrones puedes descubrir en el conjunto de datos de pasajeros del metro usando los cálculos con
operadores múltiples?

¿Cómo los cálculos básicos en SQL pueden ayudarte a darle sentido a una cantidad grande de datos?
1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría un patrón que encontraste en el
conjunto de datos de cantidad de pasajeros, así como algunos de los siguientes conocimientos sobre cálculos en SQL:

Hacer cálculos básicos es una parte clave de cualquier análisis de datos. Usar cálculos básicos en SQL pueden ayudarte
a descubrir rápidamente patrones, relaciones y tendencias significativos en un conjunto de datos grande. Cuando
incluyes un cálculo en una consulta con tus otros comandos, puedes trabajar más rápido y de forma más eficiente.

1.
Pregunta 1
Estás trabajando con una tabla de una base de datos que contiene datos de facturas. La tabla incluye las columnas
factura_id_partida (partidas para cada factura), id_factura, precio_unidad y cantidad (el número de compras en cada
partida). Cada factura contiene múltiples partidas. Deseas saber el precio total de cada una de las 5 partidas de la tabla.
Decides multiplicar el precio unitario por la cantidad para obtener el precio total para cada partida y guardas el comando
AS para almacenar el total en una columna nueva llamada total_partida.

Agrega una instrucción a tu consulta en SQL que calcule el precio total para cada partida y lo guarde en una nueva
columna llamada total_partida.

NOTA: Los tres puntos (...) indican donde agregar la instrucción.

SELECT

invoice_line_id,

invoice_id,

unit_price,

quantity,

unit_price*quantity AS total_partida

FROM

invoice_item

LIMIT 5
EjecutarRestablecer
+-----------------+------------+------------+----------+---------------+
| invoice_line_id | invoice_id | unit_price | quantity | total_partida |
+-----------------+------------+------------+----------+---------------+
| 1 | 1 | 0.99 | 1 | 0.99 |
| 2 | 1 | 0.99 | 1 | 0.99 |
| 3 | 2 | 0.99 | 1 | 0.99 |
| 4 | 2 | 0.99 | 1 | 0.99 |
| 5 | 2 | 0.99 | 1 | 0.99 |
+-----------------+------------+------------+----------+---------------+
¿Qué total aparece en la fila 1 del resultado de la consulta?
1 / 1 punto

1.98
7.92
0.99
3.96
Correcto. Agregas la instrucción precio_unidad * cantidad AS total_partida para calcular el precio total de cada factura y
lo guardas en una columna nueva llamada total_partida. La consulta completa es SELECT factura_id_partida, id_factura,
precio_unidad, cantidad, precio_unidad * cantidad AS total_partida FROM ítems_factura LIMIT 5. El comando AS le da
un nombre temporal a la columna nueva. El total 0.99 aparece en la fila 1 del resultado de la consulta.

2.
Pregunta 2

En una consulta SQL, ¿qué cálculo realiza el operador de módulo (%)?


1 / 1 punto

Aplica un exponente a un valor


Convierte un decimal en un porcentaje
Devuelve el resto de un cálculo de división
Encuentra la raíz cuadrada de un número
Correcto

El operador de módulo devuelve el resto de un cálculo de división cuando se incluye en una consulta SQL.
3.
Pregunta 3
Estás trabajando con un conjunto de datos con el nombre de columna “gastosprimertrimestre”. ¿Cómo puedes cambiar el
nombre de esta columna para hacer que sea más legible?
1 / 1 punto

1. gastos primer trimestre


2. gastos_primer_trimestre
3. Gastosprimertrimestre
4. gastos+primer+trimestre
Correcto

Puedes cambiar el nombre de la columna por gastos_primer_trimestre. El uso de guiones bajos entre palabras ayuda a
evitar problemas potenciales al tiempo que se mantienen los nombres legibles.

El proceso de validación de datos


Comprueba una y otra vez
Hola de nuevo. Anteriormente hemos visto la validación de datos, una función de la hoja de cálculo que agrega listas
desplegables a las celdas. Usar la validación de datos te permite controlar lo que se puede o no ingresar en tu hoja de cálculo.
Uno de sus usos es proteger datos y fórmulas estructurados en las hojas de cálculo. Pero por más útil que sea, la función de
validación de datos es solo una parte de un proceso más grande de validación de datos. Este proceso implica comprobar y
volver a comprobar la calidad de tus datos para que sean completos, precisos, seguros y coherentes. Aunque el proceso de
validación de datos es una forma de limpieza de datos deberías usarlo a lo largo de tu análisis. Si todo esto te resulta familiar,
es bueno. Asegurarte de tener buenos datos es sumamente importante. Y, en mi opinión, es bastante divertido porque puedes
combinar tu conocimiento del negocio con tus habilidades técnicas. Esto te ayudará a entender tus datos, a verificar que estén
limpios y a asegurarte de que los estás alineando con tus objetivos comerciales. En otras palabras, es lo que haces para
asegurarte de que tus datos tengan sentido.

Reproduce el video desde :1:6 y sigue la transcripción1:06

Ten en cuenta que construirás tu conocimiento sobre tu negocio con tiempo y experiencia. Aquí tienes un consejo profesional.
Hacer tantas preguntas como sea posible siempre que lo necesites hará que esto sea mucho más fácil. Muy bien, digamos que
estamos analizando datos para un minorista de muebles. Queremos verificar que los valores en la columna de precio de
compra sean siempre iguales al número de artículos vendidos por el precio del producto. De modo que agregaremos una
fórmula en una columna nueva para recalcular los precios de compra mediante el uso de una fórmula de multiplicación.

Ahora, al comparar los totales, hay al menos un valor que no coincide con el valor de la columna de precio de compra.
Tenemos que encontrar una respuesta para ayudarnos a continuar con nuestro análisis.

Investigando un poco y haciendo preguntas, descubrimos que hay un descuento del 30% cuando los clientes compran cinco o
más artículos determinados.

Si no hubiésemos hecho esta comprobación, podríamos haberlo pasado por alto completamente.

Como analista, has aprendido que los cálculos son una gran parte de tu trabajo. De modo que es importante que siempre que
hagas cálculos, compruebes que los has hecho de la forma correcta. Algunas veces se realizan comprobaciones de validación
de datos que son comprobaciones de sentido común. Por ejemplo, digamos que estás trabajando en un análisis para averiguar
la eficacia de las promociones en las tiendas para un negocio que está abierto únicamente los días de semana.

Reproduce el video desde :2:36 y sigue la transcripción2:36

Compruebas para asegurarte de que no hay datos de ventas para el sábado y el domingo. Si tus datos muestran ventas durante
el fin de semana, podría no ser un problema con los datos en sí. Podría ni siquiera ser un problema. Tiene que haber una
buena razón. Tal vez la empresa organice eventos especiales los sábados y domingos. Entonces, tendrías ventas en esos fines
de semana. Aun así, es posible que quieras dejar de lado las ventas del fin de semana en tu análisis si tu objetivo es
únicamente ver los días de semana. Pero hacer esta validación de datos podría salvarte de los errores de cálculo y de otros
errores en tu análisis. Siempre debes hacer una validación de los datos independientemente de la herramienta de análisis que
utilices. En un video anterior, usamos SQL para analizar algunos datos sobre aguacates.
Una de las consultas era una comprobación para asegurar que los datos que mostraban la cantidad total de bolsas
correspondía a la suma de las bolsas pequeñas, grandes y extragrandes. Al ejecutar esa consulta, pudimos determinar que la
columna de la cantidad total era exacta. Comparamos nuestras dos columnas brevemente en ese video. Pero para estar
absolutamente seguros de que no hay problemas con los valores de los datos en esas columnas, también podríamos haber
ejecutado otra consulta. En esta consulta, seleccionaríamos todo mediante el uso del asterisco, y FROM el conjunto de datos
de los precios del aguacate.

Reproduce el video desde :3:58 y sigue la transcripción3:58

En nuestra cláusula WHERE, escribiríamos dónde nuestro total calculado no es igual a la columna de total de bolsas. Si no se
devuelve ningún valor, podemos estar seguros de que los valores en la columna del total de bolsas son precisos. Y eso nos lleva
a continuar con nuestro análisis.

Pero cuando intentamos averiguar qué porcentaje del número total de bolsas era pequeño, nos encontramos con un pequeño
problema. Recibimos un mensaje de error sobre la división por cero. Corregimos ese error al ajustar nuestra consulta. Si
hubiéramos vinculado esa consulta a la presentación que enviamos a nuestros interesados, nos mostraría el error de dividir por
cero en lugar de las cifras que queríamos. Al incorporar este tipo de comprobaciones como parte de tu proceso de validación
de datos, puedes evitar errores en tus análisis y completar tus objetivos empresariales para dejar a todos felices. Y créeme. Se
siente muy bien cuando lo haces. Y otra gran sensación es saber que completaste otro video y aprendiste algo nuevo. Y
tenemos más material de donde vino eso para mostrarte pronto. Nos vemos.
Pregunta
Completa el espacio en blanco: El proceso de validación de datos es una forma de _____de datos.
limpieza
transformación
informes
formateo
Correcto
El proceso de validación de datos es una forma de limpieza de datos. Durante este proceso, el analista de datos
comprueba la calidad de sus datos para asegurarse de que estén completos, sean precisos, seguros y coherentes.

Tipos de validación de datos


La siguiente tabla describe el propósito, los ejemplos y las limitaciones de los seis tipos de validación de datos. Los
primeros cinco son tipos de validación asociados con los datos (tipo, rango, limitación, coherencia y estructura) y el sexto
tipo se centra en la validación del código de aplicación que se utiliza para aceptar los datos a partir del aporte del
usuario.

Como analista de datos junior, es posible que no tengas que realizar todas estas validaciones. Pero podrías consultar si
los datos se validaron y de qué manera antes de comenzar a trabajar con un conjunto de datos. La validación de datos
ayuda a garantizar la integridad de los datos. Además, te proporciona confianza en cuanto a que los datos que estás
utilizando están limpios. La siguiente lista describe los seis tipos de validación de datos y el propósito de cada uno e
incluye ejemplos y limitaciones.

1) Tipo de datos
 Propósito: Comprobar que los datos coincidan con el tipo de datos definido para un campo.
 Ejemplo: Los valores de los datos para los grados escolares de 1 a 12 deben ser del tipo de datos numéricos.
 Limitaciones: El valor de datos 13 pasaría la validación del tipo de datos pero sería un valor inaceptable. En este
caso, la validación del rango de datos también es necesaria.

2) Rango de datos
 Propósito: Comprobar que los datos se ubiquen dentro de un rango de valores aceptable definido por el campo.
 Ejemplo: Los valores de datos para los grados escolares deben ser valores entre 1 y 12.
 Limitaciones: El valor de datos 11.5 estaría dentro del rango de datos y también sería aceptable como un tipo de
dato numérico. Sin embargo, no sería aceptable porque no existen medios grados. En este caso, la validación de
la limitación de datos también es necesaria.

3) Limitaciones de datos
 Propósito: Comprobar que los datos cumplan con ciertas condiciones o criterios para un campo. Esto incluye el
tipo de datos ingresados además de otros atributos del campo como, por ejemplo, el número de caracteres.
 Ejemplo: Restricción del contenido: Los valores de los datos para los grados escolares de 1 a 12 deben ser
números enteros.
 Limitaciones: El valor de datos 13 es un número entero y pasaría la validación de restricción de contenido. Sin
embargo, no sería aceptable dado que 13 no es un grado escolar reconocido. En este caso, la validación del
rango de datos también es necesaria.

4) Coherencia de los datos


 Propósito: Comprobar que los datos tienen sentido en el contexto de otros datos relacionados.
 Ejemplo: Los valores de los datos para las fechas de envío del producto no pueden ser anteriores a las fechas de
producción del producto.
 Limitaciones: Los datos podrían ser coherentes pero son incorrectos o poco precisos. Una fecha de envío podría
ser posterior a una fecha de producción y aun así ser incorrecta.

5) Estructura de los datos


 Propósito: Comprobar que los datos siguen o se ajustan a una estructura establecida.
 Ejemplo: Las páginas web deben seguir una estructura prescrita para que se muestren adecuadamente.
 Limitaciones: Una estructura de datos podría ser correcta siendo los datos incorrectos o poco precisos. El
contenido de una página web podría mostrarse adecuadamente y aun así contener información incorrecta.

6) Validación del código


 Propósito: Comprobar que el código de aplicación realice sistemáticamente cualquiera de las validaciones antes
mencionadas durante el ingreso de datos del usuario.
 Ejemplo: Los siguientes son problemas comunes que se descubren durante la validación del código: más de un
tipo de datos permitido, comprobación del rango de datos no realizada o finalización de cadenas de texto que no
están bien definidas.
 Limitaciones: La validación del código podría no validar todas las posibles variaciones con el ingreso de datos.

1.
Pregunta 1

Resumen de la actividad

Hasta ahora, trabajaste con datos usando hojas de cálculo y SQL. Estas herramientas funcionan de forma muy diferente: En las hojas
de cálculo, puedes observar e interactuar con los datos directamente; con SQL, interactúas con los datos a través de consultas a la base
de datos. En esta actividad, usarás las hojas de cálculo para limpiar tus datos antes de importarlos en SQL para análisis.

En este escenario, has estado trabajando para una cadena de tiendas nacionales como analista de datos. La gerencia está interesada en
la cantidad de inventario almacenado en sitios regionales. Tu supervisor te pidió que realices un análisis sobre los datos del inventario
y las ventas para hacer recomendaciones para cambios en las prácticas de gestión de inventario. Se te proporcionaron tres conjuntos de
datos que contienen información sobre inventario, productos y ventas.

Al finalizar esta actividad, podrás combinar herramientas para analizar datos de forma exitosa. Alternar entre hojas de cálculo y SQL
puede ser desafiante porque son muy diferentes, pero una vez que te acostumbres más a ambas herramientas, podrás usarlas con mayor
facilidad. Esto es importante para abordar proyectos más grandes y más complejos en tu carrera como analista de datos.

Para comenzar, primero descarga los tres archivos CSV de datos de la tienda: inventario, productos y ventas.

Haz clic en el enlace a cada archivo CSV para crear una copia. Si no tienes una cuenta de Google, puedes descargar los datos
directamente desde los siguientes archivos adjuntos.

Enlace a los datos: inventario, ventas,y productos.

Descargar datos:

Limpiar los datos

Antes de cargar estos archivos a SQL, puedes importarlos a una hoja de cálculo en Sheets para sentirte más cómodo con los datos
antes de comenzar a analizarlos en BigQuery. No siempre esto podría ser posible con conjuntos de datos más grandes que encuentres
en el futuro, ¡pero debes explorar lo más posible dentro de este ejercicio! También puedes usar este paso para realizar algunas tareas
de limpieza de datos.

Paso 1: Importar los datos

Si estás usando Google Sheets, primero deberás importar los archivos de datos en tu hoja de cálculo. Abre Sheets y navega hacia el
menú Archivo,luego selecciona Importar de la lista desplegable.

Selecciona el primer archivo y cárgalo a la hoja de cálculo. Elige Reemplazar hoja de cálculo para insertarla en la hoja actual.
Luego, regresa al menú Importar del menú Archivo y carga el archivo siguiente. Sin embargo, esta vez selecciona Insertar
nuevas hojaspara crear pestañas de hoja de cálculo nueva en este archivo.

Repite estos pasos hasta que hayas añadido los tres archivos a tu hoja de cálculo.

Paso 2: Examinar los datos

Aplicar filtros en hojas de cálculo es una buena forma de identificar cualquier dato que sea necesario limpiar. Inspeccionarás la hoja
de Inventario ahora.

Navega a la hoja Inventarioy haz clic en cualquier celda de la hoja de cálculo. Abre el menú desplegable Datos y selecciona
Crear un filtro.
Ahora, puedes hacer clic en los íconos de filtro de cada columna para inspeccionar los valores. Comenzar con la columna StoreID.
A medida que te desplazas, observarás que no parece haber espacios en blanco o valores ingresados de manera incorrecta. Sin
embargo, si inspeccionas la columna StoreName, encontrarás un espacio en blanco.

Quita la selección de los valores salvo el espacio en blanco.

Esto debería devolver una fila con una entrada faltante debajo de la columna StoreName.

Podrías descubrir cuál es el valor que falta e ingresarlo correctamente usando el filtro. Borra el filtro StoreName y usa el filtro de la
columna StoreId para otras tiendas con el ID 21791.
Parece que otras tiendas con este ID son todas Dollar Tree, por lo que es probablemente seguro ingresar eso como el valor
StoreName en la celda en blanco.

Inspecciona las otras columnas de esta hoja, luego regresa al menú Datos para desactivar los filtros. Luego, navega a la hoja
Productos.

De manera similar a la última hoja, puedes repetir este proceso para inspeccionar los datos de Productos. Dirígete al menú Datos y
selecciona Crear filtro.

Verifica la columna ProductID. Encontrarás que existe un valor NA en esta columna, a pesar del hecho de que esta columna debería
tener solo valores numéricos. En este caso, has contactado al dueño de los datos, quien dijo que puedes borrar esta filaporque fue
ingresada por error y no pertenece a este conjunto de datos. Desactiva el filtro y pasa al siguiente paso.

De las hojas de cálculo a BigQuery

Ahora que has verificado tus datos en una herramienta que te permite observar e interactuar con tus datos directamente, es hora de
comenzar a usar SQL. Con SQL, puedes solo observar los resultados de tu consulta, lo que requiere una mentalidad diferente a las
hojas de cálculo, pero SQL es muy poderoso cuando trabajas con bases de datos y ¡conjuntos de datos más grandes!

Paso 1: Crear un conjunto de datos y una tabla personalizada

Al igual que en las actividades anteriores, deberás crear un conjunto de datos y una tabla personalizada para alojar estos datos antes de
que puedas inspeccionarlos en BigQuery.
1. Desde el panel del Exploradoren tu consola BigQuery, haz clic en los tres puntos verticales junto al espacio del proyecto y
selecciona Crear conjunto de datos.

2. Nombra las ventas del nuevo conjunto de datos y deja las otras configuraciones como su valor predeterminado. Luego, haz clic en
CREAR CONJUNTO DE DATOS. El nuevo conjunto de datos debería aparecer en tu panel del Explorador.
3. Abre el nuevo conjunto de datos. Haz clic en CREAR TABLA. Esto abrirá el menú Crear tabla. Selecciona crear tabla desde
cargar e importa tus datos de venta. Nombra la tabla sales_info, selecciona Detectar automáticamente en Esquema y deja el resto
de las opciones como predeterminadas. Luego, selecciona Crear tabla.
4. Abre la tabla nueva para inspeccionar el esquema y obtener una vista previa de tus datos.

Paso 2: Examinar los datos

Luego, deberás inspeccionar los datos para determinar cuántos de ellos serán útiles para tu análisis final.

1. Ejecuta esta consulta y asegúrate de que los datos se importaron con éxito:

SELECT * FROM sales.sales_info

LIMIT 10;

Tus resultados deberían verse así:


2. Luego, inspecciona los datos para descubrir cuántos años de ventas incluyen los datos. Puedes usar las funciones MIN y MAX para
obtener las fechas más antiguas y más recientes.

SELECT MIN(Date) AS min_date, MAX(Date) AS max_date FROM

sales.sales_info;

Ahora sabes qué años cubren estos datos. En este caso, desearás agrupar los datos por mes porque la gerencia desea ver los cambios en
el inventario mensual discriminados por año.

3. Haz clic en COMPONER CONSULTA NUEVA y ejecuta la siguiente consulta, que devolverá la cantidad total vendida para cada
ProductId agrupado por mes y año en que fue vendido:

SELECT EXTRACT(YEAR FROM date) AS Year, EXTRACT(MONTH FROM date) AS Month, ProductId,
ROUND(MAX(UnitPrice),2) AS UnitPrice, SUM(Quantity) AS UnitsSold FROM sales.sales_info GROUP BY Year, Month, ProductId
ORDER BY Year, Month, ProductId;

Paso 3: Exportar resultados a la hoja de cálculo

El subconjunto de datos que consultaste es menor a 50,000 filas. Esto significa que, si tu interesado solicita los datos en este
formulario, se lo puede exportar fácilmente a una hoja de cálculo. O, puedes usar esta hoja de cálculo exportada para visualización.
Sin embargo, primero deberás guardar tus resultados.

1. Después de ejecutar la consulta, haz clic en GUARDAR RESULTADOS. Habrá un menú emergente con la opción para elegir el
tipo de archivo para exportar. Selecciona CSV Google Drive. Una vez que está descargado, abre el archivo CSV en Drive.

2. Abre el archivo CSV con Google Sheets.


Debería haber alrededor de 47,000 filas. Haz clic con el botón derecho en la pestaña de la hoja y cambia el nombre a la hoja por
Ventas.

3. Luego, si estás usando Sheets, puedes abrir estos resultados seleccionando el menú Archivo y haciendo clic en Importar.

Esto abrirá un menú emergente. Haz clic en Cargar y selecciona el archivo CSV de inventario.

Selecciona Insertar nuevas hojas para agregar estos datos como una hoja de trabajo a tu hoja de cálculo y elije Coma para Tipo de
separador.
4. Repite estos pasos para el archivo productsCSV.

Confirmación y reflexión

¿Cuál es el año más reciente incluido en este conjunto de datos?


1 / 1 punto

2017
2018
2019
2020
Correcto

2017 el año más reciente incluido en este conjunto de datos. Para encontrar el rango de fechas de este conjunto de datos, usaste las
funciones MIN y MAX en SQL para determinar los años más antiguos y más recientes. Pudiste realizar esta observación sin
desplazarte realmente a través de todos los datos manualmente, lo cual es la habilidad clave cuando trabajas con conjuntos de datos
más grandes.
2.
Pregunta 2

En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes
preguntas:

¿Por qué el hecho de poder hacer uso de herramientas de análisis múltiples es útil para algunos proyectos?

¿En qué se diferencia trabajar con datos en hojas de cálculos y en SQL? ¿En qué se parecen?
1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! En esta actividad, obtuviste una vista previa de los datos en
BigQuery para encontrar un subconjunto útil a analizar, lo importaste en hojas de cálculo y ¡analizaste tus datos! Una
buena respuesta incluiría que el uso de herramientas múltiples te permite ser más flexible.

Poder usar SQL para crear un subconjunto de datos para trabajar en hojas de cálculo como lo hiciste hoy te brinda más
opciones para saber cómo abordar tu análisis. En las próximas actividades, tendrás más oportunidades de analizar datos
¡de principio a fin!
Ejemplo de Tipo de validación de datos

Tipo de datos: Los miembros del club de helados obtienen un helado gratis para su cumpleaños. Luego de
ejecutar una consulta para saber cuántos miembros obtuvieron su helado gratis el año pasado, Ivan
observó algunos valores nulos. El jefe de marketing le explicó a Ivan que los miembros pueden visitar
tantos locales como deseen el día de su cumpleaños. Ivan se dio cuenta de que eso significaba que el
campo no debería estar definido como binario sí/no. En cambio, se presenta mejor como un valor
numérico, hasta el número real de ubicaciones visitadas.

Rango de datos: Para hacer un seguimiento de todas las ventas, Ivan asignó una clave primaria a cada
elemento del menú del 1 al 60. Luego de ejecutar una consulta para hallar los elementos más populares
del menú, se preguntó por qué no podía encontrar las ventas de bebidas. Luego de observar la tabla, se
dio cuenta de que se había olvidado de asignar los valores de las cinco bebidas del menú, por lo que los
agregó a la tabla del menú, llevando el rango de 1 a 65.

Limitaciones de datos: Ivan ejecutó una consulta para descubrir los principales barrios donde vivían los
miembros del club de helado. Luego de ejecutar la consulta, se dio cuenta de que varios resultados del
código postal contenían letras, pero en su país, los códigos postales solo podían contener valores
numéricos.

Coherencia de los datos: Ivan


deseaba medir cuánto tiempo dura el inventario de aproximadamente medio
litro de helado en los congeladores de la empresa. Ejecutó una consulta para extraer fechas de
producción de aproximadamente medio litro y las fechas de envío. Luego, se dio cuenta de que algunas
de las fechas de producción aparecían después de la fecha de envío. Esto le indicaba a Ivan que había un
error en los datos.

Estructura de los datos: Luego de trabajar con una agencia publicitaria, la heladería recibió cinco opciones
de canciones publicitarias para utilizar en su nuevo comercial. Ivan guardó estos archivos en su base de
datos como archivos MP3. Cuando ejecutó una consulta para las canciones publicitarias, obtuvo valores
nulos. Volvió a la base de datos para ver por qué los archivos MP3 no aparecían.

Validación del código: Luego de definir claramente que los valores del código postal deben tener solo
valores numéricos, Ivan ejecutó su consulta nuevamente para descubrir dónde viven los miembros del
club. Pero observó que algunos resultados tenían seis o más valores. Los códigos postales de su país
debían tener solo cinco dígitos numéricos. Por lo que volvió para verificar que las terminaciones de las
cadenas se definan mejor dentro de la tabla.

Validar la estructura de los datos significa comprobar que los datos siguen o se ajustan a una estructura establecida,
tales como archivos MP3 o código HTML.

Validar las limitaciones de datos significa comprobar que los datos cumplan con ciertas condiciones o criterios, tal
como el tipo de caracteres.

Validar la coherencia de los datos significa comprobar que los datos tienen sentido en el contexto de otros datos
relacionados.
Validar un rango de datos significa comprobar que los datos se ubican dentro de un rango aceptable de valores
definidos por el campo.

Validar un tipo de dato significa verificar que los datos coincidan con el tipo de datos definido para el campo.

Validación del código significa comprobar que el código de aplicación sistemáticamente se ajusta a cualquiera de las
validaciones mencionadas previamente durante el ingreso de los datos del usuario.

Registro de aprendizaje: Completa la lista de verificación del análisis de datos

Descripción general

En un registro de aprendizaje anterior, comenzaste a crear una lista de verificación de análisis de datos de alto nivel.
Ahora, completarás esa lista de verificación con pasos más detallados. Al finalizar esta actividad, tendrás una lista de
verificación de análisis de datos detallada que te ayudará a mantener la organización durante los proyectos de análisis.
Como analista de datos, ser organizado te garantizará el hecho de no cometer errores ni de obviar ningún paso: ¡te
ahorrará tiempo y dinero!

Completa tu lista de verificación

La descripción de alto nivel de tu lista de verificación se basó en las fases del proceso del análisis de datos: Preguntar,
Preparar, Procesar, Analizar, Compartir y Actuar.

Ahora, puedes completar cada paso de tu lista de verificación de alto nivel con subpasos detallados. Por ejemplo, para la
fase de Procesar, es probable que tengas un paso para limpiar los datos. Podrías dividir este paso para incluir los
subpasos detallados tales como comprobar que cada variable es una columna y que cada observación es una fila.

Podrías crear un paso en tu lista de verificación como el siguiente:

Fase Procesar

Paso X: Limpiar datos

 ¿Cada variable es una columna?


 ¿Cada observación es una fila?
Este ejemplo implica una tarea de análisis de datos de alto nivel como la limpieza de datos y se divide en pasos más
específicos. Finalmente, debes decidir lo detallada que deseas que sea tu lista de verificación y qué pasos específicos
quieres incluir. Esto está diseñado para que te sea útil, de modo que puedes personalizarlo como quieras.

Es posible que no sepas cómo dividir cada fase del proceso de análisis de datos. Aquí presentamos algunas preguntas
que puedes tener en cuenta a medida que piensas en ello:

 ¿Cuáles son los pasos de alto nivel que debes seguir? ¿De qué manera las fases del análisis pueden ayudarte a
organizar todo el proceso?
 ¿Qué detalles específicos se necesitan para completar estos pasos de alto nivel?
 ¿Cómo puedes simplificar cada paso conforme pase el tiempo? ¿Existen algunos atajos que puedan ayudarte?
 ¿Existen algunos pasos que tendrías más probabilidades de olvidar? De ser así, ¿de qué manera puede tu lista
de verificación completar estos pasos?
Siempre puedes adaptar o agregar elementos a tu lista de verificación a medida que tienes ideas nuevas o a medida que
tu proyecto necesita un cambio.

En la plantilla de registro de aprendizaje, copia y pega tu lista de verificación original y complétala con los pasos y tareas
específicas que desees agregar.
Accede al registro de aprendizaje
Para usar la plantilla de este elemento del curso, haz clic en el enlace de abajo y selecciona "Usar plantilla".

Enlace a la plantilla de registro de aprendizaje: Completa la lista de verificación del análisis de datos

Si no tienes una cuenta de Google, puedes descargar la plantilla directamente desde el siguiente archivo adjunto.

DAC5M4L5R2-ATTACHMENT_SPA

DOCX File

Reflexión

Una vez que finalices, reflexiona sobre el proceso de crear tu lista de verificación y sus posibles usos. Escribe entre 3 y 5
oraciones (entre 60 o 100 palabras) en respuesta a cada una de estas preguntas.

 Revisa tu lista de verificación y compárala con las tareas y actividades relacionadas con este curso. ¿En qué se
asemejan o diferencian tu lista de verificación y la organización del curso?
 ¿De qué manera la creación de una lista de verificación te ayuda a desarrollar tus habilidades de análisis de
datos?
 ¿De qué manera tu lista de verificación te ayudará a analizar tus propios datos?
 ¿Para qué otra cosa podrías utilizar tu lista de verificación?
Cuando hayas terminado la entrada en la plantilla de registro de aprendizaje, asegúrate de guardar el documento para
que se pueda acceder a tu respuesta. Esto te ayudará a seguir aplicando el análisis de datos a tu vida cotidiana.
También podrás hacer un seguimiento de tu avance y crecimiento como analista de datos.

1.
Pregunta 1

¿Cuáles son los objetivos de verificar y volver a verificar la calidad de tus datos durante la validación de datos?
Selecciona todas las opciones que correspondan.
1 / 1 punto

1. Que los datos sean seguros


Correcto. Verificar y volver a verificar la calidad de tus datos durante el proceso de validación de datos ayuda a
garantizar que tus datos sean completos, exactos, seguros y coherentes.

2. Que los datos estén ordenados y filtrados


3. Que los datos estén completos y sean exactos
Correcto. Verificar y volver a verificar la calidad de tus datos durante el proceso de validación de datos ayuda a
garantizar que tus datos sean completos, exactos, seguros y coherentes.

4. Que los datos sean coherentes


Correcto. Verificar y volver a verificar la calidad de tus datos durante el proceso de validación de datos ayuda a
garantizar que tus datos sean completos, exactos, seguros y coherentes.

2.
Pregunta 2
Estás analizando datos de pacientes para una empresa de atención médica. Durante el proceso de validación de datos,
observas que la primera fecha de atención de algunos de los pacientes es posterior a la fecha de atención más reciente.
¿Qué tipo de verificación de validación de datos estás completando?
1 / 1 punto

Coherencia de los datos


Tipo de datos
Estructura de los datos
Rango de datos
Correcto

Esto es una verificación de la coherencia de los datos. Durante una verificación de la coherencia de los datos, confirmas
que los datos tienen sentido en el contexto de otros datos relacionados.
3.
Pregunta 3

Durante el análisis, completas una verificación de la validación de datos en busca de errores en los números de
identificación (ID) de los clientes. Los ID de los clientes deben tener ocho caracteres y pueden contener solo números.
¿Cuál de los siguientes errores de ID de clientes te ayudará a identificar la verificación del tipo de datos?
1 / 1 punto

Los ID con más de ocho caracteres


ID en la columna incorrecta
ID con texto
Los ID que están repetidos
Correcto

Completar una verificación de tipo de datos te ayudará a identificar los ID de los clientes que contengan texto. Los tipos
de datos para los ID deberían ser solo numéricos.

Cómo utilizar SQL con tablas temporales


Tablas temporales
Hola de nuevo. Ahora, si eres como yo, siempre tienes notas adhesivas cerca para escribir un recordatorio o resolver un
problema matemático rápido. Las notas adhesivas son útiles e importantes, pero también son desechables ya que
generalmente solo se necesitan por un corto período antes de reciclarlas. Los analistas de datos tienen su propia versión de las
notas adhesivas cuando trabajan en SQL. Se llaman tablas temporales y estamos aquí para averiguar qué son. Una tabla
temporal es una tabla de una base de datos que se crea y existe de manera temporal en el servidor de la base de datos. Las
tablas temporales, como las llamamos, almacenan subconjuntos de datos de tablas de datos estándar durante un período
determinado. Luego, se eliminan automáticamente cuando finalizas la sesión de la base de datos en SQL. Dado que las tablas
temporales no están almacenadas de manera permanente, son útiles solo cuando necesitas una tabla por poco tiempo para
completar tareas de análisis, como los cálculos. Por ejemplo, puedes tener muchas tablas sobre las cuales estás haciendo
cálculos al mismo tiempo. Si tienes una consulta que necesita unir siete u ocho tablas, podrías unir las dos o tres tablas que
contengan la menor cantidad de filas y almacenar su resultado en una tabla temporal. Luego, podrías unir esta tabla temporal
con una de las tablas más grandes. Otro ejemplo es cuando tienes muchas bases de datos diferentes en las cuales estás
ejecutando consultas. Puedes ejecutar esas consultas iniciales en cada base de datos por separado y, luego, usar una tabla
temporal para recopilar los resultados de todas esas consultas. La consulta del informe final se ejecutaría en la tabla temporal.
Es posible que no puedas hacer uso de esta estructura de información sin las tablas temporales. También son útiles si tienes
una gran cantidad de registros en una tabla y necesitas trabajar con un pequeño subconjunto de esos registros repetidamente
para completar algunos cálculos u otros análisis. De modo que, en lugar de filtrar los datos una y otra vez para devolver el
subconjunto, puedes filtrar los datos una vez y almacenarlos en una tabla temporal. Luego, puedes ejecutar tus consultas por
medio del uso de la tabla temporal que creaste. Imagina que te pidieron que analices datos sobre el sistema de bicicletas
compartidas que vimos anteriormente. Solo debes analizar los datos para paseos en bicicleta que tuvieron una duración de 60
minutos o más, pero tienes varias preguntas por responder sobre los datos específicos.

Reproduce el video desde :2:11 y sigue la transcripción2:11

Usar una tabla temporal te permitirá ejecutar varias consultas sobre estos datos sin tener que seguir filtrándolos. Hay distintas
formas de crear tablas temporales en SQL, lo que dependerá de la base de datos relacional que estés utilizando. Pronto
veremos más de estas opciones. Para este caso, usaremos BigQuery. Aplicaremos una cláusula WITH a nuestra consulta. La
cláusula WITH es un tipo de cláusula temporal que puedes consultar varias veces. La cláusula WITH se aproxima a una tabla
temporal. Básicamente, significa que crea algo que hace lo mismo que una tabla temporal. Incluso si no agrega una tabla a la
base de datos en la cual estás trabajando para que otros la vean, aún puedes ver los resultados y cualquiera que necesite
revisar tu trabajo puede ver el código que lleva a tus resultados.

Reproduce el video desde :2:59 y sigue la transcripción2:59

Empecemos con la consulta. Comenzaremos esta consulta con el comando WITH.

Reproduce el video desde :3:5 y sigue la transcripción3:05

Entonces nombraremos nuestra tabla temporal trips, guion bajo, over, guion bajo, 1, guion bajo, hr. Luego, escribiremos el
comando AS y un paréntesis abierto. En una nueva línea, utilizaremos la estructura SELECT-FROM-WHERE para nuestra
subconsulta. Escribiremos SELECT seguido por un asterisco. Quizá recuerdes que el asterisco significa que estás seleccionando
todas las columnas de la tabla.

Reproduce el video desde :3:33 y sigue la transcripción3:33

Ahora escribiremos el comando FROM y nombraremos la base de datos que estamos extrayendo de bigquery, guion, public,
guion, data, punto, new, guion bajo, york, punto, citibike, guion bajo, trips.

Reproduce el video desde :3:55 y sigue la transcripción3:55

A continuación, agregaremos una cláusula WHERE con la condición de que la longitud de los paseos en bicicleta que
necesitamos en nuestra tabla temporal sean mayores o iguales a 60 minutos. En la consulta queda así: trip duration, espacio,
signo mayor que, signo igual, espacio, 60. Por último, agregaremos un paréntesis de cierre en una nueva línea para terminar
nuestra subconsulta. Y eso configura nuestra tabla temporal. Ahora podemos ejecutar consultas que devolverán solo
resultados para paseos que duraron 60 minutos o más. Probemos una más. Dado que estamos trabajando en nuestra versión
de una tabla temporal, no necesitamos abrir una consulta nueva. En cambio, etiquetaremos nuestras consultas antes de
agregar nuestro código para describir lo que estamos haciendo. Para esta consulta, escribiremos dos hashtags.

Reproduce el video desde :4:42 y sigue la transcripción4:42

Eso le indica al servidor que esta es una descripción y no parte del código. Luego, agregaremos la descripción de la consulta.

Reproduce el video desde :4:49 y sigue la transcripción4:49

Cuenta cuántos paseos exceden los 60 minutos.

Reproduce el video desde :4:59 y sigue la transcripción4:59

Luego, agregaremos nuestra consulta. SELECT, luego en una línea nueva COUNT con un asterisco entre paréntesis. As seguido
de cnt para nombrar la columna con nuestro COUNT.

Reproduce el video desde :5:12 y sigue la transcripción5:12

Luego, agregaremos FROM y el nombre que estamos usando para nuestra versión de una tabla temporal: paseos de más de
una hora.

Reproduce el video desde :5:21 y sigue la transcripción5:21

Cuando ejecutamos nuestra consulta, los resultados muestran el número total de paseos en bicicleta del conjunto de datos
que duraron 60 minutos o más,

Reproduce el video desde :5:35 y sigue la transcripción5:35

Podemos continuar ejecutando consultas en esta tabla temporal una y otra vez siempre que busquemos analizar los paseos en
bicicleta de 60 minutos o más. Y si necesitas terminar tu sesión e iniciar un nuevo tiempo de ejecución más tarde, la mayoría
de los servidores almacenan el código usado en tablas temporales. Solo necesitas volver a crear la tabla ejecutando el código.

Reproduce el video desde :5:55 y sigue la transcripción5:55


Cuando usas tablas temporales, haces que tu trabajo sea más eficiente. Asignar nombres y usar tablas temporales puede
ayudarte a manejar muchos datos de forma más ágil para que no te pierdas repitiendo consulta tras consulta con el mismo
código que podrías incluir en una tabla temporal. Y aquí hay otra ventaja de usar tablas temporales: pueden ayudar también a
los miembros de tu equipo. Con las tablas temporales tu código suele ser menos complicado y más fácil de leer y entender, ¡lo
que tu equipo apreciará!

Una vez que comiences a explorar las tablas temporales por ti mismo, es probable que no puedas parar. No digas que no te lo
advertí. A continuación, exploraremos aún más cosas que puedes hacer con las tablas temporales. Nos vemos pronto.

Un analista de datos tiene un gran número de registros de ventas en una tabla. Quiere realizar cálculos sobre un
subconjunto pequeño de la tabla. En vez de filtrar los datos varias veces, ¿qué debería hacer?
Utilizar una tabla alternativa
Use a temporary tabUtilizar una tabla temporal
Use a backup taUtilizar una tabla de respaldo
Utilizar una copia de la tabla
Correcto
Debería utilizar una tabla temporal. Una tabla temporal se crea y existe por un tiempo breve en el servidor
de una base de datos.

1.
Pregunta 1

Resumen de la actividad

En las lecciones anteriores, aprendiste sobre las tablas temporales. En esta actividad, practicarás crear una y usarla para
ejecutar una consulta.

Una vez que completes esta actividad, podrás usar las tablas temporales para trabajar con datos sin cambiar los datos
originales. Esto te ayudará a completar las tareas analíticas más complicadas en tu carrera como analista de datos.

¿Qué son las tablas temporales?


A medida que los cálculos de datos se vuelven más complicados, hay muchos componentes de los que debe hacerse un
seguimiento. Esto es similar a hacer un seguimiento de las tareas de la vida diaria. Algunas personas usan notas
adhesivas mientras otras usan listas de verificación. En la ciencia del análisis de datos, una tabla temporal es igual que
una nota adhesiva.

Las tablas temporales almacenan subconjuntos de datos de tablas de datos estándar por un determinado período.
Cuando finalizas la sesión de la base de datos en SQL, se eliminan automáticamente. Las tablas temporales te permiten
ejecutar cálculos en tablas de datos temporales sin la necesidad de hacer modificaciones en las tablas primarias de tu
base de datos.

Ahora, practicarás crear una tabla temporal.

Importar datos

Para comenzar, importa tus datos. Usarás un conjunto de datos sobre el sistema de bicicletas compartidas en Austin,
Texas. Específicamente, trabajarás con una tabla que proporciona detalles sobre la duración del uso de la bicicleta
pública, la estación de retiro y la estación de entrega.

Para cargar tus datos, sigue estos pasos:

1. Inicia sesión y abre la Consola de BigQuery. Si cuentas con una versión de prueba gratuita de BigQuery, puedes
usarla. En la página de BigQuery, haz clic en el botón Ir a BigQuery.

Nota: BigQuery actualiza con frecuencia su interfaz de usuario. Es posible que los últimos cambios no se vean reflejados
en las capturas de pantalla presentadas en esta actividad, pero los principios siguen siendo los mismos. Adaptarse a los
cambios de las actualizaciones de software es una destreza esencial para los analistas de datos, y es útil para que
practiques la resolución de problemas. También puedes comunicarte con tu comunidad de alumnos en el foro de debate
para obtener ayuda.

2. Si nunca creaste un proyecto de BigQuery antes, haz clic en CREAR PROYECTO en el lado derecho de la pantalla. Si
creaste un proyecto antes, puedes utilizar uno existente o crear uno nuevo haciendo clic en la lista desplegable del
proyecto en la barra del encabezado azul y seleccionando NUEVO PROYECTO.

3. Coloca un nombre al proyecto que te permita identificarlo luego. Puedes colocarle un ID de proyecto único o utilizar
uno generado automáticamente. No te preocupes por seleccionar una organización si no sabes qué poner.

4. Ahora, verás la interfaz del Editor. En la mitad de la pantalla hay una ventana donde puedes escribir el código y, hacia
la izquierda, está el menú del Explorador donde puedes buscar conjuntos de datos.

Nota: El nombre del conjunto de datos que usarás en esta actividad es austin_bikesharey puedes encontrarlo en
bigquery-public-data. Sin embargo, parece haber un problema con la búsqueda del conjunto de datos. Buscar por su
nombre en el Marketplace no arroja resultados, a pesar del conjunto de datos existente en la lista desplegable de
bigquery-public-data del menú del Explorador. El equipo del certificado de análisis computacional de datos está
investigando este problema. Mientras tanto, la consulta que escribirás en esta actividad se ejecutará correctamente y te
permitirá examinar los datos y proceder correctamente.

Para examinar el conjunto de datos, sigue estos pasos:

1. Asegúrate de que bigquery-public-data esté marcado en el menú del Explorador de tu espacio de trabajo de SQL.

2. Si no está marcado, haz clic en + AGREGAR DATOS y añade cualquier conjunto de datos públicos de BigQuery
(como noaa_lightning).

3. Abre la lista desplegable bigquery-public-data en el menú del Explorador y desplázate hasta que encuentres
austin_bikeshare.

4. Abre la lista desplegable y haz clic en bikeshare_trips para abrir y examinar el conjunto de datos.
5. Haz clic en la pestaña Vista previaen el visualizador a la derecha, luego examina el conjunto de datos.

Deberás usar la cláusula WITH para crear una tabla temporal de modo que puedas encontrar en qué estación comenzó
el viaje en bicicleta más largo (duración).

Crear una tabla temporal

Contempla la siguiente situación: Una empresa de sistema de bicicletas compartidas recientemente alcanzó un hito y su
equipo de marketing desea usar una publicación de blog en la que “felicite” a su bicicleta más usada por ser tan popular.
Desean incluir el nombre de la estación en la que haya más probabilidad de encontrar la bicicleta.

Te asignan la tarea de descubrir la estación desde donde la bicicleta comienza un recorrido con mayor frecuencia.

Para hacer esto, necesitarás crear una tabla temporal para encontrar el número de ID de la bicicleta que realizó los viajes
totales más largos (en minutos). Harás una suma de los minutos de cada viaje para cada bicicleta, luego ordenarás por
orden descendente para encontrar la bicicleta que se usó durante la mayor cantidad de minutos.

Para hacer esto, completa los siguientes pasos:

1. Regresa a tu pestaña del Editor o haz clic en Componer consulta nueva.

2. Comienza tu consulta con WITHpara configurar una tabla temporal. Luego, en una nueva línea con sangría, crea el
nombre de tu tabla temporal. Asegúrate de que el nombre de tu tabla esté escrito correctamente (con guiones bajos entre
cada palabra). Colócale el nombre longest_used_bike. Luego, agrega un espacio.

3. Escribe AS y abre paréntesis (,luego presiona Enter (Windows) o Return (Mac) para crear una línea nueva con
sangría.
4. Escribe SELECT, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

5. Escribe bikeid y una coma. Luego presiona Enter o Return para crear una línea nueva y escribe
SUM(duration_minutes) AS trip_duration. Esto crea una columna en la tabla temporal que contiene la suma de minutos
totales en los que se usó una bicicleta. Vuelve a presionar Enter o Return, luego presiona la tecla Backspace para alinear
el cursor con SELECT.

6. Escribe FROM, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

7. Especifica el conjunto de datos que estarás usando. Para hacer esto, escribe bigquery-public-
data.austin_bikeshare.bikeshare_trips.Presiona Enter o Return, luego presiona la tecla Backspace para alinear el cursor
con SELECT.

Tu texto debería aparecer así:

8. Escribe GROUP BY, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

9. Escribe bikeidpara agrupar los datos por ID de bicicleta de la columna. Vuelve a presionar Enter o Return, luego
presiona la tecla Backspace para alinear el cursor con SELECT.

10. Escribe ORDER BY, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

11. Escribe trip_duration DESC para ordenar los datos en orden descendente por la columna trip_duration. Vuelve a
presionar Enter o Return, luego presiona la tecla Backspace para alinear el cursor con SELECT.

12. Escribe LIMIT 1.

13. Asegúrate de que haya un paréntesis de cierre )en la línea siguiente. Si no está allí, agrégalo.

Esto configura tu tabla temporal. Esta sección identifica la bicicleta específica (bikeid) con el viaje de mayor duración.
Si la ejecutas ahora, devolverá un error porque aún no escribiste ninguna consulta. Ahora, es momento de escribir una
consulta que identifique la estación de retiro desde donde salió la bicicleta.

Escribir tu consulta

Ahora que encontraste el ID de la bicicleta que se utilizó por más tiempo, escribirás una consulta para encontrar la
estación desde donde esta bicicleta parte con mayor frecuencia. Para hacer esto, unirás tu tabla temporal (que contiene
el ID de la bicicleta) con la tabla original y devolverás el ID de la estación con el número más alto de viajes iniciados.

Para encontrar el ID de esta estación, sigue estos pasos:

1. En una línea nueva, escribe dos signos # para iniciar un comentario.

2. Describe el propósito de tu consulta. Esto te ayudará a recordar el propósito de tu consulta a medida que la vas
escribiendo. También te puede ayudar a compartir tu trabajo con otros. En este caso, escribe encontrar estación desde
donde parte con mayor frecuencia la bicicleta usada por más tiempo o algo similar. Luego presiona Enter o Return para
crear una línea nueva.

3. Comienza la consulta con SELECT, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

4. Escribe trips.start_station_id y una coma. Esta línea contiene la columna start_station_id de la tabla de viajes, que
definirás con un alias más tarde en esta consulta. Luego presiona Enter o Return para hacer una línea nueva.

5. Escribe COUNT(*) AS trip_ct. Esta línea te ayudará a contar cuántas veces la bicicleta salió de cada estación. Vuelve
a presionar Enter o Return, luego presiona la tecla Backspace para alinear el cursor con SELECT.

6. Escribe FROM, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

7. Escribe longest_used_bike AS longest para cambiar el nombre de tu tabla temporal por un alias. Luego presiona la tecla
Backspace para alinear el cursor con SELECT.

Tu texto debería aparecer así:

Ahora, es tiempo de escribir una instrucción INNER JOIN, que usarás para escoger el ID de la estación que corresponde
a la bicicleta que identificaste en la tabla temporal.

8. Escribe INNER JOIN. Presiona Enter o Return y Tab para crear una línea nueva con sangría.

9. Escribe `bigquery-public-data.austin_bikeshare.bikeshare_trips` AS trips. Vuelve a presionar Enter o Return, luego


presiona la tecla Backspace para alinear el cursor con SELECT.

10. Escribe ON longest.bikeid = trips.bikeid. Esto especifica que la instrucción JOIN está en la columna bikeid en la tabla
temporal que creaste y el conjunto de datos original. Luego presiona Enter o Return para hacer una línea nueva.

11. Escribe GROUP BY, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

12. Escribe trips.start_station_idpara agrupar con la columna start_station_id en el conjunto de datos original. Vuelve a
presionar Enter o Return, luego presiona la tecla Backspace para alinear el cursor con SELECT.
13. Escribe ORDER BY, luego presiona Enter o Return y Tab para crear una línea nueva con sangría.

14. Escribe trip_ct DESCpara ordenar por la columna en orden descendente. Vuelve a presionar Enter o Return, luego
presiona la tecla Backspace para alinear el cursor con SELECT.

15. Escribe LIMIT 1.

16. Por último, haz clic en Ejecutar. La consulta podría tardar unos segundos antes de mostrar el recuento. Si tu consulta
devuelve 2575 en la columna start_station_id y 90 en la columna trip_ct, la has escrito correctamente. Tu texto debería
aparecer así:

Ahora, creaste una tabla temporal y ejecutaste una consulta con ella. Esto será útil cuando estés haciendo varios
cálculos al mismo tiempo.

Otros tipos de tablas temporales

También existen otras formas de crear una tabla temporal. En lugar de usar la cláusula WITH, puedes usar las cláusulas
SELECT INTO o CREATE TABLE.

La cláusula SELECT INTO copia datos de una tabla a una tabla nueva, pero no añade la tabla nueva a la base de datos.
Es útil si deseas hacer una copia de una tabla con una condición específica.

La cláusula CREATE TABLE es una buena opción cuando varias personas necesitan acceder a la misma tabla
temporal. Esta instrucción añade la tabla a la base de datos.

La cláusula que usas depende de tu preferencia y las exigencias del proyecto. Diferentes cláusulas tienen sus propias
fortalezas; por lo tanto, entender cómo cada una de ellas funciona es útil para usarlas efectivamente.

Confirmación y reflexión
En una actividad anterior, aprendiste sobre la importancia de usar el tipo correcto de combinación. En esta actividad,
escribiste una consulta con una instrucción INNER JOIN para combinar tu tabla temporal con la tabla bikeshare_trips
original. ¿Qué ID de estación devolvería tu consulta si usaste una instrucción FULL JOIN en lugar de una instrucción
INNER JOIN?
1 / 1 punto

3798
2758
2575
3575
Correcto

Si usaste una instrucción FULL JOIN en lugar de una instrucción INNER JOIN para combinar una tabla temporal con la
tabla bikeshare_trips, obtendrías el ID de estación 3798. Esto sucede porque la tabla temporal que creaste tiene que
combinarse con la original de una manera específica a fin de devolver la respuesta correcta. A medida que avanzas,
puedes usar tablas temporales para hacer consultas más complejas como esta, lo cual te ayudará a analizar datos
complejos durante tu carrera.
2.
Pregunta 2

En esta actividad, creaste una tabla temporal para ejecutar cálculos sin la necesidad de hacer modificaciones a las tablas
primarias de tu base de datos. En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en
respuesta a cada una de las siguientes preguntas:

¿Por qué fue necesario usar la instrucción JOIN en esta actividad?

¿Cuál es el beneficio de ejecutar una consulta en una tabla temporal en lugar de una tabla primaria de una base de
datos?
1 / 1 punto

Correcto

En esta actividad, usaste una tabla temporal para escribir una consulta. Una buena respuesta incluiría de qué manera las
tablas temporales son extremadamente útiles para cálculos y consultas complejos.

Al usar una tabla temporal, puedes responder una pregunta más compleja y no hacer cambios en una tabla primaria de
una base de datos. Usaste una instrucción JOIN para encontrar algo específico del conjunto de datos original. A medida
que avanzas, puedes ser creativo con el uso de tablas temporales para hallar respuestas complicadas a preguntas del
mundo real.

Variaciones de varias tablas


Hola. Anteriormente, te presentamos las tablas temporales. Son un gran recurso para usar durante tu
análisis porque te ayudarán a mantener tu código SQL organizado y eficiente. Aprendiste a usar una
cláusula WITH para crear un tipo de tabla temporal. Ahora veremos otros modos para que puedas crear
tablas temporales con los pros y contras que presentan. Esta es una de las grandes cosas acerca del
análisis de datos. Casi siempre existe más de una forma de hacer tu análisis. La instrucción SELECT
INTO es un buen ejemplo de cómo hacer una tabla temporal. Esta instrucción copia datos de una tabla
en una tabla nueva, pero no agrega la tabla nueva a la base de datos. Es útil si quieres hacer una copia de
una tabla con una condición específica, como una consulta con una cláusula WHERE. Hasta ahora,
estuvimos usando BigQuery para mostrarte cómo funciona SQL. Pero BigQuery actualmente no
reconoce el comando SELECT INTO. En cambio, aquí hay un ejemplo de cómo una instrucción
SELECT INTO podría verse en otra RDBMS. En la instrucción, se crea una nueva tabla denominada
Ventas de África usando datos de la base de datos de ventas globales sobre la región africana. Usar
SELECT INTO es una buena práctica cuando quieres conservar la base de datos despejada y no
necesitas que otras personas usen la tabla. Ahora bien, si muchas personas van a usar la misma tabla,
entonces, la instrucción CREATE TABLE podría ser una mejor opción. Esta instrucción agrega la tabla
a la base de datos. Si todo el mundo necesita acceso a la tabla de Ventas de África, tu consulta
comenzará con CREATE TABLE, seguida por la misma consulta SELECT-FROM-WHERE que en la
instrucción SELECT INTO. En la mayoría de las bases de datos relacionales o RDBMS, puedes agregar
metadatos para describir los datos contenidos en la tabla que creaste. Esto puede ayudar a hacer la tabla
más fácil de entender para cualquier usuario. La instrucción CREATE TABLE también es útil para
tablas que son más complejas. Por ejemplo, si es difícil replicar el código, hacer una tabla temporal de
esta manera significa que será más seguro para ti para acceder más tarde. La forma en que creas una
tabla temporal usando la cláusula WITH o una instrucción SELECT INTO o CREATE TABLE suele
depender de ti y de tus necesidades. Cuanto más trabajes en SQL, más puedes tener preferencias
también, especialmente dado que existe más de una forma de crear tablas temporales.

También puedes darte cuenta de que estás trabajando en una RDBMS que usa una sintaxis diferente. Por
ejemplo, podrías necesitar usar una instrucción CREATE TEMP TABLE en lugar de CREATE TABLE.
Aquí hay buenas noticias. La sintaxis que necesitas para cada RDBMS única es generalmente bastante
fácil de encontrar con una búsqueda rápida en línea. Pero no importa cómo o dónde crees tablas
temporales, no presentan muchos problemas. Sin embargo, es bueno destacar que a veces crear una tabla
temporal puede interrumpir tu flujo de trabajo. De nuevo, eso dependerá de tus objetivos y tus
preferencias. Puedes repetir tu código una y otra vez en lugar de hacer una tabla temporal pero eso
generalmente deja tus consultas menos legibles y más vulnerables a los errores ortográficos. A medida
que continúas explorando el mundo del análisis computacional de datos, verás que las tablas temporales
son solo uno de los muchos recursos que podrás usar. Cuanto más los uses, más fácil te resultará navegar
por ese mundo.

Pregunta
¿Cuál de los siguientes son métodos para crear una versión de una tabla temporal utilizando SQL? Selecciona todas
las opciones que correspondan.
5. Cláusulas WHERE
6. Cláusulas WITH
Correcto
Las cláusulas WITH, las instrucciones CREATE TABLE y las instrucciones CREATE TEMP TABLES todas
crean tablas temporales en las consultas.
7. Instrucciones CREATE TEMP TABLES
Correcto
WITH clauses, CREATE TABLE statements, and CREATE TEMP TABLE Las cláusulas WITH, las
instrucciones CREATE TABLE y las instrucciones CREATE TEMP TABLES todas crean tablas temporales
en las consultas.
8. Instrucciones CREATE TABLE
Correcto
Las cláusulas WITH, las instrucciones CREATE TABLE y las instrucciones CREATE TEMP TABLES todas
crean tablas temporales en las consultas.
Cómo trabajar con tablas temporales
Las tablas temporales son exactamente lo que parecen ser: tablas temporales en una base de datos de SQL que no se
almacenan permanentemente. En esta lectura, aprenderás sobre los métodos para crear tablas temporales mediante el
uso de comandos SQL. También aprenderás algunas prácticas recomendadas para cuando trabajes con las tablas
temporales.

Un repaso rápido de los conocimientos que adquiriste sobre las tablas


temporales
 Se eliminan automáticamente de la base de datos cuando finalizas la sesión en SQL.
 Se pueden utilizar como área de contención para almacenar valores si estás realizando una serie de cálculos. A
veces, esto se denomina preprocesamiento de datos.
 Pueden recopilar los resultados de consultas múltiples o individuales. A menudo, esto se conoce como
almacenamiento provisional de datos. El almacenamiento provisional de datos es útil si necesitas realizar una
consulta sobre los datos recopilados o fusionar los datos recopilados.
 Pueden almacenar un subconjunto filtrado de la base de datos. No necesitas seleccionar ni filtrar los datos cada
vez que trabajes con ellos. Además, utilizar menos comandos de SQL te ayuda a mantener limpios los datos.
Es importante señalar que cada base de datos tiene su conjunto de comandos único para crear y gestionar tablas
temporales. Estuvimos trabajando con BigQuery, por eso nos centraremos en los comandos que funcionan bien en ese
entorno. El resto de esta lectura examinará las maneras en las que se pueden crear tablas temporales principalmente en
BigQuery.

Creación de tablas temporales en BigQuery


Las tablas temporales se pueden crear utilizando diferentes cláusulas. En BigQuery, la cláusula WITH se puede utilizar
para crear una tabla temporal. La sintaxis general para este método es la siguiente:
Si dividimos esta consulta un poco, observa lo siguiente:

 La instrucción comienza con la cláusula WITH seguida del nombre de la nueva tabla temporal que deseas crear.
 La cláusula AS aparece luego del nombre de la tabla nueva. Esta cláusula le indica a la base de datos que
coloque todos los datos identificados en la siguiente parte de la instrucción en la nueva tabla.
 El paréntesis de apertura luego de la cláusula AS crea la subconsulta que filtra los datos de una tabla existente.
La subconsulta es una instrucción SELECT habitual junto con una cláusula WHERE para especificar los datos
que se filtrarán.
 El paréntesis de cierre finaliza la subconsulta creada por la cláusula AS.
Cuando la base de datos ejecute esta consulta, primero completará la subconsulta y asignará los valores resultantes de
esa subconsulta a “new_table_data,” que es la tabla temporal. Luego, puedes ejecutar varias consultas en estos datos
filtrados sin tener que filtrar los datos todas las veces.

Creación de la tabla temporal en otras bases de datos (no admitidas en


BigQuery)
BigQuery no admite el siguiente método, pero la mayoría de las demás versiones de las bases de datos de SQL lo
admiten, incluido SQL Server y mySQL. Mediante SELECT e INTO, puedes crear una tabla temporal basada en
condiciones definidas por una cláusula WHERE para localizar la información que necesitas para la tabla temporal. La
sintaxis general para este método es la siguiente:
SELECT * INTO AfricaSales FROM
GlobalSales WHERE Region = "Africa"

SELECT * INTO AfricaSales FROM GlobalSales WHERE Region = "Africa"

Esta instrucción SELECT utiliza las cláusulas estándar como FROM y WHERE, pero la cláusula INTO le indica a la base
de datos que almacene los datos que se solicitan en una nueva tabla temporal denominada, en este caso, “AfricaSales.”

Creación de tablas temporales gestionadas por el usuario


Hasta ahora, hemos explorado las maneras de crear tablas temporales que la base de datos debe gestionar. Sin
embargo, también puedes crear tablas temporales que tú puedes gestionar como usuario. Como analista, podrías decidir
crear una tabla temporal para tu análisis que puedas gestionar por tu cuenta. Utilizarías la instrucción CREATE TABLE
para crear este tipo de tabla temporal. Una vez que hayas terminado de trabajar con la tabla, luego podrías eliminarla o
quitarla de la base de datos al finalizar la sesión.

Nota: BigQuery utiliza CREATE TEMP TABLE en lugar de CREATE TABLE, pero la sintaxis general es la misma.

CREATE TABLE
table_name ( column1 datatype, column2 datatype, column3 datatype, .... )

CREATE TABLE table_name ( column1 datatype, column2 datatype, column3 datatype, .... )

Una vez que hayas terminado de trabajar con tu tabla temporal, puedes eliminar la tabla de la base de datos mediante la
cláusula DROP TABLE. La sintaxis general es la siguiente:
Prácticas recomendadas para trabajar con tablas temporales
 Tablas temporales locales frente a tablas temporales globales: Las tablas temporales globales están a disposición de
todos los usuarios de la base de datos y se eliminan cuando todas las conexiones que las utilizan se cierran. Las
tablas temporales locales están a disposición solo del usuario cuya consulta o conexión estableció la tabla
temporal. Es probable que trabajes con tablas temporales locales. Si creaste una tabla temporal local y eres la
única persona que la utiliza, puedes eliminar la tabla temporal una vez que dejes de utilizarla.
 Cómo eliminar las tablas temporales luego de utilizarlas: Eliminar una tabla temporal es un poco diferente a borrar
una tabla temporal. Eliminar una tabla temporal no solo quita la información contenida en las filas de la tabla, sino
que además quita las definiciones de la variable de la tabla (columnas) mismas. Borrar una tabla temporal quita
las filas de la tabla, pero conserva la definición de la tabla y las columnas quedan listas para volver a utilizarse. Si
bien las tablas temporales se eliminan luego de que finaliza la sesión en SQL, es posible que no ocurra
inmediatamente. Si hay bastante procesamiento en la base de datos, eliminar tus tablas temporales luego de
utilizarlas es una buena práctica para mantener la base de datos funcionando sin inconvenientes.

Para obtener más información


 Documentación de BigQuery para tablas temporales: La documentación contiene la sintaxis para crear tablas
temporales en BigQuery
 Cómo utilizar las tablas temporales mediante WITH en BigQuery de Google : El artículo describe cómo utilizar
WITH
 Introducción a las tablas temporales en SQL Server: El artículo describe cómo utilizar SELECT INTO y CREATE
TABLE
 Tablas temporales en SQL Server: El artículo describe la creación y eliminación de la tabla temporal
 Elegir entre las variables de la tabla y las tablas temporales: El artículo describe las diferencias entre pasar las
variables en las instrucciones de SQL frente a utilizar las tablas temporales

Tu guía intermedia para SQL


A medida que te sientas más a gusto con SQL, podrás realizar consultas incluso más avanzadas.

Esta guía detallada te proporcionará una introducción más minuciosa sobre algunas de las funciones de SQL que ya
aprendiste y te brindará algunas herramientas nuevas con las que puedas trabajar. Asegúrate de tener la guía a mano a
medida que avanzas en el recorrido de aprendizaje de SQL.

1.
Pregunta 1

¿Cuándo las tablas temporales se eliminan automáticamente?


1 / 1 punto

Después de ejecutar una consulta en tu base de datos de SQL


Después de ejecutar un informe desde la tabla
Después de completar todos los cálculos en la tabla
Después de finalizar la sesión en una base de datos de SQL
Correcto

Las tablas temporales se eliminan automáticamente después de finalizar la sesión en una base de datos de SQL.
2.
Pregunta 2

La siguiente consulta en SQL contiene información sobre viajes en bicicleta:


¿Qué datos aparecerán en la tabla temporal creada a través de esta consulta?
1 / 1 punto

Los viajes en bicicleta que duraron exactamente 60 minutos


Un subconjunto aleatorio de viajes en bicicleta
El número total de viajes en bicicleta
Los viajes en bicicleta que tienen una duración de una hora o más
Correcto

Esta tabla temporaria mostrará viajes en bicicleta que duraron exactamente 60 minutos. El nombre de las tablas es “1_hr_trips” y la
consulta incluye la condición de que los viajes en la tabla son de una hora.
3.
Pregunta 3

¿Qué beneficio añade la instrucción CREATE TABLE a una tabla temporal?


1 / 1 punto

Cálculos automáticos
Acceso para que alguien use la tabla
Convenciones específicas de nomenclatura
Metadatos sobre los datos en la tabla
Correcto

La instrucción CREATE TABLE proporciona acceso para que


cualquiera use la tabla temporal. La instrucción SELECT INTO es más
adecuada para una persona.

Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Lista de citas programadas

Agregación de datos: Proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida

Agregación: Proceso de recolectar o juntar muchas partes separadas en un todo

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto
Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las oportunidades
de mejora en el futuro

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la eliminación
de información que pueda asociarse a ellas

Apertura: Aspecto de la ética de los datos que promueve el acceso libre, el uso y el uso compartido de los datos

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores

Archivo de audio: Almacenamiento en audio digitalizado, generalmente en MP3, AAC u otro formato comprimido

Archivo de video: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato comprimido
como por ejemplo MP4, MV4, MOV, AVI o FLV

Asignación de alias: Nombrar temporalmente una tabla o columna en una consulta para que sea más fácil de leer y escribir

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango seleccionado

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones

Base de datos: Recopilación de datos almacenados en un sistema informático

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo
Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otra cosa

C
Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Campo calculado: Un campo nuevo dentro de una tabla dinámica que realiza ciertos cálculos en función de los valores de otros
campos

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

CASE: Instrucción en SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

CAST: Función SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar, analizar,
archivar y destruir

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver clave
externa)

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad
Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos

Consulta: Solicitud de datos o información de una base de datos

Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger una
hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se puede
arrastrar a través de las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

COUNT DISTINCT: Función de SQL que solo devuelve los valores distintos en un rango especificado

COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con un criterio especificado

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas que coinciden con un valor especificado

D
DATEDIF: Función de una hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica


Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos

Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema tiene
datos en varias filas

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas

Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos

Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos, correctos y que son pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de manera fácilmente identificable

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordinales: Datos cualitativos con un orden o escala establecidos


Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diseño de datos: Cómo se organiza la información

DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar y
compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y organizar
datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes específicas
Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados

Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de una hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG

FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función matemática: Función que se utiliza como parte de una fórmula matemática

Función: Comando preestablecido que realiza automáticamente un proceso o tarea especificado utilizando los datos de una
hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Fusión: Acuerdo que une dos organizaciones en una organización nueva

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital
Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

GROUP BY: Cláusula SQL que agrupa las filas que tienen los mismos valores de una tabla en filas de resumen

Guiones bajos: Líneas utilizadas para subrayar palabras y conectar caracteres de texto

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

Hoja de cálculo: Hoja de cálculo digital

I
Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura confiable

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

INNER JOIN: Función de SQL que devuelve registros con valores coincidentes en ambas tablas

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población

J
JOIN: Función de SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada

L
LEFT JOIN: Función de SQL que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla
derecha

LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Length: Número de caracteres en una cadena de texto

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que permiten
que los analistas de datos aborden los problemas comerciales de gran alcance

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Margen de beneficio: Porcentaje que indica cuántos centavos de ganancia se generaron por cada dólar de venta

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

MATCH: Función de la hoja de cálculo que se usa para ubicar la posición de un valor de búsqueda específico

Matriz: Conjunto de valores en celdas de una hoja de cálculo


MAX: Función de la hoja de cálculo que muestra el resultado del valor numérico más alto de un rango de celdas

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada y
lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer, tanto
en el campo profesional como el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Metadatos: Datos sobre los datos

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Módulo: Operador (%) que devuelve el resto cuando se divide un número por otro

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un todo

N
Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Operador: Símbolo que designa la operación o cálculo a realizarse

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que
deben realizarse las operaciones

Ordenación: Proceso de organizar los datos en un sistema de clasificación significativo para que sean más fáciles de entender,
analizar y visualizar

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de conducir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas

OUTER JOIN: Función de SQL que combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas tablas
P
Panel: Herramienta que monitorea los datos entrantes en vivo

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Pensamiento analítico: Proceso de identificar y definir un problema, para luego resolverlo mediante el uso de datos de manera
organizada, paso a paso

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con otras
áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente relacionadas
entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente

Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta

Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción
de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el
de obtener conocimiento que propicie la toma de decisiones informada
Proceso de validación de datos: El proceso de comprobar y volver a comprobar la calidad de los datos para que sean
completos, precisos, seguros y coherentes

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que proporciona
y que tiene control primordial sobre su uso, procesamiento y uso compartido

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Q
Quitar duplicados: Herramienta de una hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

R
Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango: Conjunto de dos o más celdas en una hoja de cálculo

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia absoluta: Referencia dentro de una función que está bloqueada para que las filas y las columnas no cambien si se
copia la función

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila

Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones


Repositorio de metadatos: Base de datos creada para almacenar metadatos

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión

RIGHT JOIN: Función de SQL que devuelve todos los registros de la tabla derecha y solo los registros coincidentes de la
izquierda.

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver Sesgo del observador)

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja
con una muestra que no representa a la población en su totalidad

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria

Sintaxis: Estructura predeterminada de un lenguaje, que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación

SPLIT: Función que divide el texto en función de un carácter específico y ubica cada fragmento en una nueva celda separada
SQL: (Ver Lenguaje de consulta estructurado)

Subcadena: Subconjunto de una cadena de texto

Subconsulta: Consulta de SQL anidada dentro de una consulta más grande

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

SUMIF: Función de una hoja de cálculo que suma datos numéricos basados en una condición

SUMPRODUCT: Función que multiplica las matrices y muestra el resultado de la suma de esos productos

T
Tabla de resumen: Tabla que se usa para resumir información estadística sobre los datos

Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos

Tabla temporal: Tabla de una base de datos que se crea y existe temporalmente en el servidor de una base de datos

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados significativos

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina “tipo
de datos de texto”)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo de
datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que puede
realizar
Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial

Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes de sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o de


una computadora a otra

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

U
Único: Valor que no puede tener un duplicado

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de datos

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

VALUE: Función de la hoja de cálculo que convierte una cadena de texto que representa un número en un valor numérico

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos resultantes
son precisos y confiables

Visualización de datos: Representación gráfica de los datos

Visualización: (Ver Visualización de datos)


VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados

1.
Pregunta 1

Un analista de datos quiere calcular la cantidad de filas que tienen un valor de SKU de “K102145”. ¿Qué función puede
usar?
0 / 1 punto

=COUNTIF(G2:G30,“=K102145”)
=COUNTIF(G2:G30,“K102145”)
=COUNTIF(K102145=G2:G30)
=COUNTIF(G2:G30,K102145)
Incorrecto

2.
Pregunta 2

Estás trabajando en una hoja de cálculo y usas la función SUMIF en la siguiente fórmula como parte de tu análisis.

=SUMIF(D2:D10,”>=50”,E2:E10)

¿Qué parte de esta fórmula indica el rango de valores que se deben sumar?
1 / 1 punto

=SUMIF
E2:E10
D2:D10
>=50
Correcto

3.
Pregunta 3

Creaste una tabla dinámica y quieres sumar el total de todas las celdas por cada valor de fila y columna en la tabla. ¿Qué
función del menú de valores usarías para resumir los datos?
0 / 1 punto

PRODUCT
AVERAGE
SUM
COUNTA
Incorrecto

Revisa el video sobre tablas dinámicas.


4.
Pregunta 4

¿Cuántas columnas diferentes se agregaron a la sección de valores del editor de tablas dinámicas?

Dirección
Fecha Valores Disminución
2/3 MAX de A 300
MIN de C 12
2/4 MAX de A 100
MIN de C 14
2/5 MAX de A 450
MIN de C 9
0 / 1 punto

1
2
3
6
Incorrecto

Revisa el video sobre tablas dinámicas.


5.
Pregunta 5

En la siguiente consulta en SQL, ¿qué columna forma parte de una operación de suma que crea una columna nueva?

SELECT

Yes_Responses,

No_Responses,

Total_Surveys,

Yes_Responses + No_Responses AS Responses_Per_Survey

FROM

Survey_1
1 / 1 punto

Survey_1
Responses_Per_Survey
Yes_Responses
Total_Surveys
Correcto

6.
Pregunta 6

Un analista de datos usa la siguiente fórmula para calcular una fila nueva en una consulta en SQL. ¿Cuál de las
siguientes opciones describe mejor su resultado?

(colA + colB) / colC = new_col


1 / 1 punto

colB se suma a colA y, luego, el resultado se multiplica por colC.


Se suma colB a colA y, luego, el resultado se divide entre colC.
colB se divide entre colC y, luego, el resultado se suma a colA.
colB se resta de colA y, luego, el resultado se multiplica por colC.
Correcto

7.
Pregunta 7
¿Cuál es el proceso para revisar y volver a verificar la calidad de los datos, de manera que se pueda garantizar que
estén completos y sean precisos, seguros y coherentes?
1 / 1 punto

Visualización de datos
Validación de datos
Magnificación de datos
Desarrollo basado en datos
Correcto

8.
Pregunta 8

¿Qué finalidad tiene el operador <> en SQL?


1 / 1 punto

Establecer un valor igual que otro


Verificar si dos valores no son iguales
Mostrar el resto de una división
Sumar dos valores
Correcto

9.
Pregunta 9

¿Cuál es el motivo para usar una cláusula WITH AS en una instrucción de SQL?
1 / 1 punto

El resultado es una tabla dinámica


El resultado se calcula más rápido
El resultado es una visualización
El resultado es temporal
Correcto

10.
Pregunta 10

¿Cuál de las siguientes consultas en SQL agrega una tabla a la base de datos?
1 / 1 punto

SELECT * FROM table GROUP BY columnA ORDER BY columnB;


WITH my_table AS (SELECT * FROM other_table WHERE x = 0);
CREATE TABLE my_table AS (SELECT * FROM other_table);
SELECT * FROM table;
Correcto

2.
Pregunta 2

Estás trabajando en una hoja de cálculo y usas la función SUMIF en la siguiente fórmula como parte de tu análisis.

=SUMIF(A1:A25,”<10”,C1:C25)

¿Qué parte de ella corresponde a los criterios o la condición?


0 / 1 punto

C1:C25
SUMIF
A1:A25
”<10”
Incorrecto

Revisa el video sobre las funciones condicionales.


3.
Pregunta 3

¿Qué parte de una tabla dinámica cambiarías si quieres usar un cálculo diferente para combinar los resultados?
1 / 1 punto

Filtro
Columnas
Valores
Filas
Correcto

5.
Pregunta 5

¿Cuál es la palabra clave de SQL que se usa para definir un nombre para una columna calculada?
1 / 1 punto

WITH
AS
FROM
SELECT
Correcto

6.
Pregunta 6

Cuando se escriben cálculos personalizados en SQL, ¿qué caracteres se pueden usar para agrupar cálculos que
permitan cambiar su orden?
1 / 1 punto

Corchetes, []
Paréntesis, ()
Comillas, “”
Llaves, {}
Correcto

7.
Pregunta 7

Cuando trabajas con un conjunto de datos nuevo, ¿cómo puedes garantizar que tus datos sean válidos?
1 / 1 punto

Completando los valores faltantes con otros que favorecerán tu hipótesis inicial
Recopilando de forma personal todos los datos que usas en tu análisis
Convirtiendo todos los datos en la notación de objetos de JavaScript (JSON)
Revisando manualmente los cálculos de las columnas calculadas
Correcto

8.
Pregunta 8

Un analista de datos encuentra algunos datos que parecen incoherentes. ¿Qué es lo primero que debería hacer?
1 / 1 punto

Determinar si los valores incoherentes son válidos


Sustituir los valores incoherentes por otros de relleno
Quitar los valores incoherentes
Convertir los valores incoherentes en JSON
Correcto

También podría gustarte