Está en la página 1de 351

CURSO 7: ACTUAR.

Análisis de datos con programación


en R.
https://www.coursera.org/learn/analisis-de-datos-con-programacion-en-r/home/module/1

MODULO 1:
El emocionante mundo de la programación
Introducción al emocionante mundo de la programación
¡Hola, profesional de los datos! Has recorrido un largo camino desde el comienzo de tu proceso de aprendizaje. Felicitaciones por tus logros. Piensa
en todas las habilidades que aprendiste en tu camino. Ahora sabes cómo utilizar el pensamiento estructurado para definir un problema y hacer las
preguntas correctas; trabajar con hojas de cálculo, bases de datos y herramientas como SQL para organizar y transformar los datos; limpiar tus datos
para asegurarte de su integridad antes de analizarlos; crear elementos visuales para ilustrar puntos clave; y elaborar una historia convincente para
comunicar las conclusiones a los interesados. Esa es una lista impresionante de habilidades, pero aún no terminamos. Tu conjunto de habilidades
está a punto de crecer. En este curso, aprenderás sobre un concepto nuevo denominado programación y cómo puedes usar el lenguaje de
programación R para analizar tus datos. Por ahora, sabes que el proceso de análisis de datos incluye seis etapas: preguntar, preparar, procesar,
analizar, compartir y actuar. Ahora aprenderemos todo sobre el lenguaje de programación R y cómo puede ayudarte en cada etapa del proceso.
Cuando termines, se te presentará un caso práctico opcional. Ese caso práctico te dará la oportunidad de resolver un problema de análisis de datos
y poner en práctica todas las habilidades que aprendiste en el programa. Más adelante tendrás más información sobre ese proyecto. Hablemos
sobre programación informática. La programación informática consiste en darle instrucciones a una computadora para que realice una acción o un
conjunto de acciones. Puedes usar diferentes lenguajes de programación para escribir esas instrucciones. Podrías elegir un lenguaje específico
según el proyecto que quieras llevar a cabo o el problema que quieras resolver. El lenguaje de programación R es muy útil para organizar, limpiar y
analizar datos. Si esta es tu primera experiencia en programación informática, bienvenido. Cuando comencé a aprender sobre análisis de datos,
tampoco tenía antecedentes en programación. De hecho, antes de enamorarme de los datos, había estudiado para ser cantante de ópera. También
tengo un montón de amigos que se pasaron a este campo desde las artes y aprendieron sobre programación mucho más tarde en sus carreras. R es
un excelente lugar para comenzar. Aprender R por primera vez puede ser desafiante e incluso más inspirador. Muchas de las habilidades que
aprendiste en el programa te ayudarán a aprender los conceptos básicos de programación. Tómate tu tiempo y avanza a tu propio ritmo. Al igual
que en los vídeos anteriores, comenzarás por lo básico y avanzarás a partir de allí. Ya te enfrentaste a desafíos difíciles y siempre triunfaste. Puedes
hacerlo. Permíteme presentarme. Mi nombre es Carrie. Trabajo como directora de investigación de Google. Lidero un equipo que investiga la mejor
manera de mejorar el rendimiento de las personas en las organizaciones. Es decir, ayudo a las personas a trabajar mejor y de manera más
inteligente, y ayudo a las organizaciones a funcionar de manera más saludable y productiva. Aprendí R por primera vez cuando era analista de datos
júnior, mientras estaba trabajando en un proyecto de varios años sobre trabajo virtual. Estábamos mirando datos sobre las experiencias de trabajo
virtual de las personas y estábamos intentando comprender cómo trabajar de manera remota impacta en el rendimiento. Era un proyecto complejo
con muchos datos para examinar. Siempre había problemas y yo buscaba la forma de hacer las cosas mejor y más rápido. Fue entonces cuando
descubrí el poder de R. Cuando me atascaba, aprendía un poco más sobre R y descubría la solución a mi problema. Pronto entendí que R podía
ayudarme a hacer casi cualquier cosa que involucrara datos mucho mejor y más rápido de lo que yo creía posible. Por suerte, hay muchos recursos
excelentes en línea para R, así como una comunidad en línea muy solidaria. Cuando tenía una pregunta, me conectaba y encontraba la respuesta. A
medida que el proyecto avanzaba, pude aprender cada vez más y convertirme en una analista de datos mucho más efectiva. Incluso mis
compañeros de equipo comenzaron a pedirme consejos sobre R. Darme cuenta de que podía continuar aprendiendo mis habilidades en cualquier
etapa de mi carrera fue una experiencia motivadora. Aprender R desbloqueó mi capacidad para analizar datos al máximo nivel. En tu futura carrera
como analista de datos, tendrás la oportunidad de seguir aprendiendo y creciendo de modo continuo. Para mí, ese sería uno de los aspectos más
geniales del trabajo. Aprender R es una de las partes más gratificantes de ese proceso de crecimiento. Todavía sigo aprendiendo nuevas formas de
usar R. Además, puedes aplicar esas habilidades en otros lenguajes de programación, por ejemplo, Python, Julia o JavaScript. No hay límites
respecto a qué tan lejos puedes llegar con la programación. Incluso va más allá del análisis de datos. Después de aprender R, comencé a pensar en
todos los tipos de proyectos para los que podría usar la programación, tanto en el trabajo como por diversión. Te abre un nuevo mundo de
posibilidades. Ahora hablemos sobre lo que vas a aprender. Comenzaremos con una introducción a los lenguajes de programación. Luego,
analizaremos R más en detalle y exploraremos sus características y funciones principales. También veremos algunos conceptos básicos de
programación y aprenderemos a utilizarlos de manera efectiva en R. A continuación, aprenderemos a trabajar con los datos en R. Descubrirás cómo
R puede revolucionar tus habilidades de análisis de datos y permitirte limpiar, transformar, visualizar e informar tus datos de maneras nuevas y más
poderosas. Aprender R te ayudará a llevar tu análisis de datos al siguiente nivel. También se verá muy bien en tu currículum. R está ampliamente
reconocido como una credencial clave en puestos laborales de nivel básico. Saber cómo utilizar R te dará un gran impulso en tu búsqueda laboral y
te ayudará a destacar como un analista nuevo. A continuación, hablaremos más sobre lenguajes de programación en general y cómo pueden
ayudarte a analizar tus datos. Luego, pasaremos directamente a R. Y, antes de que te des cuenta, estarás usando R para impulsar tu análisis de
datos.

Programa del curso


En cursos anteriores, aprendiste a usar el pensamiento estructurado para resolver problemas de negocio, para preparar, limpiar,
transformar y analizar datos en hojas de cálculo y bases de datos, y también para contar historias efectivas con tus datos. Para seguir
ampliando tus habilidades, aprendiste a crear visualizaciones dinámicas e interactivas de datos en Tableau. Hasta ahora, las destrezas que
adquiriste estaban íntimamente conectadas con las funciones y las capacidades de las hojas de cálculo, las bases de datos de SQL y
Tableau. Sin embargo, ¿qué pasa si quieres trabajar con tus datos de forma más personalizada? ¿O si las herramientas estándar no tienen
la funcionalidad exacta que tú necesitas? En esas situaciones, el lenguaje de programación R puede resultarte muy útil. Cuando usas R,
tienes más flexibilidad y también más control sobre los datos y los análisis.

1. Aspectos básicos: Datos, datos, en todas partes


2. Haz preguntas para tomar decisiones basadas en datos
3. Prepara datos para la exploración
4. Procesa datos para pasarlos en limpio
5. Analiza datos para responder preguntas
6. Comparte datos a través del arte de la visualización
7. Análisis de datos con el lenguaje de programación R (este curso)
8. Google Data Analytics Capstone: completa un caso práctico
En este curso, aprenderás a usar el lenguaje de programación R para que tus herramientas no te limiten a la hora de trabajar con tus datos.
Podrás practicar muchísimo cómo usar R para análisis estadístico y también RStudio, un entorno de desarrollo integrado (IDE) para R
que te permitirá crear visualizaciones avanzadas de datos con gran nivel de detalle. Con R, puedes presentar tus datos con un estilo
atractivo y artístico sin problemas. Entre otras ventajas de R, podemos mencionar las siguientes:

 Popularidad: R se usa mucho para análisis de datos


 Herramientas: R contiene una biblioteca práctica de herramientas listas para usar para la limpieza y el análisis de datos
 Enfoque: R se creó para ayudar con la estadística, así que los analistas de datos pueden usar una amplia biblioteca de rutinas
estadísticas cuando lo necesiten
 Capacidad de adaptación: R se adapta bien a proyectos de aprendizaje automático y análisis de datos
 Disponibilidad: R es un lenguaje de programación de código abierto.
Cuando estés familiarizado con R, RStudio y su uso, quizá quieras aprender incluso otros lenguajes de programación para incluir entre
tus habilidades (y en tu currículum vitae también). Suena emocionante, ¿verdad?

Contenido del curso


Curso 7: Análisis de datos con programación en R

1. Conceptos básicos de R: R es un lenguaje de programación que se puede usar para llevar a cabo tareas en cada etapa del proceso
de análisis de datos. En esta parte del curso, aprenderás sobre R y RStudio, un entorno de desarrollo integrado (IDE) para R.
También vas a explorar los beneficios de usar RStudio para trabajar con R. RStudio te permite aprovechar las funciones y la
funcionalidad de R sin problemas.
2. Programar con RStudio: En esta parte del curso, explorarás los conceptos fundamentales asociados con R. Aprenderás sobre
funciones y variables que puedes usar en tus cálculos y otros tipos de programación. Además, descubrirás los paquetes de R, que
son colecciones de funciones, códigos y muestras de datos de R que puedes usar en RStudio.
3. Trabajar con datos en R: El lenguaje de programación R fue diseñado para el trabajo con datos en todas las etapas del proceso
de análisis de datos. En esta parte del curso, examinarás cómo R puede ayudarte a estructurar, organizar y limpiar tus datos
utilizando funciones y otros procesos. Aprenderás sobre los marcos de datos y cómo trabajar con ellos en R. También repasarás el
concepto del sesgo de los datos y cómo R puede ayudarte a abordarlo.
4. Visualizaciones, estética y anotaciones: R es una herramienta increíble para crear visualizaciones detalladas. En esta parte del
curso, aprenderás a usar R para generar visualizaciones y resolver cualquier problema que pueda surgir. Además, explorarás las
funciones de R y RStudio que pueden ayudarte con la estética de tus visualizaciones. Aprenderás a anotar visualizaciones y
guardar los cambios.
5. Documentos e informes: A la hora de guardar y presentar tu análisis, R te ofrece varias opciones distintas. En esta parte del
curso, vas a aprender acerca de R Markdown, un formato de archivo para crear documentos dinámicos con R. Aprenderás a
formatear archivos y exportarlos en R Markdown, e incluso a incluir bloques de códigos de R en tus documentos.
6. Desafío del curso: Al final de este curso, en el Desafío del curso, pondrás en práctica todo lo que has aprendido. En el Desafío
del curso, responderás preguntas sobre destrezas clave que practicaste y tendrás la oportunidad de demostrar esas destrezas en tres
escenarios distintos.

¿Ya conoces la programación en R?


Si ya usaste R y RStudio, las dos primeras semanas de este curso servirán para repasar temas básicos que ya conoces. Puedes saltearte
estos videos y lecturas básicos y pasar directamente a los desafíos semanales de las Semanas 1 y 2. Los desafíos semanales te ayudarán a
prepararte para el desafío del curso al finalizarlo. Para obtener el certificado, necesitas un puntaje de 80% o más en todas las actividades
con calificación del programa.

Qué esperar
Este curso debería tomarte entre cuatro y cinco semanas. En esas semanas, deberías completar todas las actividades, incluidas las
siguientes:

 Vídeos de instructores enseñando nuevos conceptos y demostrando el uso de herramientas


 Preguntas en el vídeo que surgen durante o al final del vídeo para verificar tu aprendizaje
 Material de lectura que presentará nuevas ideas y ampliará los conceptos presentados en los vídeos
 Foros de debate para debatir, explorar y reforzar nuevas ideas para un mejor aprendizaje
 Los temas de debate llevan a promover el pensamiento y la participación en los foros de debate
 Qwiklabs para aprender mediante casos reales de trabajo y conocer las herramientas y los pasos que son necesarios para
completar las asignaciones
 Cuestionarios de práctica a fin de prepararte para los cuestionarios con calificación
 Actividades prácticas para reforzar las habilidades aprendidas para los cuestionarios con calificación
 Cuestionarios con calificación para medir tu progreso y recibir correcciones útiles
Las actividades prácticas te dan una oportunidad extra para expandir tus habilidades, así que trata de sacarles el mayor provecho posible.
Las evaluaciones se basan en el enfoque adoptado por el curso para ofrecer una amplia variedad de materiales y actividades didácticas
que refuerzan las habilidades importantes. Los cuestionarios con calificación y sin ella te ayudarán a ahondar en el contenido y
consolidarán ciertas habilidades importantes. Los cuestionarios de práctica sin calificación te darán la oportunidad de prepararte para los
cuestionarios con calificación, y puedes realizar ambos todas las veces que necesites.

Como recordatorio rápido, este curso está diseñado para todo tipo de estudiantes, sin necesidad de un título o experiencia previa. Todos
aprenden de manera diferente, por lo que el Certificado de análisis computacional de datos de Google se diseñó teniendo eso en cuenta.
Los plazos personalizados son solo una guía, así que siéntete libre de trabajar a tu propio ritmo. No se penalizan las entregas tardías de
las tareas. Si lo prefieres, puedes ampliar los plazos volviendo a Descripción general en el panel de navegación y haciendo clic en
Cambiar sesión. Si ya no cumpliste con plazos anteriores, haz clic en Restablecer mis plazos.
Si deseas revisar el contenido anterior u obtener un adelanto del próximo contenido, puedes usar los enlaces de navegación en la parte
superior de esta página para ir a otro curso del programa. Cuando apruebes todas las asignaciones requeridas, estarás en camino a obtener
tu certificado.

Consejos
 Intenta completar todas las actividades en orden, ya que la información nueva siempre se asienta sobre la base de las lecciones
anteriores.
 Trata cada tarea como si fuera una experiencia del mundo real. Piensa que estás trabajando en una empresa o en una organización
como analista de datos. Esto te ayudará a aplicar lo que aprendes en este programa en el mundo real.
 Vuelve a completar las tareas que se muestran como ejemplo para practicar más y ganar velocidad. Por ejemplo, una vez que
hayas mirado un video una o dos veces para llevar a cabo las tareas que explica, intenta hacer las mismas tareas sin el video y sin
recibir indicaciones de los instructores.
 Aunque no se califiquen, es importante participar y completar todas las actividades de práctica. Te ayudarán a construir una base
sólida como analista de datos y te prepararán mejor para las evaluaciones calificadas.
 Aprovecha todos los recursos adicionales que ponemos a tu disposición, que incluyen los foros de discusión y los vínculos a
artículos externos para obtener más información.
 Cuando encuentres enlaces útiles en el curso, recuerda agregarlos a tus marcadores para que puedas consultar la información y
estudiarla o revisarla.
 Los recursos adicionales son gratuitos, pero algunos sitios tienen restricciones de acceso en cuanto a la cantidad de artículos a los
que se puede acceder de forma gratuita cada mes. En algunos casos, puedes registrarte en el sitio para obtener acceso completo,
pero siempre puedes marcar un recurso y volver a verlo más tarde.
 Maximiza el valor de las actividades prácticas. Las actividades prácticas complementan las tareas que te mostramos en los videos,
ya que te brindan escenarios similares para practicar. Cuanto más practiques la sintaxis de un lenguaje de programación, más
natural será para ti usarla.
 Crea un diario en un anotador o un documento para llevar un registro de cuestiones que debes recordar sobre la sintaxis de R. Así,
tendrás una referencia personalizada útil a la que podrás recurrir durante el resto del programa y, más adelante, siempre que lo
necesites.
Debate: R versus Python
Por lo general, las personas se preguntan qué lenguaje de programación deberían aprender primero. Quizá tú también lo estés pensando.
Este certificado te enseña el lenguaje de programación de código abierto, R. Es un excelente punto de partida para el análisis de datos de
nivel básico y ofrece paquetes útiles para que los principiantes utilicen en sus proyectos. El plan de estudios no abarca Python, pero te
aconsejamos que lo explores después de obtener este certificado. Si te gustaría aprender otros lenguajes de programación, no dudes en
seguir capacitándote.

Para un principiante, todo lenguaje tiene algunas ventajas y, también, algunos desafíos. Pongámoslo en contexto: examinemos R y Python.
La tabla a continuación constituye un resumen detallado según una muestra de artículos y opiniones de quienes trabajan en el sector.
Puedes repasar la información sin tener que elegir un bando, ni R ni Python. De hecho, si consultas nuestra entrada del blog sobre RStudio,
que puedes encontrar en la sección de Recursos adicionales, verás que se trata más de complementar ambos que de elegir uno.
Lenguajes R Python
- De código abierto - Los datos se almacenan en - De código abierto - Los datos se almacenan en
Funciones marcos de datos - Las fórmulas y las funciones ya marcos de datos - Las fórmulas y las funciones ya
en común están disponibles - Existe una comunidad para están disponibles - Existe una comunidad para
desarrollar códigos y brindarte ayuda desarrollar códigos y brindarte ayuda
- Manipulación de datos, visualización de datos y - Sintaxis simple para las necesidades de
Ventajas paquetes estadísticos - Enfoque de "bisturí" aprendizaje automático - Se integra con
únicas respecto de los datos: Encuentra paquetes para plataformas en la nube, como Google Cloud,
hacer lo que quieres con los datos Amazon Web Services y Azure
- Los principiantes tienen muchas más decisiones
- Las distintas convenciones de nomenclatura
por tomar respecto de la entrada y salida de
hace que sea difícil para los principiantes elegir
Desafíos datos, la estructura, las variables, los paquetes y
las funciones correctas - Los métodos para
únicos los objetos - "Enfoque de 'navaja Suiza' respecto
manejar variables pueden ser algo difíciles de
de los datos": Descubre cómo hacer lo que
entender para los principiantes
quieres con los datos
Recursos adicionales
Para más información sobre la comparación entre R y Python, consulta estos recursos:

 R versus Python, una guía exhaustiva para profesionales de los datos: Este artículo, escrito por un profesional de los datos con una
vasta experiencia en ambos tipos de lenguaje, brinda una comparación detallada entre los dos.
 R versus Python, una comparación objetiva: Este artículo ofrece una comparación entre los lenguajes con ejemplos de uso de
códigos.
 R versus Python: ¿Cuál es el mejor lenguaje para la ciencia de datos?: Esta entrada en un blog enriquece el debate sobre R versus
Python.

Conclusiones clave
Ciertos aspectos hacen que algunos lenguajes de programación sean más fáciles de aprender que otros. Pero eso no significa que los
lenguajes más difíciles sean imposibles de aprender para los principiantes. Por otra parte, la popularidad de ciertos lenguajes de
programación no necesariamente indica que son los mejores para los principiantes.

Los profesionales que tienen un enfoque estadístico u orientado a la investigación a la hora de resolver problemas, por ejemplo, científicos,
estadísticos e ingenieros, usan R. Los profesionales que buscan soluciones en los datos mismos y los que tienen que minar datos
enormemente para encontrar respuestas, como los científicos de datos, los especialistas en aprendizaje automático y los desarrolladores de
software, usan Python.

A medida que crezcas como profesional del análisis computacional de datos, es posible que tengas que aprender otros lenguajes de
programación. Las habilidades y las competencias que aprendes en tu primera experiencia programando son una buena base. Por eso, este
curso se centra en los elementos básicos de R. Así, podrás tener la perspectiva correcta: No importa tu puesto en la empresa, los lenguajes
de programación juegan un rol importante en el proceso de análisis de datos.

¿La buena noticia? Podrás usar muchos de los conceptos y principios de programación que aprendas usando R en este curso en otros
lenguajes de programación a futuro. También aprenderás a escribir código en R en un entorno de desarrollo integrado (IDE), llamado
RStudio. RStudio te permite gestionar proyectos que usan R o Python, o incluso una combinación entre ambos. Consulta RStudio: Un único
hogar para R y Python para obtener más información. Después de trabajar con R y RStudio, podrás aprender Python u otro lenguaje de
programación de forma más intuitiva.

Para tener una idea más clara de los lenguajes de programación más populares según el puesto de trabajo, consulta Formas de aprender
sobre programación. Este artículo enumera los lenguajes de programación que más usan los analistas de datos, los diseñadores web, los
desarrolladores de aplicaciones web y para dispositivos móviles y los desarrolladores de videojuegos. Además, aporta enlaces a distintos
recursos que te ayudarán a aprender más sobre esos lenguajes.
Registro de aprendizaje: ¿Estás preparado para explorar R?

Descripción general

Hasta ahora, aprendiste sobre gestión, análisis y visualización de datos. En el próximo curso, aprenderás los aspectos básicos de R y
cómo puedes usarlo para llevar a cabo los mismos pasos del análisis de datos que ya conoces. Ahora, completarás una entrada en tu
registro de aprendizaje tomando R como herramienta para el análisis de datos. Cuando hayas completado esta entrada, estarás listo para
empezar a conocer más sobre esta herramienta nueva y apasionante.

¿Estás listo?

Antes de comenzar a escribir la entrada de tu registro de aprendizaje en la plantilla cuyo enlace aparece a continuación, hablemos sobre
qué es R exactamente. R es un lenguaje de programación que suele usarse para análisis estadístico, visualización y análisis de datos.
Como analista de datos, utilizarás R para completar muchas de las tareas asociadas con el proceso de análisis de datos. Comprender
cómo funciona y por qué lo usas es fundamental para dominar el análisis computacional de datos.
Al igual que las otras herramientas que aprendiste en este programa, R será una parte importante de tu kit de herramientas de análisis de
datos. No necesitas contar con experiencia previa en R para realizar este curso; tendrás la oportunidad de aprender conceptos básicos y
de practicar la escritura en código R. ¡Incluso podrás intentar usar R para tu proyecto final más adelante!

En la plantilla del registro de aprendizaje a continuación, tendrás la posibilidad de reflexionar sobre aprender R y lo que más te interesa
de este curso.

Accede al registro de aprendizaje


Para usar la plantilla de este elemento del curso, haz clic en el enlace de abajo y selecciona “Usar plantilla”.

Enlace a la plantilla de registro de aprendizaje: ¿Estás preparado para explorar R?

Si no tienes una cuenta de Google, puedes descargar la plantilla directamente desde el siguiente archivo adjunto.

DAC7M1L1R3_SPA

DOCX File

Reflexión

Tómate un momento para reflexionar sobre el aprendizaje de R. En tu plantilla de registro de aprendizaje, escribe 2 o 3 oraciones (entre
40 y 60 palabras) en respuesta a cada pregunta que aparece a continuación:

 ¿Qué partes de R te entusiasma aprender?


 ¿Qué partes parecen más desafiantes?
Cuando hayas terminado de escribir en la plantilla de registro de aprendizaje, asegúrate de guardar el documento para que se pueda
acceder a tu respuesta. Esto te ayudará a seguir aplicando el análisis de datos a tu vida cotidiana. También podrás hacer un seguimiento
de tu avance y crecimiento como analista de datos.
Diviértete con R
¡Qué bueno volver a verte! Cuando comencé a aprender R, sus elementos visuales realmente me fascinaban. Todavía considero que es genial poder
escribir un pequeño código, presionar un botón y listo, que aparezca una visualización de datos increíble. Antes de adentrarnos en los detalles,
pensé que sería divertido que vieras un adelanto rápido de todo lo que R puede hacer. Lo que sigue será una vista previa de lo que aprenderás.
Hacia el final de este curso, no solo comprenderás todo el código, sino que también podrás escribirlo y ejecutarlo. Por ahora, siéntate, relájate y
disfruta del espectáculo. Comencemos por cargar una biblioteca y obtener un conjunto de datos para trabajar. Podemos utilizar el conjunto de datos
de los pingüinos de Palmer, que incluye las mediciones de los tamaños de tres especies de pingüinos que viven en el archipiélago Palmer en la
Antártida. Incluye datos sobre cuestiones como la masa corporal y la longitud de las aletas y del pico. Ese conjunto de datos tiene 344 filas de
información ordenadas en ocho columnas. Los datos de los pingüinos de Palmer son populares entre los analistas y son geniales para explorar,
visualizar y ver conceptos de enseñanza de manera divertida. Veremos más sobre este conjunto de datos más adelante en el curso. Digamos que
queremos visualizar la relación entre la masa corporal y la longitud de las aletas. Quizás adivines que cuanto más grande es el pingüino, más largas
son las aletas. Podemos comprobarlo si creamos un diagrama. Hagamos un diagrama de dispersión. Un diagrama de dispersión utiliza puntos para
mostrar la relación entre dos variables. Entonces, las dos variables iban a comparar la masa corporal y la longitud de las aletas. No necesitas
memorizar todos estos detalles en este momento. Más adelante tendrás tiempo de aprenderlos en más detalle.

Reproduce el video desde :1:54 y sigue la transcripción1:54

Echemos un vistazo a las partes de este código y a cómo se ajustan. La primera función comienza el diagrama. Si ejecutamos el código en este
punto, lo único que obtendremos será un diagrama en blanco.

Reproduce el video desde :2:9 y sigue la transcripción2:09

Si agregamos una parte más del código, R pondrá etiquetas en cada acceso de nuestro diagrama y agregará líneas para los datos. La masa corporal
está en el eje Y y la longitud de las aletas en el eje X, pero los puntos de datos aún no son visibles.

Reproduce el video desde :2:26 y sigue la transcripción2:26

Para obtener el diagrama completo, podemos agregar otra parte del código que le diga a R cómo representar nuestros datos. Por ejemplo,
podríamos usar puntos, barras o líneas. Utilizaremos puntos para crear un diagrama de dispersión.

Reproduce el video desde :2:42 y sigue la transcripción2:42

Podemos avanzar más. Por ejemplo, podemos cambiar la forma en que se ve el diagrama. Cambiemos el color de todos los puntos a púrpura.
Puedes presionar la flecha hacia arriba para buscar la última pieza del código que ejecutaste, así que haremos eso ahora. Y, luego, agregaremos
color igual púrpura dentro de la función <i>geom point</i>. Ahora podemos presionar Enter para ejecutar el código.

Reproduce el video desde :3:16 y sigue la transcripción3:16

También podemos agregar nueva información al diagrama y usar color para destacarla. Pidámosle a R que asigne un color diferente a cada especie
de pingüino. De esa forma, podemos vincular los puntos de datos con cada grupo de pingüinos.
Reproduce el video desde :3:34 y sigue la transcripción3:34

Los Papúa son los más grandes. La leyenda que se encuentra a la derecha del gráfico nos muestra que los puntos azules se refieren a los pingüinos
de Papúa. R crea automáticamente una leyenda para el diagrama con el fin de ayudarnos a comprender el código de colores. R hace todo lo que le
pides e, incluso, otras cosas que no le pediste. Es muy útil. También podemos usar formas para resaltar las diferentes especies de pingüinos.

Reproduce el video desde :4:7 y sigue la transcripción4:07

O podemos usar colores y formas.

Reproduce el video desde :4:16 y sigue la transcripción4:16

Además, para resaltar nuestros datos, también podemos reorganizarlos. Podemos desglosar nuestros datos en grupos más pequeños o en
subconjuntos y crear un gráfico para cada subconjunto. Supongamos que queremos enfocarnos en los datos para cada especie. Las funciones de
facetas nos permiten crear un diagrama separado para cada especie. Mira esto. Las facetas son geniales. Incluso podemos escribir texto en nuestro
gráfico para señalar datos específicos o comunicar un mensaje. Pongámosle un título a nuestro gráfico para indicar su propósito con claridad.

Reproduce el video desde :4:56 y sigue la transcripción4:56

Por último, podemos guardar nuestro gráfico para que podamos acceder a él o compartirlo más adelante.

Reproduce el video desde :5:6 y sigue la transcripción5:06

Ahora, si hacemos clic en la pestaña Archivos, encontraremos nuestro archivo en la lista.

Reproduce el video desde :5:13 y sigue la transcripción5:13

Abrámoslo.

Reproduce el video desde :5:17 y sigue la transcripción5:17

Bueno, aquí finalizó el espectáculo. Espero que lo hayas disfrutado tanto como yo. Pudimos tomar un conjunto de datos grande y visualizar algunos
patrones significativos de manera rápida. Esas son algunas de las funciones básicas en R. Es decir, es solo el comienzo. Es emocionante pensar en
todas las formas en las que R puede ayudarte a descubrir todo el poder del análisis de datos. A medida que avanzas, aprenderás más sobre cada una
de las funciones que usamos para crear nuestros diagramas. Al final de este curso, tú serás quien escriba y ejecute todos estos códigos. A
continuación, aprenderemos un poco más sobre programación informática y cómo puede ayudarte a analizar tus datos. Nos vemos pronto.

Carrie: Primeros pasos con R


El consejo que le daría a alguien que está aprendiendo R es que los errores son parte del proceso. Los errores y los mensajes de error son parte del
proceso. Cuando pienso en las personas que son mejores que yo en R, pude darme cuenta de que no son necesariamente más inteligentes que yo,
pero es probable que sean un poco más persistentes y que profundicen más en los temas. Desde luego, en comparación a cuando comencé; al
principio veía un mensaje de error y pensaba: "Lo hice mal, listo, se acabó el juego". Ahora pienso: "Eso solo es parte del juego". Cuando comencé a
exponerme un poco más a cómo se veía R, pensaba: "Se ve demasiado sofisticado. Si se ve así posiblemente sea muy difícil". Pero las personas que
conocía y que lo utilizaban siempre eran muy entusiastas cuando hablaban de él y sentían que tenía muchas más ventajas que otro software que
puedes utilizar para ejecutar análisis. Durante mucho tiempo antes de que utilizara R, solía usar hojas de cálculo o alguna otra herramienta, e
intentaba hacerle modificaciones para lograr lo que necesitaba. A veces, usaba muchas herramientas porque una sola no podía hacer todo lo que yo
quería que hiciera. Pero sentía que ya sabía cómo ejecutarlo y, no obstante, no tenía la suficiente fluidez. Cuanto más tiempo me expuse a R, más
me di cuenta de todo lo que podría hacer de esa manera; puedo resolver todo con un solo programa que puede realizar interbloqueos con mucha
fluidez. Al principio, no tenía demasiada confianza. Tuve un par de <i>scripts</i> donde algunos amigos eran mejores en R, personas con las que
trabajaba, y que se sentaban y me ayudaban a avanzar y entender el código, y me sentía muy tonta si les hacía preguntas básicas del estilo "¿Por
qué hay un corchete allí?" o "¿Por qué hacemos esto?". Pero, por suerte, tuvieron mucha paciencia conmigo. En algún momento, todo el
departamento dijo que todos necesitábamos utilizar esta herramienta porque debíamos estar en la misma plataforma. Necesitamos coherencia en
nuestros análisis. También necesitamos poder revisar en conjunto los análisis de los otros. Así que todos juntos tomamos un curso en línea y eso me
ayudó a ganar mucha más confianza, porque estaba recorriendo paso a paso todo lo que necesitaba aprender, tenía una oportunidad para practicar
y, luego, dije: "De acuerdo, incluso si hay cosas que no sé, ya he logrado pasar la introducción, y luego logré pasar el siguiente módulo, así que algo
sé". Después, cuando empecé a utilizarlo en mi trabajo, todavía había situaciones en las que pensaba: "Un momento, no sé cómo resolver este
problema". Y luego hablaba con un amigo, buscaba algo en Google y, en general, sabía mucho más de lo que pensaba que sabía, y así, de repente,
desbloqueé mi capacidad para hacer un montón de análisis de manera rápida con un gran conjunto de datos, y también para realizar muchas
visualizaciones de datos realmente rápido con ggplot2. Hola, mi nombre es Carrie y soy Directora de investigación en Operaciones de personal en
Google.

Programar como analista de datos


Lenguajes de programación
Hola. Es genial tenerte de vuelta. Anteriormente, aprendiste que programar significa darle instrucciones a una computadora para que realice una
acción o un conjunto de acciones. Incluso si esta es tu primera vez programando, ya tienes mucha experiencia diciéndole a una computadora qué
hacer. Por ejemplo, quizás usaste una función de la hoja de cálculo para ordenar tus datos o realizar cálculos, o quizás utilizaste SQL para decirle a
una computadora cómo extraer datos de una base de datos o unir dos tablas de datos diferentes. La programación va todavía más lejos. Tienes el
mayor nivel de control sobre tus datos. SQL te permite comunicarte con bases de datos, pero un lenguaje de programación de uso general te
permite crear tus propias aplicaciones y construir tus propias funciones desde cero. Para programar, primero necesitas conocer un lenguaje de
programación. En este vídeo, aprenderemos los conceptos básicos sobre los lenguajes de programación y cómo pueden ayudarte a trabajar con tus
datos. Los lenguajes de programación son las palabras y los símbolos que utilizamos para escribir instrucciones para que sigan las computadoras.
Piensa en un lenguaje de programación como si fuera un puente que conecta a los humanos con las computadoras, y que les permite comunicarse.
Los lenguajes de programación tienen su propio conjunto de reglas sobre cómo deben usarse esas palabras y esos símbolos, y se llama sintaxis. La
sintaxis te muestra cómo organizar las palabras y los símbolos que ingreses para que tengan sentido para la computadora. Codificar es escribir
instrucciones para la computadora utilizando la sintaxis de un lenguaje de programación específico. Así como hay varios lenguajes humanos en el
mundo, hay muchos lenguajes de programación diferentes que están disponibles para comunicarse con las computadoras. Hay un lenguaje para casi
cualquier cosa que quieras hacer, desde diseñar sitios web o desarrollar videojuegos, hasta trabajar con datos. Por ejemplo, Python es un lenguaje
de uso general que sirve para todo tipo de cosas, desde trabajar con inteligencia artificial hasta crear experiencias de realidad virtual. Javascript
funciona bien para desarrollar aplicaciones en línea y es una parte esencial de los navegadores web. Otros lenguajes de programación populares
para el análisis de datos son SAS, Scala y Julia. A nivel personal, R es mi lenguaje preferido para el análisis de datos, pero es posible que quieras
también explorar otros lenguajes. Aunque los lenguajes de programación puedan verse diferentes a primera vista, todos comparten estructuras y
conceptos de codificación similares. Una vez que hayas aprendido tu primer lenguaje, te será más fácil aprender otros. A continuación, veremos
todas las capacidades de R. Antes de pasar a eso, hablemos sobre algunos beneficios de utilizar cualquier lenguaje de programación para trabajar
con datos. Destacaré tres. La programación te ayuda a aclarar los pasos de tu análisis, a ahorrar tiempo y te permite reproducir y compartir tu
trabajo con facilidad. Empecemos con la claridad. Los lenguajes de programación tienen reglas y pautas específicas para dar instrucciones a una
computadora. Cuando le indicas a una computadora qué hacer, tus instrucciones tienen que ser muy claras. No puede haber ninguna incoherencia
en la forma en que escribes el código. Si la hay, el código no funcionará. Traducir tus pensamientos en códigos te obliga a determinar exactamente
cómo escribir cada paso de tu análisis y cómo hacer para que los pasos encajen. Le da a tu análisis un nivel de precisión que lo hace realmente
poderoso. Utilizar un lenguaje de programación para analizar datos también te ahorra un montón de tiempo. Por ejemplo, tomemos el proceso de
limpieza y transformación de datos. Con una línea de código puedes crear un conjunto de datos separado sin perder ningún valor. Con otra línea,
puedes aplicar varios filtros a tus datos. Eso te permite emplear menos tiempo para preparar tus datos y más tiempo para el análisis en sí. Por
último, los lenguajes de programación facilitan la reproducción de tus análisis. El análisis de datos es más útil cuando puedes reproducir tu trabajo y
compartirlo con otras personas. Ellas pueden volver a revisarlo y ayudarte a resolver problemas. El código almacena automáticamente todos los
pasos de tu análisis para que puedas reproducirlo y compartir tu trabajo en cualquier momento a futuro, ya sean semanas, meses o incluso años
después. Aquí hay un ejemplo. Supongamos que estás trabajando en un proyecto. Ya recopilaste y limpiaste tus datos y comenzaste con el análisis,
pero los resultados no se suman. Sospechas que hubo un error durante el proceso. Te gustaría hablar sobre el problema con un compañero de
equipo y escuchar sus comentarios. Si utilizaste una hoja de cálculo, es posible que ambos tengan que rehacer todo el análisis para descubrir el
error. No hay una forma fácil de registrar y reproducir tus pasos en una hoja de cálculo; pero si utilizas un lenguaje de programación, puedes
reproducir y compartir todo tu trabajo en un momento, desde la carga de datos y la elaboración de visualizaciones, hasta la creación de los informes
con los resultados. Además, puedes actualizar tu análisis con facilidad y arreglar cualquier error fácilmente al cambiar el código. Espero que eso te
permita comprender mejor de qué se tratan los lenguajes de programación. A continuación, vamos a centrarnos detalladamente en R. Nos vemos
pronto.

Pregunta
Los lenguajes de programación se pueden usar para reproducir y compartir tu análisis.
Verdadero
Falso
Correcto
Los lenguajes de programación se pueden usar para reproducir y compartir tu análisis.
Formas de aprender a programar
La experiencia de escribir un código en un lenguaje de programación puede ser emocionante y gratificante. Desde siempre, en el sector de
programación, las personas se ayudan entre sí para mejorar sus habilidades y desarrollar mejores prácticas. En este curso, vas a aprender
específicamente sobre el lenguaje de programación R, pero, más adelante, quizá quieras enfocarte en otros lenguajes según tus intereses y
objetivos profesionales. Esta lectura constituye una guía general para ayudarte a decidir cuáles son los lenguajes de programación que mejor
se ajustan a tus necesidades.

Lenguajes de programación populares según la profesión


Repasemos algunos de los puestos laborales que quizá encuentres en el sector y los lenguajes de programación que más usan esos
profesionales. Además, incluimos una lista de recursos adicionales para que explores y aprendas más sobre cada uno de los lenguajes de
programación que te presentamos.

Analista de datos
Un analista de datos se encarga de recopilar, transformar y organizar los datos para sacar conclusiones, hacer predicciones e impulsar la
toma de decisiones fundamentada. Los lenguajes de programación que más usan los analistas de datos son R y Python.

R ofrece a los analistas de datos funciones prácticas para estadística, y es útil para crear visualizaciones de datos avanzadas. Consulta estos
recursos para obtener más información sobre R:

 El proyecto R para cálculos estadísticos: Sitio web para descargar R, documentación y artículos de soporte
 Manuales de R: Enlaces a manuales del equipo del núcleo de R, que incluyen presentación, administración y ayuda
 Tutoriales de R del club de programación: Recopilación de tutoriales de programación con R
 R para principiantes: Una guía de primeros pasos para trabajar con datos, gráficos y estadísticas en R
Python es un lenguaje de uso general que puedes usar para crear lo que necesites para tu análisis de datos. A continuación, detallamos
algunos recursos para que empieces a aprender Python:
 La Fundación del Software Python (PSF): Sitio web con guías que te ayudan a dar tus primeros pasos
 Tutorial Python: Tutorial de Python 3 del sitio de PSF
 Tutoriales de Python del club de programación: Recopilación de tutoriales de programación con Python
Diseñador web
Los diseñadores web se encargan de diseñar y darle estilo a las páginas web que contienen texto, gráficos y videos. Por lo general, usan
Lenguaje de marcas de hipertexto v5 (HTML5) y Hojas de estilo en cascada (CSS) para crear sitios web.

HTML5 brinda la estructura de las páginas web y se usa para vincularse con plataformas de hosting. Usa estos recursos para obtener más
información sobre HTML5 y CSS:

 Tutorial de HTML: Introducción a HTML, con enlaces a funciones, ejemplos y referencias de HTML5
 Hoja de referencia de HTML5: Resumen útil de etiquetas y atributos de HTML5 y su compatibilidad con HTML4
 Curso de conceptos básicos de HTML5 y CSS: Curso gratuito de W3C en edX; por 199 dólares, podrás obtener un certificado
verificado que acredite que realizaste el curso
CSS se usa para diseño de páginas web y elementos de gráficos de control (color, diseño y fuente), así como presentaciones de páginas en
distintos dispositivos (pantallas grandes, pantallas de dispositivos móviles e impresoras). Explora estas hojas de referencia sobre CSS:

 Hoja de referencia interactiva de CSS: Incluye las partes más comunes de CSS, incluido gradiente, fondo, familia de fuentes, bordes
y mucho más
 Las 50 mejores hojas de referencia de HTML y CSS: Lista con 50 hojas de referencia; elige las que te sean más útiles
Desarrolladores de aplicaciones para dispositivos móviles
Los desarrolladores de aplicaciones para dispositivos móviles usan la programación para crear aplicaciones para computadoras portátiles,
dispositivos móviles y tabletas. Los lenguajes de programación que más usan son Swift, Java y C#.

Swift (para plataformas de Apple) es un lenguaje de scripts de código abierto para macOS, iOS, watchOS y tvOS. Su objetivo principal es
lograr que las aplicaciones funcionen con más rapidez. Para más información sobre Swift, explora estos recursos:

 Swift.org: Comunidad de código abierto que contiene recursos para aprender a usar Swift; incluye videos y códigos de muestra
 Sitio para desarrolladores que usan Swift: Sitio web para desarrolladores de Apple que contiene información para quienes quieran
usar Swift
 Recursos para el desarrollo con Swift: Colección de documentos, códigos de muestra, videos y libros recomendados de Apple
Java (para dispositivos de Android) es el lenguaje oficial de programación para desarrollo de Android. El artículo Quiero desarrollar
aplicaciones para Android: ¿Qué lenguajes debería aprender? explora otros lenguajes que se usan para desarrollo en Android. Consulta
estos recursos sobre Java:

 Android Studio: Entorno de desarrollo integrado (IDE) descargable que contiene herramientas para desarrollar aplicaciones para
dispositivos Android
 Desarrolla tu primera aplicación para Android con Java: Instrucciones para instalar Android Studio y crear tu primera aplicación
 Tutorial de Java para principiantes: Escribe una aplicación simple sin necesidad de tener experiencia : Resumen de cómo aprender
Java; contiene ejemplos
C# (que se pronuncia "sí sharp") es un lenguaje de programación orientado al objeto que se usa mucho para crear juegos y aplicaciones
móviles en la plataforma de desarrollo de código abierto .NET. Xamarin amplía la plataforma .NET gracias a un framework para que los
desarrolladores creen aplicaciones móviles para distintas plataformas, tanto en iOS como en Android. A continuación, tienes algunos
recursos para ayudarte a aprender C#:

 Materiales de Microsoft .NET para aprender C#: Incluye cursos, tutoriales y videos gratuitos para aprender el lenguaje de
programación C#
 Materiales de Microsoft para aprender Xamarin: Incluye cursos, tutoriales y videos gratuitos para aprender sobre desarrollo móvil con
Xamarin
 Tutorial sobre Xamarin: Desarrolla tu primera aplicación para iOS o Android usando C# : Instrucciones para desarrollar una aplicación
móvil que muestre el texto "Hola mundo"
 Aprender C# en Codecademy: Sitio web con lecciones interactivas básicas y gratuitas, así como actividades extra a las que puedes
acceder mediante una suscripción mensual
Desarrolladores de aplicaciones web
Los desarrolladores de aplicaciones web diseñan y desarrollan aplicaciones de redes que se usan en la web. Los lenguajes de programación
que más usan son Java, Python, Ruby y PHP.

Java se usa ampliamente para crear aplicaciones web de empresas que pueden ejecutarse en múltiples clientes. Una de las fortalezas
principales de Java es su enfoque de "escribir una vez, ejecutar en cualquier lado" (WORA). Para más información sobre Java, explora estos
recursos:

 Tutoriales de Oracle sobre Java: Tutoriales sobre Java incluidos en los documentos de Oracle
 Java para principiantes: Curso gratuito de Java para principiantes en el sitio web "Home and Learn"
Python es un lenguaje de programación de uso general. Explora los recursos de Python que se enumeran en la sección del analista de datos.

Ruby es un lenguaje de programación de uso general orientado a objetos para el desarrollo de aplicaciones web. Ruby no es lo mismo que
Ruby on Rails, que es un framework de aplicación web de código abierto que se ejecuta usando Ruby. Consulta estos recursos para obtener
más información sobre Ruby:

 Noticias sobre Ruby: Información sobre los últimos lanzamientos de Ruby y enlaces a otros recursos
 Documentación de Ruby: Incluye guías, tutoriales y material de referencia para ayudarte a aprender más sobre Ruby
 Guía para programadores de Ruby: Tutorial y guía de referencia para Ruby
 Aprender Ruby en Codecademy: Sitio web con lecciones interactivas básicas y gratuitas, así como actividades extra a las que puedes
acceder mediante una suscripción mensual
PHP es un lenguaje de scripts que es particularmente útil para desarrollo de aplicaciones web. Está basado en Perl, otro lenguaje de
programación. PHP es simple, flexible y relativamente fácil de aprender. Consulta estos recursos para obtener más información sobre PHP:

 Archivos descargables y documentos sobre PHP: Información sobre los últimos lanzamientos de PHP y enlaces a otros recursos
 PHP bien ejecutado: Referencia rápida para estándares populares de programación con PHP
 Tutorial interactivo de PHP: Tutorial gratuito que ejecuta códigos PHP en distintos ejercicios
Desarrollador de videojuegos
Los desarrolladores de videojuegos son desarrolladores de aplicaciones que se dedican específicamente a crear videojuegos. Los lenguajes
de programación que más usan son C# y C++.
C# es un lenguaje de programación orientado a objetos que se usa mucho para crear videojuegos. Explora los recursos de C# que se
enumeran en la sección de desarrolladores de aplicaciones para dispositivos móviles.

C++ es una extensión del lenguaje de programación C que también se usa para crear juegos de consola, como los juegos para Xbox. Explora
los siguientes enlaces para más información sobre C++:

 Recursos de Microsoft para C++: Aprende a instalar el IDE de Visual Studio y escribir códigos usando C++
 Códigos de muestra de Microsoft C++ y C# para videojuegos: Recurso con más de 40 códigos de muestra de C++ y C# para
videojuegos
 Tutorial interactivo de C++: Tutorial gratuito que ejecuta códigos C++ en distintos ejercicios

Consejos para aprender lenguajes de programación


A continuación, te dejamos algunos consejos para tener en cuenta cuando empiezas a aprender un nuevo lenguaje de programación:

 Establece un proyecto de práctica y usa el lenguaje para completarlo. Así, el proceso de aprendizaje es más práctico e interesante.
 No olvides conceptos y principios de programación que ya hayas aprendido. Muchos pueden usarse con distintos lenguajes de
programación. Así que, después de aprender un lenguaje, aprender un segundo o tercero suele ser mucho más simple.
 Crea y mantén notas y hojas de referencia útiles en cualquier formato que te resulte práctico (a mano o en computadora).
 Crea un sistema de archivado en línea para poder acceder a la información que necesites de modo fácil mientras trabajas en distintos
entornos de programación.

De las hojas de cálculo a SQL y, luego, a R


Si bien puede que no conocieras el lenguaje de programación R, se parece mucho a otras herramientas que ya exploraste en este programa.
En esta lectura, compararás los programas de hojas de cálculo, SQL y R para entender mejor cómo usar cada uno a futuro.
Hojas de cálculo, SQL y R: Comparación entre los tres
Como analista de datos, hay muchas probabilidades de que, en algún momento de tu carrera profesional, trabajes con SQL, R y hojas de
cálculo. Cada herramienta tiene sus ventajas y desventajas, pero todas facilitan el proceso de análisis de datos y lo hacen más eficiente. Las
tres herramientas tienen dos aspectos importantes en común:
 Todas usan filtros: Por ejemplo, puedes filtrar un conjunto de datos sin problemas usando alguna de estas herramientas. En R,
puedes usar la función de filtro. Así, puedes llevar a cabo la misma tarea que con una consulta básica de SELECT-FROM-WHERE en
SQL. En una hoja de cálculo, puedes crear un filtro usando las opciones del menú.
 Todas usan funciones: En las hojas de cálculo, usas funciones en fórmulas y, en SQL, las incluyes en las consultas. En R, usarás
funciones en el código que forma parte de tu análisis.
La siguiente tabla incluye preguntas clave para explorar algunas otras comparaciones entre las tres herramientas. Úsala como guía general
para empezar a explorar R.

Pregunta clave Hojas de cálculo SQL R


Un programa que usa filas y Lenguaje de
Lenguaje de programación de
columnas para organizar datos y que programación que
base de datos que se usa para
te permite llevar a cabo análisis y suele usarse para
¿Qué es? comunicarse con bases de
manipulación de datos usando análisis estadísticos,
datos para llevar a cabo un
fórmulas, funciones y visualización y análisis
análisis de los datos
funcionalidades integradas de datos
Brinda un lenguaje
accesible para
Permite que los usuarios
Incluye una variedad de organizar, modificar y
¿Cuáles su ventaja manipulen y reorganicen
herramientas y funciones de limpiar marcos de
principal? datos según lo necesite su
visualización datos, y crear
análisis
visualizaciones de
datos detalladas
¿Con qué conjunto de Conjuntos de datos más Conjuntos de datos
Conjuntos de datos más pequeños
datos trabaja mejor? grandes más grandes
Se cargan con R
cuando lo instalas, se
¿Cuál es la fuente de Se ingresan manualmente o se Se accede a ellos mediante importan de tu
los datos? importan de una fuente externa una base de datos externa computadora o se
cargan de fuentes
externas
¿Dónde se suelen
En una hoja de cálculo en tu Dentro de tablas en la base de En un archivo R en tu
almacenar los datos
computadora datos a la que accediste computadora
de mi análisis?
¿Usa fórmulas y
Sí Sí Sí
funciones?
¿Puedo crear Sí Sí, usando una herramienta Sí
visualizaciones? adicional, como el sistema de
gestión de base de datos
Pregunta clave Hojas de cálculo SQL R
(DBMS) o una herramienta de
inteligencia empresarial (BI)

1.
Pregunta 1

Descripción general

Ahora que ya conoces el lenguaje de programación R, tómate un momento para reflexionar sobre qué puedes hacer si surge algún problema.
En esta autorreflexión, pensarás sobre cómo pedir ayuda en línea y responderás unas breves preguntas.

Este ejercicio de autorreflexión te ayudará a ahondar en tu proceso de aprendizaje y a expandir tus conocimientos sobre R al participar en
comunidades de datos en línea. A medida que respondas las preguntas, y plantees tus propias preguntas, tendrás en cuenta los conceptos,
las prácticas y los principios que te ayudarán a perfeccionar tu comprensión y reforzar tu aprendizaje. Ya hiciste el trabajo duro, así que
asegúrate de sacarle el máximo provecho: ¡Esta reflexión te ayudará a fijar tus conocimientos!

Usar Kaggle para consultas

Uno de los recursos más útiles para aprender R es la gran comunidad de colegas en línea que también se dedican al análisis de datos. En
los foros en línea, los programadores de R de todas partes del mundo se ayudan entre sí: debaten y resuelven cuestiones de sintaxis y
problemas con los datos.

A continuación, pedirás a tus colegas algo de ayuda con R. Concretamente, ingresarás a Kaggle.com, que quizá recuerdes del Curso 3, en el
que aprendiste sobre tipos y estructuras de datos.

Cuando ingreses a la página, escribirás una publicación en el foro para consultar algo sobre R. No importa si tu pregunta tiene que ver con
estrategias para aprender o con la sintaxis de R, alguien en Kaggle te va a ayudar. Recuerda usar la función de búsqueda para ver si alguien
ya respondió una pregunta similar. Así, evitarás preguntas duplicadas y todos se ahorrarán algo de tiempo.

Escribir una publicación en Kaggle


Para escribir una publicación en Kaggle.com, sigue estos pasos:

1. Inicia sesión en tu cuenta de Kaggle haciendo clic en Iniciar sesión en la esquina superior derecha.

2. Dirígete a la pestaña Debates, ubicada en el menú sobre la izquierda. Selecciona la categoría Primeros pasos.

3. Luego, haz clic en el botón Tema nuevo y crea un nuevo hilo en el foro.
4. Escribe el título del tema y el contenido de tu pregunta y, luego, haz clic en Publicar tema.
¡Listo! Publicaste una pregunta en el foro de Kaggle. El foro de Kaggle y otros foros de análisis computacional de datos serán recursos
valiosísimos a medida que continúes aprendiendo sobre R y otros temas del análisis computacional de datos.

Reflexión

Piensa en la pregunta que escribiste, las respuestas que recibiste y el papel que desempeña Kaggle en tu aprendizaje:

Si alguien te respondió, ¿lo que escribió te ayudó a responder tu pregunta? ¿Por qué o por qué no? Si la respuesta es no, ¿qué esperas
aprender de las respuestas de tus colegas?
¿De qué otra forma podrías usar Kaggle para que te ayude mientras aprendes sobre R?

Ahora, escribe 2 o 3 oraciones (de 40 a 60 palabras) en respuesta a cada una de estas preguntas. Escribe tu respuesta en el cuadro de texto
que aparece a continuación.
1 / 1 punto

Correcto

¡Gran trabajo al reforzar tu aprendizaje con una autorreflexión seria! Una buena reflexión sobre este tema describiría tu experiencia
recurriendo a una comunidad en línea para hacer una pregunta.

Las plataformas en línea como Kaggle pueden ayudarte a encontrar consejos valiosos de tus colegas. Puede que hayas aprendido algo que
no sabías sobre una estrategia de aprendizaje o una forma interesante de usar R cuando tienes un problema de análisis de datos. A futuro,
podrás expandir tus conocimientos buscando respuestas a tus preguntas de manera proactiva.

Introducción a R
Hola de nuevo. Ahora que ya hemos hablado sobre lenguajes de programación en general, vamos a conocer R. ¿Qué es R? R es un lenguaje de
programación que se usa con frecuencia para análisis estadísticos, visualización y análisis de datos. Más adelante, realizarás un recorrido por
RStudio, que es un entorno de software popular para el lenguaje R. En este vídeo, analizaremos las características y las funciones principales de R, y
sus ventajas para el análisis de datos. R es genial. Me alegra que vayas a conocerlo. R está basado en otro lenguaje de programación denominado S.
En la década de 1970, John Chambers creó S para uso interno en Bell Labs, una famosa planta de investigación científica. En la década de 1990, Ross
Oaxaca y Robert Gentleman desarrollaron R en la Universidad de Auckland, Nueva Zelanda. Lo llamaron R porque con esa letra empiezan los
nombres de sus dos autores y para jugar con el nombre de una sola letra, como el de su predecesor, S. A partir de entonces, R se ha convertido en el
lenguaje de programación preferido de los científicos, los estadísticos y los analistas de datos en todo el mundo. Hay muchas razones por las que las
personas que trabajan con datos aman R. Quiero compartir cuatro de ellas contigo. R es accesible, está centrado en los datos, es de código abierto
y tiene una comunidad activa de usuarios.

- En primer lugar, R es un lenguaje accesible para principiantes. Muchas personas que no tienen un lenguaje de programación
específico aprenden R. Yo debería saberlo. Soy una de ellas. R realmente atrae a cualquiera que quiera resolver problemas
relacionados con los datos. Y ese es uno de los aspectos tan geniales sobre R. Todo se relaciona con los datos. R es lo que se conoce
como un lenguaje de programación centrado en los datos. Se diseñó específicamente para facilitar el análisis de datos, y hacerlo
más eficiente y más poderoso.
- Otro aspecto increíble de R es que es de código abierto. Eso significa que el código está libremente disponible y puede ser
modificado y compartido por las personas que lo usan. Hagamos una pausa y veamos lo increíble que es esto. En primer lugar,
cualquiera puede usar R gratis. En segundo lugar, cualquiera puede modificar el código, arreglar errores y mejorarlo. De hecho, con
el correr de los años, muchos programadores excelentes hicieron mejoras y arreglos al código de R. Por ejemplo, cualquiera que
conozca el lenguaje R puede crear lo que se conoce como paquete complementario. Más adelante, profundizaremos en los
paquetes de R. Por ahora, solo debes saber que literalmente existen cientos de paquetes de R, y todos fueron creados por personas
que querían resolver problemas específicos. Muchos de esos paquetes son muy útiles para los analistas de datos. Como usuario de
R, ahora disfrutas el beneficio del conocimiento compartido. Y déjame agregar que la comunidad de R es la mejor. Esa comunidad
dinámica, diversa y accesible es muy solidaria con los nuevos estudiantes. Puedes conectarte en cualquier momento para buscar
respuestas a todas tus preguntas relacionadas con R. Visita sitios web como R for Data Science Online Learning Community y
RStudio Community. Además de eso, los usuarios de R están en Twitter y en otras redes sociales. Descubrirás muchos recursos para
hacer contactos profesionales, asesorar y aprender.

Ahora que sabemos más sobre los beneficios generales de R, hablemos de algunas situaciones específicas en las que podrías utilizarlo para el
análisis de datos. Aquí tenemos tres escenarios: reproducir tu análisis, procesar muchos datos y crear visualizaciones de datos.

- En primer lugar, R puede guardar y reproducir cada paso de tu análisis. Antes vimos que el análisis de datos es más útil cuando
puedes reproducir tu trabajo con facilidad y compartirlo con otros. En R, reproducir tu análisis es tan fácil como presionar un botón
en tu teclado. Tu código lo guarda para siempre. Y puedes compartirlo con cualquiera en cualquier momento.
- Procesar muchos datos también es algo que R hace muy bien, al igual que SQL. Como ya aprendiste antes, las hojas de cálculo
organizan proyectos en hojas o pestañas. Si alguna vez tuviste que lidiar con archivos en hojas de cálculo que tienen muchas hojas o
muchos datos en cada hoja, sabes que las cosas pueden comenzar a funcionar muy lentamente. Trabajar con muchos datos en una
hoja de cálculo incluso puede causar colapsos. R puede manejar muchas cantidades de datos de manera más rápida y eficiente.
- Por último, R puede crear elementos visuales poderosos y tiene capacidades gráficas de última generación. Como has visto en este
programa, las herramientas como las hojas de cálculo y Tableau ofrecen muchas opciones para visualizar tus datos. R está a otro
nivel. Con solo un código breve puedes crear histogramas, diagramas de dispersión, diagramas de línea y mucho más. Y ese es solo
el comienzo. Si trabajas con paquetes más avanzados, puedes realizar visualizaciones de datos realmente impresionantes. Aprender
R es un gran beneficio para cualquiera que esté interesado en convertirse en analista de datos. Como mencioné anteriormente,
saber R te ayudará a resaltar como candidato para un trabajo. A medida que sigas avanzando, R te ayudará a encontrar soluciones
para problemas más complejos relacionados con datos. Puedes seguir aprendiendo sobre R a lo largo de tu carrera profesional
como analista de datos. No hay límites cuando se trata de desarrollar tus habilidades de análisis de datos.

Eso es todo por ahora. A continuación, veremos el entorno de RStudio juntos. Antes de utilizar RStudio, tienes que descargar e instalar la interfaz
básica de R. Aprenderás cómo hacerlo en una próxima lectura. La mayoría de los analistas que trabajan con lenguaje R utilizan el entorno RStudio
para interactuar con R, y no la interfaz básica. Por eso, nos estamos enfocando en RStudio en este programa. A continuación de este vídeo,
encontrarás los recursos para descargar R y RStudio en caso de que estés interesado en aprender más. Hasta pronto.

1.
Pregunta 1
Resumen de la actividad

Anteriormente, en este curso, aprendiste acerca de R, un lenguaje de programación que se usa para análisis estadísticos, visualización y
otros tipos de análisis de datos. En esta actividad, completarás los pasos para descargar e instalar R en tu computadora.

Cuando termines esta actividad, podrás usar R aunque no tengas conexión a Internet y sin necesitar el conjunto de programas en la nube de
RStudio. Esto te va a brindar más flexibilidad a la hora de usar R, lo cual es importante para programar con efectividad durante toda tu
carrera profesional como analista de datos.

Prepararse para la instalación

Nota: Esta es una actividad opcional. RStudio Cloud es la herramienta que más vamos a usar en este curso, pero también puedes instalar R
en tu computadora para usarlo cuando no estés conectado a Internet. Recuerda que Chrome OS no admite la instalación de R. Si estás
realizando este curso desde Chromebook, deberías saltearte esta actividad o consultar la solución alternativa para Linux que te adjuntamos
más abajo.

Para empezar, necesitas saber qué sistema operativo usas. El sistema operativo (SO) que usas es el firmware que constituye la interfaz
principal de tu computadora. Algunos de los sistemas operativos más comunes incluyen MacOS (Apple), Windows OS (Microsoft) y Chrome
OS (Google). Según el sistema operativo que tengas, podrás instalar una u otra versión de R.

Nota: Si usas Chrome OS, necesitas habilitar Linux (Beta) para poder usar R. Esta guía te explica cómo instalar R en Chromebook. También
puedes usar una plataforma de programación en línea, como RStudio Cloud o Kaggle.

Una vez que sepas qué sistema operativo usas y la versión de R que puedes instalar, podrás descargar e instalar sus recursos.

Descargar R

1. Ingresa al sitio web de R y dirígete hasta la página de descarga, ubicada en el sitio Comprehensive R Archive Network (CRAN). La página
de descarga te mostrará una lista de ubicaciones para descargar R.
2. Haz clic en uno de los "reflejos" o ubicaciones de descarga. Serás redirigido a una página con los enlaces de descarga correspondientes a
cada sistema operativo. No te preocupes si no sabes bien qué reflejo elegir: la mayoría contiene los mismos archivos para instalar R.

3. Busca el sistema operativo que tengas, haz clic en el enlace correspondiente y descarga el paquete base. La descripción debería decir
"Elementos binarios para distribución básica".

4. Para empezar a descargar R, haz clic en el enlace de descarga.

Instalar R

1. Una vez que la descarga haya finalizado, abre el archivo que descargaste. Así, se abrirá R.

2. En el menú desplegable, selecciona el idioma que prefieras. Luego, haz clic en Siguiente >.

3. Lee atentamente la información sobre la licencia de R en tu sistema operativo. Esos datos indican que es un sistema de código abierto, lo
que significa que cualquier persona que lo use puede modificarlo y compartirlo. Haz clic en Siguiente >.

4. Elige dónde quieres instalar R. Para elegir una ubicación para instalarlo, haz clic en Explorar y dirígete a la carpeta que quieras
seleccionar. Si la ubicación de estos archivos te da igual, entonces, puedes aceptar la opción predeterminada. Haz clic en Siguiente >.

5. Haz clic en las casillas de verificación para descargar los archivos que necesites. Por ejemplo, si tienes un sistema de 64 bits, solo tienes
que descargar esos archivos. Haz clic en Siguiente >.

6. Selecciona No si quieres personalizar las opciones de inicio. Haz clic en Siguiente >. En la próxima pantalla, haz clic en Siguiente >. ¡Ya
instalaste R en tu computadora!

Usar R

1. Abre R y busca la consola de R. La consola de R es una ventana en la que puedes escribir y ejecutar comandos en R. Busca el símbolo >
en la parte inferior de la consola y haz clic en el espacio en blanco a la derecha.

2. Para tu primer comando, ingresa un comando simple de muestra. Escribe print(“¡Hola, mundo!”) en el símbolo del sistema. Presiona Enter
(Windows) o Return (Mac) para ver el resultado, que será [1] "¡Hola, Mundo!". Recuerda que cada vez que ejecutes un comando, R le
asignará un número a cada línea de resultados.

3. Para tu segundo comando, escribe una ecuación matemática simple. Escribe 1+2 en el símbolo del sistema. Presiona Enter (Windows) o
Return (Mac) para recibir la respuesta, que es 3. Más adelante, en este curso, practicarás más matemática básica en R.
4. El último comando será uno de salida. Escribe q() en el símbolo del sistema y presiona Enter (Windows) o Return (Mac). Se cerrará el
programa.

Reflexión

En esta actividad, descargaste e instalaste los archivos del lenguaje de programación R. En el cuadro de texto a continuación, escribe 2 o 3
oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿Cuál es una de las ventajas de instalar R en lugar de usarlo en una plataforma en línea?

Tu aprendizaje sobre R, ¿cómo te ayudará a mejorar tus destrezas de análisis de datos?


1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que descargar e instalar R es muy útil para programar de
manera flexible, ya que no necesitarás recurrir a un servidor en línea.

Puedes usar R para distintos procesos analíticos y matemáticos vitales que llevarás a cabo en tu función como analista de datos. Cuanto
más conozcas R y más sepas cómo usarlo, más preparado estarás para resolver cualquier problema relacionado con el análisis de datos que
pueda llegar a surgir.

1.
Pregunta 1

Resumen de la actividad

En la última actividad, descargaste e instalaste R. Puedes usar el entorno de R y su lenguaje de programación para llevar a cabo análisis de
datos y crear visualizaciones. En esta actividad, repasarás los elementos básicos de la consola de R y aprenderás a escribir y ejecutar un
comando básico.
Así, podrás conocer más en profundidad la interfaz R estándar. Si bien vas a usar RStudio para la mayoría de las actividades de este curso,
es útil conocer los elementos básicos de la interfaz de programación, ya que seguramente tengas que usarla en tu trabajo diario como
analista de datos.

¿Qué es la consola de R?

Nota: Esta es una actividad opcional. RStudio Cloud es la herramienta que más vamos a usar en este curso, pero también puedes instalar R
en tu computadora para usarlo cuando no estés conectado a Internet. Recuerda que Chrome OS no admite la instalación de R. Si estás
realizando este curso desde Chromebook, deberías saltearte esta actividad o consultar la solución alternativa para Linux que te adjuntamos
más abajo.

La consola de R es la ventana del programa en R donde tú usarás el lenguaje de programación de R. Es una interfaz que te permite ver tu
código R, escribirlo, editarlo y ejecutarlo.

Los programas como RStudio, que es un entorno de desarrollo interactivo (IDE) para programar en R, usa la consola de R y otras
herramientas para que sea más fácil escribir el código R y ejecutarlo. En RStudio, por lo general, la consola de R también se denomina panel
de consola(podrás verla más abajo).Este panel te permite llevar a cabo cualquier tarea que harías en la consola de R.
Sin embargo, cuando empiezas a programar en R, es bueno usar la consola de R, porque es muy simple. En esta actividad práctica, vas a
usar la consola de R para realizar operaciones matemáticas simples.

Usar la consola de R

1. Abre R para usar la consola de R en tu computadora. En la consola, verás un mensaje predeterminado. El mensaje empieza con la versión
de R y tu número de versión, y termina con "Escribe ‘q()’ para salir de R". Arriba del mensaje, encontrarás un menú con íconos que
representan las funciones de la consola y una interfaz de usuario gráfica (que, en el programa, se conoce como RGui).
2. Haz clic en el espacio en blanco a la derecha del símbolo >, ubicado en la parte inferior de la consola.
Este es el símbolo del sistema, y cualquier cosa que escribas después será interpretado como un código R ejecutable cuando presiones
Enter (Windows) o Return (Mac). Recuerda que todo lo que escribas en la consola de R desaparecerá cuando cierres sesión (o cierres la
consola). Si quieres guardar el código que ejecutaste, es mejor guardarlo en un archivo de texto o en un .rmd (conocerás más sobre este tipo
de formato en futuras lecciones).

3. Escribe citation() después del símbolo del sistema y presiona Enter (Windows) o Return (Mac). Así verás instrucciones para citar R en una
publicación. No tienes que preocuparte por esto ahora, pero será útil si alguna vez usas R en una ponencia o artículo de investigación.

Después de ejecutar la línea, el símbolo > aparecerá de nuevo y podrás escribir una nueva línea de código R. Ahora, escribe una operación
matemática. Empieza con una suma simple usando el operador de suma (+).

4. Escribe 4, luego el signo + y, luego, el número 5. El texto que escribas debería verse así: 4+5. Pulsa Enter (Windows) o Return (Mac). La
consola de R te brindará la respuesta a esa ecuación: el número 9.

5. En una nueva línea, escribe 5-4 para usar el operador de resta (-). Presiona Enter (Windows) o Return (Mac) para ejecutar el código y
obtener la respuesta, que es el número 1.

6. En una nueva línea, usa el operador de multiplicación (*) para multiplicar dos números. Escribe 10*2 y, luego, presiona Enter (Windows) o
Return (Mac). Cuando ejecutes el código, obtendrás la respuesta: el número 20.

7. En una nueva línea, usa el operador de división (/) para dividir dos números. Escribe 10/2 y, luego, presiona Enter (Windows) o Return
(Mac). Cuando ejecutes el código, obtendrás la respuesta: el número 5.

Tu código R y tus resultados deberían verse así:


¡Felicitaciones! Escribiste un código en R. Puedes usar R para resolver operaciones matemáticas, entre muchas otras tareas útiles dentro del
análisis de datos. Este es solo el principio de tu camino escribiendo códigos en R.

Reflexión

En esta actividad, usaste la consola de R para escribir algunas funciones básicas. En el cuadro de texto a continuación, escribe 2 o 3
oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿Qué te enseña la consola de R sobre programar en la interfaz de R?

¿Cuál es la diferencia entre usar la consola de R y escribir códigos R en un archivo de texto?


1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que aprender a usar la consola de R y otros entornos de
programación en R es fundamental para llevar a cabo el análisis de datos.

La consola de R es un entorno simple que te permite escribir líneas individuales de código R. No guarda tu código cuando cierras la sesión,
pero es muy útil para ejecutar funciones simples. En las próximas actividades, usarás RStudio, un entorno de desarrollo interactivo que se
asienta sobre la base de la consola de R y su facilidad de uso.
1.
Pregunta 1

Completa el espacio en blanco: La programación implica _____ una computadora para que realice una acción o un conjunto de acciones.
1 / 1 punto

 darle instrucciones a
 actualizar
 filtrar
 instruir a
Correcto

La programación implica darle instrucciones a una computadora para que realice una acción o un conjunto de acciones.
2.
Pregunta 2

¿Cuáles son los beneficios de usar el lenguaje de programación para trabajar con tus datos? Selecciona todas las opciones que
correspondan.
1 / 1 punto

 Ahorrar tiempo
Correcto. Cuando usas el lenguaje de programación para trabajar con tus datos, obtienes tres beneficios clave. Puedes reproducir y
compartir tu trabajo fácilmente, ahorrar tiempo y precisar cuáles son los pasos de tu análisis.

 Reproducir y compartir tu trabajo con facilidad


Correcto. Cuando usas el lenguaje de programación para trabajar con tus datos, obtienes tres beneficios clave. Puedes reproducir y
compartir tu trabajo fácilmente, ahorrar tiempo y precisar cuáles son los pasos de tu análisis.

 Precisar los pasos de tu análisis


Correcto. Cuando usas el lenguaje de programación para trabajar con tus datos, obtienes tres beneficios clave. Puedes reproducir y
compartir tu trabajo fácilmente, ahorrar tiempo y precisar cuáles son los pasos de tu análisis.

 Elegir una tarea empresarial para analizar


3.
Pregunta 3

¿Para cuál de las siguientes tareas se puede utilizar el lenguaje de programación R? Selecciona todas las opciones que correspondan.
1 / 1 punto

 Análisis de datos
Correcto. Feedback: El lenguaje de programación R puede usarse para análisis estadísticos, visualización y análisis de datos.

 Visualización
Correcto. El lenguaje de programación R puede usarse para análisis estadísticos, visualización y análisis de datos.

 Videojuegos
 Análisis estadístico
Correcto. El lenguaje de programación R puede usarse para análisis estadísticos, visualización y análisis de datos.

Aprende programación en RStudio:


Introducción a RStudio

¡Hola! Es hora de hacer el recorrido por RStudio. Los ejemplos que veremos son de RStudio Cloud, pero RStudio funciona de manera similar en
todas las plataformas. Así que siéntete libre de usar la plataforma con la que estés más cómodo. Más adelante, si quieres aprender más, encontrarás
los recursos para descargar e instalar RStudio en tu dispositivo. RStudio es un IDE o entorno de desarrollo integrado. Eso significa que RStudio reúne
todas las herramientas que podrías querer usar en un solo lugar. La consola de R que vimos anteriormente forma parte de este entorno. RStudio
también incluye un editor para escribir códigos y herramientas para gestionar tus datos y crear elementos visuales. RStudio se creó específicamente
para utilizarse con R. Te ayudará a maximizar tu productividad como analista de datos. Analizar datos es como conducir un automóvil. Puedes
imaginar que R y RStudio son partes diferentes del automóvil. R sería el motor. RStudio sería el acelerador, el volante y el tablero, todo en uno. Te
permite decirle al motor qué hacer y te ayuda a llegar al lugar que quieres. Así como un velocímetro y un sistema de navegación facilitan la
conducción, el entorno de RStudio facilita el uso de R. En una lectura anterior aprendiste a acceder a RStudio. Así que iniciemos sesión en RStudio y
exploremos. El entorno de RStudio tiene cuatro ventanas principales denominadas paneles. Cada panel te ayuda a realizar distintas funciones. La
primera vez que abres RStudio verás tres paneles. El cuarto panel está oculto por defecto, pero puedes abrirlo con facilidad. Solo haz clic en Archivo,
dentro de menú, y luego selecciona Archivo Nuevo y R Script. RStudio tiene muchos atajos de teclado. Para aprender más, echa un vistazo a Ayuda
de atajos de teclado.

Puedes hacer que los paneles se vean más pequeños o más grandes si haces clic en los botones para minimizar o maximizar que se encuentran en la
parte superior derecha de cada panel.

También puedes hacer clic y arrastrar los bordes de los paneles para ajustar sus tamaños.

Haz clic en el botón Paneles para ver más opciones de funciones.

Ahora que tenemos los cuatro paneles abiertos exploremos cada uno de ellos. Comenzaremos en la esquina inferior izquierda y nos moveremos en
el sentido de las agujas del reloj.

- Quizás reconozcas la consola de R de una lectura anterior. Para repasar rápidamente, la consola es el lugar desde donde le das
órdenes a R. Por ejemplo, podemos pedirle a R que nos muestre un resumen de los datos de los pingüinos que utilizamos en un
vídeo anterior para crear elementos visuales. Tendrás que instalar y cargar el conjunto de datos de los pingüinos de Palmer si
todavía no lo has hecho.
- Arriba de la consola, en la parte superior izquierda, se encuentra el panel de editor de código fuente. Utilizarás el editor de código
fuente cuando trabajes con R Scripts. Hay dos maneras principales de escribir códigos en RStudio: utilizando la consola o utilizando
el editor de código fuente. Puedes escribir comandos directamente en la consola, pero desaparecerán cuando cierres la sesión en
curso. Como hemos comentado, es importante poder reproducir y compartir todos los pasos de tu análisis. Si guardas tu script en el
editor, puedes volver a acceder a tu trabajo en cualquier momento y mostrar a otros cómo lo hiciste. El editor de código fuente y la
consola también trabajan en conjunto en RStudio. Cuando ejecutas el código en el editor, el código automáticamente aparece en la
consola. Si estás trabajando en un análisis largo, eso facilita la ejecución de todo el código al mismo tiempo o de algunas secciones
específicas a medida que avanzas. Ejecutemos una parte del código en el editor para verificarlo. Consejo profesional: Recuerda que
R distingue mayúsculas y minúsculas. Aquí utilizamos una V mayúscula para la función View.
- Luego, vamos al panel Entorno, en la parte superior derecha. Aquí encontrarás todos los datos que has cargado en este momento y
podrás organizarlos y guardarlos. Por ejemplo, si importas datos de una hoja de cálculo, estará visible en el panel Entorno. Puedes
ver cada objeto en el panel Entorno si haces clic sobre él. También puedes alternar entre una vista de Lista y una vista de Cuadrícula.
- A la derecha de la pestaña Entorno encontrarás la pestaña Historial. Todos tus comandos anteriores están guardados aquí, y es fácil
encontrarlos y volver a ejecutarlos. Encontrarás la línea de código más reciente al final de la lista. Puedes copiar cualquier línea a la
consola de comando si haces doble clic sobre ella. En la parte inferior derecha, verás un panel que tiene las pestañas Archivos,
Diagramas, Paquetes y Ayuda. La pestaña Archivos te permite acceder a tu directorio de archivos y muestra los contenidos de la
carpeta de trabajo en uso. Puedes encontrar y gestionar todos tus archivos con facilidad y crear nuevas carpetas de proyectos.
Luego está la pestaña de Diagramas. Si creamos un diagrama, los resultados aparecen aquí. Por ejemplo, podemos crear un
diagrama de dispersión con el conjunto de datos de los pingüinos que usamos antes. Más adelante aprenderás más sobre cómo
crear diagramas en RStudio. Anteriormente hablamos sobre los paquetes de R, que son soluciones personalizadas a problemas de
datos que tuvieron los usuarios de R. RStudio te permite acceder a la biblioteca de los paquetes de R, conocida como Tidyverse.
Puedes actualizar, instalar y gestionar tu biblioteca desde el panel Paquetes. Los paquetes cargados en tu sesión actual tienen
marcas de verificación. Más adelante, exploraremos el paquete tidyverse en más detalle. Por último, haz clic en la pestaña Ayuda.
Aquí puedes encontrar recursos útiles para R y RStudio. Hay muchos recursos allí que te ayudarán a responder todas tus preguntas.
Asegúrate de aprovecharlos.

Ese fue nuestro recorrido por RStudio. Pero este es solo el comienzo de lo que RStudio puede hacer. Pronto explorarás RStudio en más detalle.
Hablando como profesional de los datos, me encanta trabajar en RStudio. Hace que mi trabajo sea mucho más fácil, más rápido y mejor.
Felicitaciones por finalizar otro paso en tu proceso de aprendizaje para convertirte en un analista de datos. A

continuación, veremos algunos conceptos básicos de programación. Luego, empezaremos a trabajar con R. Para aquellos que son nuevos en
programación, están a punto de escribir sus primeras líneas de código. Nos vemos pronto.

Pregunta
En RStudio, puedes ejecutar el código tanto en el panel de la consola de R como en el panel del editor de código fuente.
Verdadero
Falso
Correcto
En RStudio, puedes ejecutar el código tanto en el panel de la consola de R como en el panel del editor de código fuente.
1.
Pregunta 1

Resumen de la actividad

Hasta ahora, aprendiste acerca de RStudio, un entorno de desarrollo integrado que te permite crear y gestionar proyectos con más eficacia
usando R. En esta actividad, aprenderás a acceder a la versión en la nube de RStudio.

Cuando completes esta actividad, conocerás más en profundidad la interfaz de RStudio y tendrás más confianza a la hora de usar sus
herramientas básicas. Este es un paso fundamental para prepararte para las próximas actividades de este curso en las que usemos RStudio.
Esta actividad práctica, así como las próximas actividades en RStudio que vas a completar, son esenciales para desarrollar destrezas para
programar en R que te permitirán insertarte en el mercado laboral.

Acceder a RStudio Cloud

RStudio Cloud es la herramienta que más vas a usar en este curso. Para poder usar RStudio Cloud, necesitas una conexión estable a
Internet. No importa qué sistema operativo uses porque accederás desde tu navegador.

También puedes instalar la versión de escritorio: Descárgala siguiendo los pasos de la siguiente actividad (opcional). Esta es una buena
alternativa si quieres trabajar con R sin conexión.

Para acceder a RStudio Cloud, sigue estos pasos:

1. Registra una cuenta en la página de registro de RStudio Cloud.


Allí, encontrarás más información sobre RStudio Cloud, incluidos los planes con abono. En este curso, usarás la versión gratuita, pero tiene
ciertas limitaciones. Puedes tener solo hasta 15 proyectos en tu cuenta gratuita, y solo puedes usar 15 horas para tus proyectos por mes.
Más adelante, si ves que usas mucho RStudio, quizá quieras suscribirte a algún plan.

2. Por ahora, haz clic en el botón Registrarme, que se encuentra en la esquina superior derecha, y comienza con la versión gratuita.

3. Escribe tu correo electrónico, una contraseña y también tu nombre completo.

4. Una vez que te hayas registrado, abre RStudio Cloud por primera vez.
5. Haz clic en Nuevo proyecto para crear un nuevo espacio de trabajo para tu proyecto y abre la consola de RStudio Cloud.

Instalar y cargar paquetes

Una vez que hayas abierto un nuevo proyecto en tu consola, puedes instalar paquetes en RStudio Cloud.

Los paquetes son unidades de código R reproducible. Los miembros de la comunidad R crean paquetes para llevar un control de las
funciones de R que escriben y vuelven a usar. Los paquetes constituyen una combinación útil entre códigos,
funciones en R que puedes volver a utilizar, documentos descriptivos, pruebas para revisar tu código y
conjuntos de datos de muestra.

El paquete lubridate que estás por instalar forma parte del paquete tidyverse. El paquete tidyverse es una
colección de paquetes en R con una filosofía de diseño en común para manipular, explorar y visualizar datos.
Para muchos analistas de datos, tidyverse constituye una herramienta fundamental. Más adelante en este
curso, aprenderás más sobre tidyverse.

Para instalar los paquetes núcleo de tidyverse y cargarlos, sigue estos pasos:

1. En la parte inferior de la consola, escribe install.packages("tidyverse") y presiona Enter (Windows) o Return


(Mac).
Puede que tarde un poco. Para saber si la instalación todavía está en proceso, revisa el ícono rojo de Detener en la esquina superior derecha
de la consola. Puedes hacer clic en ese ícono para interrumpir la ejecución del código y cancelar el comando.

Sabrás que se completó el proceso cuando aparezca de nuevo el cursor en la parte inferior de la consola.
2. Para cargar la biblioteca tidyverse, usa la función library(). Para cargar los paquetes núcleo de tidyverse, escribe library(tidyverse) y
presiona Enter (Windows) o Return (Mac).

Solo tendrás que instalar el paquete una vez, pero tendrás que volver a cargarlo cada vez que empieces una sesión nueva.

3. Carga el paquete lubridate. Escribe library(lubridate) en el panel de la consola y presiona Enter (Windows) o Return (Mac).

Cuando completes estos pasos, podrás salir de RStudio. Explora RStudio Cloud por tu cuenta para familiarizarte más con las herramientas y
practicar lo que estás aprendiendo en este curso.

Reflexión
En esta actividad, accediste a RStudio, un entorno de desarrollo integrado (IDE) para programar en R. En el cuadro de texto a continuación,
escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿En qué se diferencia la experiencia de usar RStudio de otros entornos, por ejemplo, el programa R estándar? (Si no instalaste R en tu
dispositivo, ¿en qué se diferencian las funciones?).

¿Cuáles son las ventajas de usar RStudio en la nube?


1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que la interfaz más detallada de RStudio te permite
programar con facilidad.

RStudio Cloud es una de las herramientas que más vas a usar en este curso, así que, a medida que aprendas más destrezas en R y las
pongas en práctica, será importante que aprendas a acceder por tu cuenta. Como accederás al programa en la nube, tendrás la flexibilidad
de usar RStudio desde cualquier computadora, más allá del sistema operativo que utilice.

1.
Pregunta 1

Resumen de la actividad

En actividades anteriores, empezaste a programar con R y puede que hayas descargado el programa en tu computadora. También
configuraste el acceso a la nube de RStudio, un entorno de desarrollo integrado para programar en R. En esta actividad, vas a descargar en
tu computadora RStudio Desktop, la versión de RStudio que puedes usar sin conexión a Internet.

Cuando termine esta actividad, podrás usar RStudio Desktop en tu computadora. Así, tendrás más flexibilidad cuando programes con R, ya
que podrás acceder a todo lo que RStudio tiene para ofrecer aunque no tengas conexión a Internet.

Descargar RStudio Desktop


Nota: Esta es una actividad opcional. RStudio Cloud es la herramienta que más vamos a usar en este curso, pero también puedes usar
RStudio Desktop si instalaste R. Recuerda que Chrome OS no admite la instalación de R. Si estás realizando este curso desde Chromebook,
te aconsejamos que te saltees esta actividad o consultes la solución alternativa para Linux que te adjuntamos en esta actividad.

RStudio te permite crear y administrar proyectos usando R de forma más eficaz. Puedes encontrar más información sobre RStudio Desktop
en el sitio web de RStudio. La versión disponible para descarga es de código abierto, así que puedes usarla con una licencia pública. En el
sitio web, también está disponible la prueba gratuita de RStudio Pro, que contiene todas las funciones de la edición de código abierto y una
licencia comercial.

1. Encuentra el sistema operativo (SO) que tienes en tu computadora. Algunos de los sistemas operativos más comunes incluyen MacOS
(Apple), Windows OS (Microsoft) y Chrome OS (Google).

2. Si todavía no instalaste R, instálalo en tu computadora. También puedes encontrar los enlaces para descargar R para Mac, Windows y
Linux en el sitio web de CRAN. Para más información, consulta una actividad que ya hiciste: Descargar e instalar R.

3. Cuando hayas instalado R, dirígete a la página de descarga RStudio Desktop.

4. Descarga el programa de instalación correcto de RStudio Desktop según el sistema operativo que tengas.
5. Una vez que hayas descargado el programa de instalación, ábrelo e instala RStudio.

6. Después de instalar la aplicación, puedes abrirla por primera vez. Deberías ver la consola de RStudio que ya conoces, pero ahora puedes
acceder a ella desde tu computadora.

Instalar y cargar paquetes

Puedes instalar y cargar paquetes en tu consola de RStudio Desktop de la misma forma que lo hacías en RStudio Cloud. Ahora, vas a
instalar y cargar el paquete lubridate en tidyverse.

Repasemos: El paquete tidyverse es una colección de paquetes en R con una filosofía de diseño en común para manipular, explorar y
visualizar datos. Para muchos analistas de datos, tidyverse constituye una herramienta fundamental.

1. Para instalar los paquetes núcleo de tidyverse, escribe install.packages("tidyverse") en el panel de la consola de RStudio y haz clic en
Ejecutar.

2. Para cargar la biblioteca tidyverse, usa la función library(). Escribe library(tidyverse) en el panel de la consola y haz clic en Ejecutar.

Solo tendrás que instalar el paquete una vez, pero tendrás que volver a cargarlo cada vez que empieces una sesión nueva.

3. Carga el paquete lubridate. Escribe library(lubridate) en el panel de la consola y haz clic en Ejecutar.

Después de cargar el paquete en la consola de RStudio Desktop, puedes salir del programa. Ahora, podrás usar RStudio con el paquete
tidyverse aunque no tengas conexión a Internet.

Reflexión

En esta actividad, instalaste RStudio en tu computadora y cargaste el paquete de R tidyverse. En el cuadro de texto a continuación, escribe 2
o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿Cuáles son algunos de los beneficios de usar RStudio Desktop en lugar de RStudio Cloud?

¿Cuáles son las desventajas?


1 / 1 punto

Correcto
¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que RStudio Desktop te permite usar RStudio de forma
local aunque no tengas conexión a Internet.

RStudio te permite crear y administrar proyectos usando R de forma más eficaz. Si tienes que acceder a RStudio sin una conexión a Internet,
RStudio Desktop es una herramienta útil a la que puedes recurrir. Por otro lado, RStudio Cloud te brinda la flexibilidad que necesitas para
acceder a tu cuenta desde cualquier computadora. La versión que uses dependerá de qué dispositivo tengas y también de tus preferencias.

Cuándo usar RStudio


Como analista de datos, tendrás muchas herramientas a disposición para trabajar en cada etapa de tu análisis. Algunas veces, podrás
cumplir tus objetivos usando un programa de hoja de cálculo o SQL con una base de datos. En esta lectura, repasarás algunas situaciones
en las que quizá sea mejor trabajar en R con RStudio.

¿Por qué usar RStudio?


Una de tus tareas básicas como analista consistirá en convertir datos sin procesar en información precisa, útil e interesante. Esto puede ser
difícil si los datos sin procesar son complejos. R y RStudio se diseñaron para manejar grandes conjuntos de datos que quizá las hojas de
cálculo no pueden gestionar tan bien. RStudio también te facilita la tarea de reproducir tu trabajo en distintos conjuntos de datos. Cuando
ingresas tu código, es fácil cargar un nuevo conjunto de datos y ejecutar tus scripts de nuevo. También puedes crear visualizaciones más
detalladas en RStudio.

El mejor momento de RStudio


Cuando los datos están diseminados en muchos grupos o categorías, puede ser difícil gestionar tu análisis, visualizar tendencias y generar
gráficos. Cuantos más grupos de datos necesites para trabajar, más difíciles serán esas tareas. Es allí donde RStudio puede ser útil.

Por ejemplo, supongamos que estás analizando datos de ventas para cada ciudad de cierto país. Son muchos datos de muchos grupos
distintos. En este caso, cada ciudad tiene su propio grupo de datos.

A continuación, te contamos algunas formas en las que RStudio puede ayudarte en esa situación:

 Cuando usas RStudio, es más fácil llevar a cabo algún paso específico del análisis en cada grupo usando un código básico. En este
ejemplo, podrías calcular los datos de ventas promedio anuales en cada ciudad.
 RStudio también te permite crear visualizaciones flexibles de datos. Puedes visualizar diferencias entre ciudades de forma efectiva
usando funciones de trazado, como las facetas, que verás más en detalle más adelante.
 También puedes usar RStudio para crear automáticamente un archivo de salida con estadísticas de resumen o, incluso, tus gráficos
visualizados para cada grupo.
A medida que aprendas más sobre R y RStudio en este programa, comprenderás más en detalle cuándo deberías recurrir a RStudio para el
análisis de datos.

Para obtener más información


 Las ventajas de RStudio: Esta página web explica algunas de las razones por las que RStudio es la opción preferida de muchos
analistas para interactuar con R. Conocerás las ventajas de usar RStudio para el análisis de datos, desde su facilidad de uso hasta la
accesibilidad de los gráficos y mucho más.
 Análisis de datos y programación con R: Esta introducción en línea al análisis de datos y la programación en R constituye un buen
punto de partida para usuarios de R y RStudio. También incluye una lista de explicaciones detalladas sobre las ventajas de usar R y
RStudio. Además, encontrarás una guía útil para configurar RStudio.
Conectarte con otros analistas de datos en la comunidad R
R es una herramienta poderosa de tu kit para el análisis de datos, y también cuenta con una comunidad fuerte de usuarios que tienen ganas
de compartir, trabajar en conjunto y conectarse con otras personas. Esta lectura te detallará algunos lugares para empezar a conectarte con
otros analistas de la comunidad de R, ya sea en línea o cara a cara.

Comunidades en línea
Las comunidades en línea sirven para conectarte con otros usuarios de R aunque vivas lejos. Esta lista incluye foros y canales de debate
para unirte a la conversación. También incluye etiquetas de redes sociales que puedes usar para conectarte con otros analistas de datos en
las plataformas de redes sociales que ya usas.

 RStudio Community: El foro RStudio Community es un excelente lugar para obtener ayuda y encontrar soluciones para los desafíos
que propone R. ¡Quizá hasta puedas ayudar a otros también!
 r/RLanguage: La comunidad subreddit del lenguaje R es una comunidad activa en línea alojada en la plataforma de redes Reddit. Los
usuarios de R acuden a esta comunidad para conversar sobre R, hacer preguntas y compartir consejos.
 rOpenSci: rOpenSci tiene un foro comunitario en el que los usuarios de R pueden hacer preguntas y buscar soluciones. También
incluye enlaces a las guías de mejores prácticas y páginas de soporte.
 Comunidad de aprendizaje en línea de R4DS y canal Slack: Comunidad con otro canal de Slack donde quienes aprenden a programar
en R y también los mentores pueden juntarse y conectarse. Es un excelente lugar para conversar sobre cómo usar R para la ciencia
de datos.
 Twitter #rstats: Si usas Twitter, puedes conectarte con otros usuarios de R con el hashtag #rstats. Muchos desarrolladores y analistas
que usan R están muy activos en Twitter.

Reuniones
Muchas organizaciones llevan a cabo reuniones en línea o en persona para los usuarios de R. Recuerda siempre ser cauteloso y prudente al
asistir a esas reuniones en persona.

 Reuniones locales sobre análisis computacional de datos: Estas reuniones son perfectas para conocer a otras personas interesadas en
el análisis computacional de datos y para hacer contactos. Estas reuniones se organizan por locación, así que puedes conectarte con
otros analistas de datos de tu zona.
 Grupos de usuarios de R: Esta lista contiene enlaces a las comunidades regionales de R, incluidos subreddits y grupos de reunión. Es
un recurso útil si te interesa encontrar a otros usuarios de R por tu zona.
 Reuniones de RLadies: Reuniones virtuales y en persona que se organizan específicamente para aficionados a R que se autoperciben
como pertenecientes a grupos minoritarios o marginalizados. Estas reuniones también se organizan por locación, así que puedes
conectarte con otros analistas de datos de tu zona.
R puede ser difícil de aprender pero, por suerte, existe una comunidad sólida de usuarios de R que buscan trabajar en conjunto y ayudarse
entre sí. Estos recursos constituyen un buen punto de partida si quieres empezar a conectarte con una comunidad más grande de analistas
de datos. ¡Aprovéchala!

1.
Pregunta 1

¿Qué tipo de software de aplicación es RStudio?


1 / 1 punto

 Herramienta de visualización de datos


 Base de datos
 Editor de códigos fuente
 Entorno de desarrollo integrado
Correcto

RStudio es un tipo de software de aplicación que se conoce como entorno de desarrollo integrado (IDE). Un IDE reúne en un solo lugar todas las
herramientas que quieres usar.
2.
Pregunta 2

¿Cuál de los siguientes paneles incluye RStudio? Selecciona todas las opciones que correspondan.
1 / 1 punto

 Panel del editor de código fuente


Correcto. RStudio incluye un panel de consola de R para ejecutar comandos, un panel de editor de códigos fuente para escribir códigos y un panel
de entorno para gestionar datos cargados.

 Panel de comando
 Panel de entorno
Correcto. RStudio incluye un panel de consola de R para ejecutar comandos, un panel de editor de códigos fuente para escribir códigos y un panel
de entorno para gestionar datos cargados.

 Panel de la consola de R
Correcto. RStudio incluye un panel de consola de R para ejecutar comandos, un panel de editor de códigos fuente para escribir códigos y un panel
de entorno para gestionar datos cargados.

3.
Pregunta 3

Si escribes un código directamente en el editor de código fuente de R, RStudio puede guardar tu código cuando cierras la sesión.
1 / 1 punto

Verdadero
Falso
Correcto

Si escribes un código directamente en el editor de código fuente de R, RStudio puede guardar tu


código cuando cierras la sesión.

Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Lista de citas programadas
Agregación de datos: Proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida

Agregación: Proceso de recolectar o juntar muchas partes separadas en un todo

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e impulsar una toma de
decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las oportunidades de mejora en el
futuro

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e impulsar la toma de
decisiones fundamentada

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la eliminación de información que
pueda asociarse a ellas

Anotación: Texto que explica brevemente los datos o ayuda al público a concentrarse en un aspecto concreto de los datos en una visualización

Apertura: Aspecto de la ética de datos que promueve el acceso libre, el uso y el uso compartido de los datos

Árbol de decisiones: Herramienta que ayuda a los analistas a tomar decisiones sobre características esenciales de una visualización

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores
Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido

Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato comprimido como por ejemplo
MP4, MV4, MOV, AVI o FLV

Asignación de alias: Nombrar temporalmente una tabla o columna en una consulta para que sea más fácil de leer y escribir

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

Atributos preatencionales: Elementos de una visualización de datos que las personas reconocen automáticamente sin hacer un esfuerzo consciente

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango seleccionado

AVERAGEIF: Función de una hoja de cálculo que devuelve el promedio de todos los valores de las celdas de un determinado rango que cumplen una
condición especificada

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones

Base de datos: Recopilación de datos almacenados en un sistema informático

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otro término
C
Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Cálculo: Rama de la matemática que implica el estudio de las tasas de cambio y los cambios entre valores que están relacionados por una función

Campo calculado: Campo nuevo dentro de una tabla dinámica que realiza ciertos cálculos en función de los valores de otros campos

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

Canal: Aspecto visual o variable que representa características de los datos en una visualización

Captación de interés: Captar la atención de alguien y mantener su interés durante una presentación de datos

CASE: Instrucción de SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción si/entonces en una
consulta

CAST: Función de SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema

Causalidad: Cuando una acción lleva directamente a un resultado, como una relación de causa-efecto

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar, analizar, archivar y destruir

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo desconocido
Clasificación: Sistema para ubicar valores de un conjunto de datos en una escala de logro o estado

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver clave externa)

Clúster: Conjunto de puntos de datos en una visualización de datos con valores similares

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Codificación: El proceso de escribir instrucciones para una computadora usando la sintaxis de un lenguaje de programación específico

Código abierto: Código que está libremente disponible y puede ser modificado y compartido por las personas que lo usan

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Combinación de datos: Método de Tableau que combina datos provenientes de múltiples fuentes de datos

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

Composición de datos: Proceso que combina las partes individuales en una visualización y las muestra juntas como un todo

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad
Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se utilizarán sus datos
personales antes de aceptar proporcionarlos

Consulta externa: Instrucción de SQL que contiene una subconsulta

Consulta interna: Subconsulta de SQL que está dentro de otra instrucción de SQL

Consulta: Solicitud de datos o información de una base de datos

Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger una hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se puede arrastrar a través de
las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

CONVERT: Función de SQL que cambia la unidad de medida de un valor en los datos

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

Correlación: Medición del grado de cambio de dos variables entre sí

COUNT DISTINCT: Función de SQL que solo devuelve los valores distintos en un rango especificado
COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con una condición especificada

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango que cumplen con un criterio especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas que coinciden con un valor especificado

CREATE TABLE: Cláusula de SQL que añade una tabla temporal a una base de datos que puede ser utilizada por varias personas

CSS (Cascading Style Sheets): Lenguaje de programación usado para el diseño de páginas web que controla los elementos gráficos y la presentación
de la página

D
DATEDIF: Función de la hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos
Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no los recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los valores de los distintos
atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema tiene datos en varias filas

Datos en tiempo real: Datos que se actualizan automáticamente

Datos estáticos: Datos que no cambian una vez que se registraron

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas

Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos


Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos y son correctos y pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordinales: Datos cualitativos con un orden o escala establecidos

Datos sucios: Datos que están incompletos, o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Design Thinking: Proceso que se usa para resolver problemas complejos de una manera centrada en el usuario

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diagrama de caja: Visualización de datos que muestra la distribución de valores a lo largo de un eje X

Diagrama de dispersión: Visualización de datos que representa relaciones entre las diferentes variables con puntos de datos individuales sin una
línea de conexión

Diagrama de Gantt: Visualización de datos que muestra la duración de los eventos o actividades en una línea de tiempo
Diseño de datos: Cómo se organiza la información

DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

DROP TABLE: Cláusula de SQL que elimina una tabla temporal de una base de datos

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar y compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Eje X: Línea horizontal de un gráfico que suele situarse en la parte inferior y, a menudo, se usa para representar escalas de tiempo y categorías
puntuales

Eje Y: Línea vertical de un gráfico que suele situarse a la izquierda y, a menudo, se usa para representar frecuencias y otras variables numéricas

Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Énfasis: Principio de diseño que consiste en organizar los elementos visuales para centrar la atención del público en la información importante de
una visualización de datos

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma
Equilibrio: Principio de diseño que consiste en crear un atractivo estético y claridad en una visualización de datos mediante la distribución uniforme
de los elementos visuales

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y organizar datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estadísticas: El estudio de cómo recopilar, analizar, resumir y presentar datos

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los seres humanos,
usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes específicas

Etiqueta: Texto en una visualización que identifica un valor o describe una escala

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados

Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Filtro de panel: Herramienta que muestra solo los datos que cumplen con un criterio específico y oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de la hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores cumplen con una
condición específica

Formato visual: Apariencia de la visualización de datos que les aporta una estructura y un atractivo estético

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Foto digital: Imagen electrónica o computarizada, generalmente en formato BMP o JPG

Framework: Contexto que necesita una presentación para establecer conexiones lógicas entre la tarea empresarial y las métricas

FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función matemática: Función que se utiliza como parte de una fórmula matemática

Función: Comando preestablecido que realiza automáticamente un proceso o tarea específico utilizando los datos de una hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos
Fusión: Acuerdo que une dos organizaciones en una organización nueva

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico circular: Visualización de datos que usa segmentos de un círculo para representar las proporciones de cada categoría de datos en
comparación con el total

Gráfico combinado: Visualización de datos que combina más de un tipo de visualización

Gráfico de anillos: Visualización de datos en donde los segmentos de un anillo representan valores de datos que se suman en un conjunto

Gráfico de áreas: Visualización de datos que utiliza puntos de datos individuales para una variable cambiante conectados por una línea continua con
un área de relleno debajo

Gráfico de barras: Visualización de datos que usa el tamaño para contrastar y comparar dos o más valores

Gráfico de burbujas agrupadas: Visualización de datos que muestra los datos en círculos agrupados

Gráfico de burbujas: Visualización de datos que muestra puntos de datos individuales como burbujas, y compara valores numéricos por su tamaño
relativo

Gráfico de calibre: Visualización de datos que muestra un único resultado en un rango de valores progresivo
Gráfico de columnas: Visualización de datos que usa puntos de datos individuales para una variable cambiante, representada mediante columnas
verticales

Gráfico de distribución: Visualización de datos que muestra la frecuencia de diversos resultados en una muestra

Gráfico de líneas: Visualización de datos que usa una o más líneas para mostrar cambios o variaciones en los datos a lo largo del tiempo

Gráfico de viñetas: Visualización de datos que muestra los datos como un gráfico de barras horizontal que se mueve hacia un valor deseado

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

Gráfico: Representación gráfica de los datos en una hoja de cálculo

GROUP BY: Cláusula de SQL que agrupa las filas que tienen los mismos valores de una tabla en filas de resumen

Guiones bajos: Líneas utilizadas para subrayar palabras y conectar caracteres de texto

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

HAVING: Cláusula de SQL que añade un filtro a una consulta en lugar de la tabla subyacente que solo se puede usar con funciones de agregado

Hipótesis: Teoría que se intenta corroborar o refutar con datos


Histograma: Visualización de datos que muestra con qué frecuencia los valores de los datos se encuadran en ciertos rangos

Historia: Narrativa de una presentación de datos que la hace significativa e interesante

Hoja de cálculo: Hoja de cálculo digital

HTML5: Lenguaje de programación que brinda una estructura para páginas web y conecta a plataformas de hosting

I
IDE (entorno de desarrollo integrado): Aplicación de software que junta todas las herramientas que un analista de datos puede querer usar en un
solo lugar

Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura confiable

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

INNER JOIN: Función de SQL que devuelve registros con valores coincidentes en ambas tablas

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso satisfactorio de los datos
abiertos entre las empresas y los gobiernos
Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la población

J
Java: Lenguaje de programación que se usa ampliamente para crear aplicaciones web de empresas que pueden ejecutarse en múltiples clientes

JOIN: Función de SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada

L
LEFT JOIN: Función de SQL que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla derecha

LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de programación: Sistema de palabras y símbolos usados para escribir instrucciones que las computadoras siguen

Leyenda: Herramienta que identifica el significado de diversos elementos en una visualización de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta
Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

Longitud: Número de caracteres en una cadena de texto

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que permiten que los analistas de
datos aborden los problemas comerciales de gran alcance

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapa coroplético: Visualización de datos que colorea las áreas en un mapa según las mediciones o las dimensiones

Mapa de densidad: Visualización de datos que representa concentraciones, con un color que representa el número o la frecuencia de los puntos de
datos en un área determinada de un mapa

Mapa de símbolos: Visualización de datos que muestra una marca sobre una determinada longitud y latitud

Mapa térmico: Visualización de datos que usa el contraste del color para comparar categorías en un conjunto de datos

Mapa: Visualización de datos que organiza los datos geográficamente

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Marca: Objeto visual en una visualización de datos, como un punto, una línea o una forma
Margen de beneficio: Porcentaje que indica cuántos centavos de ganancia se generaron por cada dólar de venta

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

MATCH: Función de la hoja de cálculo que se usa para ubicar la posición de un valor de búsqueda específico

MAX: Función de la hoja de cálculo que muestra el resultado del valor numérico más alto de un rango de celdas

MAXIFS: Función de la hoja de cálculo que devuelve el valor máximo de un determinado rango que cumple una condición especificada

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada y lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer, tanto en el campo
profesional como en el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de datos o de varias

Metadatos: Datos sobre los datos

Método McCandless: Método que se utiliza para presentar visualizaciones de datos y que pasa de la información general a la específica

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible, orientada a la acción,
relevante y con plazos determinados
Métrica de negocios: Criterio de medición que se utiliza para resolver una tarea empresarial

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

MINIFS: Función de la hoja de cálculo que devuelve el valor mínimo de un rango determinado que cumple una condición especificada

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Modelo mental: Proceso de pensamiento del analista de datos y enfoque a un problema

Módulo: Operador (%) que devuelve el resto cuando se divide un número por otro

Movimiento: Principio de diseño que consiste en organizar los elementos visuales para guiar la atención del público de una parte de una
visualización de datos a otra

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra tengan la misma
oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un todo
N
Narrativa de datos: Comunicar el significado de un conjunto de datos con elementos visuales y una historia personalizada según el público

Narrativa: (Ver Historia)

Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la población

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como proveedor principal de
la nación de datos de calidad sobre las personas y la economía

Operador: Símbolo que designa la operación o cálculo a realizarse


Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el que deben realizarse las
operaciones

Ordenación: Proceso de organizar los datos en un orden significativo para que sean más fáciles de entender, analizar y visualizar

Ordenar hoja: Función del menú de la hoja de cálculo que ordena todos los datos por la clasificación de una columna específica ordenada y
mantiene los datos juntos a través de las filas

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de dirigir y coordinar la salud a nivel internacional dentro del sistema
de las Naciones Unidas

OUTER JOIN: Función de SQL que combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas tablas

P
Paleta de color divergente: Tema de color que muestra dos rangos de valores de datos que usan dos tonalidades diferentes, donde la intensidad del
color representa la magnitud de los valores

Panel: Herramienta que monitorea los datos entrantes en vivo

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Patrón: Principio de diseño que usa elementos visuales similares para demostrar tendencias y relaciones en una visualización de datos

Pensamiento analítico: Proceso de identificar y definir un problema para luego resolverlo mediante el uso de datos de manera organizada, paso a
paso
Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible, revelar déficits y
oportunidades e identificar opciones

PHP (preprocesador de hipertexto): Lenguaje de programación para el desarrollo de aplicaciones web

Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con otras áreas adyacentes,
forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Poner de relieve: Explorar los datos para identificar rápidamente la información más importante

Portfolio: Conjunto de materiales que puede compartirse con empleadores potenciales

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente relacionadas entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente

Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta
Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una transacción de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es el de obtener
conocimiento que propicie la toma de decisiones informada

Proceso de validación de datos: Proceso de comprobar y volver a comprobar la calidad de los datos para que sean completos, precisos, seguros y
coherentes

Programación informática: El proceso de darle instrucciones a una computadora para que realice una acción o un conjunto de acciones

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que proporciona y que tiene control
primordial sobre su uso, procesamiento y uso compartido

Proporción: Principio de diseño que consiste en usar el tamaño relativo y la disposición de los elementos visuales para mostrar la información en
una visualización de datos

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para atraer el tráfico de
usuarios y generar ingresos

Python: Lenguaje de programación de uso general

Q
Quitar duplicados: Herramienta de la hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una hoja de cálculo
R
R: Lenguaje de programación que se usa para análisis estadísticos, visualización y análisis de datos

Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango de ordenación: Función del menú de la hoja de cálculo que ordena un rango especificado y preserva las celdas que no están incluidas en ese
rango

Rango: Conjunto de dos o más celdas en una hoja de cálculo

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia absoluta: Referencia dentro de una función que está bloqueada para que las filas y las columnas no cambien si se copia la función

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un proyecto

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila
Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión Europea, creado para
ayudar a proteger a las personas y sus datos

Relatividad: Proceso de considerar las observaciones en relación con o en proporción a algo más

Repetición: Principio de diseño que consiste en repetir elementos visuales para demostrar el significado en una visualización de datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones

Repositorio de metadatos: Base de datos creada para almacenar metadatos

Resaltar tabla: Visualización de datos que usa formato condicional y color en una tabla

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una inversión

RIGHT JOIN: Función de SQL que devuelve todos los registros de la tabla derecha y solo los registros coincidentes de la izquierda

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

Ritmo: Principio de diseño que consiste en crear movimiento y fluidez en una visualización de datos para captar la atención de una audiencia

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales.

Ruby: Lenguaje de programación orientado a objetos para el desarrollo de aplicaciones web

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la corrupción

Selección: Conjunto de valores en celdas de una hoja de cálculo

SELECT INTO: Cláusula de SQL que copia datos de una tabla a una tabla temporal sin añadir la nueva tabla a la base de datos

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga sistemáticamente los
resultados del análisis de datos en una cierta dirección

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se trabaja con una muestra que
no representa a la población en su totalidad

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo del investigador)

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria

Sintaxis: Estructura predeterminada de un lenguaje que incluye todas las palabras, los símbolos y la puntuación requeridos, así como su correcta
ubicación
SPLIT: Función de la hoja de cálculo que divide el texto en base a un carácter específico y ubica cada fragmento en una nueva celda separada

SQL: (Ver Lenguaje de consulta estructurado)

Subcadena: Subconjunto de una cadena de texto

Subconsulta: Consulta de SQL anidada dentro de una consulta más grande

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

Subtítulo: Texto que complementa al título al indicar el contexto y la descripción

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

SUMIF: Función de una hoja de cálculo que suma datos numéricos basados en una condición

SUMPRODUCT: Función que multiplica las matrices y muestra el resultado de la suma de esos productos

Swift: Lenguaje de programación para macOS, iOS, watchOS y tvOS

T
Tabla de resumen: Tabla que se usa para resumir información estadística sobre los datos

Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o promediar datos
Tabla temporal: Tabla de una base de datos que se crea y existe temporalmente en el servidor de una base de datos

Tableau: Plataforma de inteligencia de negocios y análisis que ayuda a las personas a visualizar y comprender datos, y a tomar decisiones basadas
en los datos

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados significativos

Texto alternativo: Texto que ofrece una alternativa al contenido no textual, como las imágenes y los vídeos

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo de datos de texto)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo de datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que puede realizar

Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir conexiones, hallar
patrones, identificar temas, hacer predicciones y detectar algo inusual

Título: Texto en la parte superior de una visualización que comunica los datos que se están presentando

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial
Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras resultantes del uso de
sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o de una computadora a
otra

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de procesamiento de datos
y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

U
Único: Valor que no puede tener un duplicado

Unidad: Principio de diseño que consiste en usar elementos visuales que se complementan entre sí para crear un atractivo estético y claridad en la
visualización de datos

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de datos
Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

VALUE: Función de la hoja de cálculo que convierte una cadena de texto que representa un número en un valor numérico

Variedad: Principio de diseño que consiste en usar diferentes tipos de elementos visuales en una visualización de datos para captar la atención del
público

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos resultantes son precisos y
confiables

Vista en círculo: Visualización de datos que muestra la fortaleza comparativa en los datos

Visualización de datos: Representación gráfica de los datos

Visualización estática: Visualización de datos que no cambia a lo largo del tiempo a menos que se edite

Visualización: (Ver Visualización de datos)

Visualizaciones dinámicas: Visualizaciones de datos que son interactivas o cambian a lo largo del tiempo

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados
WITH: Cláusula de SQL que crea una tabla temporal que se puede consultar muchas veces

CUESTIONARIO:

1.
Pregunta 1

Completa el espacio en blanco: _____ están compuestos por palabras y símbolos que usas para escribir instrucciones para la computadora.
1 / 1 punto

Lenguajes de códigos
Lenguajes de sintaxis
Lenguajes de variables
Lenguajes de programación
Correcto

Los lenguajes de programación están compuestos por palabras y símbolos que usas para escribir instrucciones para las computadoras.
2.
Pregunta 2

¿Por qué muchos analistas de datos prefieren usar un lenguaje de programación? Selecciona todas las opciones que correspondan.
1 / 1 punto

 Para ahorrar tiempo


Correcto. Muchos analistas de datos prefieren usar un lenguaje de programación para reproducir y compartir sus análisis con
facilidad, ahorrar tiempo y precisar los pasos del análisis.

 Para precisar los pasos del análisis


Correcto. Muchos analistas de datos prefieren usar un lenguaje de programación para reproducir y compartir sus análisis con
facilidad, ahorrar tiempo y precisar los pasos del análisis.

 Para elegir un tema para el análisis


 Para reproducir y compartir sus análisis con facilidad
Correcto. Feedback: Muchos analistas de datos prefieren usar un lenguaje de programación para reproducir y compartir sus análisis
con facilidad, ahorrar tiempo y precisar los pasos del análisis.

3.
Pregunta 3

¿Cuál es el término que se usa para referirse al código de programación de uso libre que cualquiera puede modificar y compartir?
1 / 1 punto

Código abierto
Datos abiertos
Código indefinido
Código centrado en los datos
Correcto

El código abierto es un código de uso libre que cualquier persona que lo use puede modificar y compartir.
4.
Pregunta 4

¿Por qué muchos analistas de datos eligen usar R? Selecciona todas las opciones que correspondan.
1 / 1 punto

 R es un lenguaje de programación de código cerrado


 R puede procesar rápidamente muchos datos
Correcto. Muchos analistas de datos eligen usar R porque puede procesar rápidamente muchos datos y crear visualizaciones de alta
calidad. R también es un lenguaje de programación centrado en los datos, diseñado para trabajar con datos.

 R es un lenguaje de programación centrado en los datos


Correcto. Muchos analistas de datos eligen usar R porque puede procesar rápidamente muchos datos y crear visualizaciones de alta
calidad. R también es un lenguaje de programación centrado en los datos, diseñado para trabajar con datos.

 R permite crear visualizaciones de alta calidad


Correcto. Muchos analistas de datos eligen usar R porque puede procesar rápidamente muchos datos y crear visualizaciones de alta
calidad. R también es un lenguaje de programación centrado en los datos, diseñado para trabajar con datos.

5.
Pregunta 5

Un equipo de analistas de datos está trabajando en un análisis complejo. El equipo necesita procesar rápidamente muchos datos. También
necesita reproducir y compartir con facilidad todos los pasos de su análisis. ¿Qué debería usar para el análisis?
1 / 1 punto

Una base de datos


El lenguaje de programación R
Un panel
Un lenguaje de consulta estructurado
Correcto

El equipo debería usar el lenguaje de programación R. R puede procesar muchos datos rápidamente, así como reproducir y compartir cada
paso del análisis.
6.
Pregunta 6

¿Qué tipo de aplicación junta todas las herramientas que un analista de datos puede usar en un solo lugar?
1 / 1 punto

 Panel
 Base de datos
 Hoja de cálculo
 Entorno de desarrollo integrado
Correcto

Un entorno de desarrollo integrado es un tipo de aplicación que junta todas las herramientas que un analista de datos puede usar en un solo
lugar. RStudio es un entorno de desarrollo integrado.
7.
Pregunta 7

Un analista de datos escribe el código summary(penguins) para mostrar un resumen del conjunto de datos sobre pingüinos. ¿En qué lugar de
RStudio el analista puede ejecutar el código? Selecciona todas las opciones que correspondan.
1 / 1 punto

 Panel de la consola de R
Correcto. En RStudio, el analista puede ejecutar el código tanto en el panel de la consola de R como en el panel del editor de código
fuente.

 Pestaña Archivos
 Panel de entorno
 *B: Panel del editor de código fuente
Correcto. En RStudio, el analista puede ejecutar el código tanto en el panel de la consola de R como en el panel del editor de código
fuente.

8.
Pregunta 8

Completa el espacio en blanco: En RStudio, _____ es el lugar donde puedes encontrar todos los datos que están cargados en ese momento,
y también puedes organizarlos y guardarlos fácilmente.
1 / 1 punto

el panel de gráficos
el panel de entorno
el panel del editor de código fuente
el panel de la consola de R
Correcto

En RStudio, el panel de entorno es el lugar donde puedes encontrar todos los datos que están cargados en ese momento, y también puedes
organizarlos y guardarlos fácilmente.

MODULO 2:
Comprender los conceptos básicos de programación
Programar con RStudio
Hola y bienvenido nuevamente. Te dimos una descripción general de R y RStudio. Ahora nos enfocaremos en la programación y codificación real que
harás usando RStudio. Llegué muy lejos en mi profesión sin saber nada de programación antes de darme cuenta de que necesitaba aprender sobre
eso. Conocer R fue una experiencia de aprendizaje valiosa. Tomó algo de tiempo, y acudí a los usuarios de R más experimentados con muchas
preguntas. Finalmente, todo confluyó a mi favor. Estar abierto a aprender nuevas destrezas es una parte muy importante de tu carrera profesional.
Ahora también puedo ayudarte a aprender algunas nuevas destrezas. Comenzaré por compartir los fundamentos de la programación usando R y
RStudio. Anteriormente, explicamos cómo R es como el motor de un automóvil y RStudio es como el acelerador, el volante y el tablero todo en uno.
Conocer los fundamentos te ayudará a mantener tu automóvil R funcionando sin problemas. Estos fundamentos se parecen y, a la vez, difieren de
las otras plataformas de análisis que conociste bien: hojas de cálculo y SQL. Luego pasaremos a la codificación en RStudio. Hablaremos sobre la
sintaxis para hacer cálculos, además de los estándares y las convenciones de nomenclatura para todo código. También exploraremos la herramienta
R conocida como una canalización, que usaremos para hacer una secuencia de código que sea más fácil para trabajar y de leer. Luego, analizaremos
los paquetes en R. Si bien no recibirás estos paquetes directamente en la puerta de tu casa, son entregados por la comunidad R. Estos paquetes
contienen funciones reutilizables y más, y generalmente son creados por usuarios para usuarios como tú. Conoceremos un conjunto de paquetes
llamados Tidyverse. Aprenderás cómo instalar Tidyverse para que puedas comenzar a usarlo en RStudio. También trabajaremos con algunos de los
paquetes Tidyverse más populares como ggplot2 para visualización. Podrás poner en práctica lo que aprendiste sobre RStudio en la próxima parte
del programa, donde empezarás a trabajar con datos. Como explicamos antes, en este programa, usaremos la versión en el navegador de RStudio:
RStudio Cloud. Pero RStudio también está disponible para descarga. Manos a la obra.

Conceptos fundamentales de programación


¡Hola! Cada vez que aprendas una nueva habilidad, ya sea desde cocinar hasta conducir o bailar, deberías siempre empezar por los fundamentos.
Programar en R no es diferente. Para sentar esta base, debes familiarizarte con los conceptos básicos de R, entre ellos, funciones, comentarios,
variables, tipos de datos, vectores y canalizaciones. Algunos de estos términos podrían sonar familiares. Por ejemplo, nos encontramos con
funciones en hojas de cálculo y SQL.

Para repasar rápidamente, las funciones son un cuerpo de código reutilizable para realizar tareas específicas en R. Las funciones comienzan con
nombres de funciones como >print y, por lo general, van seguidos de uno o más argumentos entre paréntesis. Un argumento es información que
una función en R necesita para ejecutarse. Esta es una función simple en acción. Siéntete libre de unirte e inténtalo en RStudio usando tu cuenta en
la nube. Echa un vistazo a la lectura para más detalles sobre cómo empezar. Puedes poner en pausa el vídeo cada vez que lo necesites. Abriremos
RStudio Cloud para empezar. Iniciaremos nuestra función en la consola con <i>print</i> como nombre de la función. Este nombre de la función
mostrará lo que sea que incluyamos en los valores entre paréntesis. Escribiremos un paréntesis de apertura seguido de una comilla. Tanto el
paréntesis de cierre como la comilla de cierre emergen automáticamente porque RStudio reconoce esta sintaxis. Ahora tenemos que agregar la
siguiente cadena de texto. Escribiremos "Coding in R". >print(“Códing in R”)

Luego presionaremos Enter.


¡Éxito! El código muestra las palabras "Coding in R". Si deseas descubrir más sobre la función <i>print</i> o cualquier función, todo lo que tienes
que hacer es escribir un signo de pregunta, el nombre de la función y un paréntesis de apertura y otro de cierre.

Esto muestra una página en la ventana Ayuda, que te ayuda a aprender más sobre las funciones con las que estás trabajando. Recuerda que las
funciones distinguen mayúsculas y minúsculas, por lo tanto, al escribir <i>Print</i> con un P mayúscula se muestra un mensaje de error.

Las funciones son geniales, pero escribir muchos valores puede llevar bastante tiempo. Para ahorrar tiempo, podemos usar variables para
representar los valores. Esto nos permite señalar los valores cada vez que lo necesitemos con solo la variable.
Anteriormente, aprendimos sobre las variables en SQL. Una variable es una representación de un valor en R que puede almacenarse para su uso
posterior durante la programación. Las variables también pueden llamarse objetos. Como analista de datos, encontrarás que las variables son muy
útiles en el momento de programar. Por ejemplo, si quieres filtrar un conjunto de datos, asigna una variable a la función que usaste para filtrar los
datos. De esa manera, todo lo que tendrás que hacer es usar esa variable para filtrar los datos más tarde. Al nombrar una variable en R, puedes usar
una frase corta. El nombre de una variable debe comenzar con una letra y también puede contener números y guiones bajos. Por lo tanto, la
variable 5penguin no funcionaría bien porque empieza con un número. También, al igual que las funciones, los nombres de las variables distinguen
mayúsculas y minúsculas. Usar todas letras minúsculas es una buena práctica cuando sea posible. Ahora, antes de codificar una variable,
agreguemos un comentario. Los comentarios son útiles cuando quieres describir o explicar qué pasa en tu código. Úsalos tanto como sea posible
para que tú y todos puedan comprender el razonamiento detrás del código. Los comentarios deben usarse para hacer un script de R más legible. Un
comentario no debe tratarse como un código, por lo tanto, pondremos # por delante. Luego, agregaremos nuestro comentario. Este es un ejemplo
de una variable.

Ahora, sigamos con nuestro ejemplo. Tiene sentido usar un nombre de variable para conectar con lo que la variable está representando. Por lo
tanto, escribiremos el nombre de la variable primera_variable.

Luego, después del nombre de la variable, escribiremos un signo <, seguido de -. Esto es un operador de asignación. Asigna el valor a la variable.
Parece una flecha, lo que tiene sentido, ya que señala desde el valor hacia la variable.

Hay otros operadores de asignación que también funcionan, pero siempre es bueno usar solo un tipo en tu código. Luego, agregaremos el valor que
nuestra variable representará. Usaremos el texto, "Esta es mi variable".
Si escribimos la variable
y presionamos Ejecutar, se ejecutará el valor que la variable representa. Esta es una manera muy básica de usar una variable. Pronto, aprenderás
más maneras de usar variables en tu código. Por ahora, asignemos una variable a un tipo de datos diferentes, numérico. Nombraremos a esto
segunda_variable, y escribiremos nuestro operador de asignación. Le daremos el valor numérico 12.5.

El panel Entorno arriba,


a la derecha, de nuestro espacio de trabajo ahora muestra nuestras dos variables y sus valores.

Hay otros dos tipos de datos en R, por ejemplo, valores lógicos, fecha y hora y fecha. R tiene algunas opciones para tratar con estos tipos de datos.
Más adelante las exploraremos. Con funciones, comentarios, variables y tipos de datos, tienes una buena base para trabajar con R. Los revisaremos
a lo largo del programa, y te mostraremos cómo se usan de diferentes maneras durante el análisis.

Finalizaremos con dos conceptos, vectores y canalizaciones fundamentales más. En pocas palabras, un vector es un grupo de elementos de datos
del mismo tipo almacenados en una secuencia en R. Puedes crear un vector usando la función combinada. En R, esta función es solo la letra c
seguida de los valores que quieres en tu vector dentro de los paréntesis. Muy bien, creemos un vector. Imagina que este vector es para datos de
medición que necesitamos analizar. Empezaremos nuestro código con la variable vec_1 para asignar al vector.

Luego, escribiremos c y el paréntesis de apertura.

Luego, escribiremos nuestra lista de números separados por comas.

Luego, cerraremos el paréntesis y presionamos Enter.

Esta vez, cuando escribimos nuestra variable y presionamos Enter, muestra nuestro vector. Podemos usar este vector en cualquier lugar en nuestro
análisis con solo su nombre de variable vec_1. Los valores en el vector se aplicarán automáticamente a nuestro análisis.
Esto nos lleva al último de nuestros fundamentos: canalizaciones. Una canalización es una herramienta en R para expresar una secuencia de varias
operaciones. Una canalización está representada por un signo %, seguido de un signo > y otro signo %. Se usa para aplicar el resultado de una
función en otra función. Las canalizaciones pueden hacer que tu código sea más fácil de leer y comprender. Por ejemplo, esta canalización filtra y
ordena los datos. Más tarde, aprenderemos cómo funciona cada parte de la canalización. Por lo tanto, estos son los seis súper fundamentos:
funciones, comentarios, variables, tipos de datos, vectores y canalizaciones. Todos juntos trabajan como una base para el uso de R. Es suficiente por
ahora, por lo tanto, siéntete libre de volver a mirar cualquiera de estos vídeos si necesitas repasar algo. Cuando estés listo, hay mucho más que
aprender sobre R y RStudio. Manos a la obra.

Pregunta
Completa el espacio en blanco: En R, el/la _____ es la información que la función necesita para ejecutarse.
comentario
argumento
operador
variable
Correcto
En R, el argumento es la información que la función necesita para ejecutarse.

Pregunta
En R, el nombre de una variable debe comenzar con un número o un guion bajo.
Verdadero
Falso
Correcto
El nombre de una variable puede contener números y guiones bajos, pero debería comenzar con una letra.

Vectores y listas en R:
Puedes guardar esta lectura para consultarla en el futuro. Ten en cuenta que puedes descargar una versión en PDF de esta lectura a
continuación:

DAC7M2L1R1_ATTACHMENT_SPA

DOCX File
En programación, una estructura de datos es un formato para organizar y almacenar datos. Es importante que conozcas las estructuras de
datos porque las usarás con frecuencia cuando utilices R para el análisis de datos. Las estructuras de datos más comunes en el lenguaje de
programación R incluyen:

 Vectores
 Marcos de datos
 Matrices
 Rangos
Piensa en una estructura de datos como en una casa donde se alojan tus datos.

Esta lectura se va a focalizar en los vectores. Más adelante, aprenderás más sobre marcos de datos, matrices y rangos.

Existen dos tipos de vectores: vectores atómicos y listas. Luego, aprenderás sobre las propiedades básicas de los vectores atómicos y las
listas, y cómo utilizar el código R para crearlos.

Vectores atómicos
Primero, repasaremos los diferentes tipos de vectores atómicos. Luego, aprenderás cómo utilizar el código R para crear, identificar y nombrar
a los vectores.

Anteriormente, aprendiste que un vector es un grupo de elementos de datos del mismo tipo almacenado en una secuencia en R. No puedes
tener un vector que contenga valores lógicos y numéricos.

Existen seis tipos primarios de vectores atómicos: lógicos, enteros, dobles, carácter (que contiene cadenas), complejos y sin formato. Los dos
últimos, complejo y sin formato, no son comunes en el análisis de datos, de modo que nos vamos a concentrar en los primeros cuatro.
Juntos, los vectores entero y doble son conocidos como vectores numéricos porque ambos contienen números. Esta tabla resume los cuatro
tipos primarios:

Tipo Descripción Ejemplo


Lógico Verdadero/Falso TRUE
Entero Valores enteros positivos y negativos 3
Doble Valores decimales 101.175
Tipo Descripción Ejemplo
Carácter Cadena/valores de carácter “Coding”
Este diagrama ilustra la jerarquía de relaciones entre estos cuatro tipos principales de vectores:

Crear vectores
Una forma de crear un vector es utilizar la función c() (llamada función "combinar"). La función c() en R combina valores múltiples en un
vector. En R, esta función es solo la letra "c" seguida de los valores que deseas colocar en tu vector, entre paréntesis, separados por una
coma: c(x, y, z, …).

Por ejemplo, puedes utilizar la función c() para almacenar datos numéricos en un vector.

c(2.5, 48.5, 101.5)

Para crear un vector de números enteros utilizando la función c(), debes colocar una "L" directamente después de cada número.

c(1L, 5L, 15L)

También puedes crear un vector que contenga caracteres o valores lógicos.

c(“Sara” , “Lisa” , “Anna”)

c(TRUE, FALSE, TRUE)

Determinar las propiedades de los vectores


Cada vector que creas tendrá dos propiedades clave: tipo y longitud.
Puedes determinar con qué tipo de vector estás trabajando mediante el uso de la función typeof(). Coloca el código para el vector dentro del
paréntesis de la función. Cuando ejecutes la función, R te dirá de qué tipo es. Por ejemplo:

typeof(c(“a” , “b”))

#> [1] "character"

Observa que el resultado de la función typeof en este ejemplo es la palabra “character”. Del mismo modo, si utilizas la función typeof en un
vector con valores enteros, el resultado va a incluir “integer” :

typeof(c(1L , 3L))

#> [1] "integer"

Puedes determinar la longitud de un vector existente, es decir, el número de elementos que contiene, utilizando la función length(). En este
ejemplo, podemos utilizar un operador de asignación para asignar al vector la variable x. Luego, aplicamos la función length() a la variable.
Cuando ejecutamos la función, R nos indica que la longitud es 3.

x <- c(33.5, 57.75, 120.05)

length(x)

#> [1] 3

También puedes verificar si un vector es de un tipo específico mediante la función is: is.logical() is.double(), is.integer(), is.character(). En este
ejemplo, R resulta TRUE porque el vector contiene valores enteros.

x <- c(2L, 5L, 11L)

is.integer(x)

#> [1] TRUE

En este ejemplo, R arroja un valor de FALSE porque el vector no contiene caracteres, sino valores lógicos.

y <- c(TRUE, TRUE, FALSE)

is.character(y)

#> [1] FALSE


Nombrar vectores
Se puede poner nombre a todos los tipos de vectores. Los nombres son útiles para escribir códigos legibles y describir objetos en R. Puedes
nombrar los elementos de un vector con la función names(). A modo de ejemplo, asignemos la variable x a un nuevo vector con tres
elementos.

x <- c(1, 3, 5)

Puedes utilizar la función names() para asignar un nombre diferente a cada elemento del vector.

names(x) <- c("a", "b", "c")

Ahora bien, cuando ejecutes el código, R mostrará que el primer elemento del vector se llama a, el segundo b, y el tercero c.

#> a b c

#> 1 3 5

Recuerda que un vector atómico solo puede contener elementos del mismo tipo. Si deseas almacenar elementos de diferentes tipos en la
misma estructura de datos, puedes utilizar una lista.

Crear listas
Las listas son diferentes de los vectores atómicos porque sus elementos pueden ser de cualquier tipo, por ejemplo, fechas, marcos de datos,
vectores, matrices y más. Las listas pueden también contener otras listas.

Puedes crear una lista con la función list(). Del mismo modo que la función c(), la función list() es solo list eguida de los valores que deseas
colocar en tu lista entre paréntesis: list(x, y, z, …). En este ejemplo, creamos una lista que contiene cuatro tipos de elementos diferentes:
carácter ("a"), valor entero (1L), doble (1.5), y lógico (TRUE).

list("a", 1L, 1.5, TRUE)

Como ya mencionamos, las listas pueden contener otras listas. Si lo deseas, puedes almacenar una lista dentro de otra y continuar así.

list(list(list(1 , 3, 5)))

Determinar la estructura de las listas


Si deseas saber qué tipos de elementos contiene una lista, puedes utilizar la función str(). Para ello, coloca el código para la lista dentro del
paréntesis de la función. Cuando ejecutes la función, R mostrará la estructura de datos de la lista mediante la descripción de sus elementos y
tipos.
Apliquemos la función str() a nuestro primer ejemplo de una lista.

str(list("a", 1L, 1.5, TRUE))

Cuando ejecutamos la función, R nos indica que la lista contiene cuatro tipos de elementos y que esos elementos son de cuatro tipos
diferentes: carácter (chr), entero (int), número (num) y lógico (logi).

#> List of 4

#> $ : chr "a"

#> $ : int 1

#> $ : num 1.5

#> $ : logi TRUE

Utilicemos la función str() para descubrir la estructura de nuestro segundo ejemplo. Primero, asignemos la lista a la variable z para facilitar la
introducción de la función str().

z <- list(list(list(1 , 3, 5)))

Vamos a ejecutar la función.

str(z)

#> List of 1

#> $ :List of 1

#> ..$ :List of 3

#> .. ..$ : num 1

#> .. ..$ : num 3

#> .. ..$ : num 5

La sangría de los símbolos $ refleja la estructura anidada de esta lista. Bien, aquí hay tres niveles (de modo que hay una lista dentro de otra
lista).
Poner nombre a las listas
A las listas, como a los vectores, se les puede colocar un nombre. Puedes nombrar los elementos de una lista cuando la creas con la función
list():

list('Chicago' = 1, 'New York' = 2, 'Los Angeles' = 3)

$Chicago

[1] 1

$`New York`

[1] 2

$`Los Angeles`

[1] 3

Recurso adicional
Para conocer más sobre vectores y listas, puedes consultar R for Data Science, Chapter 20: Vectors. "R for Data Science" es un recurso
clásico para aprender cómo utilizar R tanto para la ciencia como para el análisis de datos. Allí encontrarás todo desde la limpieza hasta la
visualización y comunicación de datos. Si quieres más detalles acerca del tema de los vectores y las listas, este capítulo es un excelente
lugar para comenzar.

Fechas y horas en R:
En esta lectura, aprenderás cómo trabajar con fechas y horas en R, utilizando el paquete lubridate. Más adelante, utilizarás las herramientas
en el paquete lubridate para convertir tipos de datos en R en formatos de fecha y fecha-hora.
Cargar los paquetes tidyverse y lubridate
Antes de empezar a trabajar con fechas y horas, deberás cargar los paquetes tidyverse y lubridate. Lubridate es parte de tidyverse.

Primero, abre RStudio.

Si todavía no instalaste tidyverse, puedes utilizar la función install.packages () para ello:

 install.packages("tidyverse")
Luego, carga los paquetes tidyverse y lubridate utilizando la función library(). Primero, carga los componentes principales de tidyverse para
que estén disponibles en tu sesión actual de R:

 library(tidyverse)
Luego, carga el paquete lubridate:

 library(lubridate)
Ahora estás listo para conocer las herramientas en el paquete lubridate.

Trabajar con fechas y horas


Esta sección abarca los tipos de datos para fechas y horas en R y cómo convertir cadenas en formatos de fecha-hora.

Tipos
En R, hay tres tipos de datos que hacen referencia a un instante en el tiempo:

 Una fecha ("2016-08-16")


 Una hora de un día (“20:11:59 UTC")
 Y una fecha-hora. Esto es una fecha más una hora ("2018-03-31 18:15:48 UTC")
La hora se expresa en UTC, que quiere decir Hora Universal Coordinada, más comúnmente conocida como tiempo civil. Este es el estándar
principal que regula los relojes y la hora mundial.

Por ejemplo, para obtener la fecha actual puedes ejecutar la función today(). La fecha aparece como mes, año y día.

today()

#> [1] "2021-01-20"

Para obtener la fecha-hora actual puedes ejecutar la función now(). Observa que la hora aparece expresada hasta con los segundos más
cercanos.

now()

#> [1] "2021-01-20 16:25:05 UTC"

Al trabajar con R, hay tres modos posibles de crear formatos de fecha-hora:

 Desde una cadena


 Desde una fecha individual
 Desde un objeto de fecha/hora existente
R crea fechas en el formato estándar yyyy-mm-dd (año-mes-día) por defecto.

Veamos cada una.

Convertir a partir de una cadena


Los datos de fecha/hora a menudo se expresan como cadenas. Puedes convertir cadenas en fechas y fecha-hora utilizando las herramientas
provistas por lubridate. Estas herramientas automáticamente trabajan sobre el formato de fecha/hora. Primero, identifica el orden en el año, el
mes y el día que aparecen en tus fechas. Luego, ordena las letras y, m y d (año, mes y día) en el mismo orden. Eso te dará el nombre de la
función lubridate que analizará tu fecha. Por ejemplo, para la fecha 2021-01-20, utilizarás el orden ymd:

ymd("2021-01-20")

Cuando ejecutes la función en R, el resultado para la fecha será el formato yyyy-mm-dd.

#> [1] "2021-01-20"

Funciona de la misma forma en cualquier orden. Por ejemplo, mes, día y año. R arroja como resultado la fecha en el formato yyyy-mm-dd.

mdy("January 20th, 2021")

#> [1] "2021-01-20"


O día, mes y año. R arroja como resultado la fecha en el formato yyyy-mm-dd.

dmy("20-Jan-2021")

#> [1] "2021-01-20"

Estas funciones también toman números que no están entre comillas y los convierte al formato yyyy-mm-yy.

ymd(20210120)

#> [1] "2021-01-20"

Crear componentes de fecha-hora


La función ymd() y sus variantes crean fechas. Para crear una fecha-hora desde una fecha, agrega un guion bajo y una o más de las letras h,
m y s (horas, minutos y segundos) al nombre de la función:

ymd_hms("2021-01-20 20:11:59")

#> [1] "2021-01-20 20:11:59 UTC"

mdy_hm("01/20/2021 08:01")

#> [1] "2021-01-20 08:01:00 UTC"

Optativo: Cambiar entre objetos existentes de fecha-hora


Para finalizar, quizás quieras cambiar entre una fecha-hora y una fecha.

Puedes utilizar la función as_date() para convertir una fecha-hora en una fecha. Por ejemplo, escribe la fecha-hora actual en el paréntesis de
la función now().

as_date(now())

#> [1] "2021-01-20"

Recursos adicionales
Para saber más acerca del trabajo con fechas y horas en R, revisa los siguientes recursos:

 lubridate.tidyverse: Esta es la entrada "lubridate" de la documentación oficial de tidyverse, que ofrece una guía de referencia completa
sobre los diferentes paquetes tidyverse. Revisa este enlace para obtener un panorama de la principales funciones y conceptos.
 Fechas y horas con lubridate: Hoja de referencia: Esta "hoja de referencia" te brinda un mapa detallado de todas las cosas diferentes
que puedes hacer con el paquete lubridate. No necesitas conocer toda esta información, pero la hoja de referencia es una referencia
útil para toda pregunta que pudieras tener sobre cómo trabajar con fechas y horas en R.
Otras estructuras comunes de datos
En esta lectura, continuarás con el tema de las estructuras de datos con una introducción a las matrices y marcos de datos. Aprenderás
sobre las propiedades básicas de cada estructura y los modos simples de aprovecharlas utilizando un código R. También explorarás
brevemente el tema de archivos, que se utilizan a menudo en el acceso y almacenamiento de los datos y su información relacionada.

Estructuras de datos:
Piensa en una estructura de datos como en una casa donde se alojan tus datos.

Marcos de datos
Los marcos de datos son la manera más común de almacenar y analizar datos en R, de modo que es importante comprender qué son y
cómo se crean. Un marco de datos es un conjunto de columnas que contienen datos, que es similar a una hoja de cálculo o una tabla SQL.
Cada columna tiene un nombre en la parte superior que representa una variable e incluye una observación por fila. Los marcos de datos
ayudan a resumir los datos y ponerlos en un formato fácil de leer y usar.

Por ejemplo, el marco de datos más abajo muestra un conjunto de datos "diamonds", que es uno de los conjuntos de datos precargados en
R. Cada columna contiene una sola variable que se relaciona con los diamantes: quilate, corte, color, claridad, profundidad, etc. Cada fila
representa una sola observación.
Hay pocas cosas importantes para tener en cuenta cuando trabajas con marcos de datos:

 Primero, se debe poner un nombre a las columnas.


 Segundo, los marcos de datos incluyen muchos tipos diferentes de datos, por ejemplo, números, valores lógicos o caracteres.
 Finalmente, los elementos en la misma columna deben ser de un mismo tipo.
Conocerás más acerca de los marcos de datos más adelante en el programa, pero este es un gran punto de partida.
Si necesitas crear manualmente un marco de datos en R, puedes utilizar la función date.frame(). La función data.frame() considera a los
vectores como entradas. En el paréntesis, escribe el nombre de la columna, seguido de un signo igual y, luego, el vector que deseas escribir
para esa columna. En este ejemplo, la columna x es un vector con elementos 1, 2 y 3 y la columna y es un vector con elementos 1.5, 5.5,
7.5.

data.frame(x = c(1, 2, 3) , y = c(1.5, 5.5, 7.5))

Si ejecutas la función, R muestra el marco de datos en filas y columnas ordenadas.

xy

1 1 1.5

2 2 5.5

3 3 7.5

En la mayoría de los casos, no necesitarás crear un marco de datos manualmente ya que, en general, importarás los datos desde otra
fuente, por ejemplo, un archivo .csv, una base de datos relacional o un programa de software.

Archivos
Repasemos cómo crear, copiar y eliminar archivos en R. Para más información sobre cómo trabajar con archivos en R, consulta
Documentación en R: Archivos. La documentación en R es una herramienta que te facilitará encontrar y navegar por la documentación de casi
todos los paquetes de R en CRAN. Es una guía útil de referencia para funciones en código R. Veamos algunas otras de las funciones más
útiles para trabajar con archivos.

Utiliza la función dir.create para crear una nueva carpeta o directorio, o para guardar tus archivos. Escribe el nombre de la carpeta en el
paréntesis de la función.

dir.create ("destination_folder")

Utiliza la función file.create() para crear un archivo en blanco. Escribe el nombre y tipo de archivo entre paréntesis en la función. En general,
tus tipos de archivos serán .txt, .docx o .csv.

file.create (“new_text_file.txt”)

file.create (“new_word_file.docx”)

file.create (“new_csv_file.csv”)
Si el archivo se crea exitosamente cuando ejecutas la función en R, el valor obtenido será TRUE (si no, R arrojará como resultado FALSE).

file.create (“new_csv_file.csv”)

[1] TRUE

Se puede copiar un archivo mediante la función file.copy(). Entre paréntesis, agrega el nombre del archivo a copiar. Luego, escribe una coma
y agrega el nombre de la carpeta de destino a la que quieres copiar el archivo.

file.copy (“new_text_file.txt” , “destination_folder”)

Si te fijas en el panel de Archivos en RStudio, aparece una copia del archivo en la carpeta correspondiente:

Puedes eliminar archivos de R utilizando la función unlink(). Escribe el nombre del archivo entre los paréntesis de la función.

unlink (“some_.file.csv”)

Recurso adicional
Si quieres aprender más sobre cómo trabajar con marcos de datos, matrices y rangos en R, consulta la sección de manejo de datos,
Limpieza y transformación de datos, de la Introducción al curso de R de Stat Education. Esta sección incluye módulos sobre marcos de
datos, matrices y rangos (y más) y cada módulo contiene ejemplos útiles de conceptos claves de la codificación.

--------------------------------------------------------------------------------------------------------------------------------------

Optativo: Matrices
Una matriz es un conjunto bidimensional de elementos de datos. Esto significa que tiene filas y columnas. Por el contrario, un vector es una
secuencia unidimensional de elementos de datos. Pero como los vectores, las matrices pueden solo contener un único tipo de datos. Por
ejemplo, no puedes tener tanto valores lógicos como numéricos en una matriz.
Para crear una matriz en R, puedes utilizar la función matrix(). La función matrix() tiene dos argumentos principales que debes escribir dentro
del paréntesis. Primero, agrega un vector. El vector contiene los valores que quieres colocar en la matriz. Luego, agrega al menos una
dimensión de matriz. Puedes elegir especificar el número de filas o columnas utilizando el código nrow = para las filas o ncol =. para las
columnas.

Por ejemplo, imagina que quieres crear una matriz de 2x3 (dos filas por tres columnas) que contenga los valores 3-8. Primero, escribe un
vector que contenga la serie de números: c(3:8). Luego, escribe una coma. Al finalizar, escribe nrow = 2 para especificar el número de filas.

matrix(c(3:8), nrow = 2)

Si ejecutas la función, R muestra una matriz con tres columnas y dos filas (a las que, en general, nos referimos como "2x3") que contienen
los valores numéricos 3, 4, 5, 6, 7, 8. R coloca el primer valor (3) del vector en la fila superior y la fila de la izquierda de la matriz, y continúa la
secuencia de izquierda a derecha.

[,1] [,2] [,3]

[1,] 3 5 7

[2,] 4 6 8

También puedes elegir especificar el número de columnas (ncol = ) en lugar del número de filas (nrow = ).

matrix(c(3:8), ncol = 2)

Cuando ejecutes la función, R intuirá automáticamente cuál es el número de filas.

[,1] [,2]

[1,] 3 6

[2,] 4 7

[3,] 5 8

1.
Pregunta 1

¿Por qué los analistas utilizan comentarios durante la programación en R? Selecciona todas las opciones que correspondan.
1 / 1 punto

 Para realizar un script de R más legible


Correcto. En la programación en R, los comentarios se utilizan para explicar el código y para realizar un script de R más legible.
 Para explicar el código
Correcto. En la programación en R, los comentarios se utilizan para explicar el código y para realizar un script de R más legible.

 Para asignar nombres a las variables


 Para actuar como funciones
2.
Pregunta 2

¿Qué deberías utilizar para asignar un valor a una variable en R?


1 / 1 punto

Un operador
Un comentario
Un argumento
Un vector
Correcto

Deberías utilizar un operador para asignar un valor a una variable en R. Deberías utilizar operadores tales como <- después de una variable
para asignarle un valor.
3.
Pregunta 3

¿Cuál de los siguientes ejemplos es la sintaxis adecuada para llamar una función en R?
1 / 1 punto

print()
data_1
<- 20
#first
Correcto

Un ejemplo de sintaxis para una función en R es print(). Si agregas un argumento en el paréntesis para la función print (), el argumento
aparecerá en el panel de la consola de RStudio.
4.
Pregunta 4

¿Cuál de los siguientes ejemplos puedes utilizar en R para datos de fecha/hora? Selecciona todas las opciones que correspondan.
1 / 1 punto

 06:11:13 UTC
Correcto. Los ejemplos de datos de fecha/hora que puedes utilizar en R son 06:11:13 UTC, 2019-04-16 y 2018-12-21 16:35:28 UTC.
R reconoce la sintaxis de cada uno de estos formatos como un tipo de datos de fecha/hora.

 2019-04-16
Correcto. Los ejemplos de datos de fecha/hora que puedes utilizar en R son 06:11:13 UTC, 2019-04-16 y 2018-12-21 16:35:28 UTC.
R reconoce la sintaxis de cada uno de estos formatos como un tipo de datos de fecha/hora.
 siete-24-2018
 2018-12-21 16:35:28 UTC
Correcto. Los ejemplos de datos de fecha/hora que puedes utilizar en R son 06:11:13 UTC, 2019-04-16 y 2018-12-21 16:35:28 UTC.
R reconoce la sintaxis de cada uno de estos formatos como un tipo de datos de fecha/hora.

Explora la codificación en R:
Operaciones y cálculos

Hola de nuevo. Te mostramos cómo tu trabajo como analista de datos se puede hacer de diferentes maneras con distintas herramientas. Eso es así
en este programa, y será así cuando comiences tu trabajo. Operaciones y cálculos son dos conceptos que vimos antes.

A continuación, volveremos a ellos y aprenderemos cómo usar operadores en R para un rango de tareas, incluidos los cálculos. Un operador es uno
de de los componentes clave de un cálculo. Cuando hablamos por primera vez sobre los operadores, los definimos como un símbolo que designa el
tipo de operación o cálculo a realizar en una fórmula. Esto sucede cuando usamos operadores en código R. Así que veamos algunos de estos
operadores en R. Imagina que tenemos en nuestras manos algunos datos de ventas en comercio electrónico que necesitamos analizar. Hemos
aprendido cómo usar operadores para completar cálculos sobre los datos de ventas y para algunas otras tareas también. Durante nuestro análisis,
usaremos variables que R almacenará para que podamos consultarlos cuando necesitemos hacerlo. Usaremos operadores de asignación, con los
que trabajamos antes para hacer esto. Los operadores de asignación se usan para asignar valores a las variables y los vectores. Si tenemos un
conjunto de cifras de ventas que queremos incluir en un vector, podemos usar un operador de asignación para asignarlas a una variable. Aquí hay
un ejemplo.

Ahora, cuando queremos usar las cifras de ventas, escribimos el tipo de variable que asignamos. A continuación, veamos los operadores
aritméticos. Estos operadores se usan para completar cálculos matemáticos y podrían parecer familiares. Los signos más hacen sumas en las
variables, y los signos menos hacen restas. Usamos un asterisco para hacer multiplicaciones y una barra inclinada para hacer una división. Hay otros
operadores aritméticos también, pero estos son suficientes para empezar. Tratemos de hacer un cálculo para nuestros datos de ventas en RStudio.
Siéntete libre de continuar por tu cuenta a medida que avanzamos en estos pasos. Completaremos nuestro trabajo en un script para asegurarnos de
que nuestros cálculos queden guardados. Como analista que desarrolla un código en R, pasarás la mayoría de tu tiempo en scripts. Cuando guardas
un script, tendrás un registro completo de tu trabajo. Usarás la consola principalmente para mostrar los resultados de tu programación. También,
aunque no estamos haciendo un análisis profundo aquí, sigue siendo una buena idea guardar nuestro trabajo para un fácil acceso más adelante si lo
necesitamos. Primero, agreguemos un comentario. Después del numeral, escribiremos "nuestros primeros cálculos". Comenzaremos por asignar las
cifras de ventas de los primeros dos trimestres del año a las variables.

Antes de completar nuestro primer cálculo, lo asignaremos a una nueva variable, mitaddeaño_ventas. Luego, agregaremos nuestras cifras
trimestrales usaremos el signo más como nuestro operador de suma. Ejecutémoslo y obtengamos el total de nuestros datos de ventas.
Cuando ejecutamos el código en un script, el resultado aparece en la consola. Este total ahora se asigna a la variable mitaddeaño_ventas. Podemos
revisar esto escribiendo mitaddeaño_ventas en la consola y presionando Enter.

Notarás que los cálculos en R funcionan de de manera similar a los cálculos en las hojas de cálculo y SQL. Es útil para crear contactos en las
herramientas con las que estás trabajando. Hagamos un cálculo más usando nuestras ventas totales de los dos primeros trimestres, representados
por mitaddeaño_ventas. Lo multiplicaremos por dos, para tener una idea general de las ventas totales del año. Usaremos un asterisco como nuestro
operador aritmético.

Encontrarás que hay otras maneras de realizar estos tipos de cálculos. Pero estos son excelentes ejemplos de cómo funcionan los operadores, tanto
para los cálculos como para otras operaciones. Por ahora, guardemos nuestro script para que podamos volver a usar estas mismas variables si
necesitamos continuar trabajando con nuestros datos de ventas. Al igual que en otros formatos, simplemente hacemos clic en "Guardar como" y
luego escribimos un nombre de archivo.

La extensión de nuestro archivo se aplica automáticamente al nombre de nuestro archivo. Cerraremos nuestro script. Cuando estemos listos para
seguir analizando los datos de las ventas, podemos volver a abrirlo usando el menú Archivo. Hay otras categorías de operadores que aprenderás
más adelante. Pero saber cómo los operadores de asignación y aritméticos te ayudan a programar cálculos es un buen punto para empezar. Estamos
avanzando sin dudas en R y RStudio. Sigamos aprendiendo más sobre canalizaciones, otra excelente herramienta en R. Nos vemos pronto.
Un analista de datos escribe el siguiente cálculo en su programación R: basket_1 * 20 + basket_2 * 15 ¿Qué operadores aritméticos está
utilizando el analista de datos? Selecciona todas las opciones que correspondan.
 Resta
 División
 Multiplicación
Correcto
En el cálculo basket_1 * 20 + basket_2 * 15, el analista está realizando operaciones aritméticas de suma y utiliza el operador
para suma (+) y para multiplicación con el operador de multiplicación (*).
 Suma
Correcto
En el cálculo basket_1 * 20 + basket_2 * 15, el analista está realizando operaciones aritméticas de suma y utiliza el operador
para suma (+) y para multiplicación con el operador de multiplicación (*).

Operadores lógicos e instrucciones condicionales


Consejo: Si deseas repasar los conceptos, consulta la sección Comprender la lógica booleana para entender cómo funcionan los
operadores lógicos.

Puedes guardar esta lectura para consultarla en el futuro. Ten en cuenta que puedes descargar una versión en PDF de esta lectura a
continuación:

Logical operators and conditional statements_SPA

DOCX File

Anteriormente, aprendiste que un operador es un símbolo que nombra al tipo de operación o cálculo que se realizará en una fórmula. En
esta lectura, aprenderás sobre los principales tipos de operadores lógicos y cómo se pueden utilizar para crear instrucciones condicionales
en código R.
Operadores lógicos
Los operadores lógicos arrojan un tipo de dato lógico, por ejemplo, TRUE o FALSE.

Existen tres tipos principales de operadores lógicos:

 AND (algunas veces representado como & o && en R)


 OR (algunas veces representado como | o || en R)
 NOT (!)
Repasa más abajo el resumen de los operadores lógicos.

El operador AND (“&”)


 El operador AND requiere de dos valores lógicos. El resultado es TRUE si cada uno de los valores por separado es TRUE. Esto
significa que TRUE & TRUE dan como resultado TRUE. Sin embargo, FALSE & TRUE, TRUE & FALSE y FALSE & FALSE
arrojan como resultado FALSE.
 Si ejecutas el código correspondiente en R, obtienes los siguientes resultados > TRUE & TRUE [1] TRUE > TRUE & FALSE
[1] FALSE > FALSE & TRUE [1] FALSE > FALSE & FALSE [1] FALSE Es posible ilustrar esto mediante el uso de los
resultados de nuestras comparaciones. Imagina que creas una variable x que es igual a 10. x <- 10 Para revisar si x es mayor que
3 pero menor que 12, puedes utilizar x > 3 & x < 12 Cuando ejecutas la función, R arroja el resultado TRUE. [1] TRUE TRUE La
primera parte, x > 3 dará como resultado TRUE ya que 10 es mayor que 3. La segunda parte, x < 12 también dará como
resultado TRUE a que 10 es menor que 12. Como ambos valores dan TRUE, el resultado de la expresión AND es TRUE. El
número 10 se ubica entre los números 3 y 12. Sin embargo, si x es igual a 20, la expresión x > 3 & x < 12 arrojará un resultado
diferente. x <- 20 x > 3 & x < 12 [1] FALSE Aunque x > 3 es TRUE (20 > 3), x < 12 es FALSE (20 < 12). entonces, toda la
expresión dará como resultado FALSE (TRUE & FALSE = FALSE). De modo que el resultado de R será FALSE.
Operador OR (“|”)
 El operador OR (|) trabaja de un modo similar el operador AND (&). La diferencia principal consiste en que, al menos, uno de los
valores de la operación OR deber ser TRUE para que toda la operación OR dé como resultado TRUE. Sin embargo, TRUE |
TRUE, TRUE | FALSE, y FALSE | TRUE arrojan como resultado TRUE. Cuando ambos valores dan FALSE, el resultado es
FALSE.
 Si escribes el código, obtienes los siguientes resultados: > TRUE | TRUE [1] TRUE > TRUE | FALSE [1] TRUE > FALSE |
TRUE [1] TRUE > FALSE | FALSE [1] FALSE Por ejemplo, supón que creaste una variable y igual a 7. Para revisar si y es
menor que 8 o mayor que 16, puedes utilizar la siguiente expresión:
y <- 7 y < 8 | y > 16 El resultado comparativo es TRUE (7 es menor que 8) | FALSE (7 no es mayor que 16). Ya que un solo valor
de una expresión OR debe ser TRUE para que toda la expresión sea TRUE, R arroja como resultado TRUE. [1] TRUE Ahora,
imagina que y es 12. La expresión y < 8 | y > 16 ahora da FALSE (12 < 8) | FALSE (12 > 16). Ambas comparaciones dan como
resultado FALSE, de modo que es resultado es FALSE. y <- 12 y < 8 | y > 16 [1] FALSE
El operador NOT (“!”)
 El operador NOT (!) simplemente niega el valor lógico al que se aplica. En otras palabras, !TRUE da FALSE y !FALSE da
TRUE.
 Cuando ejecutas el código, obtienes lo siguiente: > !TRUE [1] FALSE > !FALSE [1] TRUE Igual que en el caso de los
operadores OR y AND, puedes utilizar el operador NOT en combinación con los operadores lógicos. Cero se considera FALSE y
los números que no son cero se consideran TRUE. El operador NOT da como resultado el valor lógico opuesto.
Imagina que tienes una variable x que es igual a 2:
x <- 2 El operador NOT da como resultado FALSE porque toma el valor lógico opuesto de un número que no es cero (TRUE).
> !x [1] FALSE
-----------------

Ahora veamos un ejemplo de cómo puedes utilizar operadores lógicos para analizar los datos. Imagina que estás trabajando con un
conjunto de datos airquality que fue precargado en RStudio. Contiene datos sobre las mediciones de la calidad del aire en Nueva York
desde mayo hasta septiembre de 1973.

El marco de datos tiene seis columnas: Ozone (la medición de ozono), Solar.R (la medición solar), Wind (la medición del viento), Temp
(la temperatura en grados Fahrenheit), y Month y Day de esas mediciones (cada fila representa una combinación específica de mes y
día).
Ahora veamos cómo los operadores AND, OR y NOT pueden ser de ayuda en esta situación.

Ejemplo del operador AND


Imagina que quieres especificar las filas que son extremadamente soleadas y ventosas, que defines como con una medición Solar de más
de 150 y una medición de Wind de más de 10.

En R, puedes expresar esta instrucción lógica como Solar.R > 150 & Wind > 10.

Solo las filas donde ambas condiciones son verdaderas cumplen con los criterios:

Ejemplo del operador OR


Luego, imagina que quieres especificar las filas que son extremadamente soleadas o ventosas, que defines como con una medición Solar
de más de 150 y una medición de Wind de más de 10.

En R, puedes expresar esta instrucción lógica como Solar.R > 150 | Wind > 10.

Todas las filas donde una de estas condiciones es verdadera cumple con los criterios:

Ejemplo del operador NOT


Ahora, imagina que quieres concentrarte en las mediciones del clima por días que no son el primer día del mes.

En R, puedes expresar esta instrucción lógica como Día != 1.

Las filas donde esta condición es verdadera cumplen con el criterio:


Para finalizar, imagina que quieres concentrarte en escenarios que no son extremadamente soleados ni ventosos, basándote en tus
definiciones previas de extremadamente soleado y ventoso. En otras palabras, la siguiente instrucción no debería ser verdadera: ya sea
que haya una medición Solar mayor que 150 o una medición de Wind mayor que 10.

Observa que esta instrucción es la opuesta de la instrucción OR utilizada anteriormente. Para expresar esta instrucción en R, puedes
colocar un signo de exclamación (!) frente a la instrucción OR previa: !(Solar.R > 150 | Viento > 10). R aplicará el operador NOT a todo
lo que se encuentre entre paréntesis.

Es este caso, solo una fila cumple con el criterio.

----------------------------------------------------------------------------------------------------------------------------------------

Optativo: Instrucciones condicionales


Una instrucción condicional es una declaración de que si una determinada condición se mantiene, entonces, debe producirse un
determinado evento. Por ejemplo, "Si la temperatura está por encima del punto de congelamiento, entonces, saldré a caminar". Si la
primera condición es verdadera (la temperatura está por encima del punto de congelamiento), entonces la segunda condición sucederá
(salir a caminar). Las instrucciones condicionales en código R tienen una lógica similar.

Veamos ahora cómo crear instrucciones condicionales en R utilizando tres instrucciones relacionadas:

 if()
 else()
 else if()
instrucción if
La instrucción if establece una condición y si la condición arroja como resultado TRUE, el código R asociado a la instrucción if se
ejecuta.

En R, escribes el código para la condición entre los paréntesis de la instrucción if. El código que debe ser ejecutado si la condición da
TRUE se escribe entre llaves (expr.) Observa que en este caso, las segundas llaves se colocan en su propia línea del código e identifican
el final del código que quieres ejecutar.

if (condition) {

expr

Por ejemplo, creemos una variable x igual a 4.

x <- 4

Luego, creemos una instrucción condicional: si x es mayor que 0, entonces R imprimirá la cadena "x es un número positivo".

if (x > 0) {

print("x is a positive number")

Dado que x=4, la condición es verdadera (4 > 0). Por lo tanto, cuando ejecutas el código, R imprime la cadena "x es un número positivo".

[1] "x is a positive number"

Pero si cambias x a un número negativo, como -4, entonces, el resultado de la condición será FALSE (-4 > 0). Si ejecutas el código, R no
ejecutará el código impreso. En su lugar, aparecerá una línea en blanco.

instrucción else
La instrucción else se utiliza en combinación con una instrucción if. Así se estructura el código en R:

if (condition) {

expr1
} else {

expr2

El código asociado a la instrucción else se ejecuta cada vez que la condición de la instrucción if no sea TRUE. En otras palabras, si la
condición es TRUE, entonces R ejecutará el código en la instrucción if (expr1); si la condición no es TRUE, entonces R ejecutará el
código else en la instrucción else (expr2).

Veamos un ejemplo. Primero creemos una variable x igual a 7.

x <- 7

Ahora, establezcamos las siguientes condiciones:

 Si x es mayor que 0, R imprimirá "x es un número positivo".


 Si x es menor que o igual a 0, R imprimirá "x es un número negativo o cero".
En nuestro código, la primera condición (x > 0) será parte de la instrucción if. La segunda condición de x menor que o igual a 0 queda
implícita en la instrucción else. Si x > 0, R imprimirá "x es un número positivo". De otro modo, R imprimirá "x es un número negativo o
cero".

x <- 7

if (x > 0) {

print ("x is a positive number")

} else {

print ("x is either a negative number or zero")

Dado que 7 es mayor que 0, la condición de la instrucción if es verdadera. Por lo tanto, cuando ejecutas el código, R imprime "x es un
número positivo".

[1] "x is a positive number"


Pero si haces que x sea igual a -7, la condición de la instrucción if no será verdadera (-7 no es mayor que 0). Por lo tanto, R ejecutará el
código en la instrucción else. Cuando ejecutas el código, R imprime "x es un número negativo o cero".

x <- -7

if (x > 0) {

print("x is a positive number")

} else {

print ("x is either a negative number or zero")

[1] "x is either a negative number or zero"

instrucción else if
En algunos casos, podrías querer personalizar aún más tu instrucción condicional agregando una condición else if. La instrucción else if
se ubica entre la instrucción if y la instrucción else. Esta es la estructura del código:

if (condition1) {

expr1

} else if (condition2) {

expr2

} else {

expr3

Si la condición if (condición1) se cumple, entonces R ejecuta el código en la primera expresión (expr1). Si la condición if no se cumple,
y la condición else if (condición2) se cumple, entonces R ejecuta el código en la segunda expresión (expr2). Si ninguna de las dos
condiciones se cumple, R ejecuta el código en la tercera expresión (expr3).
En nuestro ejemplo anterior, utilizando solo las instrucciones if y else, R puede solo imprimir "x es un número negativo o cero" si x es
igual a 0 o x es menor que 0. Imagina que quieres que R imprima la cadena "X es cero" si x es igual a 0. Necesitas agregar otra condición
utilizando la instrucción else if.

Veamos un ejemplo. Primero creemos una variable x igual a 1 negativo ("-1").

Ahora, quieres establecer las siguientes condiciones:

 Si x es menor que 0, imprimir "x es un número negativo".


 Si x es igual a 0, imprimir " x es cero".
 De otro modo, imprimir "x es un número positivo".
En el código, la primera condición será parte de la instrucción if, la segunda condición será parte de la instrucción else if y la tercera
condición será parte de la instrucción else. Si x < 0, R imprimirá "x es un número negativo". Si x = 0, R imprimirá "x es cero". De otro
modo, R imprimirá "x es un número positivo".

x <- -1

if (x < 0) {

print("x es un número negativo")

} else if (x == 0) {

print("x es cero")

} else {

print("x es un número positivo")

Como -1 es menor que 0, la condición de la instrucción if resulta TRUE y R imprime "x es un número negativo".

[1] "x es un número negativo"

Si haces que x sea igual a 0, R comprobará primero la condición if (x < 0) y determinará que es FALSE. Entonces, R evaluará la
condición else if. Esta condición, x==0, es TRUE. Por ello, en este caso R imprimirá "x es cero".
Si haces que x sea igual a 1, ambas condiciones, if y else, arrojarán como resultado FALSE. De modo que R ejecutará la instrucción else
e imprimirá "x es un número positivo".

Tan pronto como R descubre una condición que resulta TRUE, R ejecuta el código correspondiente e ignora el resto.

Recurso adicional
Para saber más acerca de las operaciones lógicas y las instrucciones condicionales, consulta el tutorial de DataCamp Condicionales y
flujo de control en R. DataCamp es un recurso muy popular para quienes estudian programación informática. El tutorial abunda en
ejemplos útiles de aplicaciones de codificación para operadores lógicos e instrucciones condicionales (y operadores relacionales) y
ofrece un buen panorama de cada tema y las conexiones entre ellos.

Mantén tu código legible


Cuando escribes un código en R (o en cualquier otro lenguaje de programación), es importante usar un estilo claro y consistente
libre de errores. Esto ayuda a que tu código sea más fácil de leer y comprender. En esta lectura, aprenderás algunas prácticas
recomendadas a seguir cuando escribes un código en R. También repasarás algunos consejos para identificar y corregir errores en
código R, también conocido como depuración.

Estilo
Por lo general, usar un estilo de codificación claro y sistemático hace que para otros sea más fácil leer tu código. No hay
ninguna guía de estilo de codificación oficial que sea obligatoria para todos los usuarios de R. Con el transcurso de los años,
una comunidad más amplia de usuarios de R ha desarrollado un estilo de codificación basado en convenciones y
preferencias compartidos. Puedes pensar en estas convenciones como las reglas no escritas del estilo R.

Existen dos razones principales para usar un estilo de codificación sistemático:


● Si estás trabajando con colaboradores o compañeros de equipo, usar un estilo sistemático es importante para que todos
puedan leer, compartir, editar y trabajar fácilmente en el código de cada uno de ellos.
● Si estás trabajando solo, usar un estilo sistemático es importante porque hace que sea más fácil y más rápido revisar tu código
después y corregir errores o hacer revisiones.

Analicemos algunas de las convenciones de estilo más aceptadas para escribir un código R.
Nomenclatura

Orientación Ejemplos d prá recomendada Ejemplos a evitar


e ctic
a
Los nombres de los archivos # Bien explorar_pingüinos.R # Mal Sintítulo.r
Archivos
deben tener un significado y ventas_anuales.R cosas.r
terminar con .R. Evita usar
caracteres especiales en el
archivo
Nombres: utiliza números, letras,
guiones y guiones bajos.

Los nombres de variables y # Bien día_uno # Mal


Nombres de funciones deben estar en letra DíaUno
objetos minúscula. Usa un guion bajo _
para separar palabras dentro de
un nombre. Intenta crear nombres
que sean claros, concisos y
tengan un significado.

Por lo general, los nombres de


variables deben ser sustantivos.
Los nombres de funciones deben # Bien # Mal suma ()
ser verbos. sumar
()

Sintaxis

Orientación Ejemplos de práctica recomendada Ejemplos a evitar

La mayoría de los operadores # Bien x # Mal


Espacios == y x==y
(== , + , - , <- , etc.) deben estar
rodeados de espacios. a <- 3 * 2 a<-3*2

Siempre coloca un espacio # Bien # Mal


después de una coma (nunca y[, 2] y[,2]
antes). y[ ,2]
No coloques espacios alrededor # Bien # Mal
de un código entre paréntesis o if (debug) do(x) species[“delfín”, ] if ( debug ) do(x)
corchetes (salvo que haya una species[ “delfín” ,]
coma, en cuyo caso consulta lo
anterior).
Coloca un espacio antes del # Bien sum(1:5) # Mal
paréntesis izquierdo, salvo en plot(x, y) sum (1:5)
una llamada a una función. plot (x, y)

Una llave de apertura nunca debe # Bien x # Mal x


Llaves ir en su propia línea y siempre <- 7 <- 7
debe ir seguida de una nueva if (x > 0) { if (x > 0)
línea. Una llave de cierre siempre print("x es un número positivo") {
debe ir en su propia línea (salvo } else { print("x es un número
que esté seguida de una print ("x es un número negativo o positivo")
instrucción else). Siempre usa cero") }
sangría para el código dentro de
} else {
las llaves.
print ("x es un número
negativo o cero")
}

Cuando agregues sangría al - -


Sangría código, usa dos espacios. No uses
tabulaciones o una combinación de
tabulaciones y espacios.
Trata de limitar tu código a 80 - -
Longitudes de caracteres por línea. Esto cabe
línea cómodamente en una página
impresa con un tamaño de
fuente razonable.
Ten en cuenta que muchas guías
de estilo mencionan que la línea
nunca debe superar los 80 (120)
caracteres. Si estás usando
RStudio, hay una configuración
útil para esto. Dirígete a
Herramientas -> Opciones
globales -> Código -> Mostrar,
selecciona la opción Mostrar
margen y configura la columna de
margen en 80 (o 120) caracteres.
Usa <- , no = , para una asignación. # Bien # Mal
Asignación z <- 4 Z=4

Organización

Orientación Ejemplos de práctica recomendada Ejemplos a evitar

Líneas completas de # Bien # Mal


Comentarios comentarios deben comenzar # Cargar datos Cargardatos
con el símbolo de comentario y
un solo espacio: #.
Recursos
● Echa un vistazo a esta guía de estilo de tidyverse para obtener un desglose más completo de las convenciones de estilo más
importantes para escribir códigos en R (y trabajar con tidyverse).

● El paquete styler es una herramienta de estilo automática que sigue las reglas de formato de tidyverse. Revisa la página web
styler para obtener más información sobre las características básicas de esta herramienta.

Depuración
Una exitosa depuración de cualquier código R comienza con un correcto diagnóstico del problema. El primer paso al diagnosticar
el problema en tu código es comprender qué esperas que ocurra. Luego, puedes identificar qué ocurrió realmente y cómo se
diferenció de tus expectativas.

Por ejemplo, imagina que deseas ejecutar la función glimpse() para obtener una vista resumida del conjunto de datos penguins.
Escribes el siguiente código:

Glimpse(penguins)

Cuando ejecutas la función, obtienes el siguiente resultado:

Error en Glimpse(penguins) : no se pudo encontrar la función "Glimpse"

Esperabas una visualización del conjunto de datos. En cambio, recibiste un mensaje de error. ¿Qué salió mal? En este caso, el
problema se puede diagnosticar como un error de estilo: escribiste Glimpse con una “G” mayúscula, pero el código distingue entre
mayúsculas y minúsculas y requiere una “g” minúscula. Si ejecutas el código glimpse(penguins) obtendrás el resultado que
esperabas.
Cuando diagnosticas el problema, es muy probable que tú, y alguien más que pudiera ayudar a depurar tu código, comprenderás el
problema si haces las siguientes preguntas:

● ¿Qué escribiste?
● ¿Qué esperabas?
● ¿Qué obtuviste?
● ¿En qué difiere el resultado de tus expectativas originales?
● ¿Eran tus expectativas correctas en primer lugar?

Es difícil descubrir algunos errores y encontrar la causa del problema puede resultar un desafío. Si te encuentras con mensajes de
error o necesitas ayuda con un error, comienza haciendo una búsqueda en línea de información sobre ello. Podrías descubrir que
realmente es un error común con una solución rápida.
Recursos
● Para obtener más información sobre los aspectos técnicos de la depuración de un código R, echa un vistazo a
Debugging with RStudio en el sitio web RStudio Support. El centro de ayuda de RStudio es un excelente lugar
para encontrar respuestas a tus preguntas sobre RStudio. Este artículo te llevará por las herramientas de
depuración integradas en RStudio y te muestra cómo usarlas para ayudarte a depurar códigos en R.

● Para aprender más sobre las estrategias de resolución de problemas para la depuración del código en R, echa un
vistazo al capítulo sobre Depuración en Advanced
R. Advanced R es un excelente recurso si deseas explorar los detalles más finos de un tema R y
llevar tu conocimiento al siguiente nivel.

1.
Pregunta 1

Resumen de la actividad

Hasta ahora, has aprendido sobre el lenguaje de programación R y por qué lo utilizan los analistas de datos. En
esta actividad, verás algunas de las cosas interesantes que puedes hacer en R. También aprenderás más sobre cómo
trabajar con paquetes y datos y probarás algunas funciones importantes.

Al finalizar esta actividad, serás capaz de instalar y cargar los paquetes de R, habrás practicado utilizando las
funciones para ver, limpiar y visualizar datos, y conocerás más sobre cómo utilizar R Markdown para documentar
tu análisis. Esto te permitirá utilizar R Markdown, lo que contribuye a facilitar la colaboración y el análisis de
documentos, lo cual es necesario en proyectos más complejos.

Trabajar en la nube con RStudio Cloud

Para comenzar, ingresa en tu cuenta de RStudio Cloud. Abre el proyecto en el que trabajarás en la actividad con
este enlace. Navega al explorador de archivos abajo, a la derecha, y haz clic en lo siguiente: Course 7 -> Week 2 -
> Lesson3_Sandbox.Rmd.

Si tienes dificultades para encontrar la actividad correcta, consulta esta guía paso a paso sobre cómo navegar en
RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos Rmd se
utilizarán en otras actividades.

Si estás utilizando RStudio Desktop, puedes descargar el archivo Rmd directamente aquí:

Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser más simples cuando se utilizan códigos pre-escritos, mientras que otros pueden requerir que escribas
tus propias funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu trabajo
está completo.

Reflexión
¿Qué función puedes utilizar para crear un diagrama para cada tipo de corte de diamante?
1 / 1 punto
str()
geom_point()
summarize()
facet_wrap()
Correcto

facet_wrap() es una función de R que se usa para crear subdiagramas que son diagramas individuales que
representan una parte específica de un conjunto de datos más amplio. En actividades venideras, aprenderás más
funciones útiles para programar en R.

1.
Pregunta 1

Un analista incluye el siguiente cálculo en su programación en midyear_sales <- (quarter_1_sales + quarter_2_sales) -


overhead_costs

¿A qué variable se asignará el total de este cálculo?


1 / 1 punto

1. midyear_sales
2. quarter_1_sales
3. quarter_2_sales
4. overhead_costs
Correcto

El total de este cálculo se asignará a la variable midyear_sales. El operador de asignación <- está después de la
variable mid_sales, de modo que el valor del total calculado se asigna a esta variable.
2.
Pregunta 2

Un analista revisa el valor de una variable x y utiliza un operador lógico, de modo que ejecuta el siguiente código:

x > 35 & x < 65

¿Qué valores de x obtendrán TRUE cuando el analista ejecute el código? Selecciona todas las opciones que
correspondan.
1 / 1 punto

 35
 50
Correcto. Los valores 50 y 60 darán como resultado TRUE cuando el analista ejecute el código x > 35 & x < 65.
En este código, el operador lógico & indica al servidor que dé como resultado TRUE cuando el valor de la
variable sea mayor que 35 y menor que 65.

 60
Correcto. Los valores 50 y 60 darán como resultado TRUE cuando el analista ejecute el código x > 35 & x < 65.
En este código, el operador lógico & indica al servidor que dé como resultado TRUE cuando el valor de la
variable sea mayor que 35 y menor que 65.

 70
3.
Pregunta 3

Un analista de datos escribe el siguiente código en RStudio: ventas_1 <- 100 * ventas_2 ¿Cuál de los siguientes tipos
de operadores utiliza el analista en su código? Selecciona todas las opciones que correspondan.
1 / 1 punto

 asignación
Correcto. El analista utiliza los operadores de asignación y los operadores aritméticos en el código. El
operador de asignación (<-) asigna la variable ventas_1 al valor de 100 * ventas_2. El operador de
multiplicación (*) multiplica 100 por ventas_2.

 aritmético
Correcto. El analista utiliza los operadores de asignación y los operadores aritméticos en el código. El
operador de asignación (<-) asigna la variable ventas_1 al valor de 100 * ventas_2. El operador de
multiplicación (*) multiplica 100 por ventas_2.

 relacional
 lógico

Aprende acerca de los paquetes R


El regalo que no acaba
Hola. Debo decir, que recibir un paquete es uno de los placeres de la vida. No importa si es un paquete sorpresa o algo que
tú mismo ordenaste. Es emocionante abrir tu paquete para descubrir qué hay dentro. No es de extrañar que esos vídeos de
desempaque en YouTube sean tan populares. Bien, R tiene una clase diferente de paquete que los usuarios de R pueden
abrir. Estos paquetes son unidades de código R reproducible y hacen que sea más fácil hacer un seguimiento del código.
Fueron creados por miembros de la comunidad R para hacer un seguimiento de las funciones R que ellos escriben y vuelven
a usar. Estos miembros de la comunidad podrían poner los paquetes a disposición de otros usuarios. Es una de las cosas
maravillosas de formar parte de esta comunidad. Los paquetes en R incluyen funciones en R reutilizables y documentación
sobre las funciones, incluido cómo usarlas. También contienen muestras de conjuntos de datos y pruebas para verificar tu
código para asegurarte de que hace lo que quieres que haga. Por defecto, R incluye un conjunto de paquetes denominados
Base R que están disponibles para su uso en RStudio cuando empiezas tu primera sesión de programación. También hay
paquetes recomendados que están cargados, pero no instalados. Antes de usar las funciones de uno de estos paquetes,
tuviste que cargarlo con un comando <i>library</i> como <i>library boot</i>, por ejemplo. Descubramos con qué paquetes
que ya tenemos en RStudio trabajaremos en nuestra consola en lugar de, por ahora, un script porque estamos practicando
y no necesitamos guardar este código para más tarde. Para revisar nuestros paquetes, ejecutaremos el comando
installed.packages y allí está nuestra lista. Concentrémonos en el paquete y en las columnas prioritarias. La columna del
paquete da el nombre del paquete como grupo o gráficos. La columna prioritaria nos dice qué se necesita para usar
funciones del paquete. Si te encuentras con la palabra "base" en la columna prioritaria, entonces, el paquete ya está
instalado y cargado. Puedes usar todas las funciones de ese paquete tan pronto como abras RStudio. Si encuentras la
palabra "recommended", entonces el paquete está instalado, pero no cargado.

Reproduce el video desde :2:27 y sigue la transcripción2:27

También observarás una lista de paquetes en la parte inferior derecha de nuestro espacio de trabajo. Esta lista incluye una
breve descripción de cada paquete. Para cargar el paquete <i>class</i> y otros paquetes no instalados, deberemos usar la
función <i>library</i> seguida del nombre del paquete. Y ahora el paquete <i>class</i> tiene una marca de verificación
junto a él, por lo tanto, ha sido cargado con éxito para su uso. Si deseas aprender incluso más sobre tus paquetes cargados,
puedes hacer clic en sus nombres en la pestaña paquetes. Esto abre la pestaña Ayuda y muestra temas relacionados con el
paquete que seleccionaste. También puedes usar la función <i>help</i> en tu programación para llamar a la pestaña Ayuda.

Si bien los paquetes preinstalados te brindan muchas funciones útiles, hay incluso paquetes que expandirán más tus
destrezas de programación. Puedes encontrar miles de paquetes R con solo hacer una búsqueda en línea. Una de las
fuentes de paquetes más comúnmente usadas es CRAN. CRAN significa Comprehensive R Archives Network. Se trata de un
archivo en línea con paquetes R, código fuente, manuales y documentación. Cuando empieces a trabajar con R, podrás
hacer tus propias búsquedas para encontrar paquetes en CRAN o en cualquier otro lugar. Sin embargo, casi siempre es más
fácil buscar con tu motor de búsqueda favorito. Por lo tanto, los paquetes son una parte bastante grande en el uso de R. Te
dan la mayoría de lo que necesitas para completar tu programación durante el proceso de análisis de datos. ¡Quién sabe!
Podrías incluso convertir tu propio código en paquetes para que otros los usen. A continuación, seguiremos
desempaquetando paquetes R. Nos vemos pronto.

Pregunta
Completa el espacio en blanco: Los paquetes en R incluyen_____. Selecciona todas las opciones que
correspondan.
1. funciones en R reutilizables
Correcto. Los paquetes de R incluyen funciones en R reutilizables y documentación acerca de cómo
utilizar esas funciones, muestras de conjuntos de datos y pruebas para revisar el código.
2. muestras de conjuntos de datos
Correcto. Los paquetes de R incluyen funciones en R reutilizables y documentación acerca de cómo
utilizar esas funciones, muestras de conjuntos de datos y pruebas para revisar el código.
3. visualizaciones
4. pruebas para revisar el código
Correcto. Los paquetes de R incluyen funciones en R reutilizables y documentación acerca de cómo
utilizar esas funciones, muestras de conjuntos de datos y pruebas para revisar el código.
Paquetes R disponibles
Para aprovechar R al máximo para tu análisis de datos, deberás instalar paquetes. Los paquetes son unidades de
códigos R reproducibles que puedes utilizar para agregar funcionalidad a R. La mejor parte es que la comunidad R
crea y comparte paquetes, de modo que otros usuarios puedan acceder a ellos. En esta lectura, aprenderás más
sobre los paquetes más usados y dónde encontrarlos.

Los paquetes se pueden encontrar en repositorios, que son colecciones de paquetes útiles listos para instalar. Puedes
encontrar repositorios en Bioconductor, R-Forge, rOpenSci o GitHub, pero el repositorio más utilizado es la Red
general de archivos R o CRAN. CRAN almacena los códigos y documentos que te ayudarán a instalar paquetes en tu
propio espacio de RStudio.

Documentación de los paquetes


Los paquetes no incluyen solo el código, sino también documentación con información sobre el autor del paquete, su
función y sobre otros paquetes que deberás descargar. Cuando utilizas CRAN, puedes encontrar el paquete de
documentación en el archivo descriptivo DESCRIPTION.

Consulta el documento de Karl Broman llamado R Package Primer para más información.

Elegir los paquetes correctos


Con tantos paquetes dando vueltas, puede ser difícil saber cuáles serán los más útiles para tu biblioteca o directorio
de paquetes instalados. Afortunadamente, existen excelentes recursos disponibles.

 Tidyverse: La colección de tidyverse de paquetes de R está diseñada especialmente para trabajar con datos.
Es una biblioteca estándar para la mayoría de los analistas de datos, pero también puedes descargar los
paquetes en forma individual.
 Listado rápido de paquetes R útiles: Esta es la lista de apoyo de RStudio donde encontrarás paquetes útiles
con instrucciones de instalación y la descripción de su funcionalidad.
 Vista de tareas de CRAN: Este es un índice de los paquetes CRAN ordenados por tarea. Puedes buscar el tipo
de tarea que necesitas realizar y te traerá una página con paquetes relacionados con la tarea para que
explores.
Descubrirás más paquetes a lo largo de este curso y a medida que utilices R con frecuencia, pero este es un gran
punto de partida para crear tu propia biblioteca.
Bienvenido a tidyverse
Bienvenido de nuevo. Como vimos anteriormente, los paquetes son una gran parte de lo que hace que R sea excelente. Los
paquetes ofrecen una combinación de código, funciones en R reutilizables, documentación descriptiva, pruebas para
verificar la operabilidad y muestras de conjuntos de datos. Y para muchos analistas de datos, en la parte superior de la lista
de paquetes útiles está tidyverse. Tidyverse es, en realidad, una colección de paquetes en R con una filosofía de diseño
común para la manipulación, exploración y visualización de datos. Usar tidyverse puede ayudarte a trabajar a tu manera
durante gran parte de todo el proceso de análisis de datos. Los paquetes en tidyverse trabajan juntos de manera natural.
Empecé a aprender sobre tidyverse cuando trabajaba en un proyecto de encuestas. Sentí como si estuviera adentrándome
en una zona R más avanzada. Comprendí los conceptos básicos, pero ahora estaba descubriendo cómo tidyverse mejora los
conceptos básicos. Ahí fue cuando me entusiasmé más con trabajar en R. Me di cuenta de que cuanto más me ponía a
aprender sobre tidyverse, más obtenía de él. Además de eso, el apoyo de la comunidad para tidyverse es también fuerte. Es
una de las razones por las que la mayoría de los usuarios en R consideran a tidyverse una parte clave de la programación.
Los principios asociados con tidyverse, que aprenderás aquí y en tu trabajo, fueron ampliamente adoptados por la
comunidad R. Encontrarás muchos tutoriales y ejemplos relacionados con tidyverse en línea que te muestran estos
principios y cómo se aplican al análisis computacional de datos. Bien, instalemos tidyverse. Puedes continuar por ti mismo,
usando tu cuenta en la nube de RStudio. Echa un vistazo a la lectura para obtener más detalles. Anteriormente, aprendiste
cómo encontrar paquetes de Base R usando la función <i>install packages</i>. Para instalar paquetes como tidyverse que
no están en Base R, usaremos la función <i>install packages</i>. Como vimos anteriormente, esta función llama a tidyverse
y a otros paquetes de CRAN. Hablamos sobre por qué se creó CRAN. Ya que los paquetes que no están en Base R en su
mayoría son creados por usuarios de R, la gente necesita una manera confiable de revisar y validar el código enviado. CRAN
se asegura de que cualquier contenido en R abierto al público cumpla con los estándares de calidad requeridos. Por lo
tanto, si proviene de CRAN, puedes sentirte bien sabiendo que el paquete es auténtico y válido. Otra fuente importante
de paquetes y otro contenido de R es GitHub. Ahora, regresaremos a la instalación de tidyverse. Primero escribiremos
install.packages. Luego, entre paréntesis, escribiremos tidyverse entre comillas. Las comillas no siempre son necesarias,
pero una práctica recomendada es usar comillas para asegurarnos de que estamos haciendo lo correcto. Presionaremos
Enter y esperaremos a que RStudio instale tidyverse.

Cuando hacemos clic


en nuestra pestaña paquetes, nos encontramos con muchos paquetes nuevos en la lista. Eso es tidyverse. Posiblemente
hayas observado que ninguno de los paquetes está marcado. Necesitaremos cargarlos primero antes de que podamos
usarlos. Pero esa es una lista muy larga. Por lo tanto, carguemos el paquete llamado tidyverse ahora usando la función
<i>library</i>.

El resultado muestra que no solo se cargó el paquete tidyverse, sino también ocho paquetes más.
También muestra una lista de conflictos. Los conflictos suceden cuando los paquetes tienen funciones con los mismos
nombres que otras funciones. Básicamente, el último paquete cargado es aquel cuyas funciones se usarán, por lo que
usaremos las funciones de tidyverse. Pero es importante tener en cuenta que estos mensajes solo aparecen una vez. A
medida que te vayas acostumbrando a R, podrás averiguar si deseas usar ciertas funciones por sobre otras. Los paquetes
cargados son ggplot2, tibble, tidyr, readr, purrr, dplyr, stringr y forcats. Estos paquetes son el núcleo de tidyverse porque
los usarás en casi cada análisis. Todos trabajan juntos para hacer que tu análisis de datos sea eficiente y no presente
problemas. Con estos paquetes, tidyverse te ayuda a hacer todo, desde importar y transformar datos hasta explorar y
visualizarlos. Echaremos un vistazo a este núcleo de paquetes pronto, y los usaremos incluso más a medida que
continuemos trabajando en RStudio. Si estás trabajando por tu cuenta en R, puedes echar un vistazo a algunos de los otros
paquetes también. Los paquetes disponibles en tidyverse cambian mucho, pero siempre puedes comprobar las
actualizaciones ejecutando tidyverse_update() en tu consola. Puedes, entonces, actualizar los paquetes en un par de
maneras. Si usas la función update packages() actualizará todos tus paquetes. Eso puede llevar un tiempo. Por lo tanto, si
solo deseas actualizar un paquete, puedes volver a usar la función install.packages(“nombre del paquete”) como tu
argumento entre paréntesis. Deberías actualizar los paquetes regularmente para asegurarte de que tienes la última versión
en tu código. Las notificaciones de conflictos son solo un tipo de mensaje que puede aparecer en la consola. También
podrías encontrar mensajes de advertencia y error. Una búsqueda rápida usando la pestaña Ayuda por lo general te dirá
qué significa el mensaje y qué, si lo hay, necesitarás para abordarlo. A continuación, seguiremos moviéndonos por
tidyverse. Descubrirás más sobre por qué tidyverse es una parte integral de R. Nos vemos.

Pregunta
Tidyverse es una colección de paquetes de R con una filosofía de diseño en común.
Verdadero
Falso
Correcto
Tidyverse es una colección de paquetes de R con una filosofía de diseño en común. Los paquetes de tidyverse son
útiles especialmente para manipular, explorar y visualizar datos.

.
Pregunta 1

Resumen de la actividad
En la última actividad, exploraste el espacio aislado de R y utilizaste algunos de sus paquetes, por ejemplo,
tidyverse. En esta actividad, continuarás explorando la colección de paquetes de tidyverse y los conocerás más a
través del uso de la función browseVignettes.

Al finalizar esta actividad, sabrás cómo cargar fácilmente las viñetas. Más adelante, podrás utilizar la función
browseVignettes para acceder y revisar la documentación incluida y así entender mejor cada paquete de R que
utilices.

Instalar tidyverse

Si no has instalado tidyverse aún, abre RStudio.

Inicia sesión, navega a la consola, escribe install.packages("tidyverse") y presiona la tecla Enter (Windows) o la
tecla Return(Mac).

Luego, espera mientras RStudio instala los paquetes de tidyverse (sé paciente, esto puede demorar un tiempo).
Recibirás un mensaje cuando termine la instalación.

Cargar tidyverse

Una vez que hayas instalado los paquetes de tidyverse, cárgalos de modo que se encuentren disponibles en tu
sesión actual de R. Carga el núcleo de tidyverse con el comando library. El núcleo de tidyverse contiene los
paquetes principales que trabajan en conjunto para que tu análisis de datos sea fluido y eficiente.

Para cargar el núcleo de tidyverse, escribe library(tidyverse) y presiona la tecla Enter (Windows) o Return
(Mac).

El resultado en la consola indica que cargaste el núcleo de tidyverse. Cada uno de los paquetes del núcleo tiene
una tilde verde a su lado.

El resultado también enumera los conflictos. Los conflictos informan qué objetos tienen el mismo nombre en dos o
más lugares dentro de tu sesión. Esto sucede habitualmente porque un objeto de tu espacio de trabajo o un paquete
que instalaste está enmascarando un objeto del sistema con el mismo nombre.
Ya que cargaste los paquetes de tidyverse recientemente, serán los paquetes predeterminados para tu sesión actual.

Leer las viñetas de tidyverse

Una viñeta es una documentación que actúa como guía para un paquete en R. Una viñeta comparte información
detallada sobre el problema que el paquete debe solucionar y cómo las funciones incluidas pueden ayudarte a
resolverlo. La función browseVignettes te permite leer las viñetas de un paquete cargado.

Para revisar las viñetas de un paquete específico, escribe browseVignettes(“nombre del paquete”) y presiona la
tecla Enter (Windows) o Return (Mac). Recuerda que las funciones respetan minúsculas y mayúsculas en R, de
modo que “Vignettes” debe escribirse con V mayúscula.

Por ejemplo, si ejecutas la función browseVignettes()en ggplot2, browseVignettes(“ggplot2”), obtendrás el


siguiente resultado:

Si estás utilizando RStudio Cloud, al ejecutar esta función se abrirá una nueva pestaña en el navegador con los
enlaces a las viñetas.

Reflexión

En esta actividad, exploraste el paquete tidyverse y aprendiste acerca de las viñetas. En el cuadro de texto a
continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿Cómo podrían ayudarte tidyverse y sus paquetes a medida que aprendes cómo programar en R?

¿Qué impacto tendrá la función browseVignettes en tu análisis?


1 / 1 punto
.

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría cómo el uso de los paquetes
tidyverse te ayuda a leer, manipular, visualizar y realizar otras tareas importantes con los datos.

Tidyverse fue diseñado para mejorar el flujo general de trabajo de los analistas. Ya que los paquetes están integrados
unos con otros, tu análisis será más eficiente. Puedes utilizar la función browseVignettes para saber más acerca de
cada paquete y cómo utilizarlo.

1.
Pregunta 1

Cuando utilizas RStudio, ¿cuál es el papel de la función installed.packages()?


0 / 1 punto

Presenta una lista de paquetes instalados actualmente en una sesión de RStudio


Selecciona los mejores paquetes para utilizar según las necesidades actuales del analista
Instala todos los paquetes disponibles para utilizar en una sesión de RStudio
Crea códigos que los analistas pueden utilizar para editar sus paquetes

La función installed.packages() presenta una lista de paquetes instalados actualmente en una sesión de RStudio.
Puedes, entonces, localizar los nombres de los paquetes y qué se necesita para utilizar las funciones del paquete.
Esta función no instala paquetes nuevos.
2.
Pregunta 2

En el análisis computacional de datos, ¿qué es CRAN?


1 / 1 punto

Un archivo que normalmente se usa en línea con paquetes de R y otros recursos de R


Una función para encontrar paquetes para utilizar en análisis en RStudio
Una colección de paquetes que funcionan conjuntamente para que el análisis en R sea más eficiente
Una interfaz de R que tiene muchas de las mismas funciones que RStudio
Correcto

CRAN es un archivo que normalmente se usa en línea con paquetes de R y otros recursos de R. CRAN garantiza que
los recursos de R que comparte cumplan con los estándares de calidad requeridos y que sean auténticos y válidos.
3.
Pregunta 3

¿De qué forman parte ggplot2, tidyr, dplyr y forcats?


1 / 1 punto

Una colección de paquetes núcleo de tidyverse.


Una lista de variables para utilizar en la programación en RStudio
Una colección de conjuntos de datos basados en CRAN utilizados comúnmente
Una lista de funciones que limpian los datos de modo eficiente
Correcto

Los paquetes ggplot2, tidyr, dplyr y forcats forman parte de una colección de ocho paquetes núcleo de tidyverse. Los
otros paquetes núcleo son: tibble, readr, purrr y stringr.

Explora tidyverse
Más sobre tidyverse
¿Alguna vez hiciste un recorrido de un punto de referencia famoso o una ciudad desconocida? Puede ser bastante
interesante. Tienes que aprender todo sobre las características del punto de referencia o la ciudad. Al final, conoces todo
sobre ellos bastante bien, y puedes compartir lo que aprendiste con otros. Estamos aquí para realizar una clase de recorrido
diferente: un recorrido por tidyverse. Para este recorrido, no viajaremos a ningún lugar especial, pero te ayudaremos a
aprender sobre las características interesantes de tidyverse. Y una vez que las conozcas un poco mejor, podrás sin duda
compartir con otros lo que aprendiste. Para este recorrido nos enfocaremos en los paquetes núcleo de tidyverse que vimos
anteriormente: ggplot2, tidyr, readr, dplyr, tibble, purrr, stringr y forcats. También aprendimos cómo instalarlos y cargarlos
en RStudio. Una vez cargados, no necesitarás hacer nada más con sus paquetes reales. Ellos harán lo suyo a medida que
programas. Y, ¿qué es lo suyo? Bien, depende, pero hay cuatro paquetes que son una parte esencial del flujo de trabajo
para los analistas de datos: ggplot2, dplyr, tidyr y readr. Lo más probable es que uses estos con mayor frecuencia que los
otros. Ggplot2 se usa para visualización de datos, especialmente diagramas. Con ggplot2, puedes crear una variedad de
visualización de datos al aplicar propiedades visuales diferentes a las variables de datos. Aquí hay un ejemplo de ggplot2 en
acción. Tendrás tu propia oportunidad de usar ggplot2 más adelante. Tidyr es un paquete que se usa para limpieza de datos
para generar datos ordenados. Cubrimos datos ordenados o limpios anteriormente, pero, a modo de recordatorio, son
datos donde cada parte de la tabla de datos o marco de datos es del tipo correcto en el lugar correcto. Tidyr funciona con
datos en formato ancho y datos en formato largo para asegurarse de que esto funciona. Luego, tenemos readr, que se usa
para importar datos. La función más común de readr es read_csv. Esto importará un archivo CSV en R. Un archivo CSV
contiene datos separados por comas en un formato de tablas. Para leer correctamente un conjunto de datos con readr,
combinas la función con una especificación de columna. La especificación de columna describe cómo debería cada columna
convertirse en el tipo de datos más apropiado. Es bueno tener en cuenta que, en general, esto no es necesario porque readr
lo averiguaría por ti automáticamente. Nos encontraremos con funciones readr a medida que continuemos explorando R.
Ahora pasemos a dplyr. Dplyr ofrece un conjunto consistente de funciones que te ayudan a completar algunas tareas
comunes de manipulación de datos. Por ejemplo, la función <i>select</i>, escoge variables según sus nombres, y la función
<i>filter</i> encuentra casos donde determinadas condiciones son ciertas. Y, sí, dplyr es otro paquete que abordaremos
más tarde. Hay mucho que esperar, por lo tanto, esos son los fabulosos cuatro del tidyverse. Todos ellos harán que tu
programación en R sea más sencilla y eficiente. Los otros cuatro paquetes son definitivamente útiles también, pero podrías
no usarlos tan a menudo. Tibble trabaja con marcos de datos. Purrr trabaja con funciones y vectores que ayudan a que tu
código sea más fácil de escribir y más expresivo. Stringr incluye funciones que hacen que sea más fácil trabajar con cadenas.

Reproduce el video desde :4:3 y sigue la transcripción4:03

Forcats proporciona herramientas que resuelven problemas comunes con factores. A modo de recordatorio, los factores
almacenan datos categóricos en R donde los valores de datos están limitados y generalmente se basan en un grupo finito
como país o año. Usar tidyverse y sus paquetes te ayudará a ajustar tu análisis. Y, además de tidyverse, también aprendiste
los fundamentos de R desde variables hasta vectores y más.

Reproduce el video desde :4:34 y sigue la transcripción4:34

Exploraste los diferentes operadores en R y viste cómo pueden ayudarte a completar cálculos. Tuviste la oportunidad de
echar un vistazo a las canalizaciones y cómo pueden hacer que tu programación sea más eficiente. Y abriste paquetes para
averiguar cómo son una parte importante de las cosas que puedes hacer en R.

Reproduce el video desde :4:54 y sigue la transcripción4:54

Cubrimos mucho material con solo algunos vídeos, por lo que este podría ser un buen momento para que hagas un
pequeño repaso. Puedes volver a mirar videos y repasar cualquier otro recurso que pueda ayudarte a incluso comprender
mejor todos los términos, conceptos y procesos que son parte de R. Más adelante, empezarás a trabajar con datos en R,
que incluye una exploración más completa de cómo tidyverse impacta en tu proceso. Verás tibble, readr y otros paquetes
tidyverse en acción. Y descubrirás cómo limpiar y organizar tus datos en R. Todo esto y más próximamente. Nos vemos
pronto.

Pregunta
¿Qué paquete de tidyverse se utiliza para la visualización de datos?
readr
tidyr
ggplot2
dplyr
Correcto
El paquete ggplot2 se utiliza para la visualización de datos, especialmente de diagramas. Puedes utilizar ggplot2
para crear múltiples visualizaciones diferentes aplicando diversas propiedades a las variables de datos.

Pregunta
La función read_csv() forma parte del paquete dplyr.
Verdadero
Falso
Correcto
La función read_csv() forma parte del paquete readr. Importa un archivo .CSV para utilizarlo en R.

Trabajo con canalizaciones


Hola de nuevo. Anteriormente presentamos algo llamado canalizaciones. Una canalización es una herramienta en R que te
ayuda a hacer que tu código sea más eficiente y más fácil de leer y comprender. En este vídeo, analizaremos las
canalizaciones en más detalle. A modo de recordatorio, una canalización es una herramienta en R para expresar una
secuencia de varias operaciones. En otras palabras, toma el resultado de una instrucción y lo convierte en la entrada de la
siguiente instrucción. En lugar de escribir funciones dentro de otras funciones, podrías usar el operador de canalización
para hacer el mismo trabajo. En programación, decimos que está anidado. Anidado describe código que realiza una función
particular y está incluido dentro del código que realiza una función más amplia. Puedes pensar en una canalización como
una manera de codificar la frase. Supongamos que tenemos datos de ventas y necesitas encontrar la media o el promedio.
Puedes crear una canalización accediendo a los datos y luego agrupándolos y resumiendo los datos agrupados mediante
una función <i>mean</i>. Veamos un ejemplo. Primero, abriremos RStudio. Luego, empezaremos con un nuevo script para
que podamos guardar nuestro trabajo. Lo guardaremos como exploración ToothGrowth.

Reproduce el video desde :1:35 y sigue la transcripción1:35

Usaremos un conjunto de datos ToothGrowth, que ya está instalado en R. Este conjunto de datos contiene datos sobre el
efecto de la vitamina C en el crecimiento de los dientes de los cerdos de guinea. Es un conjunto de datos conocido que nos
ayuda a aprender sobre cómo funcionan las canalizaciones. Para cargar cualquier conjunto de datos ya instalado, usamos la
función <i>data</i>. Luego, agregamos el nombre del conjunto de datos, ToothGrowth. Ahora los datos están cargados,
podemos revisarlos con la función <i>View</i>. Observa cómo <i>View</i> comienza con una V mayúscula. Es un buen
recordatorio de que las funciones y variables distinguen mayúsculas y minúsculas en R. En un script, usamos el botón
Ejecutar para ejecutar nuestro código. El resultado generalmente aparece en la consola.

Pero con <i>View</i>, aparece una nueva pestaña en el script que muestra el contenido del conjunto de datos. Ahora,
digamos que necesitamos filtrar y ordenar estos datos para organizarlos para un análisis. Sin canalizaciones, podríamos
hacer esto anidando los comandos o creando una secuencia de marcos de datos. Hablaremos más sobre los marcos de
datos pronto. Empecemos por filtrar el conjunto de datos. Ten en cuenta que primero queremos instalar y cargar la función
de filtro correcta, que viene como parte del paquete.

Instalar un paquete puede llevar unos minutos. Esta función viene como parte del paquete dplyr. Asignarás un nombre al
nuevo conjunto de datos y luego la función <i>filter</i>.

Reproduce el video desde :3:22 y sigue la transcripción3:22

Esto filtra los datos para que solo veamos las filas donde la dosis de vitamina C es exactamente 0.5. Esto incluye ambos
tipos de vitamina C usada en el estudio. El jugo de naranja u OJ en nuestro conjunto de datos, y el ácido ascórbico o VC.
Luego, lo clasificaremos con la función <i>arrange</i>. Incluiremos el nombre del conjunto de datos del filtro seguido del
nombre de la columna que queremos ordenar. En este caso, <i>len</i> quiere decir longitud del diente. Cuando ejecutamos
esta función, el resultado aparece en la consola.
Los datos se organizan en orden
ascendente por <i>len</i>. El resultado solo muestra filas donde la cantidad de dosis es 0.5.

Reproduce el video desde :4:17 y sigue la transcripción4:17

Los datos se filtraron y ordenaron según nuestro código. Intentemos otra manera de obtener el mismo resultado. Usaremos
una función anidada, que es una función que está completamente contenida dentro de otra función. Así es la función
anidada para filtrar y ordenar este conjunto de datos.

Observa que la función filter de nuestro código es la función anidada. Con funciones anidadas, leemos de adentro hacia
afuera. El código primero filtra los datos. Luego, los organiza u ordena. Ahora ejecutemos esto. Ajustamos el código, pero
obtenemos el mismo resultado. Ahora, usaremos una canalización. A modo de recordatorio, el operador usado para señalar
una canalización es un signo de porcentaje seguido por un signo mayor que y otro signo de porcentaje. También puedes
usar atajos de teclado para insertar operadores de canalización. Control Shift M para PC y Chromebooks, y comando Shift M
para Mac. Empezaremos con esta canalización asignándola a una variable.

Reproduce el video desde :5:34 y sigue la transcripción5:34

Luego, escribiremos el nombre del conjunto de datos de donde estamos extrayendo los datos, ToothGrowth. Usaremos
nuestro atajo de teclado para agregar el operador de canalización después de eso. Ahora podemos presionar Enter para ir a
la línea siguiente. RStudio automáticamente agrega sangría a la línea siguiente, reconociendo que es parte de la
canalización. Luego, filtraremos los datos.

No tenemos que señalar el conjunto de datos dentro del paréntesis, como lo hicimos en ejemplos anteriores, porque
empezamos nuestra canalización con él. La canalización aplica automáticamente el conjunto de datos a cada paso. ¡Muy
bien! Finalicemos nuestra canalización en una nueva línea con la función <i>arrange</i> y ordenemos los datos.

Ya que esta es nuestra última línea del código, no necesitamos un operador de canalización.

Por último, haz clic en "Ejecutar" y listo, obtenemos el mismo resultado que nuestros otros métodos.
Nuestra canalización está configurada para llamar al conjunto de datos y, luego, filtrar el conjunto de datos y ordenarlo. Los
tres métodos funcionan, pero puedes ver cómo las canalizaciones ayudan a hacer que tu programación sea más eficiente y
esté menos desordenada. Esto significa menos posibilidades de errores y una mejor legibilidad para cualquiera que mire tu
código, y debido a la estructura de una canalización, podemos agregar fácilmente o cambiar el código sin tener que volver a
comenzar. Hagamos eso. Basándonos en nuestro ejemplo, digamos que también queríamos calcular la longitud promedio
de los dientes o <i>len</i> para cada uno de los dos suplementos en el estudio: jugo de naranja u OJ y ácido ascórbico o VC.
Reemplazaremos la función <i>arrange</i> por la función <i>group by</i>. Esta función agrupará nuestros resultados por
los dos suplementos. Escribimos supp en el paréntesis y agregamos una canalización. Esta vez estamos agregando una
canalización porque tenemos otra línea de código para agregar. Agrupamos por y, luego, resumimos. Nuestro argumento,
que viene después de la función <i>summarize</i> parece bastante complejo, pero básicamente le indica a R qué hacer con
los valores faltantes y para asegurarse que los datos sean agrupados correctamente cuando agregamos la función
<i>summarize</i>. Ahora, ejecutaremos nuestra nueva canalización y tendremos la longitud promedio del diente cuando la
dosis es igual a 0.5 para cada uno de nuestros suplementos.

Reproduce el video desde :8:20 y sigue la transcripción8:20

Muy bien. Ahora, hay un par de cosas para recordar cuando usamos canalizaciones. Primero, es importante agregar el
operador de canalización al final de cada línea de la operación canalizada, excepto la última. Otra regla de oro es verificar tu
código una vez que programaste tu canalización. Recuerda, RStudio agrega automáticamente las sangrías a las líneas de
código que son parte de una canalización. Si una línea en tu código no tiene sangrías, probablemente no fue agregada a la
canalización. Eso podría llevar a un error de instrucción. Luego, puedes revisar la operación canalizada para verificar partes
de tu código a corregir. Con los otros métodos te mostramos que encontrar las partes confusas resultaría un mayor desafío.
Otra razón para usar canalizaciones cada vez que puedas. Canalizaciones o canalización, y las funciones que son parte del
proceso de canalización, crean componentes para reunir los análisis en R. En los próximos vídeos, aprenderás cómo usar
estos componentes para limpiar, transformar y analizar tus datos. Por ahora, siéntete libre de tomarte tu tiempo para
revisar e, incluso, practicar las funciones, las operaciones y otros elementos en R y RStudio que ya cubrimos.

Pregunta
Una función anidada es una función contenida dentro del código que realiza una función más amplia.
Verdadero
Falso
Correcto
Una función anidada es una función contenida dentro del código que realiza una función más amplia. Una función
anidada lleva a cabo su propia función específica dentro del código.

¿Cuál de los siguientes operadores es el operador de canalización?

 %>%
 !=
 <-
 *
Correcto
El operador canalización es %>%. Puede usarlo en programación R para llamar una canalización para expresar una
secuencia de múltiples operaciones.

Recursos R con más ayuda

La comunidad R está repleta de usuarios dedicados que se ayudan mutuamente para encontrar soluciones a los
problemas y nuevas maneras de utilizar R. También hay un gran número de excelentes blogs donde puedes
encontrar tutoriales y otros recursos. Aquí mencionamos algunos:

 Posit: El mejor lugar para encontrar ayuda con R es el propio R. Puedes escribir ‘?’ o el comando help()
para buscar en R. También puedes abrir el panel de ayuda para encontrar más recursos.
 Blog de Posit: El blog de Posit es un excelente lugar para encontrar información sobre Posit, incluyendo
las novedades de la empresa. Puedes leer las publicaciones destacadas más recientes o utilizar la barra
de búsqueda y la lista de categorías a la izquierda de la página para explorar temas específicos que podrían
resultarte interesantes o buscar una publicación específica.
 Stack Overflow: El blog Stack Overflow publica opiniones y consejos de otros codificadores. Es un gran
punto de partida para estar en contacto con las conversaciones que ocurren en una comunidad.
 R-Bloggers: El blog R-bloggers cuenta con tutoriales útiles y artículos con noticias publicados por otros
usuarios de R en la comunidad.
 Tutoriales de R-Bloggers para aprender R: Este blog R-Bloggers compila algunos tutoriales básicos de
R y también tiene enlaces a guías más avanzadas.
Connor: Consejos para codificar
¡Hola! Mi nombre es Connor y soy gerente de Marketing Analítico en Google Cloud. Me encontré con obstáculos que me
impedían hacer cierto análisis porque, con mi escaso conocimiento técnico, me llevaba una excesiva cantidad de tiempo. Así
que comencé a aprender por mis propios medios algunas cosas como SQL para poder acceder a los datos a través de la base
de datos actual de la empresa de la que disponía, de modo de poder manipular los datos para entenderlos mejor. Puedo
decirte que, al principio, es un proceso muy frustrante para encarar porque lleva mucho tiempo y esfuerzo hacer algo que
parece muy simple o algo que debería ser muy sencillo de hacer en las hojas de cálculo, pero puede ser muy difícil cuando
recién estás aprendiendo a codificar. Pero es también una de las cosas más satisfactorias que hice porque una vez que
logras entender algo, se abre un mundo completamente nuevo. Aprender a codificar fue una revolución en mi trabajo.
Recuerdo cuando al principio comencé como analista, todos los datos que utilizaba estaban en hojas de cálculo y debía
realizar un análisis y crear fórmulas para manipular, comprender y analizar los datos. Ahora que comenzamos a tener más y
más datos, las fórmulas hubieran tardado horas en realizar su proceso y recuerdo que, en un momento, pasé varias horas
creando una fórmula y luego ejecutándola, lo que llevó más de diez horas. Así que dejé mi computadora abierta y la dejé
corriendo durante la noche, me desperté y todavía estaba corriendo. Adelantándonos en el tiempo, un año después, luego
de aprender SQL y Python, puede ejecutar el mismo tipo de análisis en milisegundos. Así que, entender realmente de qué
se trata es lo que estás intentando lograr. La codificación te ayuda a manipular y analizar datos a un ritmo que
anteriormente o sin conocimientos de codificación sería muy difícil de hacer. Un aspecto importante de cualquier tipo de
script, o cuando estás codificando, es estructurarlo para que sea legible en general. La mayoría de las veces, vas a trabajar
en un equipo. Es importante que cuando escribas un script entiendas cómo funciona, pero también que algún colega pueda
acercarse y comprender qué es lo que estás tratando de hacer con ese script. Ahora bien, es muy importante que no solo
funcione y sea eficiente, sino que tampoco sobreabunden las palabras, es decir, que no sea extremadamente complicado.
Ahora bien, un aspecto importante de la legibilidad es que si estás repasando tu código y te das cuenta de que escribiste lo
mismo varias veces, o si estás usando la misma lógica o algoritmo muchas veces, ese es un momento donde realmente
puedes consolidar tu código y hacerlo más conciso, lo cual ayuda mucho a la legibilidad, y también a cualquier persona que
se acerca y trata de leer tu código; eso te demandará de aquí a dos semanas. Porque te aseguro que cuando empieces a
codificar, lo que tiene sentido ahora para ti puede no tenerlo de acá a tres semanas. Un aspecto importante de la legibilidad
y la comprensión en general de tu código es utilizar comentarios. Los comentarios son una forma de escribir algo en un
lenguaje estandarizado, como el inglés, y una forma en que alguien pueda entenderlo, pero que la computadora no lo
reconozca como un código real. Así que, explicar cada línea que escribas o explicar una sección completa de tu código en un
comentario le permite a otra persona leer tu código y saber exactamente qué estás tratando de lograr con el código que has
escrito. Ahora bien, sin comentarios dejas que las demás personas sigan tu código y lo interpreten, lo que no es una tarea
fácil para otra persona porque puede tener una manera diferente de codificar lo mismo que estás haciendo tú. Documentar
tu trabajo es un aspecto importante. La documentación explicará en profundidad qué es lo que exactamente trata de hacer
tu código, por qué fue creado, cuál es su propósito y sus limitaciones. Este último concepto es un poco difícil de
comprender mientras encaras por primera vez el aprendizaje de un lenguaje de codificación y tratas de crearlo para que
permita la escalabilidad a la vez que le otorgas dinamismo. Bueno, cuando digo crear algo que admita escalabilidad, lo que
quiero decir es, si estás creando un script de código específico para resolver una tarea en la que estés trabajando en este
momento, querrás asegurarte y responder la siguiente pregunta: ¿Este código será o podrá ser utilizado en el futuro para
algo más? Bien, si la respuesta es sí, es importante que tu código esté disponible para ser escalable. Esto significa que se
ejecute de manera eficiente, de modo que si el tamaño de los datos sufre manipulaciones o incrementos, eso no complique
demasiado tu código y pueda manejar cargas de datos grandes y pequeñas. Otro aspecto de esto es que tu código sea
dinámico. Esto significa que no hay que rigidizar los valores en tu código, de modo que no cambien cuando sea necesario.
Así que estas son solo algunas de las mejores prácticas, y a a medida que progreses como analista de datos, encontrarás
muchas, muchas más. Siempre hay más que aprender, siempre hay más para entender, pero esto debería ayudarte al
comienzo de tu camino para entender la codificación.

1.
Pregunta 1

Al trabajar en R, ¿para qué parte del proceso del análisis de datos utilizan los analistas el paquete tidyr?
1 / 1 punto

Visualización de datos
Cálculos en torno a los datos
Limpieza de datos
Seguridad de datos
Correcto

Los analistas utilizan el paquete tidyr para limpiar datos. Trabaja con datos en formato largo y ancho para garantizar que cada parte
de la tabla de datos o el marco de datos sea del tipo correcto de datos y esté en el lugar correcto.
2.
Pregunta 2

¿Qué paquete de tidyverse contiene un conjunto de funciones tales como select(), que ayudan a manipular los datos?
1 / 1 punto

readr
ggplot2
forcats
dplyr
Correcto

El paquete dplyr es el paquete de tidyverse que contiene un conjunto de funciones tales como select(), que ayudan a manipular los
datos. Por ejemplo, select() selecciona solo variables importantes según sus nombres.
3.
Pregunta 3

Un analista está organizando un conjunto de datos en RStudio y utiliza el siguiente código arrange(filter(Storage_1, inventory >=
40), count) ¿Cuál de los siguientes ejemplos es una función anidada en el código?
1 / 1 punto

count
filter
inventory
arrange
Correcto

En el código del analista, filter es la función anidada. Está dentro del


argumento de la función arrange más amplia.

Glosario
Análisis computacional de datos
Términos y definiciones
A
Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Referencia absoluta: Referencia dentro de una función que está bloqueada para que las filas y las columnas no cambien si
se copia la función

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger
una hoja de cálculo

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Agenda: Lista de citas programadas

Agregación: Proceso de recolectar o juntar muchas partes separadas en un todo

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Asignación de alias: Nombrar temporalmente una tabla o columna en una consulta para que sea más fácil de leer y escribir

Texto alternativo: Texto que ofrece una alternativa al contenido no textual, como las imágenes y los videos

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Pensamiento analítico: Proceso de identificar y definir un problema para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso

Anotación: Texto que explica brevemente los datos o ayuda al público a concentrarse en un aspecto concreto de los datos
en una visualización
Gráfico de áreas: Visualización de datos que utiliza puntos de datos individuales para una variable cambiante conectados
por una línea continua con un área de relleno debajo

Argumento (R): Información necesaria para la ejecución de una función en R

Selección: Conjunto de valores en celdas de una hoja de cálculo

Operador de asignación (R): Operador usado para asignar valores a variables y vectores

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado

AVERAGEIF: Función de una hoja de cálculo que devuelve el promedio de todos los valores de las celdas de un determinado
rango que cumplen una condición especificada

B
Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Equilibrio: Principio de diseño que consiste en crear un atractivo estético y claridad en una visualización de datos mediante
la distribución uniforme de los elementos visuales

Gráfico de barras: Visualización de datos que usa el tamaño para contrastar y comparar dos o más valores

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que
permiten que los analistas de datos aborden los problemas comerciales de gran alcance

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Diagrama de caja: Visualización de datos que muestra la distribución de valores a lo largo de un eje x

Gráfico de burbujas: Visualización de datos que muestra puntos de datos individuales como burbujas, y compara valores
numéricos por su tamaño relativo

Gráfico de viñetas: Visualización de datos que muestra los datos como un gráfico de barras horizontal que se mueve hacia
un valor deseado

Métrica de negocios: Criterio de medición que se utiliza para resolver una tarea empresarial

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

C
C#: Lenguaje de programación orientado al objeto usado para crear juegos y aplicaciones móviles en la plataforma de
desarrollo de código abierto .NET

C++: Extensión del lenguaje de programación C que se usa para crear juegos de consola, como los juegos para Xbox

Campo calculado: Campo nuevo dentro de una tabla dinámica que realiza ciertos cálculos en función de los valores de otros
campos
Cálculo: Rama de la matemática que implica el estudio de las tasas de cambio y los cambios entre valores que están
relacionados por una función

CASE: Instrucción de SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

Caso práctico: Una manera común en que los empleadores evalúan destrezas profesionales y obtienen información sobre
cómo un candidato aborda desafíos comunes relacionados con los datos

CAST: Función de SQL que convierte los datos de un tipo en otro

Causalidad: Cuando una acción lleva directamente a un resultado, como una relación de causa-efecto

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto

Canal: Aspecto visual o variable que representa características de los datos en una visualización

Gráfico: Representación gráfica de los datos en una hoja de cálculo

Vista en círculo: Visualización de datos que muestra la fortaleza comparativa en los datos

Datos limpios: Datos que están completos y son correctos y pertinentes para el problema que se está resolviendo

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Clúster: Conjunto de puntos de datos en una visualización de datos con valores similares

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Codificación: El proceso de escribir instrucciones para una computadora usando la sintaxis de un lenguaje de programación
específico

Gráfico de columnas: Visualización de datos que usa puntos de datos individuales para una variable cambiante,
representada mediante columnas verticales

Gráfico combinado: Visualización de datos que combina más de un tipo de visualización

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados

Programación informática: El proceso de darle instrucciones a una computadora para que realice una acción o un conjunto
de acciones

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Formato condicional: Herramienta de la hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Instrucción condicional: Declaración de que si una determinada condición es verdadera, entonces debe producirse un
determinado evento

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población

Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población
Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Contexto: Condición en la que algo existe o sucede

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

CONVERT: Función de SQL que cambia la unidad de medida de un valor en los datos

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

Correlación: Medición del grado de cambio de dos variables entre sí

COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con una condición
especificada

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango que cumplen con un criterio
especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas dentro de un rango que coinciden con un valor
especificado

COUNT DISTINCT: Función de SQL que solo devuelve los valores distintos en un rango especificado

CRAN (Comprehensive R Archive Network) (R): Archivo en línea con paquetes R, código fuente, manuales y documentación

CREATE TABLE: Cláusula de SQL que añade una tabla temporal a una base de datos que puede ser utilizada por varias
personas

Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de
datos

CSS (Cascading Style Sheets): Lenguaje de programación usado para el diseño de páginas web que controla los elementos
gráficos y la presentación de la página

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la dimensión de esas transacciones

D
Panel: Herramienta que monitorea los datos entrantes en vivo

Datos: Recopilación de hechos

Agregación de datos: Proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es
el de obtener conocimiento que propicie la toma de decisiones informada

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada
Análisis computacional de datos: La ciencia de los datos

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la
eliminación de información que pueda asociarse a ellas

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Combinación de datos: Método de Tableau que combina datos provenientes de múltiples fuentes de datos

Composición de datos: Proceso que combina las partes individuales en una visualización y las muestra juntas como un todo

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Diseño de datos: Cómo se organiza la información

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial

Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar,
analizar y compartir datos

Elemento de datos: Información en un conjunto de datos

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura
confiable

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Marco de datos: Conjunto de columnas que contienen datos, que es similar a una hoja de cálculo o una tabla de SQL

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una
transacción de datos

Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

Narrativa de datos: Comunicar el significado de un conjunto de datos con elementos visuales y una historia personalizada
según el público

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Estructura de los datos: Formato para organizar y almacenar datos

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o


de una computadora a otra

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Proceso de validación de datos: Proceso de comprobar y volver a comprobar la calidad de los datos para que sean
completos, precisos, seguros y coherentes

Visualización de datos: Representación gráfica de los datos

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y
organizar datos efectivamente

Base de datos: Recopilación de datos almacenados en un sistema informático

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

DATEDIF: Función de la hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Árbol de decisiones: Herramienta que ayuda a los analistas a tomar decisiones sobre características esenciales de una visualizació

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Mapa de densidad: Visualización de datos que representa concentraciones, con un color que representa el número o la
frecuencia de los puntos de datos en un área determinada de un mapa

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Design Thinking: Proceso que se usa para resolver problemas complejos de una manera centrada en el usuario

Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG

Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Gráfico de distribución: Visualización de datos que muestra la frecuencia de diversos resultados en una muestra

Paleta de color divergente: Tema de color que muestra dos rangos de valores de datos que usan dos tonalidades diferentes,
donde la intensidad del color representa la magnitud de los valores

Gráfico de anillos: Visualización de datos en donde los segmentos de un anillo representan valores de datos que se suman
en un conjunto

dplyr (R): Paquete de R en Tidyverse que ofrece un conjunto de funciones uniforme para completar tareas comunes de
manipulación de datos

DROP TABLE: Cláusula de SQL que elimina una tabla temporal de una base de datos
Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Visualizaciones dinámicas: Visualizaciones de datos que son interactivas o cambian a lo largo del tiempo

E
Énfasis: Principio de diseño que consiste en organizar los elementos visuales para centrar la atención del público en la
información importante de una visualización de datos

Captación de interés: Captar la atención de alguien y mantener su interés durante una presentación de datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas

Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver Sesgo del observador)

Datos externos: Datos que se alojan y generan fuera de una organización

F
Factor (R): Objeto que almacena datos de categoría en el que los valores de datos están limitados y generalmente se basan
en un grupo finito, como país o año

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
puede arrastrar a través de las celdas vecinas para seguir una instrucción

Mapa coroplético: Visualización de datos que colorea las áreas en un mapa según las mediciones o las dimensiones

Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otro término

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos

Flotante: Número que contiene un decimal

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Framework: Contexto que necesita una presentación para establecer conexiones lógicas entre la tarea empresarial y las
métricas

FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Función: Comando preestablecido que realiza automáticamente un proceso o tarea específico utilizando los datos de una
hoja de cálculo
Función (R): Contenido de código reutilizable para realizar tareas específicas en R

G
Diagrama de Gantt: Visualización de datos que muestra la duración de los eventos o actividades en una línea de tiempo

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro

Gráfico de calibre: Visualización de datos que muestra un único resultado en un rango de valores progresivo

Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

ggplot2 (R): Paquete de R en Tidyverse que crea diversas visualizaciones de datos aplicando diferentes propiedades visuales
a las variables de datos en R

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

GROUP BY: Cláusula de SQL que agrupa las filas que tienen los mismos valores de una tabla en filas de resumen

H
HAVING: Cláusula de SQL que añade un filtro a una consulta en lugar de la tabla subyacente que solo se puede usar con
funciones de agregado

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Título: Texto en la parte superior de una visualización que comunica los datos que se están presentando

Mapa térmico: Visualización de datos que usa el contraste del color para comparar categorías en un conjunto de datos

Resaltar tabla: Visualización de datos que usa formato condicional y color en una tabla

Histograma: Visualización de datos que muestra con qué frecuencia los valores de los datos se encuadran en ciertos rangos

HTML5: Lenguaje de programación que brinda una estructura para páginas web y conecta a plataformas de hosting

Hipótesis: Teoría que se intenta corroborar o refutar con datos

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados
significativos

I
IDE (Entorno de desarrollo integrado): Aplicación de software que junta todas las herramientas que un analista de datos
puede querer usar en un solo lugar

Datos incompletos: Datos que carecen de campos importantes

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incorrectos/inexactos: Datos que son completos pero inexactos

INNER JOIN: Función de SQL que devuelve registros con valores coincidentes en ambas tablas
Consulta interna: Subconsulta de SQL que está dentro de otra instrucción de SQL

Datos internos: Datos alojados en los sistemas propios de una empresa

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

J
Java: Lenguaje de programación que se usa ampliamente para crear aplicaciones web de empresas que pueden ejecutarse
en múltiples clientes

JOIN: Función de SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada

K
L
Etiqueta: Texto en una visualización que identifica un valor o describe una escala

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta

LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEFT JOIN: Función de SQL que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla
derecha

Leyenda: Herramienta que identifica el significado de diversos elementos en una visualización de datos

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Longitud: Número de caracteres en una cadena de texto

Biblioteca: Directorio que contiene todos los paquetes instalados de un analista de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta

Gráfico de líneas: Visualización de datos que usa una o más líneas para mostrar cambios o variaciones en los datos a lo
largo del tiempo

Lista: Vector con elementos que pueden ser de cualquier tipo

Datos en tiempo real: Datos que se actualizan automáticamente

Operador lógico: Operador que devuelve un tipo de datos lógico

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema
tiene datos en varias filas

M
Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Mapa: Visualización de datos que organiza los datos geográficamente

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real
Marca: Objeto visual en una visualización de datos, como un punto, una línea o una forma

MATCH: Función de la hoja de cálculo que se usa para ubicar la posición de un valor de búsqueda específico

Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Función matemática: Función que se utiliza como parte de una fórmula matemática

Matriz: Conjunto bidimensional de elementos de datos con filas y columnas

MAX: Función de la hoja de cálculo que muestra el resultado del valor numérico más alto de un rango de celdas

MAXIFS: Función de la hoja de cálculo que devuelve el valor máximo de un determinado rango que cumple una condición
especificada

Método McCandless: Método que se utiliza para presentar visualizaciones de datos y que pasa de la información general a
la específica

Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Modelo mental: Proceso de pensamiento del analista de datos y enfoque a un problema

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer,
tanto en el campo profesional como en el personal

Fusión: Acuerdo que une dos organizaciones en una organización nueva

Metadatos: Datos sobre los datos

Repositorio de metadatos: Base de datos creada para almacenar metadatos

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

MINIFS: Función de la hoja de cálculo que devuelve el valor mínimo de un rango determinado que cumple una condición
especificada

Módulo: Operador (%) que devuelve el resto cuando se divide un número por otro

Movimiento: Principio de diseño que consiste en organizar los elementos visuales para guiar la atención del público de una
parte de una visualización de datos a otra

N
Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Narrativa: (Ver Historia)

Anidado: Código que realiza una función particular y está contenido dentro de código que realiza una función más amplia

Función anidada: Función que está contenida completamente dentro de otra función

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Observación: Atributos que describen los datos contenidos en la fila de una tabla

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Datos abiertos: Datos que están disponibles para el público

Código abierto: Código que está libremente disponible y puede ser modificado y compartido por las personas que lo usan

Apertura: Aspecto de la ética de datos que promueve el acceso libre, el uso y el uso compartido de los datos

Operador: Símbolo que designa la operación o cálculo a realizarse

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el
que deben realizarse las operaciones

Datos ordinales: Datos cualitativos con un orden o escala establecidos

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

OUTER JOIN: Función de SQL que combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas
tablas

Consulta externa: Instrucción de SQL que contiene una subconsulta

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido

P
Paquete (R): Una unidad de código R reproducible

Gráfico de burbujas agrupadas: Visualización de datos que muestra los datos en círculos agrupados

Patrón: Principio de diseño que usa elementos visuales similares para demostrar tendencias y relaciones en una
visualización de datos

PHP (preprocesador de hipertexto): Lenguaje de programación para el desarrollo de aplicaciones web

Gráfico circular: Visualización de datos que usa segmentos de un círculo para representar las proporciones de cada
categoría de datos en comparación con el total

Canalización (R): Herramienta en R para expresar una secuencia de varias operaciones, representadas por “%>%”

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos
Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Portfolio: Conjunto de materiales que puede compartirse con empleadores potenciales

Atributos preatencionales: Elementos de una visualización de datos que las personas reconocen automáticamente sin
hacer un esfuerzo consciente

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
clave externa)

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Margen de beneficio: Porcentaje que indica cuántos centavos de ganancia se generaron por cada dólar de venta

Lenguaje de programación: Sistema de palabras y símbolos usados para escribir instrucciones que las computadoras siguen

Proporción: Principio de diseño que consiste en usar el tamaño relativo y la disposición de los elementos visuales para
mostrar la información en una visualización de datos

Python: Lenguaje de programación de uso general

Q
Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Consulta: Solicitud de datos o información de una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

R
R: Lenguaje de programación que se usa para análisis estadísticos, visualización y análisis de datos

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Rango: Conjunto de dos o más celdas en una hoja de cálculo

Clasificación: Sistema para ubicar valores de un conjunto de datos en una escala de logro o estado

readr (R): Paquete de R en Tidyverse usado para importar datos

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones
Relatividad: Proceso de considerar las observaciones en relación con o en proporción a algo más

Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Quitar duplicados: Herramienta de la hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

Repetición: Principio de diseño que consiste en repetir elementos visuales para demostrar el significado en una
visualización de datos

Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una
inversión

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

Ritmo: Principio de diseño que consiste en crear movimiento y fluidez en una visualización de datos para captar la atención
de una audiencia

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

RIGHT JOIN: Función de SQL que devuelve todos los registros de la tabla derecha y solo los registros coincidentes de la
izquierda

Causa raíz: Razón por la que ocurre un problema

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales.

Ruby: Lenguaje de programación orientado a objetos para el desarrollo de aplicaciones web

S
Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se
trabaja con una muestra que no representa a la población en su totalidad

Diagrama de dispersión: Visualización de datos que representa relaciones entre las diferentes variables con puntos de
datos individuales sin una línea de conexión

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

SELECT INTO: Cláusula de SQL que copia datos de una tabla a una tabla temporal sin añadir la nueva tabla a la base de datos

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Rango de ordenación: Función del menú de la hoja de cálculo que ordena un rango especificado y preserva las celdas que
no están incluidas en ese rango

Ordenar hoja: Función del menú de la hoja de cálculo que ordena todos los datos por la clasificación de una columna
específica ordenada y mantiene los datos juntos a través de las filas

Ordenación: Proceso de organizar los datos en un orden significativo para que sean más fáciles de entender, analizar y
visualizar

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí

SPLIT: Función de la hoja de cálculo que divide el texto en base a un carácter específico y ubica cada fragmento en una
nueva celda separada

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Poner de relieve: Explorar los datos para identificar rápidamente la información más importante

Hoja de cálculo: Hoja de cálculo digital

SQL: (Ver Lenguaje de consulta estructurado)

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Datos estáticos: Datos que no cambian una vez que se registraron

Visualización estática: Visualización de datos que no cambia a lo largo del tiempo a menos que se edite

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria

Estadísticas: El estudio de cómo recopilar, analizar, resumir y presentar datos

Historia: Narrativa de una presentación de datos que la hace significativa e interesante

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina
tipo de datos de texto)

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

Subconsulta: Consulta de SQL anidada dentro de una consulta más grande

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

Subcadena: Subconjunto de una cadena de texto

Subtítulo: Texto que complementa al título al indicar el contexto y la descripción

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas
SUMIF: Función de una hoja de cálculo que suma datos numéricos basados en una condición

Tabla de resumen: Tabla que se usa para resumir información estadística sobre los datos

SUMPRODUCT: Función que multiplica las matrices y muestra el resultado de la suma de esos productos

Swift: Lenguaje de programación para macOS, iOS, watchOS y tvOS

Mapa de símbolos: Visualización de datos que muestra una marca sobre una determinada longitud y latitud

Sintaxis: Estructura predeterminada de un lenguaje que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación

T
Tableau: Plataforma de inteligencia de negocios y análisis que ayuda a las personas a visualizar y comprender datos, y a
tomar decisiones basadas en los datos

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica

Tabla temporal: Tabla de una base de datos que se crea y existe temporalmente en el servidor de una base de datos

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo
de datos de cadena)

Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Datos de terceros: Datos proporcionados por fuentes externas que no los recopilaron de forma directa

tidyr (R): Paquete de R en Tidyverse usado para limpieza de datos para generar datos ordenados

Tidyverse (R): Sistema de paquetes en R con una filosofía de diseño en común para la manipulación, exploración y
visualización de datos

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Conversión de tipos: Convertir datos de un tipo en otro

U
Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un
todo

Guiones bajos: Líneas utilizadas para subrayar palabras y conectar caracteres de texto

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente

Único: Valor que no puede tener un duplicado


Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Unidad: Principio de diseño que consiste en usar elementos visuales que se complementan entre sí para crear un atractivo
estético y claridad en la visualización de datos

Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos

V
Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

VALUE: Función de la hoja de cálculo que convierte una cadena de texto que representa un número en un valor numérico

Variable (R): Representación de un valor en R que puede almacenarse para uso posterior

Variedad: Principio de diseño que consiste en usar diferentes tipos de elementos visuales en una visualización de datos para
captar la atención del público

Vector (R): Grupo de elementos de datos del mismo tipo almacenados en una secuencia unidimensional en R

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos
resultantes son precisos y confiables

Archivo de video: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido como por ejemplo MP4, MV4, MOV, AVI o FLV

Vignette (R): Documentación para un paquete en R que describe el problema que el paquete está diseñado para resolver,
explica cómo pueden usarse sus funciones y enumera cualquier dependencia de otros paquetes

Formato visual: Apariencia de la visualización de datos que les aporta una estructura y un atractivo estético

Visualización: (Ver Visualización de datos)

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

WITH: Cláusula de SQL que crea una tabla temporal que se puede consultar muchas veces

Organización Mundial de la Salud: Organización cuya función principal es la de dirigir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas

X
Eje X: Línea horizontal de un gráfico que suele situarse en la parte inferior y, a menudo, se usa para representar escalas de
tiempo y categorías puntuales
Y
Eje Y: Línea vertical de un gráfico que suele situarse a la izquierda y, a menudo, se usa para representar frecuencias y otras
variables numéricas

Z
1.
Pregunta 1

Un analista de datos asigna una variable a un valor en el conjunto de datos de ventas de su empresa para el año
2020. ¿Qué nombre de variable utiliza la sintaxis correcta?
1 / 1 punto

 -ventas-2020
 2020_ventas
 ventas_2020
 _2020ventas
Correcto

La variable con la sintaxis correcta es ventas_2020. Un nombre de variable en R puede incluir números y guiones
bajos también, pero no como primer carácter.
2.
Pregunta 2

Quieres crear un vector con los valores 21, 12, 39 en ese orden exacto. Después de especificar la variable, ¿qué
bloque de código en R te permite crear el vector?
1 / 1 punto

 v(21, 12, 39)


 c(39, 12, 21)
 c(21, 12, 39)
 v(39, 12, 21)
Correcto

El bloque de código c(21,12, 39) te permite crear un vector con los valores 21, 12, 39. Un vector es un grupo de
elementos de datos del mismo tipo almacenados en una secuencia en R. Puedes crear un vector colocando los
valores que desees entre paréntesis de la función combine (combinar).
3.
Pregunta 3

Si utilizas la función mdy() en R para convertir la cadena “10 de abril de 2019”, ¿qué obtendrás cuando ejecutes el
código?
1 / 1 punto

 “4/10/2019”
 “2019-10-4”
 “2019-04-10”
 “4.10.19”
Correcto

Si utilizas la función mdy() en R para convertir la cadena “10 de abril de 2019”, obtendrás el valor “2019-04-10”. La
función mdy() y otras variantes de la función ymd() convierten las fechas y horas en cadena en tipos de datos de
fecha/hora.
4.
Pregunta 4

Un analista de datos desea asignar un valor de 50 a la variable dosis_diaria. ¿Cuál de los siguientes tipos de
operadores necesitará para escribir ese código?
1 / 1 punto

 Asignación
 Aritmético
 Lógico
 Relacional
Correcto

El analista puede utilizar el operador de asignación para escribir el siguiente código: dosis_diaria <- 50. En este
código, el operador de asignación <- se utiliza para asignar un valor de 50 a la variable dosis_diaria.
5.
Pregunta 5

¿Cuáles de los siguientes archivos en R tienen nombres que respetan las reglas de nomenclatura ampliamente
aceptadas? Selecciona todas las opciones que correspondan.
0.75 / 1 punto

 paciente_detalles_1.R
 p1+infodepacientes.R
 título*123.R
 paciente_datos.R
Correcto

Los archivos con nombres que respetan las reglas de nomenclatura ampliamente aceptadas son paciente_datos.R y
paciente_detalles_1.R. Estos nombres de archivos terminan en .R y solo utilizan minúsculas, números y guiones
bajos. Son también claros, concisos y tienen un significado.

6.
Pregunta 6

Los paquetes de R incluyen conjuntos de datos de muestra. También incluyen funciones de R reutilizables y
documentación sobre cómo utilizar esas funciones.
1 / 1 punto

Verdadero
Falso
Correcto

Los paquetes de R incluyen conjuntos de datos de muestra. También incluyen funciones de R reutilizables y
documentación sobre cómo utilizar esas funciones y pruebas para comprobar el código.
7.
Pregunta 7

Cuando un analista instala un paquete que no se encuentra en Base R, ¿desde dónde llama R al paquete?
1 / 1 punto

El tidyverse
El archivo CRAN
Python
El sitio de RStudio
Correcto

Cuando un analista instala un paquete que no se encuentra en Base R, R llama al paquete desde el archivo CRAN.
CRAN es un archivo en línea con paquetes y otros recursos relacionados con R.
8.
Pregunta 8

Un analista de datos está revisando algunos códigos y encuentra el siguiente bloque de código: mtcars %>%
filter(carb > 1) %>% group_by(cyl) %>% ¿De qué es ejemplo este código?
1 / 1 punto

Vector
Canalización
Marco de datos
Función anidada
Correcto

El bloque de código es un ejemplo de canalización. Una canalización es una herramienta para expresar una
secuencia de múltiples operaciones en R (en este caso, filtrar y agrupar). El operador para una canalización es %>%.
MODULO 3:
Explorar datos y R
Datos en R
Hola, es genial tenerte de vuelta. Ahora que ya conoces R y has programado con este lenguaje, conozcamos otras formas de
usar R durante nuestro proceso de análisis. Comenzaremos por aprender más sobre los marcos de datos y cómo usarlos, y,
luego, exploraremos cómo trabajar con nuestros datos de diferentes maneras usando paquetes de tidyverse. Después,
veremos cómo comprobar el sesgo en R. La comunidad de R me ha ayudado mucho a crecer como analista de datos,
especialmente en materia de procesos, como la limpieza de datos. R ayuda a limpiar de manera más eficiente y puedo
recurrir a una comunidad de usuarios para aprender cómo limpiaron datos similares. Poder compartir conocimientos de R y
revisar códigos mejoró muchísimo mi trabajo. Me encanta poder mostrarte nuevas formas de trabajar con R y aprovechar
más tus datos. Anteriormente, mencioné que aprender R iba a ser divertido. Llegó el momento de aprovechar todo lo que
aprendimos hasta ahora y ponerlo en práctica. Cuando estés listo, puedes avanzar con el siguiente video. Nos vemos
pronto.

Marcos de datos de R
Hola, bienvenido nuevamente. Antes de que podamos empezar a limpiar y organizar nuestros datos o incluso comprobar el
sesgo, necesitamos transformar nuestros datos en un formato utilizable. Aquí es donde aparecen los marcos de datos.
Quizás recuerdes que ya hablamos un poco sobre los marcos de datos. En este video, aprenderemos más sobre qué son los
marcos de datos y cómo puedes usarlos. ¡Empecemos! Pero, primero, hablemos de qué es un marco de datos. Un marco de
datos es un conjunto de columnas. Se parece mucho a una hoja de cálculo o una tabla de SQL. Aquí hay un ejemplo de un
marco de datos en R. Se parece mucho a otras tablas con las que hemos trabajado a lo largo de este programa. Hay
nombres de columnas y filas y celdas con datos. Las columnas contienen una variable, y las filas tienen un conjunto de
valores que coinciden con cada columna. Usamos los marcos de datos para muchas de las mismas razones por las que
usamos las tablas. Ayudan a resumir los datos y ponerlos en un formato que sea fácil de leer y usar. Hay que conocer
algunas cosas sobre los marcos de datos antes de trabajar con ello. Aprenderemos más acerca de los marcos de datos a lo
largo de este programa, pero este es un excelente punto de partida. Primero, se debe asignar un nombre a las columnas.
Usar columnas sin nombre puede ocasionar problemas con los resultados más adelante.

Reproduce el video desde :1:30 y sigue la transcripción1:30

Piensa en nuestro ejemplo anterior. A cada una de las columnas se les asigna un nombre según la variable que representan.
Tenemos quilate, corte, color, claridad, profundidad. Todas estas columnas representan datos sobre los diamantes. Después,
es importante saber que los datos almacenados en tu marco de datos pueden ser de diferentes tipos, por ejemplo,
números, factores o caracteres. Los marcos de datos suelen contener fechas, marcas de tiempo y vectores lógicos. Por
último, cada columna debe contener el mismo número de elementos de datos, aún si faltan algunos de esos elementos de
datos. Los marcos de datos son fundamentales.

Reproduce el video desde :2:15 y sigue la transcripción2:15

Ahora, hablemos de los tibbles. En tidyverse, los tibbles son como marcos de datos optimizados. Facilitan el manejo con los
datos, pero difieren un poco de los marcos de datos estándar. Primero, los tibbles nunca cambian los tipos de datos de las
entradas. No cambiarán tus cadenas a factores ni a ninguna otra cosa. Puedes hacer más cambios en los marcos de datos
básicos, pero los tibbles son más fáciles de usar. Esto ahorra tiempo porque ya no tendrás que hacer tanta limpieza o
cambiar los tipos de datos en tibbles. Además, los tibbles nunca cambian los nombres de tus variables, y nunca crean
nombres de filas.

Por último, los tibbles facilitan la impresión en R. No sobrecargarán accidentalmente tu consola porque están configurados
en forma automática para extraer solo las primeras 10 filas y tantas columnas como quepan en la pantalla. Son muy útiles
cuando estás trabajando con grandes conjuntos de datos. Los marcos de datos y los tibbles son los componentes esenciales
para el análisis en R, por eso es muy importante establecer estándares para la forma de crearlos y manejarlos. Si todos
tenemos la misma comprensión sobre qué es un marco de datos, podemos comunicarnos más eficazmente. Es como si
todos habláramos el mismo idioma. También es mucho más práctico. Necesitamos aprender a hacer cosas como definir
columnas y revisar códigos fácilmente en R. Estas características facilitan el uso compartido de tus datos y la reproducción
de tus análisis.

Reproduce el video desde :3:49 y sigue la transcripción3:49

Las estructuras de datos coherentes, como los marcos de datos, optimizan el manejo de todo un conjunto de datos. Los
datos ordenados se refieren a los principios que hacen que las estructuras de datos tengan sentido y sean fáciles de
entender. Es una forma de estandarizar la organización de los datos en R. Estos estándares son bastante directos. Las
variables se organizan en columnas. Las observaciones se organizan en filas y cada valor debe tener su propia celda. Ahora
que conoces un poco más acerca de los marcos de datos, empecemos a usarlos. Próximamente, te enseñaré cómo crear
marcos de datos, agregarles datos y ampliarlos. Hasta pronto.

Pregunta
Completa el espacio en blanco: El marco de datos es un conjunto de _____.
datos
columnas
tibbles
celdas
Correcto
Un marco de datos es un conjunto de columnas. Es similar a una tabla en hojas de cálculo o SQL.

Pregunta
¿Cuáles de los siguientes son estándares de datos ordenados? Selecciona todas las opciones que correspondan.
 Cada variable tiene su propia celda
Correcto
Las variables se organizan en columnas, las observaciones en filas y cada valor debe tener su propia celda.
 Las variables se organizan en columnas.
Correcto
Las variables se organizan en columnas, las observaciones en filas y cada valor debe tener su propia celda.
 Las observaciones se organizan en filas
Correcto
Las variables se organizan en columnas, las observaciones en filas y cada valor debe tener su propia celda.
 Se asigna nombre a las columnas

Trabajar con marcos de datos


¡Hola! Anteriormente, aprendimos sobre los marcos de datos y sus características principales. Ahora vamos a empezar a
trabajar con ellos. Como analista de datos, gran parte de tu trabajo dependerá de los marcos de datos. Si no creas un marco
de datos, tu capacidad de trabajar con datos será limitada. Piensa en las hojas de cálculo. Esa estructura básica de columnas
y filas se traslada a R. Los marcos de datos son básicamente la forma predeterminada que usa el analista de datos para
interactuar con los datos. Por eso es tan importante saber cómo crear y trabajar con marcos de datos. Veamos un ejemplo.
Aquí usaremos los marcos de datos integrados de R. Una de las grandes ventajas de R y de los paquetes en R es que hay un
montón de conjuntos de datos interesantes y de fácil acceso ya incorporados. Son los conjuntos de datos con los que
practicas algunas de las herramientas que hemos estado aprendiendo.

Reproduce el video desde ::56 y sigue la transcripción0:56

Abramos RStudio y empecemos.

Reproduce el video desde :1: y sigue la transcripción1:00

Usaremos un conjunto de datos precargado con información sobre diamantes. Este conjunto de datos forma parte del
paquete ggplot2 en tidyverse.
Así que asegúrate de cargar primero ggplot2. Más adelante también aprenderemos cómo cargar nuestros conjuntos de
datos. Pero los diamantes es un buen conjunto de datos para practicar.

Reproduce el video desde :1:36 y sigue la transcripción1:36

Podemos cargar estos datos ahora usando el paréntesis de apertura y de cierre. Quizás notes que cuando empiezas a
escribir “<i>diamonds</i>”, RStudio te ofrece la opción de seleccionar desde un menú desplegable. Eso se debe a que este
conjunto de datos ya existe en nuestra biblioteca. Bien, ahora agreguemos este marco de datos a nuestro visor de datos.

Hay 10 columnas y 100 filas en este marco de


datos, pero tal vez no queramos verlos todos. Podemos usar la función <i>head</i> para que nos muestre solo las primeras
seis filas. Esta es una buena vista previa de todo el conjunto de datos. Imprimir accidentalmente todo el marco de datos a la
consola puede ser molesto y llevar mucho tiempo para completar la operación. Puedes evitar imprimir el marco de datos
completo usando funciones como <i>head</i> para obtener una vista previa rápida.
También podemos obtener la estructura del marco de datos con funciones como <i>str()</i> y <i>colnames()</i>. Estas son
solo dos funciones que puedes usar para corroborar tus datos. Más adelante exploraremos otras funciones, como
<i>glimpse</i>. Por ejemplo, podríamos usar la función <i>structure </i>para resaltar la estructura de este marco de datos.

Esto nos aporta información de alto nivel como los nombres de las columnas y el tipo de datos dentro de esas columnas.
Pero si solo queremos saber los nombres de las columnas, podemos usar <i>colnames</i>, en su lugar.

Aquí tenemos
quilate, corte, color, claridad, profundidad: todas las columnas incluidas en este conjunto de datos. También podemos usar
la función <i>mutate </i>para hacer cambios en nuestro marco de datos. La función <i>mutate</i> forma parte del
paquete dplyr que está en tidyverse. Entonces, tendrás que cargar la biblioteca tidyverse antes de probar la función
<i>mutate</i>. Primero agreguemos una nueva columna. Todo lo que tenemos que hacer es ingresar <i>mutate</i> y luego
indicarle a R que queremos agregar una nueva columna al marco de datos de diamantes. Primero escribiremos <i>mutate
</i>seguido por el nombre del marco de datos que queremos cambiar. Luego agregaremos una columna y el nombre de la
nueva columna que queremos crear.

Después queremos calcular esta nueva columna. En este caso, para facilitar la lectura de la columna <i>quilate</i>, lo
multiplicaremos por 100 para crear una nueva columna <i>carat_2</i>. Y, luego, cuando ejecutemos esto, inmediatamente
nuestro marco de datos tendrá una nueva columna. No perderás ninguna columna cuando crees la nueva.

El resto del marco de datos seguirá igual. Los marcos de datos suelen ser el punto de partida para analizar datos en R. Por
eso, es importante comprender las características de los marcos de datos y cómo crearlos. ¡Excelente trabajo y nos vemos
pronto!

Pregunta
¿Qué función de R debes usar si deseas obtener una vista previa de solo las seis primeras filas de un marco de
datos?
str()
mutate()
head()
colnames()
Correcto
La función head() brinda una vista previa de las seis primeras filas de un marco de datos. Esto es útil si quieres
comprobar rápidamente los datos, pero no quieres imprimir todo el marco de datos.

1.
Pregunta 1

Resumen de la actividad

Anteriormente aprendiste sobre los marcos de datos. En esta actividad, crearás y usarás marcos de datos en R.

Como repaso, un marco de datos es un conjunto de columnas que contienen datos, que es similar a una hoja de
cálculo o una tabla de SQL. Los marcos de datos son una de las herramientas básicas que usarás para trabajar con
datos en R; y puedes crear marcos de datos a partir de distintas fuentes de datos.

Cuando completes esta actividad, podrás crear marcos de datos con la función data.frame() y usar marcos de datos
para completar tareas en R. Esto te permitirá resumir y organizar los datos en R, lo que te ayudará a dar más
estructura a tus análisis en R a medida que completes tareas de análisis de datos más avanzadas.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta de RStudio Cloud y abre el proyecto con este enlace. Navega al explorador
de archivos que se encuentra abajo, a la derecha, y haz clic en lo siguiente: Course 7 -> Week 3 ->
Lesson2_Dataframe.Rmd.

Si tienes dificultades para encontrar la actividad correcta, consulta esta guía paso a paso sobre cómo navegar en
RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos Rmd se utilizarán
en otras actividades.

Si estás utilizando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

Hands-On Activity- Create your own data frame1_SPA

TXT File

Hands-On Activity- Create your own data frame2_SPA

CSV File

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:

Hands-On Activity- Create your own data frame3_SPA

TXT File
Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como ejecutar un código escrito previamente, mientras que otros pueden requerir que
escribas tus propias funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu
trabajo está completo.

Confirmación

¿Qué funciones de resumen puedes utilizar para obtener una vista previa de los marcos de datos en R? Selecciona
todas las opciones que correspondan.
1 / 1 punto

 head()
Correcto

Las funciones de resumen head(), glimpse() y str() permiten obtener una vista previa de los marcos de datos en R. La
función head() devuelve las columnas y las primeras filas de datos. La función mutate() permite cambiar el marco de
datos, pero no obtener una vista previa. En adelante, podrás utilizar funciones de resumen para inspeccionar los
marcos de datos que crees en tu carrera como analista de datos.
 str()
Correcto

Las funciones de resumen head(), glimpse() y str() permiten obtener una vista previa de los marcos de datos en R. La
función head() devuelve las columnas y las primeras filas de datos. La función mutate() permite cambiar el marco de
datos, pero no obtener una vista previa. En adelante, podrás utilizar funciones de resumen para inspeccionar los
marcos de datos que crees en tu carrera como analista de datos.
 glimpse()
Correcto

Las funciones de resumen head(), glimpse() y str() permiten obtener una vista previa de los marcos de datos en R. La
función head() devuelve las columnas y las primeras filas de datos. La función mutate() permite cambiar el marco de
datos, pero no obtener una vista previa. En adelante, podrás utilizar funciones de resumen para inspeccionar los
marcos de datos que crees en tu carrera como analista de datos.
 mutate()

Más sobre los tibbles


En esta lectura, aprenderás sobre los tibbles, que son una herramienta muy útil para organizar los datos en R.
Obtendrás un repaso de lo que son los tibbles, en qué se diferencian de los marcos de datos estándar, y cómo
crearlos en R.

Tibbles

Los tibbles difieren un poco de los marcos de datos estándar. Un marco de datos es un conjunto de columnas, como
una hoja de cálculo o una tabla SQL. Los tibbles son como marcos de datos simplificados que se configuran
automáticamente para mostrar solo las 10 primeras filas de un conjunto de datos, y solo tantas columnas como
puedan caber en la pantalla. Son muy útiles cuando estás trabajando con grandes conjuntos de datos. A diferencia de
los marcos de datos, los tibbles nunca cambian los nombres de las variables, ni los tipos de datos de las entradas. En
general, puedes hacer más cambios en los marcos de datos básicos, pero los tibbles son más fáciles de usar. El
paquete tibble forma parte del núcleo de tidyverse. Así que, si ya instalaste tidyverse, tienes lo que necesitas para
empezar a trabajar con tibbles.
Creación de tibbles
Ahora, vamos a ver un ejemplo de cómo crear un tibble en R. Puedes usar el conjunto de datos sobre diamantes
llamado diamonds precargado y con el cual estás familiarizado de los vídeos anteriores. Como recordatorio, el
conjunto de datos diamonds incluye información sobre diferentes cualidades de los diamantes, como quilates, corte,
color, claridad, etc.

Puedes cargar el conjunto de datos con la función data() usando el siguiente código:

library(tidyverse)

data(diamonds)

A continuación, vamos a agregar el marco de datos a nuestro visor de datos en RStudio con la función View().

View(diamonds)

El conjunto de datos tiene 10 columnas y miles de filas. Esta imagen muestra parte del marco de datos:

Ahora vamos a crear un tibble a partir del mismo conjunto de datos. Puedes crear un tibble a partir de datos existentes
con la función as_tibble(). Indica los datos que deseas usar en el paréntesis de la función. En este caso, escribirás la
palabra "diamonds".

as_tibble(diamonds)

Resultados
Cuando se ejecuta la función, se obtiene un tibble del conjunto de datos diamonds.
Mientras que la herramienta integrada de marco de datos de RStudio devuelve miles de filas en el conjunto de datos
diamonds, el tibble solo devuelve las 10 primeras filas en una tabla bien organizada. Esto lo hace más fácil para ver e
imprimir.

Recursos adicionales
Para más información sobre los tibbles, consulta los siguientes recursos:

 La entrada para Tibble en la documentación de tidyverse resume qué es un tibble y cómo funciona en código
R. Si quieres un resumen rápido de lo esencial, este es el lugar adonde debes ir.
 El capítulo Tidy en "A Tidyverse Cookbook" es un gran recurso si quieres aprender más sobre cómo trabajar
con tibbles usando el código R. El capítulo explora una variedad de funciones de R que pueden ayudarte a
crear y transformar tibbles para organizar y ordenar tus datos.

Conceptos básicos de la importación de datos


Puedes guardar esta lectura para consultarla en el futuro. Ten en cuenta que puedes descargar una versión en
PDF de esta lectura a continuación:

DAC7M3L1R2_ATTACHMENT_SPA

DOCX File

La función data()

La instalación predeterminada de R viene con un número de conjuntos de datos precargados con los que puedes
practicar. Esta es una excelente manera de desarrollar tus habilidades en R y aprender algunas funciones
importantes sobre el análisis de datos. Además, muchos recursos y tutoriales en línea utilizan estos conjuntos de
datos de muestra para enseñar conceptos de codificación en R.
Puedes usar la función data() para cargar estos conjuntos de datos en R. Si ejecutas la función data sin un
argumento, R mostrará una lista de los conjuntos de datos disponibles.

data()

Incluye la lista de conjuntos de datos precargados del paquete de conjuntos de datos (datasets).

Si deseas cargar un conjunto de datos específico, solo tienes que introducir su nombre en el paréntesis de la
función data(). Por ejemplo, carguemos el conjunto de datos mtcars, que contiene información sobre los
automóviles que aparecieron en números anteriores de la revista Motor Trend.

data(mtcars)

Cuando ejecutes la función, R cargará el conjunto de datos. El conjunto de datos también aparecerá en el panel
Entorno de tu RStudio. El panel Entorno muestra los nombres de los objetos de datos, por ejemplo, marcos de
datos y variables, que tienes en tu espacio de trabajo actual. En esta imagen, mtcars aparece en la quinta fila del
panel. R nos dice que contiene 32 observaciones y 11 variables.

Ahora que el conjunto de datos está cargado, puedes obtener una vista previa del mismo en el panel de la consola
de R. Solo tienes que escribir su nombre...

mtcars
...y luego presionar ctrl (o cmnd) y la tecla Enter.

También puedes ver el conjunto de datos haciendo clic directamente sobre el nombre del conjunto de datos en el
panel Entorno. Así, si haces clic en mtcars en el panel Entorno, R ejecuta automáticamente la función View() y
muestra el conjunto de datos en el visor de datos de RStudio.

Intenta experimentar con otros conjuntos de datos de la lista si quieres practicar un poco más.

El paquete readr
Además de usar los conjuntos de datos integrados de R, también es útil importar datos de otras fuentes para
utilizarlos en la práctica o en el análisis. El paquete readr en R es una excelente herramienta para leer datos
rectangulares. Los datos rectangulares son datos que encajan perfectamente en un rectángulo de filas y columnas,
en el que cada columna se refiere a una única variable y cada fila a una única observación.

Estos son algunos ejemplos de tipos de archivos que almacenan datos rectangulares:

 .csv (valores separados por comas): Un archivo .csv es un archivo de texto sin formato que contiene una
lista de datos. La mayoría de las veces usan comas para separar (o delimitar) los datos, pero a veces utilizan
otros caracteres, como el punto y coma.
 .tsv (valores separados por tabulaciones): Un archivo .tsv almacena una tabla de datos en la que las
columnas de datos están separadas por tabulaciones. Por ejemplo, una tabla de una base de datos o datos de
una hoja de cálculo.
 .fwf (archivos de ancho fijo): Un archivo .fwf tiene un formato específico que permite guardar datos
textuales de forma organizada.
 .log: Un archivo .log es un archivo generado por computadora que registra eventos de sistemas operativos
y otros programas de software.
Base R también tiene funciones para leer archivos, pero las funciones equivalentes en readr suelen ser mucho más
rápidas. Además, producen tibbles, que son fáciles de usar y leer.

El paquete readr forma parte del núcleo de tidyverse. Así que, si ya instalaste tidyverse, tienes lo que necesitas
para empezar a trabajar con readr. Si no lo has hecho, puedes instalar tidyverse ahora.

Funciones readr
El objetivo de readr es proporcionar una forma rápida y amigable de leer datos rectangulares. La función readr
soporta varias funciones read_ . Cada función se refiere a un formato específico de archivo.

 read_csv(): Archivos de valores separados por comas (.csv)


 read_tsv(): Archivos de valores separados por tabuladores
 read_delim(): Archivos delimitados en general
 read_fwf(): Archivos de ancho fijo
 read_table(): Archivos tabulares cuyas columnas están separadas por espacios en blanco
 read_log(): Archivos de registro de la web
Todas estas funciones tienen una sintaxis similar, por lo que una vez que aprendes a usar una de ellas, podrás
aplicar tus conocimientos a las demás. Esta lectura se centrará en la función read_csv(), ya que los archivos .csv
son una de las formas más comunes de almacenamiento de datos y trabajarás con ellos frecuentemente.

En la mayoría de los casos, estas funciones funcionarán de forma automática: provees la ruta de acceso a un
archivo, ejecutas la función y obtienes un tibble que muestra los datos del archivo. Detrás de escena, readr analiza
todo el archivo y especifica cómo debe convertirse cada columna de un vector de caracteres al tipo de datos más
apropiado.

Leer un archivo csv con readr


El paquete readr viene con algunos archivos de muestra de conjuntos de datos integrados que puedes usar para el
código de ejemplo. Para enumerar los archivos de muestra, puedes ejecutar la función readr_example() sin
argumentos.

readr_example()

[1] "challenge.csv" "epa78.txt" "example.log"

[4] "fwf-sample.txt" "massey-rating.txt" "mtcars.csv"

[7] "mtcars.csv.bz2" "mtcars.csv.zip"

El archivo “mtcars.csv” hace referencia al conjunto de datos mtcars mencionado anteriormente. Usemos la
función read_csv() para leer el archivo “mtcars.csv” como ejemplo. En el paréntesis, debes indicar la ruta del
archivo. En este caso es “readr_example(“mtcars.csv”).

read_csv(readr_example("mtcars.csv"))

Cuando ejecutas la función, R imprime una especificación de columna que da el nombre y el tipo de cada
columna.
R también imprime un tibble.

------------------------------------------------------------------------------------------------------

Opcional: el paquete readxl


Para importar datos de hojas de cálculo a R, puedes utilizar el paquete readxl. El paquete readxl facilita la
transferencia de datos de Excel a R. Readxl admite tanto el formato de archivo .xls heredado como el moderno
formato de archivo .xlsx basado en xml.

El paquete readxl forma parte de tidyverse, pero no es un paquete núcleo de tidyverse, por lo que es necesario
cargar readxl en R mediante el uso de la función library().

library(readxl)

Leer un archivo csv con readxl


Igual que el paquete readr, el paquete readxl viene con algunos archivos de muestra de conjuntos de datos
integrados que puedes usar para practicar. Puedes ejecutar el código readxl_example() para ver la lista.
Puedes utilizar la función read_excel() para leer un archivo de hoja de cálculo al igual que usaste la función
read_csv() para leer un archivo .csv. El código para leer el archivo de ejemplo “type-me.xlsx” incluye la ruta del
archivo en el paréntesis de la función.

read_excel(readxl_example("type-me.xlsx"))

Puedes usar la función excel_sheets() para listar los nombres de las hojas individuales.

excel_sheets(readxl_example("type-me.xlsx"))

[1] "logical_coercion" "numeric_coercion" "date_coercion" "text_coercion"

También puedes especificar una hoja por nombre o número. Basta con escribi “sheet =” seguido del nombre o
número de la hoja. Por ejemplo, puedes usar la hoja denominada “numeric_coercion” de la lista anterior.

read_excel(readxl_example("type-me.xlsx"), sheet = "numeric_coercion")

Cuando se ejecuta la función, R devuelve un tibble de la hoja.

Recursos adicionales
 Si quieres aprender a usar las funciones de readr para trabajar con archivos más complejos, consulta el
capítulo Importación de datos en R del libro Ciencia de análisis de datos. Explora algunos de los problemas
comunes que puedes encontrar al leer archivos, y cómo usar readr para solucionarlos.
 La entrada de readxl en la documentación de tidyverse ofrece una buena descripción general de las
funciones básicas de readxl, proporciona una explicación detallada de cómo funciona el paquete y los
conceptos de codificación ocultos, y ofrece enlaces a otros recursos útiles.
 El paquete "datasets" de R contiene muchos conjuntos de datos útiles precargados. Consulta El paquete de
conjunto de datos de R para obtener una lista. La lista incluye enlaces a descripciones detalladas de cada
conjunto de datos.

1.
Pregunta 1

Resumen de la actividad
A esta altura, ya tienes experiencia en ingresar datos manualmente en R para crear un marco de datos. En esta
actividad, importarás datos desde fuera de R usando la función read_csv(), y luego usarás funciones de R para
manipular e interactuar con esos datos.

Al completar esta actividad, podrás importar los datos a RStudio para poder analizarlos. Esto te permitirá traer tus
propios archivos .csv a RStudio y utilizar este entorno para proyectos personales, lo que te ayudará a perfeccionar tus
destrezas con los datos. Como analista de datos, también será habitual que importes datos de archivos externos a tu
consola de R y los utilices para crear un marco de datos para analizarlos.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta de RStudio Cloud y abre el proyecto con este enlace. Navega al explorador
de archivos que se encuentra abajo, a la derecha, y haz clic en lo siguiente: Course 7 -> Week 3 ->
Lesson2_Import.Rmd.

El archivo .csv que necesitarás, hotel_bookings.csv, también está en esta carpeta.

Si tienes dificultades para encontrar la actividad correcta, consulta esta guía paso a paso sobre cómo navegar en
RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos Rmd se utilizarán
en otras actividades.

Si estás utilizando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

Hands-On Activity- Importing and working with data1_SPA

TXT File

Hands-On Activity- Importing and working with data2_SPA

CSV File

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:

Hands-On Activity- Importing and working with data3_SPA

TXT File

Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como ejecutar un código escrito previamente, mientras que otros pueden requerir que
escribas tus propias funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu
trabajo está completo.

Si tienes problemas para completar el ejercicio o no sabes cómo proceder, navega hasta Course 7 -> Week 3 ->
Solutions -> Lesson2_Import_Solutions.Rmd en los archivos del ejercicio.

Confirmación

¿Qué sintaxis usarías para importar un conjunto de datos llamado quarter_earnings.csv a RStudio?
1 / 1 punto
 earnings_df <- read_csv(“quarter_earnings”)
 earnings_df <- read_csv(quarter_earnings.csv)
 earnings_df <- read_csv(quarter_earnings)
 earnings_df <- read_csv("quarter_earnings.csv")
Correcto

La sintaxis adecuada para importar el conjunto de datos "quarter_earnings.csv" es earnings_df <-


read_csv("quarter_earnings.csv"). Los resultados de esta función se muestran como especificaciones de columna del
marco de datos que crea. En adelante, puedes importar datos a RStudio con read_csv() para proyectos a lo largo de
tu carrera como analista de datos.

1.
Pregunta 1

¿Cuáles de las siguientes son las mejores prácticas para crear marcos de datos? Selecciona todas las opciones que
correspondan.
0.75 / 1 punto

 Se debe asignar un nombre a las columnas


Correcto. Al crear marcos de datos, las columnas deben tener un nombre y cada columna debe contener el
mismo número de elementos de datos.

 Todos los datos almacenados deben ser del mismo tipo


 Se debe asignar un nombre a las filas
 Cada columna debe contener el mismo número de elementos de datos
2.
Pregunta 2

¿Por qué los tibbles son una variación útil de los marcos de datos?
1 / 1 punto

 Los tibbles facilitan la impresión


 Los tibbles pueden crear nombres de filas
 Los tibbles facilitan el cambio de nombre de las variables
 Los tibbles pueden cambiar el tipo de datos de entrada
Correcto

Los tibbles pueden facilitar la impresión. También ayudan a evitar la sobrecarga de la consola cuando se trabaja con
grandes conjuntos de datos. Los tibbles se configuran automáticamente para que solo devuelvan las diez primeras
filas de un conjunto de datos y tantas columnas como quepan en la pantalla.
3.
Pregunta 3

Los datos ordenados son una forma de estandarizar la organización de los datos en R.
1 / 1 punto

Verdadero
Falso
Correcto

Los datos ordenados se refieren a los principios que hacen que las estructuras de datos tengan sentido y sean fáciles
de entender. Es una forma de estandarizar la organización de los datos en R.
4.
Pregunta 4

¿Qué función de R se puede usar para realizar cambios en un marco de datos?


1 / 1 punto

 colnames()
 head()
 str()
 mutate()
Correcto

La función mutate() se puede usar para realizar cambios en un marco de datos.


Limpiar datos:
Limpieza con lo básico

Hola de nuevo. Ahora que ya tenemos un poco más de experiencia con los marcos de datos, podemos empezar a hacer
algunas cosas interesantes como limpiar, estandarizar, manipular y visualizar datos. Repasaremos algunas tareas comunes
que realizarás como analista de datos. Pero esto es solo el comienzo de todo lo que quizás quieras hacer en R.
Empezaremos por los conceptos básicos y aprenderemos cómo limpiar nuestras columnas. Habrá una lectura con una lista
práctica que puedes consultar después. Ahora instalemos los paquetes Here, Skimr y Janitor. Avancemos y abramos
nuestra consola. Primero, añadiremos el paquete Here. Este paquete facilita la consulta de los archivos. Para instalarlo,
simplemente escribiremos install.packages. Luego entre paréntesis, pondremos Here y RStudio lo instalará. Después de
instalarlo, también tendremos que cargarlo usando la biblioteca.

Después, instalaremos Skimr y Janitor. A modo de recordatorio, estos paquetes simplifican las tareas de limpieza de datos.
Ambos son muy útiles y hacen cosas ligeramente diferentes. El paquete Skimr facilita mucho el resumen de los datos y te
permite hojearlos más rápido. Lo instalaremos ahora.

El paquete Janitor tiene funciones para la limpieza de datos.

Después de terminar con la instalación, necesitaremos cargarlo. Por último, queremos asegurarnos de que el paquete dplyr
esté cargado ya que vamos a usar algunas de sus funciones.
Ya está, ahora tenemos todos los paquetes que necesitamos para la limpieza de datos básica. Ahora, carguemos algunos
datos. Después, cuando practiques con tus propios datos, puedes usar <i>read</i> para tomar un archivo. Por ejemplo, si
quisieras cargar un CSV podrías escribir, <i>read_CSV</i>, e ingresar el nombre del archivo entre paréntesis. Aquí es donde
el paquete Here resulta útil. Asegúrate de instalar y cargar el paquete Here antes de intentar guardar archivos CSV. Por
ahora, para practicar, cargaremos un paquete realmente divertido, el paquete de pingüinos de Palmer. Este es un conjunto
de datos que ya usamos antes, pero a modo de recordatorio, los datos de los pingüinos de Palmer contienen mucha
información alrededor de tres especies de pingüinos del Archipiélago de Palmer, que incluye mediciones de los tamaños,
dimensiones de los nidos y las proporciones isotópicas de la sangre. ¿A quién no le encantan los pingüinos? Primero,
instalaremos el paquete. Escribiremos <i>install.packages</i> e ingresaremos la palabra <i>palmerpenguins</i>.
Después, recuerda cargarlo usando la función <i>library</i>. Ahora que ya tenemos estos datos cargados en nuestra
biblioteca, podemos probar algunas funciones de limpieza en nuestras columnas. Hay unas cuantas funciones diferentes
que podemos usar para obtener resúmenes de nuestro marco de datos. <i>Skim without charts</i>, <i>glimpse</i>,
<i>head</i> y <i>select</i>.

La función <i>skim without charts</i> nos ofrece un buen resumen completo de un conjunto de datos. Vamos a probarlo.
Cuando ejecutamos esto, recibimos mucha información. Primero, nos da un resumen con el nombre del conjunto de datos y
el número de filas y columnas. También nos proporciona los tipos de columnas y un resumen de los diferentes tipos de
datos contenidos en el marco de datos. O podemos usar <i>Glimpse</i> para tener una idea muy rápida del contenido de
ese conjunto de datos. Cuando ejecutamos este comando, nos muestra un resumen de los datos. Hay 344 filas y 8
columnas. Tenemos especies, isla, mediciones de las mandíbulas, que son básicamente los picos y las alas, la masa corporal
de los pingüinos en gramos el sexo, y por último, el año en que se registraron los datos.

También podemos usar la función <i>Head</i> para obtener una vista previa de los nombres de las columnas y las primeras
filas de este conjunto de datos. Tener los nombres de las columnas resumidos así facilitará la limpieza de los datos.

Podemos usar <i>select</i> para especificar ciertas columnas o para excluir columnas que no necesitemos justo ahora.
Digamos que solo necesitamos comprobar la columna de especies. Podemos ingresar la palabra <i>penguins</i>, luego una
canalización para indicar que añadiremos otro comando, y nuestra selección. Retomemos el tema de la cadena en R porque
será más fácil para verlo.

Ya tenemos la columna de especies, o quizás queramos todo excepto la columna de especies. Pondremos <i>minus
species</i> en lugar de <i>species</i>, y ahora tenemos todas las columnas pero sin especies. La instrucción <i>select</i>
es útil para obtener solo un subconjunto de variables de un conjunto de datos grande. Esto te permite concentrarte en
grupos específicos de variables. Hay muchas otras funciones de selección que se basan en esto a las que nos abocaremos
más adelante. Ahora que ya sabemos nuestros nombres de columnas, tenemos una mejor idea de lo que podríamos querer
cambiar.

La función <i>rename</i> facilita el cambio de los nombres de las columnas. Empecemos con los datos de los pingüinos,
escribiremos <i>rename</i> y cambiará el nombre de nuestra columna <i>isla</i> a<i> island_new</i>.

Si miramos ahora los nombres de las columnas, veremos que cambió el nombre de la columna. O supongamos que
queremos cambiar nuestras columnas para que se escriban y formateen correctamente. En los programas de hojas de
cálculo, siempre y cuando nuestros nombres de columnas sean significativos, está bien. Pero como tenemos que escribir los
nombres de las columnas una y otra vez en R, necesitamos que sean coherentes.

Lo mismo con la función <i>rename</i>, la función <i>rename_with()</i> puede cambiar los nombres de las columnas para
que sean más coherentes. Por ejemplo, tal vez queramos que todos los nombres de nuestras columnas estén en mayúscula.
Podemos usar la función <i>rename_with()</i> para hacer eso. Esto pasará automáticamente los nombres de nuestras
columnas a letra mayúscula. Pero como los nombres de las variables suelen estar en minúscula, usaremos la opción
<i>"Tolower"</i> para volver a cambiarlo.

La función <i>clean names</i> en el paquete Janitor verificará automáticamente que los nombres de las columnas sean
exclusivos y coherentes. Probemos la función <i>clean names</i> en nuestros datos de pingüinos.

Esto garantiza que solo haya caracteres, números y guiones bajos en los nombres. Ahora conoces algunas funciones para
limpiar columnas en tus conjuntos de datos. Intenta practicarlas por tu cuenta con los datos de los pingüinos de Palmer.
Una vez que te familiarices con estas funciones aprenderemos incluso más sobre limpieza de datos en R.

Pregunta
¿Cuál de las siguientes funciones devuelve un resumen del marco de datos, incluyendo el número de columnas y
filas? Selecciona todas las opciones que correspondan.
 skim_without_charts()
Correcto. Las funciones skim_without_charts() y glimpse() devuelven un resumen del marco de datos,
incluyendo el número de columnas y filas.
 clean_names()
 glimpse()
Correcto. Las funciones skim_without_charts() y glimpse() devuelven un resumen del marco de datos,
incluyendo el número de columnas y filas.
 rename()

Pregunta
La función rename_with() puede utilizarse para reformatear los nombres de las columnas para que estén en
mayúsculas o minúsculas.
Verdadero
Falso
Correcto
La función rename_with() puede utilizarse para reformatear los nombres de las columnas para que estén en
mayúsculas o minúsculas.

Convenciones de nomenclatura de archivos


Una parte importante de la limpieza de datos es asegurarse de que todos los archivos tienen el nombre correcto.
Aunque las preferencias individuales varían un poco, la mayoría de los analistas suelen estar de acuerdo en que los
nombres de los archivos deben ser precisos, coherentes y fáciles de leer. Esta lectura proporciona algunas pautas
generales para que sigas al nombrar o renombrar tus archivos de datos.

¿Qué hay en un nombre (de archivo)?


Cuando empieces a trabajar con R (o con cualquier otro lenguaje de programación, herramienta de análisis o
plataforma, en realidad), tú o tu empresa deberían establecer convenciones de nomenclatura para los archivos. Esto
ayuda a garantizar que cualquier persona que revise tu análisis -incluido tú mismo- pueda encontrar rápida y
fácilmente lo que necesita. A continuación, te ofrecemos algunos consejos útiles que debes tener en cuenta a la hora
de nombrar tus archivos.


 Mantén los nombres de los archivos con una longitud razonable
 Usa guiones bajos y guiones para facilitar la lectura
 Empieza o termina el nombre del archivo con una letra o un número
 Usa un formato de fecha estándar cuando corresponda; ejemplo: AAAA-MM-DD
 Usa nombres de archivos relacionados que funcionen bien con la ordenación predeterminada; por ejemplo: en
orden cronológico o en orden lógico utilizando primero los números
Ejemplos de buenos nombres de archivos:
2020-04-10_march-attendance.R
2021_03_20_new_customer_ids.csv
01_data-sales.html
02_data-sales.html
No
 Uses caracteres adicionales innecesarios en los nombres de archivo
 Uses espacios o caracteres "ilegales"; ejemplos: &, %, #, < o >
 Empieces o termines el nombre del archivo con un símbolo
 Uses formatos de fecha incompletos o incoherentes; ejemplo M-D-AA
 Uses nombres de archivos relacionados que no funcionan bien con el ordenamiento predeterminado;
ejemplos: un sistema aleatorio de números o formatos de fecha, o utilizar letras primero
Ejemplos de nombres de archivo a ser evitados
4102020marchattendance<workinprogress>.R
Ejemplos de nombres de archivo a ser evitados
_20210320*newcustomeridsforfebonly.csv
firstfile_for_datasales/1-25-2020.html
secondfile_for_datasales/2-5-2020.html

Recursos adicionales
Estos recursos incluyen más información sobre algunas de las normas de nomenclatura de archivos que se analizan
aquí, y proporcionan información adicional sobre las mejores prácticas.

 Cómo nombrar archivos: Este recurso de Speaker Deck es una visión lúdica de la denominación de los
archivos. Incluye varias diapositivas con consejos y ejemplos sobre cómo nombrar con precisión muchos tipos
de archivos diferentes. Aprenderás por qué los nombres de los archivos deben ser legibles tanto para la
máquina como para el ser humano.
 Nombres y estructura de los archivos: Este recurso de la Biblioteca de la Universidad de Princeton ofrece una
lista fácil de consultar de las mejores prácticas, consideraciones y ejemplos para desarrollar convenciones de
nombres de archivos.
Más información sobre los operadores de R
Seguramente recordarás que un operador es un símbolo que identifica al tipo de operación o cálculo que se realizará
en una fórmula. En un vídeo anterior, aprendiste a utilizar los operadores de asignación y aritméticos para asignar
variables y realizar cálculos. En esta lectura, revisarás un resumen detallado de los principales tipos de operadores en
R, y aprenderás a utilizar operadores específicos en código R.

Operadores
En R, hay cuatro tipos principales de operadores:

1. Aritméticos
2. Relacionales
3. Lógicos
4. De asignación
Repasa los operadores específicos de cada categoría y ve algunos ejemplos de cómo usarlos en código R.

Operadores aritméticos
Los operadores aritméticos te permiten realizar operaciones matemáticas básicas como suma, resta, multiplicación y
división.

La siguiente tabla resume los diferentes operadores aritméticos en R. Los ejemplos usados en la tabla se basan en la
creación de dos variables: : x es igual a 2 e y es igual a 5. Ten en cuenta que usas el operador de asignación para
almacenar estos valores:

x <- 2

y <- 5

Resultado/
Operador Descripción Código de ejemplo
Salida
+ Suma x+y [1] 7
- Resta x-y [1] -3
* Multiplicación x*y [1] 10
/ División x/y [1] 0.4
%% Módulo (devuelve el resto después de la división) y %% x [1] 1
%/% División de enteros (devuelve un valor entero después de la división) y%/% x [1] 2
^ Exponente y^x [1]25
Operadores relacionales
Los operadores relacionales, también conocidos como comparadores, permiten comparar valores. Los operadores
relacionales identifican cómo se relaciona un objeto R con otro, por ejemplo, si un objeto es menor, igual o mayor que
otro. El resultado de los operadores relacionales es TRUE o FALSE (que es un tipo de dato lógico o booleano).

La tabla a continuación resume los seis operadores relacionales en R. Los ejemplos usados en la tabla se basan en la
creación de dos variables: : x es igual a 2 e y es igual a 5. Ten en cuenta que usas el operador de asignación para
almacenar estos valores.

x <- 2

y <- 5

Si se realizan cálculos con cada operador, se obtienen los siguientes resultados. En este caso, el archivo de salida es
booleano: TRUE o FALSE. Ten en cuenta que el [1] que aparece antes de cada resultado se usa para representar
cómo se muestra el resultado en RStudio

Operador Descripción Código de ejemplo Resultado/Salida


< Menor que x<y [1] TRUE
> Mayor que x>y [1] FALSE
<= Menor que o igual a x<=2 [1] TRUE
>= Mayor que o igual a y >= 10 [1] FALSE
== Igual a y == 5 [1] TRUE
!= No igual a x != 2 [1] FALSE
Operadores lógicos

Los operadores lógicos te permiten combinar valores lógicos. Los operadores lógicos arrojan un tipo de dato lógico o
booleano (TRUE o FALSE). Ya viste los operadores lógicos en una lectura anterior, Operadores lógicos y sentencias
condicionales, pero aquí hay un repaso rápido.

La siguiente tabla resume los operadores lógicos en R.

Operador Descripción
& Lógico de elemento inteligente AND
&& Lógico AND
| Lógico de elemento inteligente OR
|| Lógico OR
! Lógico NOT
A continuación, observa algunos ejemplos de cómo funcionan los operadores lógicos en código R.

Operadores lógicos por elementos inteligentes AND (&) y OR (|)

Puedes ilustrar los operadores lógicos AND (&) y OR (|) comparando valores numéricos. Por ejemplo, creemos una
variable x igual a 10.

x <- 10

El operador AND devuelve TRUE solo si ambos valores individuales son TRUE.

x > 2 & x < 12

[1] TRUE

10 es mayor que 2 y 10 es menor que 12. Por lo tanto, la operación se evalúa como TRUE.

El operador OR (|) trabaja de un modo similar que el operador AND (&). La diferencia principal consiste en que solo
uno de los valores de la operación OR deber ser TRUE para que toda la operación OR dé como resultado TRUE. solo
si ambos valores son FALSE, la operación OR completa resultará ser FALSE.

Probemos un ejemplo con la misma variable (x <- 10):


x>2|x<8

[1] TRUE

10 es mayor que 2, pero 10 no es menor que 8. Sin embargo, como al menos uno de los valores (10>2) es TRUE, la
operación OR se evalúa como TRUE.

Operador lógico NOT (!)

El operador NOT simplemente niega el valor lógico y evalúa su contrario. En R, cero se considera FALSO y los
números que no son cero se consideran VERDADERO.

Por ejemplo, apliquemos el operador NOT a nuestra variable (x <- 10):

!(x < 15)

[1] FALSE

La operación NOT evalúa a FALSE porque toma el valor lógico opuesto a la instrucción x < 15, que es TRUE (10 es
menor que 15).

Operadores de asignación
Los operadores de asignación te permiten asignar valores a las variables.

En muchos lenguajes de programación de secuencias de comandos se puede usar simplemente el signo igual (=)
para asignar una variable. Para R, la mejor práctica es usar la asignación de flechas (<-). Técnicamente, la asignación
de una flecha se puede usar en la dirección izquierda o derecha. Sin embargo, la asignación hacia la derecha no se
utiliza generalmente en código R.

También se puede usar la asignación de doble flecha, conocida como asignación de alcance. Pero la asignación de
alcance es para usuarios avanzados de R, así que no la aprenderás en esta lectura.

La tabla a continuación resume los operadores de asignación y el código de ejemplo en R. Observa que el resultado
de cada variable es su valor asignado.

Código de ejemplo (después del código de ejemplo que aparece a


Operador Descripción continuación, al escribir x se generará el resultado en la siguiente Resultado/Sali
columna)
Asignación a la
<- x <- 2 [1] 2
izquierda
Asignación a la
<<- x <<- 7 [1] 7
izquierda
Asignación a la
= x=9 [1] 9
izquierda
Asignación a la
-> 11 -> x [1] 11
derecha
Asignación a la
->> 21 ->> x [1] 21
derecha
Los operadores que aprendiste en esta lectura son una gran base para usar los operadores en R.

Recurso adicional
Consulta el artículo sobre los Operadores de R en el sitio web de R Coder para obtener una guía completa de los
diferentes tipos de operadores en R. El artículo incluye muchos ejemplos de codificación útiles e información sobre
operadores diversos, el operador infijo y el operador de tubería.

Organiza tus datos:


Hola, es genial tenerte de vuelta. Ya aprendimos cómo crear marcos de datos y realizar algunas funciones de limpieza
básicas. Ahora es el momento de empezar a organizarse en R. Próximamente te enseñaré algunas funciones que te
ayudarán a organizar y filtrar tus datos. Estas funciones se ven algo diferentes en R que en otras herramientas que hemos
usado hasta ahora. Pero el motivo para usarlas sigue siendo el mismo. Si no organizamos nuestros datos, no podemos
transformar la información en conocimiento. Organizar nuestros datos y comparar diferentes métricas en esos datos nos
ayuda a obtener nuevas conclusiones. En otras palabras, hace que nuestros datos sean útiles. Para lograr esto, usaremos las
funciones <i>arrange</i>, <i>group by</i> y <i>filter</i>. Empecemos por ordenar nuestros datos. Seguiremos trabajando
con los datos de los pingüinos de Palmer que ya hemos usado. En caso de que no lo recuerdes, consulta el siguiente enlace.
También tendremos que cargar los paquetes correctos. Todos los paquetes que necesitaremos forman parte del núcleo de
tidyverse. Así que carguemos ahora el núcleo de tidyverse.

Reproduce el video desde :1:11 y sigue la transcripción1:11

Podemos usar la función <i>arrange</i> para elegir mediante qué variable queremos ordenar, por ejemplo, digamos que
quieres ordenar los datos de los pingüinos por longitud del pico. Escribiremos un rango y el nombre de la columna. Y
cuando ejecutemos este comando arrojará un tibble con datos ordenados por longitudes de picos. Actualmente, está en
orden ascendente. Si quieres ordenarlo en orden descendente solo agrega un signo menos antes del nombre de la columna.

Reproduce el video desde :1:48 y sigue la transcripción1:48

Ahora, el pico de pingüino más largo aparece primero. Es importante recordar que estos datos están solo en nuestra
consola. Para guardarlos como marco de datos, empezaremos por nombrarlos. Luego, ingresaremos la función que usamos
para ordenar la versión anterior de los datos de los pingüinos.

Reproduce el video desde :2:11 y sigue la transcripción2:11

Cuando ejecutemos esto, se guardará un nuevo marco de datos y podemos usar <i>view penguins2 </i>para agregarlo a
nuestros datos. Esto te permite guardar datos limpios sin perder información del conjunto de datos original. También
puedes ordenar por datos mediante la función <i>group by</i>. La función<i> </i><i>group by </i> suele combinarse con
otras funciones. Por ejemplo, podríamos querer agrupar mediante una columna en particular y luego realizar una operación
en esos grupos. Con nuestros datos de pingüinos, podemos agrupar por isla y luego usar la función <i>summarize</i> para
obtener la longitud de pico promedio. Ya vimos la función <i>summarize</i> cuando presentamos la canalización.
Básicamente, la función <i>summarize</i> nos permite obtener información de alto nivel sobre nuestros datos de
pingüinos. Así que primero vamos a crear nuestro grupo mediante una instrucción.

Reproduce el video desde :3:8 y sigue la transcripción3:08

No nos interesan los valores NA, así que podemos excluirlos mediante el argumento <i>drop_NA</i>. Esto se aplica a
cualquier valor faltante en nuestro conjunto de datos. Es importante tener cuidado cuando usamos <i>drop_na</i>. Es útil
hacer una estadística de resumen a nivel grupal como esta, pero eliminará filas de los datos. Ahora usemos
<i>summarize</i>. Nombraremos la columna de resumen como longitud media del pico en milímetros. Y, luego, crearemos
la instrucción de valor medio.

Reproduce el video desde :3:49 y sigue la transcripción3:49

Y cuando ejecutamos esto, obtenemos un marco de datos con tres islas y la longitud media del pico de los pingüinos que
viven allí. También podemos obtener otros resúmenes, por ejemplo, si queremos conocer la longitud máxima del pico,
podemos escribir una función similar y reemplazar <i>mean </i>por <i>max</i>.

Reproduce el video desde :4:24 y sigue la transcripción4:24

Entonces, ahora sabemos que el pingüino con el pico más largo vivía en la isla Vesco. Tanto <i>group by</i>, como
<i>summarize</i>, pueden realizar múltiples tareas. Por ejemplo, podríamos agrupar por isla y por especies y luego resumir
para calcular el valor medio y el máximo. Para hacer eso, podemos escribir un comando similar. Pondremos especie e isla en
nuestra función <i>group by</i> y anularemos los valores que faltan.

Reproduce el video desde :5:2 y sigue la transcripción5:02

Y luego podemos agregar una instrucción <i>summarize</i> con un cálculo de valor máximo y medio.

Reproduce el video desde :5:24 y sigue la transcripción5:24


Y cuando ejecutamos esto, tenemos ambas agrupaciones y

Reproduce el video desde :5:28 y sigue la transcripción5:28

el valor máximo y medio. Gracias a la canalización podemos combinar todas estas tareas de limpieza y transformación de
datos en un bloque de código. Por último, podemos filtrar los resultados con la función <i>filter</i>. Supongamos que solo
queremos datos sobre los pingüinos Adelia. Empezaremos con el conjunto de datos que estamos usando y, luego,
agregaremos el filtro.

Reproduce el video desde :5:56 y sigue la transcripción5:56

Como habrás notado, estamos usando dos signos igual aquí; eso es adrede. El signo igual significa exactamente igual a en R.
Y ahora tenemos un marco de datos que solo contiene datos sobre pingüinos Adelia. Esto nos permite acotar nuestro
análisis si lo necesitamos. Poder limpiar y organizar los datos es un paso fundamental en el proceso de análisis de datos y
conocer la herramienta correcta para hacerlo es una habilidad importante del analista de datos. R facilita el manejo de los
datos y te ofrece muchas funcionalidades en las diferentes etapas del proceso de análisis de datos. Ahora que ya limpiamos
nuestros datos, podemos prepararnos para transformarlos. A continuación, aprenderemos cómo usar las funciones
<i>separate</i>, <i>unite</i> y <i>mutate</i> y cómo usarlas para transformar nuestros datos en R.

1.
Pregunta 1

Resumen de la actividad

Hasta ahora, ya aprendiste mucho sobre la importancia de limpiar los datos y cómo hacerlo en hojas de cálculo y
SQL. En esta actividad, seguirás un escenario y limpiarás datos reales en R.

Al finalizar esta actividad, habrás aprendido más sobre las funciones de limpieza de datos en R y aplicarás estos
conocimientos para importar, obtener una vista previa y realizar cálculos en diferentes conjuntos de datos. Puedes
usar estas técnicas para obtener una visión inicial de tus datos, lo que te ayudará a analizarlos a lo largo de tu carrera.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta de RStudio Cloud y abre el proyecto con este enlace. Navega al explorador
de archivos que se encuentra abajo, a la derecha, y haz clic en lo siguiente: Course 7 -> Week 3 ->
Lesson3_Clean.Rmd.

El archivo .csv, hotel_bookings.csv, también está en esta carpeta.

Si tienes dificultades para encontrar la actividad correcta, consulta esta guía paso a paso sobre cómo navegar en
RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos Rmd se utilizarán
en otras actividades.

Si estás utilizando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

Hands-On Activity- Cleaning data in R1_SPA

TXT File
Hands-On Activity- Cleaning data in R2_SPA

CSV File

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:

Hands-On Activity- Cleaning data in R3_SPA

TXT File

Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como ejecutar un código escrito previamente, mientras que otros pueden requerir que
escribas tus propias funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu
trabajo está completo.

Confirmación

En el paso 5 de esta actividad creaste la columna number_canceled para representar el número total de reservas
canceladas. ¿Qué valor arroja esta columna?
1 / 1 punto

40234
44224
49550
52965
Correcto

El número devuelto en esta columna number_canceled debería ser 44,224, que representa el número total de
reservas de hotel canceladas. Al limpiar y manipular los datos, pudiste responder a una pregunta importante sobre
ellos. En adelante, puedes usar tus conocimientos sobre la limpieza de datos que adquiriste en los cursos anteriores
como base para aprender a limpiar datos en R.

Opcional: Crea manualmente un marco de datos


En el siguiente vídeo, aprenderás a transformar datos en R. El vídeo utilizará datos introducidos manualmente en
lugar de un conjunto de datos de un paquete de R.

Si quieres seguir el vídeo en tu propia consola de RStudio, puedes copiar y pegar el siguiente código para ingresar los
datos y crear un marco de datos:

id <- c(1:10)

name <- c("John Mendes", "Rob Stewart", "Rachel Abrahamson", "Christy Hickman", "Johnson Harper", "Candace Miller",
"Carlson Landy", "Pansy Jordan", "Darius Berry", "Claudia Garcia")

job_title <- c("Professional", "Programmer", "Management", "Clerical", "Developer", "Programmer", "Management",


"Clerical", "Developer", "Programmer")

employee <- data.frame(id, name, job_title)

A continuación, ¡puedes ejecutar las funciones del vídeo en tu propia consola para practicar la transformación y
limpieza de datos en R! Practicar con el vídeo te ayudará a explorar cómo se supone que funcionan estas funciones y
a ejecutarlas. También puedes usar este marco de datos para practicar más después del vídeo.
Transformación de datos
Bienvenido de nuevo. Hasta aquí, hemos empezado a limpiar y a trabajar con los datos en R. Ahora, vamos a hablar sobre
cómo transformar los datos. A veces, necesitas fragmentar una variable entre múltiples columnas o combinar las columnas
actuales, o incluso agregar nuevos valores a tu marco de datos. Próximamente, usaremos las funciones <i>separate</i>,
<i>unite</i> y <i>mutate</i> para transformar nuestros datos en R. Por suerte, los paquetes ya descargados en nuestra
biblioteca tienen algunas herramientas que podemos usar para hacer justo eso. Abramos RStudio Cloud y verifiquemos
esto.

Reproduce el video desde ::43 y sigue la transcripción0:43

Para empezar, crearemos un marco de datos desde cero. Para este ejemplo, crearemos un marco de datos estándar, para
que podamos probar otras funciones. Pero también puedes hacer un tribble aquí, ya que estamos ingresando los datos en
forma manual. Aprenderás más sobre tribbles en una lectura. Para nuestro conjunto de datos, vamos a copiar y pegar
algunos datos para crear nuestro propio marco de datos. Si quieres usar los mismos datos para continuar, consulta la lectura
anterior. Nuestros datos contienen información de los empleados, incluso nombres y título del puesto. Puedes copiarlos.

Reproduce el video desde :1:25 y sigue la transcripción1:25

Luego, podemos asignar un nombre al empleado dentro del marco de datos, indicar los nombres de las columnas como ID,
nombre y título del puesto e imprimir todo el marco de datos.

Reproduce el video desde :1:44 y sigue la transcripción1:44

Ahora mismo, el nombre y el apellido se combinan en una columna. Podemos usar la función <i>separate </i>para dividir
esos datos en columnas separadas. Empezaremos con estos datos separados, y luego con el marco de datos que queremos
trabajar y la columna que nos gustaría separar. Después agregaremos lo que nos gustaría separar en la columna de nombre.

Reproduce el video desde :2:7 y sigue la transcripción2:07

Simplemente nombraremos estas nuevas columnas <i>nombre</i> y <i>apellido</i>.

Reproduce el video desde :2:13 y sigue la transcripción2:13

Y, por último, le diremos a R que separe la columna de nombre en el primer espacio en blanco. Cuando ejecutemos esto, se
crearán nuevas columnas para el nombre y el apellido.

Reproduce el video desde :2:27 y sigue la transcripción2:27

La función <i>separate</i> tiene un aliado, la función <i>unite</i>. La función <i>unite</i> nos permite fusionar columnas
entre sí. Básicamente, hace lo opuesto a la función <i>separate</i>. Supongamos que estamos trabajando con la versión de
este marco de datos con dos columnas de nombre, y queremos combinarlos. Copiaremos también estos datos.

Reproduce el video desde :2:53 y sigue la transcripción2:53

Nuestra instrucción <i>unite </i>es muy parecida a la instrucción <i>separate</i>. Empezaremos con <i>unite </i>e
indicaremos el marco de datos al que nos estamos refiriendo. Luego, le pondremos nombre a la columna en la cual estamos
combinando <i>nombre</i> y <i>apellido</i>. Y después indicaremos qué columnas estamos combinando. No se necesitan
comillas aquí. Y, por último, podemos incluir un espacio que las separe. Y cuando ejecutamos eso, esas dos columnas se
combinan.

Reproduce el video desde :3:22 y sigue la transcripción3:22

Además de separar y fusionar columnas, también podemos crear nuevas variables en nuestro marco de datos mediante la
función <i>mutate</i>. Ya trabajamos un poco con la función<i> mutate</i> antes para limpiar y organizar nuestros datos.
Pero <i>mutate</i> también se puede usar para añadir columnas con cálculos.

Reproduce el video desde :3:41 y sigue la transcripción3:41

Volvamos a nuestro conjunto de datos sobre los pingüinos.

Reproduce el video desde :3:47 y sigue la transcripción3:47


En este momento, la columna de masa corporal se mide en gramos. Quizás queramos añadir una columna con kilogramos.
Para hacer eso, usaremos la función<i> mutate</i> para realizar la conversión y añadir una nueva columna.

Reproduce el video desde :4:14 y sigue la transcripción4:14

Y mostrará un tibble con nuestra nueva columna.

Reproduce el video desde :4:19 y sigue la transcripción4:19

Puedes hacer cálculos en múltiples variables nuevas agregando una coma. Agreguemos una columna que convierta también
la longitud del ala. Ya hemos aprendido cómo transformar los datos existentes en nuestras tablas y cómo crear nuevas
variables. <i>Separate</i>, <i>unite</i> y <i>mutate</i> son algunas funciones básicas que seguiremos desarrollando, y, tal
vez, descubras nuevas formas de usarlas a medida que practiques. Próximamente, hablaremos más sobre cómo resumir
marcos de datos y cómo abordar el sesgo.

De formato ancho a formato largo con tidyr


Al organizar u ordenar tus datos usando R, es posible que necesites convertir datos en formato ancho en datos en
formato largo o viceversa. Recuerda que este es el aspecto de los datos en formato ancho en una hoja de cálculo:

Los datos en formato ancho tienen observaciones en varias columnas. Cada columna contiene datos de una condición
diferente de la variable. En este ejemplo, distintos años.

Ahora comprueba los mismos datos en formato largo:

Y, para repasar lo que ya aprendiste sobre la diferencia, los datos en formato largo tienen todas las observaciones en
una sola columna, y las variables en columnas separadas.

Las funciones pivot_longer y pivot_wider


Hay razones importantes para utilizar ambos formatos. De todos modos, como analista, es importante saber cómo
ordenar los datos cuando es necesario. En R, puedes tener un marco de datos en un formato ancho que tiene varias
variables y condiciones para cada variable. Puede parecer un poco desordenado.

Ahí es donde entra en juego la función pivot_longer(). Como parte del paquete tidyr, puedes utilizar esta función de R
para alargar los datos de un marco de datos aumentando el número de filas y disminuyendo el número de columnas.
Del mismo modo, si quieres convertir tus datos para que tengan más columnas y menos filas, usarás la función
pivot_wider().

Recursos adicionales
Para saber más sobre estas dos funciones y cómo aplicarlas en tu programación en R, consulta estos recursos:

 Pivoting: Considera esto como un punto de partida para ordenar los datos a través de conversiones en formato
ancho y largo. Esta página web está tomada directamente de la información del paquete tidyr en tidyverse.org.
Explora los componentes de las funciones pivot_longer y pivot_wider usando detalles específicos, ejemplos y
definiciones.
 CleanItUp 5: R-Ladies Sydney: Wide to Long to Wide to…PIVOT: Este recurso ofrece detalles adicionales
sobre las funciones pivot_longer y pivot_wider. Los ejemplos proporcionados utilizan conjuntos de datos
interesantes para ilustrar cómo convertir los datos de formato ancho a largo y de nuevo a ancho.
 Trazado de múltiples variables: Este recurso explica cómo visualizar datos en formato ancho y largo, con
ggplot2 para ayudar a ordenarlos. La atención se centra en el uso de pivot_longer para reestructurar los datos
y hacer gráficos similares de un número de variables a la vez. Puedes aplicar lo que aprendes de los otros
recursos que se ofrecen en este curso para entender mejor las funciones pivot.
Limpiar Organizar Transformar
clean_names() filter() unite()
select() summarize() mutate()
rename() mean() separate()
skim_without_charts() arrange()
glimpse() drop_na()
rename_with() max()
group_by()

1.
Pregunta 1

Un analista de datos está limpiando sus datos en R. Quiere asegurarse de que los nombres de sus columnas sean
únicos y coherentes para evitar cualquier error en su análisis. ¿Qué función de R puede usar para hacer esto
automáticamente?
1 / 1 punto

1. rename_with()
2. clean_names()
3. rename()
4. select()
Correcto

Feedback: La función clean_names() se asegurará automáticamente de que los nombres de las columnas sean
únicos y coherentes.
2.
Pregunta 2

Estás trabajando con el conjunto de datos de los pingüinos. Deseas usar la función arrange() para ordenar los datos
de la columna bill_length_mm en orden ascendente. Escribes el siguiente código:

penguins %>%

arrange(bill_length_mm)
EjecutarRestablecer
Source: local data frame [333 x 8]
Groups: species [3]

species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g


<chr> <chr> <dbl> <dbl> <int> <int>
1 Adelie Dream 32.1 15.5 188 3050
2 Adelie Dream 33.1 16.1 178 2900
3 Adelie Torgersen 33.5 19.0 190 3600
4 Adelie Dream 34.0 17.1 185 3400
5 Adelie Torgersen 34.4 18.4 184 3325
6 Adelie Biscoe 34.5 18.1 187 2900
7 Adelie Torgersen 34.6 21.1 198 4400
8 Adelie Torgersen 34.6 17.2 189 3200
9 Adelie Biscoe 35.0 17.9 190 3450
10 Adelie Biscoe 35.0 17.9 192 3725
# ... with 323 more rows, and 2 more variables: sex <chr>, year <int>
Agrega un bloque de código para ordenar la columna bill_length_mm en orden ascendente.

¿Cuál es la longitud más corta del pico en mm?


1 / 1 punto

32,1
33,1
34,0
33,5
Correcto

Agregas el bloque de código arrange(bill_length_mm) para ordenar la columna bill_length_mm en orden ascendente.
El código correcto es penguins %>% arrange(bill_length_mm). Dentro del paréntesis de la función arrange() está el
nombre de la variable que se quiere ordenar. El código devuelve un tibble que muestra los datos de bill_length_mm
desde el más corto al más largo. La longitud más corta del pico es de 32.1 mm.
3.
Pregunta 3

Un analista de datos está trabajando con información de clientes a partir de los datos de ventas de su empresa. El
nombre y los apellidos están en columnas separadas, pero quieren crear una columna con ambos nombres. ¿Cuáles
de las siguientes funciones pueden usar?
1 / 1 punto

separate()
unite()
arrange()
select()
Correcto

La función unite() se puede usar para combinar columnas.

Observa los datos con más detalle:


Mismos datos, diferente resultado
Hola, es genial tenerte de vuelta. Ya hablamos sobre cómo resumir los datos en R. Incluso usamos la función
<i>summarize</i> para calcular la media para una de nuestras variables de datos de los pingüinos. Ahora trabajaremos con
un ejemplo de datos muy famoso: El cuarteto de Anscombe. El cuarteto de Anscombe tiene cuatro conjuntos de datos con
estadísticas de resumen casi idénticas. Pero esas estadísticas de resumen podrían ser engañosas. Las visualizaciones de
datos, especialmente para conjuntos de datos como estos, son muy importantes. Ayudan a descubrir detalles en nuestros
datos que de otra forma permanecerían ocultos. Además, descubrirás algunas de las formas en que R puede crear
visualizaciones maravillosas. Instalemos los paquetes. Esto puede tardar unos pocos minutos en cargarse.

Ahora carguemos los datos del cuarteto de Anscombe.

Cuando vemos estos datos, percibimos que hay cuatro conjuntos de ejes x e y en el marco de datos. Eso es el cuarteto. Los
datos se pueden resumir a través de diferentes mediciones estadísticas. Obtendremos un resumen de cada conjunto de
datos con la media, el desvío estándar y la correlación para cada uno de estos conjuntos de datos. Empezaremos por indicar
que queremos agrupar nuestros datos por conjunto.

Luego, escribiremos nuestra función <i>summarize</i>.

Cuando ejecutamos esto, obtendremos un resumen de esas mediciones estadísticas. En nuestra tabla de resumen,
podemos verificar la media. La media para x en cada conjunto de datos es nueve, y la media para y es 7.5.mean(x) El desvío
estándar sd() nos puede ayudar a comprender el margen de los valores en un conjunto de datos y mostrarnos qué tan lejos
está cada valor con respecto a la media. El desvío estándar para x e y en cada conjunto de datos en el cuarteto es el mismo,
3.32 y 2.03. Por último, tenemos nuestra correlación cor(x, y), que nos muestra qué tan sólida es la relación entre dos
variables. Aquí, parece que la correlación entre x e y en todos los conjuntos de datos es alrededor de 0.816. En función de
los resúmenes, que creamos con nuestras mediciones estadísticas, estos conjuntos de datos son idénticos, pero a veces
mirar solamente los datos resumidos puede ser engañoso. Vamos a armar algunos gráficos simples que nos ayuden a
visualizar estos datos y corroborar si los conjuntos de datos son realmente idénticos. Posteriormente aprenderás más
acerca del trazado de datos en R. Por el momento, nos haremos una idea rápida de cómo aparecen estos datos.

Reproduce el video desde :3:20 y sigue la transcripción3:20

Vamos a analizarlo. Estos cuatro conjuntos de datos aparentan ser bastante diferentes cuando los visualizamos. Si no
hubiéramos realizado resúmenes estadísticos, nunca hubiéramos sabido que estos datos son realmente muy diferentes.
Quiero mostrarte algo realmente genial. El paquete datasauRus. DatasauRus crea diagramas con los datos Anscombe en
diferentes formas. Pero vamos a ejecutarlo para comprobarlo nosotros mismos. Primero, empezarás por instalar y cargar el
paquete.

Reproduce el video desde :4:9 y sigue la transcripción4:09

Luego, crearemos un gráfico nuevo.

Reproduce el video desde :4:21 y sigue la transcripción4:21

Es normal que estos comandos parezcan complicados. Pronto podrás crear tu propio diagrama Esto es solo un adelanto de
cómo puede ayudarte R a crear visualizaciones de datos. Cuando ejecutamos esto, nos muestra diferentes tipos de
diagramas. Está el famoso dinosaurio, un ojo de buey, una estrella.

R es una herramienta de visualización muy poderosa. Podrías usar las relaciones entre puntos de datos para crear muchas
otras formas. Como ves, puedes hacer un montón de cosas con R. Las visualizaciones de datos como las que acabamos de
explorar ayudan a descubrir mucho más sobre los datos con los que estás trabajando. Es importante explorar tus datos de
diferentes maneras para aprender un poco más sobre este tema. A continuación, aprenderemos a usar las funciones en R
para corroborar el sesgo

Función de sesgo
Hola, bienvenido nuevamente. Por ahora, ya aprendiste la importancia de los datos justos no sesgados en el análisis de
datos. En R, en realidad podemos cuantificar el sesgo comparando el resultado real de nuestros datos con el resultado
previsto. Hay una explicación estadística bastante compleja detrás de esto. Sin embargo, con la función <i>bias </i> en R, no
tienes que hacer este cálculo en forma manual. Básicamente, la función <i>bias</i> calcula el monto promedio en que el
resultado real supera al resultado previsto. Está incluido en el paquete de diseño Sim. Así que es útil instalarlo y practicar
por tu cuenta. Si el modelo no tiene sesgo, el resultado debería ser bastante cercano a cero. Un resultado alto significa que
tus datos podrían estar sesgados. Algo que es bueno saber antes de analizarlos. Supongamos que estás trabajando con un
canal meteorológico local para determinar si las predicciones climáticas están sesgadas. Primero, necesitamos instalar y
cargar un paquete llamado diseño Sim.

Reproduce el video desde :1:13 y sigue la transcripción1:13

Usaremos la función <i>bias</i> para comparar las temperaturas pronosticadas con las temperaturas reales. Para este
ejemplo, solo tomaremos una pequeña muestra de nuestros datos meteorológicos y los cargaremos aquí. Etiquetaremos
esto como la temperatura real.

Luego, pondremos las predicciones.

Y, luego, aplicaremos la función <i>bias</i>.

Cuando ejecutamos esto, descubrimos que


el resultado es 0.71. Una cifra muy cercana a cero, pero la predicción parecía sesgada hacia temperaturas más bajas, es
decir, no son tan exactas como podrían ser. Y ahora que el canal meteorológico local sabe esto, pueden encontrar cuál es el
problema que está causando las predicciones sesgadas en su sistema. Esto no significa que sus predicciones serán perfectas
todo el tiempo, pero serán más exactas en general.

Probemos con otro ejemplo, en este escenario trabajaremos para una tienda de juegos. La tienda viene llevando un registro
de cuántas copias de juegos nuevos venden en la fecha de lanzamiento. Quieren comparar estas cifras con sus ventas reales
para saber si los pedidos de stock coinciden con sus necesidades reales. Como con el ejemplo anterior, empezaremos por
cargar nuestros datos de ventas, con la etiqueta <i>ventas_reales</i> y agregaremos los puntos de datos.

A continuación, ingresaremos el monto de stock que se pidió como <i>ventas</i><i>_previstas</i> y luego ingresaremos
esos puntos de datos.

Y ya tenemos nuestros datos listos para avanzar. Como aprendimos con el primer ejemplo, la función <i>bias</i> compara el
resultado real y el resultado previsto de los datos para determinar la cifra promedio en la cual el resultado real supera al
resultado previsto. Un modelo sin sesgo debería ser cercano a cero. Ahora ejecutemos la función <i>bias</i> en nuestros
datos de ventas, como antes, solo escribiremos <i>bias</i> para iniciar la función y luego <i>ventas_reales </i>y
<i>ventas_previstas</i> entre paréntesis. Cuando presionamos Enter... ¡Guau!, el resultado es -35.

Eso está muy lejos de cero. El resultado previsto es


mayor que el resultado real, lo cual significa que la
tienda tal vez esté pidiendo demasiado stock para
las fechas de lanzamiento. Como ya han usado la
función <i>bias</i> para comparar estos puntos de
datos, pueden reevaluar sus prácticas de
aprovisionamiento de stock para evitar comprar
más stock que el que necesitan de una vez.

Reproduce el video desde :4:31 y sigue la


transcripción4:31
Muy bien, eso es todo por ahora. Abarcamos mucho material juntos. Aprendimos cómo crear marcos de datos. Probamos
algunas funciones básicas de limpieza de datos. Ya tenemos una pequeña noción sobre cómo la visualización de datos en R
nos puede ayudar a comprender mejor nuestros datos. Y, por último, aprendimos cómo usar la función <i>bias</i>. Todavía
me quedan muchas cosas que quiero contarte sobre R, y si las visualizaciones de datos que creamos en este módulo nos
entusiasman, tengo excelentes noticias. A continuación, aprenderemos todo sobre visualización de datos en R, pero
primero tienes que superar un desafío semanal. Sé que lo harás fantástico. Y si quieres repasar el material que hemos
tratado en estos videos, siéntete libre de hacerlo. Quizás esta sea la primera vez que te encuentras con R, así que es una
gran oportunidad para practicar algo nuevo. Al principio tu código podría arrojar algunos errores. Eso forma parte de la
escritura de código. Aprender de nuestros errores nos permite crecer. Te veo más adelante para nuestra próxima aventura
en R.

Trabajar con datos sesgados


Todo analista de datos encontrará un elemento de sesgo en algún momento del proceso de análisis de datos. Por eso
es tan importante saber cómo identificar y gestionar los datos sesgados siempre que sea posible. Tal vez recuerdes
que exploramos el sesgo en detalle en el curso 3 de este programa. En esta lectura, leerás un ejemplo de la vida real
de un analista que descubrió un sesgo en sus datos, y aprenderás cómo utilizó R para solucionarlo.

Cómo abordar los datos sesgados con R

Este escenario fue compartido por un analista cuantitativo que recopila datos de personas de todo el mundo. Explica
cómo descubrieron el sesgo en los datos y cómo usaron R para solucionarlo:

"Trabajo en un equipo que recopila datos tipo encuesta. Una de las tareas que realiza mi equipo se llama
comparación por pares. Por ejemplo, podemos mostrar a los usuarios dos anuncios uno al lado del otro al mismo
tiempo. En nuestra encuesta, preguntamos cuál de los dos anuncios prefieren. En un caso, tras muchas iteraciones,
observamos un sesgo constante a favor del primer elemento. También hubo una disminución apreciable de la
preferencia por un elemento si cambiamos su posición a la segunda.

Así que decidimos añadir aleatoriedad a la posición de los anuncios usando R. Queríamos asegurarnos de que los
artículos aparecieran en la primera y segunda posición con frecuencias similares. Utilizamos sample() para inyectar un
elemento de aleatoriedad en nuestra programación en R. En R, la función sample() permite tomar una muestra
aleatoria de elementos de un conjunto de datos. Al agregar este fragmento de código se barajan las filas de nuestro
conjunto de datos de forma aleatoria. Así, cuando presentamos los anuncios a los usuarios, las posiciones de los
anuncios eran ahora aleatorias y se controlaba el sesgo. Esto hizo que la encuesta fuera más eficaz y los datos más
fiables".

Conclusiones clave
La función sample() es solo una de las muchas funciones y métodos en R que puedes usar para abordar el sesgo de
tus datos. Dependiendo del tipo de análisis que estés realizando, es posible que tengas que incorporar algunos
procesos avanzados en tu programación. Aunque este programa no cubre este tipo de procesos en detalle, es
probable que aprendas más sobre ellos a medida que adquieras más experiencia en el campo del análisis
computacional de datos.

Para saber más sobre el sesgo y la ética de los datos, consulta estos recursos:

 Función de sesgo: Esta página web es un buen punto de partida para aprender cómo la función de sesgo en R
puede ayudarte a identificar y gestionar el sesgo en tu análisis.
 Ética de la ciencia de datos: Este curso en línea proporciona diapositivas, vídeos y ejercicios para ayudarte a
aprender más sobre la ética en el mundo del análisis computacional de datos. Incluye información sobre la
privacidad de los datos, su tergiversación y la aplicación de la ética a tus visualizaciones.

1.
Pregunta 1

Resumen de la actividad

Hasta ahora aprendiste muchas formas de cambiar y trabajar con datos en una variedad de escenarios, incluyendo
hojas de cálculo y RStudio. En esta actividad, seguirás un escenario del mundo real y practicarás cómo manipular y
modificar datos reales en R.

Al completar esta actividad, sabrás cómo usar funciones para manipular tus datos y utilizar resúmenes estadísticos
para explorarlos. Esto te permitirá usar R para tareas más complejas en tu carrera como analista de datos y te
ayudará a obtener una visión inicial de los datos que podrás compartir con los interesados.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta de RStudio Cloud y abre el proyecto con este enlace. Navega al explorador
de archivos que se encuentra abajo, a la derecha, y haz clic en lo siguiente: Course 7 -> Week 3 ->
Lesson3_Change.Rmd.

El archivo .csv que necesitarás, hotel_bookings.csv, también está en esta carpeta.

Si tienes dificultades para encontrar la actividad correcta, consulta esta guía paso a paso sobre cómo navegar en
RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos Rmd se utilizarán
en otras actividades.

Si estás utilizando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

Hands-On Activity- Changing your data1_SPA

TXT File

Hands-On Activity- Changing your data2_SPA

CSV File

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:

Hands-On Activity- Changing your data3_SPA

TXT File
Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como ejecutar un código escrito previamente, mientras que otros pueden requerir que
escribas tus propias funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu
trabajo está completo.

Confirmación

¿Cuál es el tiempo promedio de espera para una reserva de hotel en este conjunto de datos?
1 / 1 punto

100.0011
104.0114
14.0221
45.0283
Correcto

El tiempo promedio es de 104.0114 días. Pudiste calcularlo usando la función mean() en la columna lead_time del
conjunto de datos. En adelante, puedes aplicar las funciones que usaste en esta actividad a futuros proyectos para
modificar y analizar tus datos.

1.
Pregunta 1

¿Cuál de las siguientes funciones puede usar un analista de datos para obtener un resumen estadístico de su
conjunto de datos? Selecciona todas las opciones que correspondan.
1 / 1 punto

 mean()
Correcto. Las funciones sd(), cor() y mean() pueden proporcionar un resumen estadístico del conjunto de
datos usando la desviación estándar, la correlación y la media.

 cor()
Correcto. Las funciones sd(), cor() y mean() pueden proporcionar un resumen estadístico del conjunto de
datos usando la desviación estándar, la correlación y la media.

 ggplot2()
 sd()
Correcto. Las funciones sd(), cor() y mean() pueden proporcionar un resumen estadístico del conjunto de
datos usando la desviación estándar, la correlación y la media.

2.
Pregunta 2

Un analista de datos escribe el siguiente comando: quartet %>% group_by(set) %>% summarize(mean(x), sd(x),
mean(y), sd(y), cor(x, y)). ¿Cuál de las funciones de este comando puede ayudarlo a determinar la solidez de la
relación entre sus variables?
1 / 1 punto

sd(y)
cor(x,y)
mean(y)
sd(x)
Correcto

La función cor() devuelve la correlación entre dos variables. Esto determina la solidez de la relación entre esas dos
variables.
3.
Pregunta 3

Completa el espacio en blanco: La función de sesgo compara el resultado real de los datos con el resultado _____
para determinar si el modelo está sesgado o no.
1 / 1 punto
1. deseado
2. probable
3. final
4. previsto
Correcto

La función de sesgo compara el resultado real de los datos con el


resultado previsto para determinar si el modelo está sesgado o no.

Glosario
Análisis computacional de datos
Términos y definiciones

A
Agenda: Lista de citas programadas

Agregación de datos: Proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida

Agregación: Proceso de recolectar o juntar muchas partes separadas en un todo

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada

Anidado: Código que realiza una función particular y está contenido dentro de código que realiza una función más amplia
Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la
eliminación de información que pueda asociarse a ellas

Anotación: Texto que explica brevemente los datos o ayuda al público a concentrarse en un aspecto concreto de los datos
en una visualización

Apertura: Aspecto de la ética de datos que promueve el acceso libre, el uso y el uso compartido de los datos

Árbol de decisiones: Herramienta que ayuda a los analistas a tomar decisiones sobre características esenciales de una
visualización

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores

Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido

Archivo de registro: Archivo generado por computadora que registra eventos de sistemas operativos y otros programas de
software

Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido como, por ejemplo, MP4, MV4, MOV, AVI o FLV

Argumento (R): Información necesaria para la ejecución de una función en R

Asignación de alias: Nombrar temporalmente una tabla o columna en una consulta para que sea más fácil de leer y escribir

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

Atributos preatencionales: Elementos de una visualización de datos que las personas reconocen automáticamente sin
hacer un esfuerzo consciente

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado

AVERAGEIF: Función de una hoja de cálculo que devuelve el promedio de todos los valores de las celdas de un determinado
rango que cumplen una condición especificada

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones
Base de datos: Recopilación de datos almacenados en un sistema informático

Biblioteca: Directorio que contiene todos los paquetes instalados de un analista de datos

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otro término

C
C#: Lenguaje de programación orientado al objeto usado para crear juegos y aplicaciones móviles en la plataforma de
desarrollo de código abierto .NET

C++: Extensión del lenguaje de programación C que se usa para crear juegos de consola, como los juegos para Xbox

Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Cálculo: Rama de la matemática que implica el estudio de las tasas de cambio y los cambios entre valores que están
relacionados por una función

Campo calculado: Campo nuevo dentro de una tabla dinámica que realiza ciertos cálculos en función de los valores de otros
campos

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

Canal: Aspecto visual o variable que representa características de los datos en una visualización

Canalización (R): Herramienta en R para expresar una secuencia de varias operaciones, representadas por “%>%”

Captación de interés: Captar la atención de alguien y mantener su interés durante una presentación de datos

CASE: Instrucción de SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

Caso práctico: Una manera común en que los empleadores evalúan destrezas profesionales y obtienen información sobre
cómo un candidato aborda desafíos comunes relacionados con los datos

CAST: Función de SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema


Causalidad: Cuando una acción lleva directamente a un resultado, como una relación de causa-efecto

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Clasificación: Sistema para ubicar valores de un conjunto de datos en una escala de logro o estado

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
clave externa)

Clúster: Conjunto de puntos de datos en una visualización de datos con valores similares

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Codificación: El proceso de escribir instrucciones para una computadora usando la sintaxis de un lenguaje de programación
específico

Código abierto: Código que está libremente disponible y puede ser modificado y compartido por las personas que lo usan

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Combinación de datos: Método de Tableau que combina datos provenientes de múltiples fuentes de datos

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

Composición de datos: Proceso que combina las partes individuales en una visualización y las muestra juntas como un todo

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos
Consulta externa: Instrucción de SQL que contiene una subconsulta

Consulta interna: Subconsulta de SQL que está dentro de otra instrucción de SQL

Consulta: Solicitud de datos o información de una base de datos

Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger
una hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
puede arrastrar a través de las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

CONVERT: Función de SQL que cambia la unidad de medida de un valor en los datos

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

Correlación: Medición del grado de cambio de dos variables entre sí

COUNT DISTINCT: Función de SQL que solo devuelve los valores distintos en un rango especificado

COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con una condición
especificada

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango que cumplen con un criterio
especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas dentro de un rango que coinciden con un valor
especificado

CRAN (Comprehensive R Archive Network) (R): Archivo en línea con paquetes R, código fuente, manuales y documentación

CREATE TABLE: Cláusula de SQL que añade una tabla temporal a una base de datos que puede ser utilizada por varias
personas

CSS (Cascading Style Sheets): Lenguaje de programación usado para el diseño de páginas web que controla los elementos
gráficos y la presentación de la página
Cuarteto de Anscombe Cuatro conjuntos de datos que tienen estadísticas de resumen casi idénticas, pero contienen valores
graficados diferentes

D
DATEDIF: Función de la hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos

Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no los recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema
tiene datos en varias filas

Datos en tiempo real: Datos que se actualizan automáticamente

Datos estáticos: Datos que no cambian una vez que se registraron

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas
Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos

Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos y son correctos y pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordenados (R): Forma de estandarizar la organización de los datos en R

Datos ordinales: Datos cualitativos con un orden o escala establecidos

Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Design Thinking: Proceso que se usa para resolver problemas complejos de una manera centrada en el usuario

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diagrama de caja: Visualización de datos que muestra la distribución de valores a lo largo de un eje x

Diagrama de dispersión: Visualización de datos que representa relaciones entre las diferentes variables con puntos de
datos individuales sin una línea de conexión

Diagrama de Gantt: Visualización de datos que muestra la duración de los eventos o actividades en una línea de tiempo

Diseño de datos: Cómo se organiza la información


DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

dplyr (R): Paquete de R en Tidyverse que ofrece un conjunto de funciones uniforme para completar tareas comunes de
manipulación de datos

DROP TABLE: Cláusula de SQL que elimina una tabla temporal de una base de datos

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar,
analizar y compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Eje X: Línea horizontal de un gráfico que suele situarse en la parte inferior y, a menudo, se usa para representar escalas de
tiempo y categorías puntuales

Eje Y: Línea vertical de un gráfico que suele situarse a la izquierda y, a menudo, se usa para representar frecuencias y otras
variables numéricas

Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Énfasis: Principio de diseño que consiste en organizar los elementos visuales para centrar la atención del público en la
información importante de una visualización de datos

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Equilibrio: Principio de diseño que consiste en crear un atractivo estético y claridad en una visualización de datos mediante
la distribución uniforme de los elementos visuales

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y
organizar datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estadísticas: El estudio de cómo recopilar, analizar, resumir y presentar datos


Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Estructura de los datos: Formato para organizar y almacenar datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas

Etiqueta: Texto en una visualización que identifica un valor o describe una escala

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados

Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Factor (R): Objeto que almacena datos de categoría en el que los valores de datos están limitados y generalmente se basan
en un grupo finito, como país o año

Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de la hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Formato visual: Apariencia de la visualización de datos que les aporta una estructura y un atractivo estético

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG

Framework: Contexto que necesita una presentación para establecer conexiones lógicas entre la tarea empresarial y las
métricas
FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función (R): Contenido de código reutilizable para realizar tareas específicas en R

Función anidada: Función que está contenida completamente dentro de otra función

Función matemática: Función que se utiliza como parte de una fórmula matemática

Función: Comando preestablecido que realiza automáticamente un proceso o tarea específico utilizando los datos de una
hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Fusión: Acuerdo que une dos organizaciones en una organización nueva

FWF (archivo de ancho fijo): Archivo de texto con un formato específico que permite guardar datos textuales de manera
organizada

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

ggplot2 (R): Paquete de R en Tidyverse que crea diversas visualizaciones de datos aplicando diferentes propiedades visuales
a las variables de datos en R

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico circular: Visualización de datos que usa segmentos de un círculo para representar las proporciones de cada
categoría de datos en comparación con el total

Gráfico combinado: Visualización de datos que combina más de un tipo de visualización

Gráfico de anillos: Visualización de datos en donde los segmentos de un anillo representan valores de datos que se suman
en un conjunto

Gráfico de áreas: Visualización de datos que utiliza puntos de datos individuales para una variable cambiante conectados
por una línea continua con un área de relleno debajo
Gráfico de barras: Visualización de datos que usa el tamaño para contrastar y comparar dos o más valores

Gráfico de burbujas agrupadas: Visualización de datos que muestra los datos en círculos agrupados

Gráfico de burbujas: Visualización de datos que muestra puntos de datos individuales como burbujas, y compara valores
numéricos por su tamaño relativo

Gráfico de calibre: Visualización de datos que muestra un único resultado en un rango de valores progresivo

Gráfico de columnas: Visualización de datos que usa puntos de datos individuales para una variable cambiante,
representada mediante columnas verticales

Gráfico de distribución: Visualización de datos que muestra la frecuencia de diversos resultados en una muestra

Gráfico de líneas: Visualización de datos que usa una o más líneas para mostrar cambios o variaciones en los datos a lo
largo del tiempo

Gráfico de viñetas: Visualización de datos que muestra los datos como un gráfico de barras horizontal que se mueve hacia
un valor deseado

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

Gráfico: Representación gráfica de los datos en una hoja de cálculo

GROUP BY: Cláusula de SQL que agrupa las filas que tienen los mismos valores de una tabla en filas de resumen

Guiones bajos: Líneas utilizadas para subrayar palabras y conectar caracteres de texto

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

HAVING: Cláusula de SQL que añade un filtro a una consulta en lugar de la tabla subyacente que solo se puede usar con
funciones de agregado

head() (R): Función en R que devuelve una vista previa de los nombres de las columnas y las primeras filas de un conjunto
de datos
Hipótesis: Teoría que un análisis intenta corroborar o refutar con datos

Histograma: Visualización de datos que muestra con qué frecuencia los valores de los datos se encuadran en ciertos rangos

Historia: Narrativa de una presentación de datos que la hace significativa e interesante

Hoja de cálculo: Hoja de cálculo digital

HTML5: Lenguaje de programación que brinda una estructura para páginas web y conecta a plataformas de hosting

I
IDE (entorno de desarrollo integrado): Aplicación de software que junta todas las herramientas que un analista de datos
puede querer usar en un solo lugar

Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura
confiable

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

INNER JOIN: Función de SQL que devuelve registros con valores coincidentes en ambas tablas

Instrucción condicional: Declaración de que si una determinada condición es verdadera, entonces debe producirse un
determinado evento

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población
J
Java: Lenguaje de programación que se usa ampliamente para crear aplicaciones web de empresas que pueden ejecutarse
en múltiples clientes

JOIN: Función de SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada

L
LEFT JOIN: Función de SQL que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla
derecha

LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de programación: Sistema de palabras y símbolos usados para escribir instrucciones que las computadoras siguen

Leyenda: Herramienta que identifica el significado de diversos elementos en una visualización de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Lista: Vector con elementos que pueden ser de cualquier tipo

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

Longitud: Número de caracteres en una cadena de texto

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que
permiten que los analistas de datos aborden los problemas comerciales de gran alcance
Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapa coroplético: Visualización de datos que colorea las áreas en un mapa según las mediciones o las dimensiones

Mapa de densidad: Visualización de datos que representa concentraciones, con un color que representa el número o la
frecuencia de los puntos de datos en un área determinada de un mapa

Mapa de símbolos: Visualización de datos que muestra una marca sobre una determinada longitud y latitud

Mapa térmico: Visualización de datos que usa el contraste del color para comparar categorías en un conjunto de datos

Mapa: Visualización de datos que organiza los datos geográficamente

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Marca: Objeto visual en una visualización de datos, como un punto, una línea o una forma

Marco de datos: Conjunto de columnas que contienen datos, que es similar a una hoja de cálculo o una tabla de SQL

Margen de beneficio: Porcentaje que indica cuántos centavos de ganancia se generaron por cada dólar de venta

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

MATCH: Función de la hoja de cálculo que se usa para ubicar la posición de un valor de búsqueda específico

Matriz: Conjunto bidimensional de elementos de datos con filas y columnas

MAX: Función de la hoja de cálculo que muestra el resultado del valor numérico más alto de un rango de celdas

MAXIFS: Función de la hoja de cálculo que devuelve el valor máximo de un determinado rango que cumple una condición
especificada

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer,
tanto en el campo profesional como en el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante
Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Metadatos: Datos sobre los datos

Método McCandless: Método que se utiliza para presentar visualizaciones de datos y que pasa de la información general a
la específica

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados

Métrica de negocios: Criterio de medición que se utiliza para resolver una tarea empresarial

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

MINIFS: Función de la hoja de cálculo que devuelve el valor mínimo de un rango determinado que cumple una condición
especificada

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Modelo mental: Proceso de pensamiento del analista de datos y enfoque a un problema

Módulo: Operador (%) que devuelve el resto cuando se divide un número por otro

Movimiento: Principio de diseño que consiste en organizar los elementos visuales para guiar la atención del público de una
parte de una visualización de datos a otra

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un
todo
mutate() (R): Función de R que realiza cambios a un marco de datos separando y combinando columnas o creando nuevas
variables

N
Narrativa de datos: Comunicar el significado de un conjunto de datos con elementos visuales y una historia personalizada
según el público

Narrativa: (Ver Historia)

Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Operador aritmético: Operador usado para realizar operaciones matemáticas básicas como suma, resta, multiplicación y
división

Operador de asignación: Operador usado para asignar valores a variables y vectores

Operador lógico: Operador que devuelve un tipo de datos lógico

Operador relacional: Operador usado para comparar valores, también conocido como comparador
Operador: Símbolo que designa la operación o cálculo a realizarse

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el
que deben realizarse las operaciones

Ordenación: Proceso de organizar los datos en un orden significativo para que sean más fáciles de entender, analizar y
visualizar

Ordenar hoja: Función del menú de la hoja de cálculo que ordena todos los datos por la clasificación de una columna
específica ordenada y mantiene los datos juntos a través de las filas

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de dirigir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas

OUTER JOIN: Función de SQL que combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas
tablas

P
Paleta de color divergente: Tema de color que muestra dos rangos de valores de datos que usan dos tonalidades diferentes,
donde la intensidad del color representa la magnitud de los valores

Panel: Herramienta que monitorea los datos entrantes en vivo

Paquete (R): Una unidad de código R reproducible

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Patrón: Principio de diseño que usa elementos visuales similares para demostrar tendencias y relaciones en una
visualización de datos

Pensamiento analítico: Proceso de identificar y definir un problema para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

PHP (preprocesador de hipertexto): Lenguaje de programación para el desarrollo de aplicaciones web


Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Poner de relieve: Explorar los datos para identificar rápidamente la información más importante

Portfolio: Conjunto de materiales que puede compartirse con empleadores potenciales

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente

Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta

Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una
transacción de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es
el de obtener conocimiento que propicie la toma de decisiones informada

Proceso de validación de datos: Proceso de comprobar y volver a comprobar la calidad de los datos para que sean
completos, precisos, seguros y coherentes

Programación informática: El proceso de darle instrucciones a una computadora para que realice una acción o un conjunto
de acciones

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido
Proporción: Principio de diseño que consiste en usar el tamaño relativo y la disposición de los elementos visuales para
mostrar la información en una visualización de datos

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Python: Lenguaje de programación de uso general

Q
Quitar duplicados: Herramienta de la hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

R
R: Lenguaje de programación que se usa para análisis estadísticos, visualización y análisis de datos

Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango de ordenación: Función del menú de la hoja de cálculo que ordena un rango especificado y preserva las celdas que
no están incluidas en ese rango

Rango: Conjunto de dos o más celdas en una hoja de cálculo

readr (R): Paquete de R en Tidyverse usado para importar datos

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia absoluta: Referencia dentro de una función que está bloqueada para que las filas y las columnas no cambien si
se copia la función

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto
Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila

Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Relatividad: Proceso de considerar las observaciones en relación con o en proporción a algo más

Repetición: Principio de diseño que consiste en repetir elementos visuales para demostrar el significado en una
visualización de datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones

Repositorio de metadatos: Base de datos creada para almacenar metadatos

Resaltar tabla: Visualización de datos que usa formato condicional y color en una tabla

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una
inversión

RIGHT JOIN: Función de SQL que devuelve todos los registros de la tabla derecha y solo los registros coincidentes de la
izquierda

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

Ritmo: Principio de diseño que consiste en crear movimiento y fluidez en una visualización de datos para captar la atención
de una audiencia

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales.

Ruby: Lenguaje de programación orientado a objetos para el desarrollo de aplicaciones web

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

Selección: Conjunto de valores en celdas de una hoja de cálculo

SELECT INTO: Cláusula de SQL que copia datos de una tabla a una tabla temporal sin añadir la nueva tabla a la base de datos
SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver Sesgo del observador)

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se
trabaja con una muestra que no representa a la población en su totalidad

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria

Sintaxis: Estructura predeterminada de un lenguaje que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación

SPLIT: Función de la hoja de cálculo que divide el texto en base a un carácter específico y ubica cada fragmento en una
nueva celda separada

SQL: (Ver Lenguaje de consulta estructurado)

Subcadena: Subconjunto de una cadena de texto

Subconsulta: Consulta de SQL anidada dentro de una consulta más grande

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

Subtítulo: Texto que complementa al título al indicar el contexto y la descripción

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

SUMIF: Función de una hoja de cálculo que suma datos numéricos basados en una condición

SUMPRODUCT: Función que multiplica las matrices y muestra el resultado de la suma de esos productos
Swift: Lenguaje de programación para macOS, iOS, watchOS y tvOS

T
Tabla de resumen: Tabla que se usa para resumir información estadística sobre los datos

Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos

Tabla temporal: Tabla de una base de datos que se crea y existe temporalmente en el servidor de una base de datos

Tableau: Plataforma de inteligencia de negocios y análisis que ayuda a las personas a visualizar y comprender datos, y a
tomar decisiones basadas en los datos

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados
significativos

Texto alternativo: Texto que ofrece una alternativa al contenido no textual, como las imágenes y los vídeos

Tibble (R): Variación optimizada de marcos de datos

tidyr (R): Paquete de R en Tidyverse usado para limpieza de datos para generar datos ordenados

Tidyverse (R): Sistema de paquetes en R con una filosofía de diseño en común para la manipulación, exploración y
visualización de datos

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina
tipo de datos de texto)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo
de datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar
Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Título: Texto en la parte superior de una visualización que comunica los datos que se están presentando

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial

Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o


de una computadora a otra

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

TSV (archivo con valores separados por tabuladores): Archivo de texto que almacena una tabla de datos separando
columnas de datos con tabuladores

U
Único: Valor que no puede tener un duplicado

Unidad: Principio de diseño que consiste en usar elementos visuales que se complementan entre sí para crear un atractivo
estético y claridad en la visualización de datos

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de
datos

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea
VALUE: Función de la hoja de cálculo que convierte una cadena de texto que representa un número en un valor numérico

Variable (R): Representación de un valor en R que puede almacenarse para uso posterior

Variedad: Principio de diseño que consiste en usar diferentes tipos de elementos visuales en una visualización de datos para
captar la atención del público

Vector (R): Grupo de elementos de datos del mismo tipo almacenados en una secuencia unidimensional en R

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos
resultantes son precisos y confiables

Vignette (R): Documentación para un paquete en R que describe el problema que el paquete está diseñado para resolver,
explica cómo pueden usarse sus funciones y enumera cualquier dependencia de otros paquetes

Vista en círculo: Visualización de datos que muestra la fortaleza comparativa en los datos

Visualización de datos: Representación gráfica de los datos

Visualización estática: Visualización de datos que no cambia a lo largo del tiempo a menos que se edite

Visualización: (Ver Visualización de datos)

Visualizaciones dinámicas: Visualizaciones de datos que son interactivas o cambian a lo largo del tiempo

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados

WITH: Cláusula de SQL que crea una tabla temporal que se puede consultar muchas veces

1.
Pregunta 1

Un analista de datos está trabajando con un conjunto de datos en R que tiene más de 50,000 observaciones. ¿Por
qué decidiría usar un tibble en lugar del marco de datos estándar? Selecciona todas las opciones que correspondan.
1 / 1 punto

Los tibbles generan automáticamente una vista previa de solo las columnas que caben en la pantalla
Correcto. Los tibbles facilitan la impresión en R. No sobrecargarán por accidente la consola del analista de datos
porque están configurados automáticamente para extraer solo las 10 primeras filas y tantas columnas como quepan
en la pantalla.
Los tibbles pueden crear nombres de filas
Los tibbles pueden cambiar automáticamente los nombres de las variables
Los tibbles generan automáticamente una vista previa solo de las 10 primeras filas de datos
Correcto. Los tibbles facilitan la impresión en R. No sobrecargarán por accidente la consola del analista de datos
porque están configurados automáticamente para extraer solo las 10 primeras filas y tantas columnas como quepan
en la pantalla.

2.
Pregunta 2

Un analista de datos quiere un resumen rápido de la estructura de su marco de datos, que incluya los nombres de las
columnas y el número de filas y variables. ¿Qué función debería usar?
0 / 1 punto

colnames()
head()
rename_with()
str()
Correcto
La función str() devuelve un resumen de la estructura de un marco de datos, incluyendo los nombres de las columnas, el número de
filas y variables, y el tipo de datos almacenados.
.
3.
Pregunta 3

Estás trabajando con el conjunto de datos ToothGrowth. Deseas usar la función head() para obtener una vista previa
del conjunto de datos. Escribe el bloque de código que te dará esta vista previa.

head(ToothGrowth)
EjecutarRestablecer
len supp dose
1 4.2 VC 0.5
2 11.5 VC 0.5
3 7.3 VC 0.5
4 5.8 VC 0.5
5 6.4 VC 0.5
6 10.0 VC 0.5
¿Cuáles son los nombres de las columnas del conjunto de datos ToothGrowth?
1 / 1 punto

VC, supp, dose


len, supp, dose
len, VC, dose
len, supp, VC
Correcto

El bloque de código head(ToothGrowth) te ofrece una vista previa del conjunto de datos. Dentro del paréntesis de la
función head() está el nombre del conjunto de datos del que se quiere obtener una vista previa. El código devuelve
una vista previa de los nombres de las columnas y las primeras filas del conjunto de datos. Los nombres de las
columnas del conjunto de datos ToothGrowth son len, supp, dose.
4.
Pregunta 4

Un analista de datos está trabajando con el conjunto de datos de los pingüinos. ¿Qué bloque de código escribe el
analista para asegurarse de que todos los nombres de las columnas son únicos y coherentes y contienen solo letras,
números y guiones bajos?
1 / 1 punto

drop_na(penguins)
select(penguins)
rename(penguins)
clean_names(penguins)
Correcto
El bloque de código es clean_names(penguins). La función clean_names() garantiza que solo haya caracteres,
números y guiones bajos en los nombres utilizados en el marco de datos.
5.
Pregunta 5

Un analista de datos está trabajando con los datos de los pingüinos. Escribe el siguiente código:

penguins %>%

La especie variable incluye tres especiesde pingüinos: Adelia (Adelie), Barbijo (Chinstrap) y Papúa (Gentoo). ¿Qué
bloque de código agrega el analista para crear un marco de datos que solo incluya la especie Gentoo?
0 / 1 punto

filter(species == “Gentoo”)
filter(Gentoo == species)
filter(species <- “Gentoo”)
filter(species == “Adelie”)
Incorrecto

Vuelve a mirar el vídeo sobre la organización de datos en R para hacer un repaso.


6.
Pregunta 6

Estás trabajando con el conjunto de datos de los pingüinos. Deseas usar las funciones summarize() y mean() para
hallar el valor medio de la variable body_mass_g. En este punto, ya se escribió el siguiente código en la secuencia de
comandos:

penguins %>%

drop_na() %>%

group_by(species) %>%

Agrega un nuevo bloque de código que te permita hallar el valor medio de la body_mass_g.

(Nota: No escribas sobre el código en el editor del bloque de código, dado que ya se ingresó. Solo agrega una línea
de código que se base en la indicación.)

summarize(mean(body_mass_g))
EjecutarRestablecer
# A tibble: 3 <U+00D7> 2
species `mean(body_mass_g)`
<chr> <dbl>
1 Adelie 3706.164
2 Chinstrap 3733.088
3 Gentoo 5092.437
¿Cuál es la masa corporal media en gramos de la especie Adelia?
1 / 1 punto

5092.437
3706.164
4207.433
3733.088
Correcto

El bloque de código summarize(mean(body_mass_g)) te permite hallar el valor medio de la variable body_mass_g. El


código correcto es penguins %>% drop_na() %>% group_by(species) %>% summarize(mean(body_mass_g)). La
función summarize() muestra estadísticas de resumen. Puedes usar la función summarize() en combinación con otras
funciones, por ejemplo, mean(), max() y min(), para calcular estadísticas específicas. En este caso, se utiliza mean()
para calcular el valor medio de la masa corporal. La masa corporal media en gramos de la especie Adelia es de
3706.164 g.
7.
Pregunta 7

Un analista de datos está trabajando con un marco de datos llamado datos_salario. Quiere crear una nueva columna
llamada sueldos que incluya los datos de la columna tarifa multiplicados por 40. ¿Qué bloque de código permite al
analista crear la columna sueldos?
1 / 1 punto

mutate(sueldos = tarifa * 40)


mutate(datos_salario, tarifa = sueldos * 40)
mutate(datos_salario, sueldos = tarifa + 40)
mutate(datos_salario, sueldos = tarifa * 40)
Correcto

El bloque de código es mutate(datos_salario, sueldos = tarifa * 40). El analista puede usar la función mutate() para
crear una nueva columna llamada sueldos que incluya los datos de la columna tarifa multiplicados por 40. La función
mutate() puede crear una nueva columna sin afectar las columnas existentes.
8.
Pregunta 8

Un analista de datos está trabajando con un marco de datos llamado clientes. Tiene columnas separadas para el
código de área (código_área) y el número de teléfono (número_teléf ). El analista quiere combinar las dos columnas
en una sola columna llamada número_teléfono, con el código de área y el número de teléfono separados por un
guion. ¿Qué bloque de código permite al analista crear la columna número_teléfono ?
1 / 1 punto

unite(clientes, “número_teléfono”, código_área, sep=”-”)


unite(clientes, “número_teléfono”, código_área, número_teléf, sep=”-”)
unite(clientes, “número_teléfono”, código_área, número_teléf)
unite(clientes, código_área, número_teléfono, sep=”-”)
Correcto

El bloque de código unite(clientes, "número_teléfono", código_área, número_teléfono, sep="-") permite al analista


crear la columna número_teléfono. La función unite() permite al analista combinar los datos de código de área y
número de teléfono en una sola columna. En el paréntesis de la función, el analista escribe el nombre del marco de
datos, luego el nombre de la nueva columna entre comillas, seguido de los nombres de las dos columnas que quiere
combinar. Por último, el argumento sep="-" coloca un guion entre los datos del código de área y del número de
teléfono en la columna número_teléfono.
9.
Pregunta 9

Un analista de datos escribe el siguiente bloque de código para obtener un resumen estadístico de su conjunto de
datos: quartet %>% group_by(set) %>% summarize(mean(x), sd(x), mean(y), sd(y), cor(x, y)) ¿Qué función devolverá
el valor promedio de la columna y?
1 / 1 punto

mean(y)
mean(x)
cor(x, y)
sd(x)
Correcto

La función mean() devolverá el valor promedio de una variable específica. En este caso, mean(y) devolverá el valor
promedio de y.
10.
Pregunta 10

El analista de datos usa la función bias() para comparar el resultado real con el resultado previsto para determinar si
el modelo está sesgado o no. Obtuvo un puntaje de 0.8. ¿Qué significa esto?
0 / 1 punto

Se puede determinar el sesgo


El modelo no está sesgado
El modelo está sesgado
No se puede determinar el sesgo
Incorrecto
Vuelve a mirar el vídeo sobre la función de sesgo para hacer un repaso.

10.
Pregunta 10

Un analista de datos está estudiando los datos meteorológicos. Escribe el siguiente bloque de código: bias(temp_real,
temp_pronosticada) ¿Qué calculará este bloque de código?
1 / 1 punto

El promedio total de los valores


La diferencia mínima entre los valores reales y previstos
La diferencia máxima entre los valores reales y previstos
La diferencia promedio entre los valores reales y previstos
Correcto

La función bias() se puede usar para calcular la cantidad promedio de diferencia entre el resultado previsto y el
resultado real para determinar si el modelo de datos está sesgado.

5.
Pregunta 5

Un analista de datos está trabajando con el conjunto de datos de los pingüinos en R. ¿Qué bloque de código le
permitirá ordenar los datos de los pingüinos por la variable bill_length_mm?
1 / 1 punto

arrange(bill_length_mm, penguins)
arrange(penguins, bill_length_mm)
arrange(=bill_length_mm)
arrange(penguins)
Correcto

El bloque de código es arrange(penguins, bill_length_mm). La función arrange permite al analista ordenar los datos en
su conjunto de datos. Los argumentos de la función identifican el conjunto de datos como los datos de los pingüinos, y
que la ordenación debe basarse en la variable bill_length_mm. Los datos se clasifican automáticamente en orden
ascendente.

3.
Pregunta 3

Estás trabajando con el conjunto de datos ToothGrowth. Deseas usar la función glimpse() para obtener un resumen
rápido del conjunto de datos. Escribe el bloque de código que te dará este resumen.

1. glimpse(ToothGrowth)
EjecutarRestablecer
Observations: 60
Variables: 3
$ len <dbl> 4.2, 11.5, 7.3, 5.8, 6.4, 10.0, 11.2, 11.2, 5.2, 7.0, 16.5, 16...
$ supp <fctr> VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, V...
$ dose <dbl> 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 1.0, 1.0, 1....
¿Cuántas variables contiene el conjunto de datos ToothGrowth?
1 / 1 punto

 2
 4
 5
 3
Correcto

El bloque de código glimpse(ToothGrowth) te ofrece un resumen rápido del conjunto de datos. Dentro del paréntesis
de la función glimpse() está el nombre del conjunto de datos que quieres ver. El código devuelve un resumen con el
número de filas y columnas en el conjunto de datos. También muestra los nombres de las columnas y el tipo de datos
que contienen. El conjunto de datos ToothGrowth contiene 3 variables.
MODULO 4:
Crear visualizaciones de datos en R
Visualizaciones en R
Hola. ¡Qué bueno volver a verte! Realmente disfruté presentándote R. A esta altura, ya manejas R y RStudio y estás
familiarizado con algunos conceptos básicos de programación. Además, aprendiste cómo limpiar y organizar datos en R. Has
asumido el desafío de aprender a programar y desarrollado nuevas destrezas para el análisis de datos. Buen trabajo. Ahora
aprenderás a usar código para visualizar tus datos. La visualización de datos es una de las partes más importantes del
análisis de datos. Las visualizaciones potentes muestran a los interesados qué significan tus datos de una manera clara y
atractiva y destacan conclusiones clave. Las visualizaciones ayudan a dar vida a la historia de tus datos y hacen que esa
historia sea más fácil de comprender. Quizás recuerdes el anticipo que te di de los poderes de visualización de datos de R.
Creé esas visualizaciones con ggplot2, uno de los paquetes centrales de tidy verse. ggplot2 es el paquete de visualización
más popular de R, y con mucha razón: es una herramienta de visualización de datos potente y fácil de usar. A continuación,
aprenderás a escribir y ejecutar todo el código que vimos anteriormente. Aprenderás a usar ggplot2 para crear diversos
diagramas, organizar y representar diferentes variables en tu conjunto de datos y a personalizar la apariencia de tus
visualizaciones. Trabajar con ggplot2 puede ayudarte a sacarle el máximo provecho a tus datos. Tus nuevas destrezas de
visualización de datos también harán que sea más fácil aprender otras partes de R. De ahora en adelante, podrás visualizar
mejor los resultados de cualquier modificación que realices a tus datos. Además, obtienes un resultado inmediato de todo
tu arduo trabajo, lo que es una de mis partes favoritas de crear diagramas en ggplot2: simplemente ingresas un código, lo
ejecutas y sale una visualización genial que te ayuda a ti y ayuda a otras personas a comprender tus datos. La visualización
es una parte clave del flujo de trabajo de los analistas de datos. R te permite alternar entre el análisis y la visualización de
una manera rápida y fácil. No veo la hora de mostrarte lo que puede hacer ggplot2. Nos vemos pronto.

Elementos básicos de visualización en R y tidyverse


¡Hola nuevamente! En este vídeo, nos enfocaremos en ggplot2. Aprenderemos sobre sus características y funciones
principales y cómo puede ayudarte a visualizar tus datos. Primero, hablemos acerca de algunos paquetes de visualización
diferentes que puedes usar con R. Base R tiene su propio paquete y existen otros paquetes útiles que puedes agregar. Te
ayudan a hacer casi cualquier cosa que quieras con tus datos, desde hacer gráficos circulares simples hasta crear
representaciones visuales más complejas como gráficos y mapas interactivos. Los paquetes de uso general como Plotly te
dejan realizar una gran variedad de funciones de visualización. Otros como RGL se enfocan en soluciones específicas como
visualizaciones 3D. Algunos de los más populares incluyen ggplot2, Plotly, Lattice, RGL, Dygraphs, Leaflet, Highcharter,
Patchwork, gganimate y ggridges. Personalmente, ggplot2 es mi favorito para el análisis de datos. Es potente y flexible a la
vez. Con un poco de código, puedes crear muchos tipos de diagramas diferentes. Puedes usar ggplot2 solo o extender sus
poderes con otros paquetes. Además, es el paquete de visualización más popular en R. Muchos analistas de datos prefieren
usar ggplot2, por eso usamos ggplot2 aquí.

Reproduce el video desde :1:34 y sigue la transcripción1:34

Ggplot2 originalmente fue creado por el estadístico y desarrollador Hadley Wickham en 2005. La inspiración de Wickham
para crear ggplot2 provino del libro de 1999 The Grammar of Graphics, un estudio académico sobre la visualización de
datos, escrito por el científico de la computación Leland Wilkinson. Las primeras dos letras de ggplot2 de hecho significan
grammar of graphics. Y del mismo modo en que la gramática de los idiomas humanos nos da normas para armar cualquier
tipo de oración, la gramática de los gráficos nos da normas para armar cualquier tipo de visualización. Entonces ggplot2
tiene algunos bloques de construcción básicos que puedes usar para crear diagramas. En otras palabras, cuando aprendes
los pasos básicos para crear un diagrama en ggplot2, puedes reutilizar esos pasos para crear muchos tipos de diagramas
diferentes. Además, puedes agregar o quitar capas de detalles a tu diagrama sin cambiar su estructura básica o los datos
subyacentes. Esto hace que ggplot2 sea realmente poderoso. En nuestro próximo vídeo, veremos estos pasos uno a uno.
Ggplot2 también tiene muchos otros beneficios. Puedes crear todo tipo de diagramas diferentes, entre ellos, diagramas de
dispersión, gráficos de barras, diagramas de línea, y muchos más. Puedes cambiar los colores, el diseño y las dimensiones
de tus diagramas y agregar elementos de texto como títulos, leyendas y etiquetas. Con solo un poco de código puedes crear
representaciones visuales de alta calidad. Además, ggplot2 te deja combinar manipulación y visualización de datos usando
el operador de canalización. Ggplot2 también tiene muchísimas funciones que satisfacen todas tus necesidades de
visualización de datos. Para darte una idea, mira la hoja de referencia de ggplot2, que es una guía de referencia popular.
Puedes aprender más acerca de la hoja de referencia de ggplot2 en una próxima lectura. No es importante aprender todas
estas funciones de inmediato o siquiera saber qué son. Con el tiempo, a medida que empieces a hacer un análisis de datos
más avanzado, puedes aprender sobre nuevas funciones a medida que las necesites. Simplemente debes saber que si
necesitas encontrar una función para algo, ggplot2 seguramente la tenga. Y como comentamos, aun las funciones básicas
de ggplot2 te dejan hacer muchas cosas. Nos enfocaremos en algunos conceptos centrales en ggplot2: estética, figuras
geométricas, facetas, etiquetas y anotaciones. Quizás estos sean nuevos conceptos para ti y no hay problema. Los
aprenderemos juntos y pronto los exploraremos todos en detalle. Por ahora, un pequeño adelanto. En ggplot2, una estética
es una propiedad visual de un objeto de tu diagrama. Por ejemplo, en un diagrama de dispersión la estética incluye cosas
como el tamaño, la forma y el color de tus puntos de datos. Piensa en una estética como una conexión o mapeo entre una
característica visual en tu diagrama y una variable en tus datos. Más adelante, hablaremos de mapeo. Una figura
geométrica se refiere al objeto geométrico usado para representar tus datos. Por ejemplo, puedes usar puntos para crear
un diagrama de dispersión, barras para crear un gráfico de barras o líneas para crear un diagrama de líneas. Puedes elegir
una figura geométrica que se adapte al tipo de datos que tienes. Los puntos muestran la relación entre dos variables
cuantitativas. Las barras muestran una variable cuantitativa que varía entre diferentes categorías. A continuación,
hablaremos sobre la función facet. Las facetas te permiten mostrar grupos más pequeños, o subconjuntos, de datos. Con las
facetas, puedes crear diagramas separados para todas las variables en tu conjunto de datos.

Reproduce el video desde :5:49 y sigue la transcripción5:49

Por último, las funciones label y annotate te dejan personalizar tu diagrama. Puedes agregar texto como títulos, subtítulos y
leyendas para comunicar el propósito de tu diagrama o destacar datos importantes. Eso es todo por ahora. A continuación,
usaremos código para crear tu primer diagrama en ggplot2.

Pregunta
Completa el espacio en blanco: En ggplot2, _____ es una propiedad visual de un objeto de tu diagrama.
una estética
alfa
una anotación
un argumento
Correcto
En ggplot2, una estética es una propiedad visual de un objeto de tu diagrama.

1.
Pregunta 1

Resumen de la actividad

Anteriormente en este curso, conociste ggplot2, un paquete de R para la visualización de datos. En esta actividad,
aprenderás sobre la lógica básica de la visualización de datos en ggplot2 y cómo crear un diagrama usando código R.

Cuando hayas completado esta actividad, serás capaz de escribir funciones de R que crean visualizaciones de datos.
Esto te permitirá crear visualizaciones básicas para demostrar y compartir resultados con tus datos y código.

Los conceptos básicos de ggplot2

El paquete ggplot2 te permite crear diagramas personalizables de alta calidad con tus datos. A modo de repaso,
ggplot2 se basa en la gramática de los gráficos, que es un sistema para describir y desarrollar visualizaciones de
datos. La idea principal detrás de la gramática de los gráficos es que puedes crear cualquier diagrama a partir de los
mismos componentes básicos, como bloques de construcción.

Estos bloques de construcción incluyen:

Un conjunto de datos

Un conjunto de figuras geométricas: Una figura geométrica se refiere al objeto geométrico usado para representar tus
datos. Por ejemplo, puedes usar puntos para crear un diagrama de dispersión, barras para crear un gráfico de barras,
líneas para crear un diagrama de líneas, etc.

Un conjunto de atributos estéticos: Una estética es una propiedad visual de un objeto de tu diagrama. Puedes
concebir la estética como una conexión, o mapeo, entre una característica visual en tu diagrama y una variable en tus
datos. Por ejemplo, en un diagrama de dispersión, la estética incluye cosas como el tamaño, la forma, el color o la
ubicación (eje X, eje Y) de tus puntos de datos.

Para crear un diagrama con ggplot2, primero eliges un conjunto de datos. Luego determinas cómo organizar tus datos
visualmente en un sistema de coordenadas eligiendo una figura geométrica para representar tus puntos de datos y
estética para mapear tus variables.

Preparar tus datos

El paquete ggplot2 te permite usar código R para especificar el conjunto de datos, la figura geométrica y la estética de
tu diagrama.

Para hacerlo, primero elige un conjunto de datos con el que trabajar. Para esta actividad, usarás los datos de Palmer
Penguins que ya conoces de vídeos anteriores. Sin embargo, también puedes usar otro conjunto de datos.

Una vez que decidas tu conjunto de datos, abre RStudio y sigue estos pasos:

1. Si aún no lo hiciste, usa la función install.packages() para instalar ggplot2 y el conjunto de datos Palmer Penguins.
Escribe install.packages(“ggplot2”) e install.packages(“palmerpenguins”), luego haz clic en Ejecutar.

2. Carga ggplot2 y el conjunto de datos usando la función library(). Escribe library(ggplot2) y library(palmerpenguins).

3. Ahora examina el marco de datos para los datos de pingüinos. Para hacerlo, usa las funciones data() y View(). Usa
una “V” mayúscula para la función View(), ya que las funciones en R distinguen entre mayúsculas y minúsculas.
Escribe data(penguins) y View(penguins), luego haz clic en Ejecutar.

Las primeras 10 filas del marco de datos deberían aparecer así:

El conjunto de datos de pingüinos contiene mediciones de tamaño de tres especies de pingüinos (Adelie, Chinstrap y
Gentoo) que viven en el archipiélago Palmer en la Antártida. Las columnas incluyen información como masa corporal,
longitud de las aletas y longitud del pico.
Crear un diagrama en ggplot2

Supongamos que quieres modelar la relación entre masa corporal y longitud de aletas en las tres especies de
pingüino. Puedes elegir una figura geométrica específica que se adapte al tipo de datos que tienes. Los puntos
muestran la relación entre dos variables cuantitativas. Un diagrama de dispersión de puntos sería una manera eficaz
de mostrar la relación entre las dos variables. Puedes colocar longitud de aleta en el eje X y masa corporal en el eje
Y.

Escribe el siguiente código para crear el diagrama. Pero antes de ejecutarlo, revisa el código parte por parte:

ggplot(data = penguins) +geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

ggplot(data = penguins):En ggplot 2, comienzas un diagrama con la función ggplot(). La función ggplot() crea un
sistema de coordenadas al que puedes agregar capas. El primer argumento de la función ggplot() es el conjunto de
datos a usar en el diagrama. En este caso, es “penguins”.

+: Luego agregas un símbolo “+” para agregar una nueva capa a tu diagrama. Completas el diagrama agregando una
o más capas a ggplot().

geom_point(): Luego eliges una figura geométrica agregando una función geométrica. La función geom_point() usa
puntos para crear diagramas de dispersión, la función geom_bar usa barras para crear gráficos de barras, etc. En este
caso, elige la función geom_point para crear un diagrama de dispersión de puntos. El paquete ggplot2 viene con
muchas funciones geométricas diferentes. Obtendrás más información sobre figuras geométricas más adelante en
este curso.

(mapping = aes(x = flipper_length_mm, y = body_mass_g)): Cada función geométrica en ggplot2 toma un argumento de
mapeo. Esto define cómo se aplican variables de tu conjunto de datos a propiedades visuales. El argumento de
mapeo siempre se utiliza en conjunto con la función aes(). Los argumentos X e Y de la función aes() especifican qué
variables aplicar al eje X y al eje Y del sistema de coordenadas. En este caso, quieres aplicar la variable
“flipper_length_mm” al eje X y la variable “body_mass_g” al eje Y.

Ahora ejecuta el código. Al hacerlo, obtienes el siguiente diagrama:

El diagrama muestra una relación positiva entre las dos variables. Es decir, cuanto más grande es el pingüino, más
larga es la aleta.

Crear tu propio diagrama

Para crear tu propio diagrama usando código, sigue estos tres pasos:
1. Comienza con la función ggplot() y elige un conjunto de datos con el que trabajar.

2. Agrega una función geom_ para mostrar tus datos.

3. Aplica las variables que quieres modelar en los argumentos de la función aes().

Intenta modelar con diferentes conjuntos de datos usando diferentes figuras geométricas y argumentos de mapeo.
Más adelante en este curso, aprenderás aún más sobre el proceso de creación de un diagrama. Además, tendrás la
oportunidad de trabajar con el conjunto de datos sobre pingüinos para crear muchos diagramas diferentes en ggplot2.

Consejo profesional: Puedes escribir la misma sección de código que aparece arriba usando una sintaxis diferente con
el argumento de mapeo dentro de la llamada de ggplot(): ggplot(data = penguins, mapping = aes(x = flipper_length_mm,
y = body_mass_g)) + geom_point()

La hoja de referencia de ggplot2

Este es solo el inicio de lo que puedes hacer con ggplot2. Si quieres obtener más información sobre ggplot2, RStudio
tiene una guía de referencia útil llamada “Hoja de referencia de visualización de datos con ggplot2”. Puedes usar la
Hoja de referencia como lugar de consulta rápida mientras trabajas para aprender las principales funciones y
características de ggplot2.

Haz clic en el enlace para verla: Hoja de referencia

Confirmación

En esta actividad, creaste un diagrama de dispersión para mostrar la relación entre longitud de aleta y masa corporal
en tres especies de pingüinos. ¿Qué parte del código hace referencia al objeto geométrico usado para representar tus
datos?
1 / 1 punto

 (mapping = aes(x = flipper_length_mm, y = body_mass_g))


 +
 geom_point()
 ggplot(data = penguins)
Correcto

Una figura geométrica es el objeto geométrico usado para representar tus datos. En este caso, la función
geom_point() le indica a R que represente tus datos con puntos.

Introducción a ggplot()
¡Hola de nuevo! En este vídeo, usaremos los datos de los pingüinos de Palmer para aprender a crear un diagrama en
ggplot2. Anteriormente, usamos estos datos para anticiparte lo que puede hacer ggplot2. Como quizás recuerdes, el
conjunto de datos de pingüinos contiene mediciones de tres especies de pingüinos que viven en el archipiélago
Palmer en la Antártida. El conjunto de datos incluye variables como masa corporal, longitud de aleta y longitud de
pico. Ahora, aprenderemos a usar código para crear esas visualizaciones. Haremos el proceso de crear un diagrama
paso a paso. Además, repasaremos algunos consejos generales sobre cómo escribir código en ggplot2, y veremos
algunos recursos de ayuda útiles. Primero, iniciemos sesión en RStudio Cloud. A medida que avancemos, te animo a
que te sumes y pruebes todo el código en RStudio. Siéntete libre de pausar el vídeo cada vez que lo necesites.
Asumimos que ya tienes instalados los paquetes de tidyverse. Si no es así, consulta un vídeo anterior o ejecuta
install.packages("tidyverse").
Comencemos cargando el paquete de ggplot2 y el conjunto de datos de
pingüinos.

Ahora, echemos un vistazo al diagrama que muestra la relación entre masa corporal y longitud de aleta en las tres
especies de pingüinos.

El diagrama muestra una relación positiva entre dos variables. Es decir, cuanto más grande es el pingüino, más larga
es la aleta. Ahora, echemos un vistazo al código.

El código usa funciones de ggplot2 para modelar la relación entre masa corporal y longitud de aleta. Para repasar
rápidamente, en R una función es un nombre seguido de un par de paréntesis. Muchas funciones requieren
información especial para hacer su trabajo. Tú escribes la información que se llama argumento de la función entre los
paréntesis. Las tres funciones en el código son la función ggplot, la función geom_point y la función aes. Cada
diagrama de ggplot2 comienza con la función ggplot. El argumento de la función ggplot le indica a R qué datos usar
para tu diagrama. Por lo tanto, lo primero que hay que hacer es elegir un marco de datos para trabajar. Puedes armar
el código de la siguiente manera: dentro de los paréntesis de la función escribe la palabra data, después un signo
igual, después penguins. Este código inicializa o comienza el diagrama. Si nos detenemos aquí y ejecutamos el
código, el resultado será un diagrama vacío. Probemos.

Este es solo el primer paso para crear un diagrama. Lo siguiente que quizás observes en este código es el signo más
al final de la primera línea. El signo más se usa para agregar capas a tu diagrama. En ggplot2, los diagramas se
construyen mediante combinaciones de capas.

- Primero, comenzamos con nuestros datos. Después agregamos una capa a nuestro diagrama
eligiendo una figura geométrica para representar nuestros datos. La función geom_point le indica a
R que usa puntos para representar nuestros datos. Ten en cuenta que el signo más debe colocarse al
final de cada línea para agregar una capa.
- Agregar una función geom es el segundo paso en la creación de un diagrama. Como recordatorio,
una figura geométrica es el objeto geométrico usado para representar tus datos. Las figuras
geométricas incluyen puntos, barras, líneas, etc. En nuestro código, la función geom_point le indica
a R que use puntos y cree un diagrama de dispersión. Aprenderemos más sobre figuras geométricas
más adelante.

- Luego debemos elegir variables específicas de nuestro conjunto de datos y decirle a R cómo
queremos que luzcan estas variables en nuestro diagrama. En ggplot2, la apariencia de una variable
se llama estética. A modo de recordatorio rápido, una estética es una propiedad visual de un objeto
en tu diagrama, como su posición, color forma o tamaño. La parte del código “mapping equals aes”
le indica a R qué estética usar para el diagrama. Usas la función aes para definir el mapeo entre
tus datos y tu diagrama. Mapear significa emparejar una variable específica en tu conjunto de datos
con una estética específica. Por ejemplo, puedes mapear una variable al eje X de tu diagrama o
puedes mapear una variable al eje Y de tu diagrama. En un diagrama de dispersión, también puedes
mapear una variable al color, el tamaño y la forma de tus puntos de datos. En breve, aprenderemos
más sobre estética. Aplicar estética a variables es el tercer paso en la creación de un diagrama. En
nuestro código, aplicamos la variable longitud de aleta al eje X y la variable masa corporal al eje Y.
Dentro de los paréntesis de la función aes, escribimos el nombre de la estética y después el signo
igual, luego el nombre de la variable. Escribimos el código y R se ocupa del resto.

Usando los datos de los pingüinos, R crea un diagrama de dispersión, coloca la variable masa corporal en el eje Y y la
variable longitud de aleta en el eje X. Nuestro código sigue la secuencia común para crear diagramas en ggplot2.
Anteriormente, hablamos de la gramática de los gráficos, una serie de pasos para hacer todo tipo de diagramas
diferentes. También puedes concebir esta secuencia como la gramática básica para crear diagramas en ggplot2. Para
crear un diagrama, sigue estos tres pasos: comienza con la función ggplot y elige un conjunto de datos con el que
trabajar, agrega una función geom_ para mostrar tus datos, aplica las variables que quieres modelar en el argumento
de la función aes. Asimismo, podemos convertir nuestro código en una plantilla reutilizable para crear diagramas en
ggplot2. Para hacer un diagrama, reemplaza las secciones de código entre paréntesis con un conjunto de datos, una
función geom_ o un grupo de mapeos estéticos. Podemos armar muchos tipos de diagramas diferentes usando esta
plantilla. Por ejemplo, en vez de modelar la relación entre masa corporal y longitud de aleta, podríamos usar dos
variables diferentes en el conjunto de datos de pingüinos. Probemos con longitud de pico y profundidad de pico.
Podemos colocar longitud de pico en el eje X y profundidad de pico en el eje Y. Ejecutemos el código y observemos
este nuevo diagrama de dispersión.

A medida que aprendes a escribir código en R o cualquier otro lenguaje de programación, te enfrentarás a problemas.
¡Le pasa a todo el mundo! Hace años que trabajo en R y aún escribo código que tiene errores. Muchas veces estos
errores son menores y son fáciles de solucionar. Ayuda prestarles atención a los detalles. Por ejemplo, R distingue
entre mayúsculas y minúsculas, si usas mayúsculas accidentalmente en la primera letra de una determinada función,
eso podría afectar tu código. Además, asegúrate de que cada paréntesis de apertura de tu función coincida con un
paréntesis de cierre. Observa cómo este código no se ejecutará correctamente, pero este código sí.
Un problema común al
trabajar con ggplot2 es acordarse de colocar el signo más en el lugar correcto al agregar una capa en tu diagrama.
Siempre debes colocar el signo más al final de una línea de código. Es fácil olvidarse y colocarlo al principio de la
línea.

O quizás usas accidentalmente una canalización en vez de un signo más.


Todos cometemos errores. Eso forma parte del proceso de aprendizaje. La buena noticia es que podemos probar
muchas veces antes de acertar. Además, hay muchos recursos para ayudarte. Para aprender más acerca de
cualquier función de R, simplemente ejecuta el código signo de pregunta nombre de función. Por ejemplo, si quieres
aprender más acerca de la función geom_point, escribe signo de pregunta geom_point. Como alguien que se inicia,
quizás no comprendas todos los conceptos en la página de ayuda. En la parte inferior de la página, puedes encontrar
ejemplos específicos de código que pueden mostrarte cómo resolver tu problema. Si aún no encuentras lo que
buscas, no dudes en pedir ayuda en la comunidad R en línea. Como mencionamos anteriormente, hay muchos
recursos excelentes en línea para R. Lo más probable es que otra persona haya tenido el mismo problema. Eso es
todo por ahora. A continuación, aprenderemos más sobre estética. Nos vemos pronto.

Problemas comunes al visualizar en R


Puedes guardar esta lectura para consultarla en el futuro. Ten en cuenta que puedes descargar una versión en PDF
de esta lectura a continuación:

Common-problems-encountered-when-visualizing-in-R_SPA

DOCX File

Los errores de código son una parte inevitable de escribir código, especialmente cuando estás comenzando a
aprender un nuevo lenguaje de programación. En esta lectura, aprenderás a reconocer errores de código comunes al
crear visualizaciones usando ggplot2. Además, encontrarás enlaces a algunos recursos que puedes usar para
ayudarte a abordar cualquier problema de código que puedas encontrar de aquí en adelante.

Errores de código comunes en ggplot2


Al trabajar con código R en ggplot2, muchos de los errores de código más comunes incluyen problemas con la
sintaxis, como caracteres mal ubicados. Es por eso que prestar atención a los detalles es una parte tan importante de
escribir código. Cuando existe un error en tu código que R logra detectar, generará un mensaje de error. Los
mensajes de error pueden ayudar a orientarte en la dirección correcta, pero no siempre te ayudarán a descubrir el
problema exacto.

Exploremos algunos de los errores de código más comunes que podrías encontrar con ggplot2.
Distinción entre mayúsculas y minúsculas
El código R distingue entre mayúsculas y minúsculas. Si utilizas accidentalmente mayúsculas en la primera letra de
una determinada función, podría afectar tu código. Aquí hay un ejemplo:

Glimpse(penguins)

El mensaje de error te avisa que R no puede encontrar una función llamada “Glimpse”:

Error in Glimpse(penguins) : could not find function "Glimpse"

Pero sabes que la función glimpse (con “g” minúscula) sí existe. Observa que el mensaje de error no explica
exactamente qué está mal, pero sí te señala en una dirección.

Basado en eso, puedes descifrar que este es el código correcto:

glimpse(penguins)

Equilibrar paréntesis y comillas


Otro error común al programar en R involucra los paréntesis y las comillas. En R, debes asegurarte de que cada
paréntesis de apertura de tu función tenga un paréntesis de cierre y de que cada comilla de apertura tenga una
comilla de cierre. Por ejemplo, si ejecutas el siguiente código, no sucede nada. R no crea el diagrama. Eso se debe a
que a la segunda línea de código le faltan dos paréntesis de cierre:

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g

RStudio sí te alerta que existe un problema. A la izquierda de la línea de código en tu editor de código fuente de
RStudio, quizás observes un círculo rojo con una “X” blanca en el centro. Si pasas el cursor por encima del círculo,
aparece este mensaje:

RStudio te avisa que tienes un paréntesis de apertura suelto. Entonces, para corregir el código, sabes que tienes que
agregar un paréntesis de cierre para cada paréntesis de apertura.

Este es el código correcto:

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Uso del signo más para agregar capas


En ggplot2, necesitas agregar un signo más (“+”) a tu código cuando agregas una nueva capa a tu diagrama. Colocar
el signo más en el lugar incorrecto es un error común. El signo más siempre debería colocarse al final de una línea de
código, no al principio de la línea.

Este es un ejemplo de código que incluye una ubicación incorrecta del signo más:

ggplot(data = penguins)

+ geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

En este caso, el mensaje de error de R identifica el problema y te indica que lo corrijas:

Error: Cannot use `+.gg()` with a single argument. Did you accidentally put + on a new line?
Este es el código correcto:

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Además, puedes usar accidentalmente una canalización en vez de un signo más para agregar una nueva capa a tu
diagrama, así:

ggplot(data = penguins)%>%

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Luego recibes el siguiente mensaje de error:

Error: `data` must be a data frame, or other object coercible by `fortify()`, not an S3 object with class gg/ggplot

Este es el código correcto:

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Tener estos temas en cuenta y prestar atención a los detalles al escribir código te ayudará a reducir errores y ahorrar
tiempo, para que puedas mantenerte enfocado en tu análisis.

Recursos de ayuda
Todos cometen errores al escribir código; simplemente forma parte del proceso de aprendizaje. Por suerte, existen
muchos recursos útiles disponibles en RStudio y en línea.

Documentación sobre R
R tiene documentación integrada para todas las funciones y paquetes. Para aprender más acerca de cualquier función
de R, simplemente ejecuta el código ?function_name. Por ejemplo, si quieres aprender más acerca de la función
geom_bar, escribe:

?geom_bar

Cuando ejecutas el código, aparece una entrada sobre “geom_bar” en el visor de Ayuda en el panel inferior derecho
de tu espacio de trabajo de RStudio. La entrada comienza con una sección de “Descripción” que habla de los gráficos
de barras:
El sitio web RDocumentation contiene mucho del mismo contenido con un formato ligeramente diferente, con
ejemplos y enlaces adicionales.

Documentación de ggplot2
La página de ggplot2, que forma parte de la documentación oficial de tidyverse, es un gran recurso para todo lo
relacionado con ggplot2. Incluye entradas sobre temas clave, ejemplos útiles de código y enlaces a otros recursos
útiles.

Búsqueda en línea
Hacer una búsqueda en línea del mensaje de error que aparece (e incluir “R” y el nombre de la función o el paquete
en tus términos de búsqueda) es otra opción. Hay grandes probabilidades de que alguien ya se haya topado con el
mismo error y lo haya publicado en línea.

La comunidad de R
Si los otros recursos no ayudan, puedes intentar conectarte con la comunidad de R en línea. Existen muchos foros en
línea y sitios web útiles en los que la gente pide y ofrece ayuda, entre ellos:

 R for Data Science Online Learning Community


 RStudio Community
 Stackoverflow
 Twitter (#rstats)

1.
Pregunta 1

Resumen de la actividad
En la última actividad, tuviste una introducción a la visualización de datos en ggplot2. En esta actividad, explorarás en
mayor profundidad ggplot2 para crear rápidamente visualizaciones de datos que te permiten explorar tus datos y
sacar nuevas conclusiones.

Para cuando completes esta actividad, habrás mejorado tu comprensión de ggplot2 y de visualización de datos en R.
Podrás usar sintaxis básica de ggplot2 y resolver algunos problemas comunes que podrías encontrar. Esto te
permitirá demostrar y compartir fácilmente tus conclusiones a lo largo de tu carrera como analista de datos.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta RStudio Cloud y abre el proyecto con este enlace. Navega al explorador de
archivos en la parte inferior derecha y haz clic en lo siguiente: Course 7 -> Week 4 -> Lesson2_GGPlot.Rmd.

El archivo .csv que necesitarás, hotel_bookings.csv, también está en esta carpeta.

Si encuentras dificultades para encontrar la actividad correcta, consulta la guía del usuario en guía paso a paso sobre
cómo navegar en RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos
Rmd se usarán en otras actividades.

Si estás usando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:

Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como usar códigos preescritos, mientras que otros pueden requerir que escribas tus propias
funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu trabajo está completo.

Confirmación

En el Paso 5 de esta actividad, aplicaste columnas a los ejes X e Y de un diagrama de dispersión. ¿Qué sintaxis
usaste para hacerlo?
1 / 1 punto

aes(x = stays_in_weekend_nights, y = children)


aes(x = ‘stays_in_weekend_nights’, y = ‘children’)
aes(x = children, y = stays_in_weekend_nights)
aes(x = ‘children’, y = ‘stays_in_weekend_nights’)
Correcto

La sintaxis correcta para aplicar columnas a ejes en esta actividad es aes(x = stays_in_weekend_nights, y = children).
De aquí en adelante, puedes usar el conocimiento de mapeo y del paquete ggplot2 para crear muchos tipos de
visualizaciones en RStudio.

Joseph: Trayectoria profesional hacia el análisis de personas


[MÚSICA] Hola, me llamo Joseph. Soy analista de personal en Google. Como analista de personal, mi trabajo consiste en
trabajar con ejecutivos y socios de negocios de RR.HH. para usar datos para tomar decisiones informadas sobre el personal.
Mi trayectoria hasta llegar a ser analista de personal es bastante singular. Viniendo de una escuela pública de NYC en Nueva
York y yendo a una escuela privada en Siracusa, la tradición era muy diferente en cuanto al rigor académico y también en
cuanto al nivel social con el que competía. Y siendo totalmente honesto, sentía que no pertenecía allí. Sentía el síndrome
del impostor absolutamente todos los días. Y en mi primer semestre, luchaba a nivel académico porque me faltaba una
base sólida. Cada vez que terminaba mis clases, buscaba oportunidades de tutoría. Entonces trabajaba el triple o el
cuádruple que mis pares. Pero a la larga, de hecho llegó un momento en que me iba mucho mejor que a mis pares. Y era yo
quien de hecho les enseñaba y también les ofrecía tutorías para sus tareas. Cuando entré a la universidad, en mi primer año
tenía ganas de elegir ingeniería informática como especialidad. Pero lamentablemente, como venía de una familia de
inmigrantes que no sabía qué era la ingeniería informática, ni había visto a alguien de nuestra comunidad que realmente
hubiera tenido éxito en ese campo, ellos realmente me desalentaron de seguir este camino, nuevamente porque no querían
arriesgarse. Lamentablemente, cambié mi especialización de ingeniería a “indeciso”. Por fortuna para mí, dos años después,
encontré a otro amigo negro mío que también era un inmigrante africano que se estaba especializando en tecnología de la
información. Y solo por aprender de su experiencia y de las clases que estaba tomando, realmente me empecé a interesar
mucho en el campo. Tomé una de las clases introductorias y verdaderamente me fue bien. Antes de Google, trabajaba en
una empresa llamada Accenture, donde me desempeñaba como asesor haciendo analítica de clientes. Y hacia el final de mi
segundo año en la empresa, fui a una feria de trabajo en la que Google estaba reclutando. Entonces hablé con la
reclutadora y ella me comentó de una nueva práctica llamada analítica de personal, que es algo muy parecido a lo que yo
estaba haciendo en Accenture. Simplemente volví a casa, investigué, y me interesó mucho este espacio en el que quería
desarrollar plenamente mi carrera. Entonces desde que comencé en Google, y también diré honestamente que fue muy
desafiante para mí en cuanto al rigor y la dificultad del trabajo que hacemos... entonces lo primero que hice fue buscar
mentores. Sabía que me interesaba mi desarrollo profesional y también en abogar por mí mismo. Así que hablando con
ellos y simplemente aprendiendo algunas lecciones de ellos, como la manera de manejarse mejor en este espacio, primero
adquirí mucho coraje y también obtuve la motivación para incluso aprender más allá del entorno laboral. Lo segundo que
hice fue asegurarme de estar aprendiendo constantemente y también aprovechar a mis pares como recurso. Entonces
siempre que hago un análisis en el que necesito una segunda opinión, recurro a mis compañeros de equipo y me aseguro
de que me den el aliento que necesito o una segunda opinión para mejorar aún más mi análisis. Y creo que lo tercero que
siempre hago es buscar oportunidades de desarrollo, ¿no? Entonces, por ejemplo, si sé que hay un espacio en el que me
falta y que necesito desarrollar, me aseguro de preguntarle a mi gerente: "Sé que este espacio me cuesta. ¿No te parece
que podría desarrollar concretamente esta área si me dieras más trabajo que me permitiera desarrollar ese conjunto de
destrezas?". Entonces diría que es una mezcla de reconocer que notas una brecha en tu desarrollo personal y también
trabajar para mejorar eso aprovechando los recursos que te rodean. Y simplemente trabajar en pos de ese objetivo para
lograr mejorar todos y cada uno de los días y también año a año.

1.
Pregunta 1

En ggplot2, puedes usar la función _____ para especificar el marco de datos a usar para tu diagrama.
1 / 1 punto

labs()
aes()
geom_point()
ggplot()
Correcto

En ggplot2, puedes usar la función ggplot() para especificar el marco de datos a usar para tu diagrama.
2.
Pregunta 2

En ggplot2, usas el signo más (+) para agregar una capa a tu diagrama.
1 / 1 punto

Verdadero
Falso
Correcto

En ggplot2, usas el signo más (+) para agregar una capa a tu diagrama.
3.
Pregunta 3

En ggplot2, ¿qué función usas para aplicar variables en tus datos a características visuales de tu diagrama?
1 / 1 punto

La función geom_point()
La función geom_bar()
La función aes()
La función ggplot()
Correcto
En ggplot2, usas la función aes() para aplicar variables en tus datos a características visuales de tu diagrama. Estas
características se conocen como estética.
4.
Pregunta 4

¿Qué tipo de diagrama creará el siguiente código? ggplot(data = penguins) + geom_point(mapping = aes(x =
flipper_length_mm, y = body_mass_g))
1 / 1 punto

Diagrama de caja
Gráfico de barras
Diagrama de dispersión
Diagrama de líneas
Correcto

El código creará un diagrama de dispersión. La función geom_point() usa puntos para crear un diagrama de
dispersión.

Explora la estética en el análisis:


Mejoras a visualizaciones en R
Hola de nuevo. En este vídeo, aprenderás cómo modificar la estética de tus representaciones visuales, que puede ayudarte
a presentar tus datos de una manera más atractiva. Con la estética, puedes destacar puntos claves de tus datos y
comunicarte con mayor claridad y efectividad con tus interesados. Anteriormente, aprendimos que una estética es una
propiedad visual de un objeto en tu diagrama. Por ejemplo, en un diagrama de dispersión la estética incluye el tamaño, la
forma y el color de tus puntos de datos. Puedes mostrar un punto de diferentes maneras modificando su estética o su
apariencia.

Puedes hacer que un punto sea pequeño, triangular o azul o una combinación de estas opciones. Volvamos al conjunto de
datos de pingüinos y revisemos el código de nuestro diagrama que muestra la relación entre masa corporal y longitud de
aleta.

Para repasar rápidamente, la parte del código que dice mapping igual a aes le indica a R qué estética usar para el diagrama.
Se usa la función aes para definir el mapeo entre tus datos y tu diagrama. Mapeo significa emparejar una variable específica
en tu conjunto de datos con una estética específica.

Por ejemplo, puedes aplicar una variable al eje X de tu diagrama o puedes aplicar una variable al eje Y de tu diagrama. Para
mapear o aplicar una estética a una variable, coloca el nombre de la estética que equivale al nombre de la variable dentro
de los paréntesis de la función aes. Nuestro código le indica a R que aplique la longitud de aleta al eje X y masa corporal al
eje Y. Iniciemos sesión en RStudio Cloud y ejecutemos el código. A modo de recordatorio rápido, comencemos cargando el
paquete de ggplot2 y el conjunto de datos de pingüinos.

R colocará automáticamente la etiqueta correspondiente en cada eje de nuestro diagrama de dispersión.

Después de que
apliques una variable a una estética, R se encarga del resto.
También puedes aplicar datos a otras estéticas, como color, tamaño
y forma. En este momento, nuestro diagrama está en blanco y negro. Claramente muestra la relación positiva entre las dos
variables. A medida que los valores en el eje X suben, los valores en el eje Y suben. Pero también tiene algunas limitaciones.
Por ejemplo, no podemos saber qué puntos de datos se refieren a cada una de las tres especies de pingüinos. Para resolver
este problema, podemos aplicar una nueva variable a una nueva estética. Agreguemos una tercera variable a nuestro
diagrama de dispersión aplicándola a nueva estética. Aplicaremos la variable species a la estética color agregando código
dentro de los paréntesis de la función aes.

Agregaremos una coma después de la variable masa corporal y escribiremos color signo igual species. Nuestro código le
indica a R que asigne un color diferente a cada especie de pingüino. Vamos a revisarlo.

La especie Papúa (Gentoo) es la más grande de las tres especies de pingüino. La leyenda apenas a la derecha del diagrama
nos muestra que los puntos azules se refieren a los pingüinos Papúa. R no solo aplica automáticamente diferentes colores a
cada punto de datos, sino que también crea una leyenda para mostrarnos los códigos de color. Eso es lo que me encanta de
R. Con solo darle un poco de código, hace el máximo esfuerzo para ayudarte. También podemos usar la forma para resaltar
las diferentes especies de pingüinos. Apliquemos la variable species a la estética shape. Para hacerlo, podemos modificar el
código de color signo igual species a shape signo igual species.
En vez de puntos de color, R asigna diferentes formas a cada especie. Ahora la leyenda nos muestra un círculo para la
especie Adelia (Adelie), un triángulo para los Barbijo (Chinstraps) y un cuadrado para los Papúa. Quizás notes que nuestro
diagrama está en blanco y negro nuevamente porque eliminamos el código para color. Volvamos a darle color a nuestro
diagrama. Si queremos, podemos aplicar más de una estética a la misma variable. Apliquemos tanto color como forma a las
especies. Agregaremos el código color signo igual species mientras mantenemos el código shape signo igual species.

Ahora nuestro diagrama muestra


un color diferente y una forma diferente para cada especie.

Podemos seguir avanzando. Agreguemos tamaño también y apliquemos tres estéticas a las especies. Si agregamos size
signo igual species, cada forma coloreada también tendrá un tamaño diferente.
Usar más de una estética también puede ser una manera de hacer que tus elementos visuales sean más accesibles porque
le da a tu público más de una manera de entender tus datos.

También podemos mapear especies a la estética alfa, que controla la transparencia de los puntos. Nuestro primer diagrama
mostró la relación entre masa corporal y longitud de aleta en blanco y negro. Luego aplicamos la variable species a la
estética color para mostrar la diferencia entre cada una de estas especies de pingüino. Si queremos dejar nuestro gráfico en
blanco y negro, podemos aplicar la estética alfa a especies. Esto hará que algunos puntos sean más transparentes, o
traslúcidos, que otros. Esto nos da otra manera de representar cada especie de pingüino. Probemos. Alfa es una buena
opción cuando tienes un diagrama denso con muchos puntos de datos.

También puedes fijar la estética por separado de una variable específica. Digamos que queremos cambiar el color de todos
los puntos a violeta. Aquí no queremos aplicar color a una variable específica como especie. Solo queremos que cada punto
en nuestro diagrama de dispersión sea violeta. Entonces necesitamos colocar nuestro nuevo trozo de código fuera de la
función aes y usar comillas para nuestro valor de color.

Esto se debe a que todo el código dentro de la función aes le indica a R cómo aplicar estética a variables. Por ejemplo,
aplicar la estética color a la variable species.
Si queremos modificar la apariencia de nuestro diagrama general sin tener en cuenta las variables específicas, escribimos
código fuera de la función aes. Escribamos el código y ejecutémoslo.

Eso es todo por ahora. Acabamos de aprender acerca de las estéticas más
comunes para puntos: x, y, color, forma, tamaño y alfa. También descubrimos cómo las estéticas pueden modificar la
apariencia de nuestro diagrama y destacar datos importantes. Ya hemos abarcado mucho material y aprendido muchísimos
conceptos nuevos. Lleva tiempo procesar nueva información y aprender nuevas destrezas, así que siéntete libre de volver a
mirar cualquiera de estos vídeos si necesitas hacer un repaso o si quieres practicar en RStudio. A continuación,
aprenderemos más sobre figuras geométricas. Nos vemos pronto.

Pregunta
En ggplot2, ¿cuáles de los siguientes conceptos hace referencia a la forma, el color y el tamaño de puntos de datos
en un diagrama?
Facetas
Figuras geométricas
Estética
Anotaciones
Correcto
En ggplot2, la forma, el color y el tamaño de los puntos de datos en un diagrama hace referencia al concepto de
estética.

Atributos estéticos
En esta lectura, aprenderás acerca de tres atributos estéticos básicos a tener en cuenta al crear visualizaciones
ggplot2 en R: color, tamaño y forma. Estos atributos son herramientas esenciales para crear visualizaciones de datos
con ggplot2 y se incorporan directamente a su código.

Estética en ggplot2
Ggplot2 es un paquete de R que te permite crear diferentes tipos de visualizaciones de datos directamente en tu lugar
de trabajo R. En ggplot2, una estética se define como una propiedad visual de un objeto de tu diagrama.

Existen tres atributos estéticos en ggplot2:

 Color: te permite modificar el color de todos los puntos de tu diagrama o el color de cada grupo de datos
 Tamaño: te permite modificar el tamaño de los puntos de tu diagrama por grupo de datos
 Forma: te permite modificar la forma de los puntos de tu diagrama por grupo de datos
Este es un ejemplo de cómo se muestran los atributos estéticos en R:

ggplot(data, aes(x=distance, y= dep_delay, color=carrier, size=air_time, shape = carrier)) +


geom_point()

Al aplicar estos atributos estéticos a tu trabajo con ggplot2, puedes crear visualizaciones de datos en R que
comunican tendencias con claridad en tus datos.

Recursos adicionales
Para obtener más información sobre atributos estéticos, consulta estos recursos:

 Hoja de referencia de visualización de datos con ggplot2: La hoja de referencia de RStudio es una guía excelente
que puedes usar mientras trabajas con ggplot2. Tiene muchísima información útil, que incluye explicaciones
sobre cómo usar figuras geométricas en las diferentes visualizaciones que puedes crear.
 Introducción a R de Stats Education: Este recurso es una gran manera de aprender los conceptos básicos de
ggplot2 y cómo aplicar atributos estéticos a tus diagramas. Puedes volver a este tutorial a medida que trabajas
más con ggplot2 y tus propios datos.
 Función aes en RDocumentation: Esta guía describe la sintaxis de la función aes y explica qué hace cada
argumento.
Hacer más cosas con ggplot
¡Qué bueno volver a verte! En este vídeo, aprenderemos cómo usar diferentes funciones geométricas para crear diferentes
tipos de diagramas, como diagramas de dispersión y gráficos de barras. Hay muchas figuras geométricas disponibles.
Puedes elegir una figura geométrica específica según cómo quieras representar tus datos y tus objetivos para comunicarlos.
Esto te permite contar la historia de tus datos de diferentes maneras y comunicarte de manera eficaz con diferentes
públicos. Comencemos con dos visualizaciones. Ambas representaciones visuales contienen la misma variable X y la misma
variable Y. Ambas usan los mismos datos, pero cada diagrama utiliza un objeto visual diferente para representar los datos.
Uno usa puntos. El otro usa una línea suave. En otras palabras, usan diferentes figuras geométricas. En ggplot2, una figura
geométrica es un objeto geométrico usado para representar tus datos. Las figuras geométricas incluyen puntos, barras,
líneas, etc. La función geom_point usa puntos para crear diagramas de dispersión. La función geom_bar usa barras para
crear gráficos de barras, y así sucesivamente. Para modificar la figura geométrica en nuestro diagrama, necesitamos
modificar la función geom en nuestro código. Por ejemplo, tomemos el diagrama que muestra la relación entre masa
corporal y longitud de aleta. El código usa geom_point para crear un diagrama de dispersión. Iniciemos sesión en RStudio
Cloud y veamos qué pasa cuando cambiamos figuras geométricas. Primero, carguemos el paquete ggplot2 y el conjunto de
datos de pingüinos. Ahora podemos colocar geom_smooth en vez de geom_point.

Seguimos teniendo los mismos datos, pero ahora los datos tienen una apariencia visual diferente. En vez de puntos, hay una
línea suave que representa los datos. La función geom_smooth es útil para mostrar tendencias generales en nuestros
datos. La línea muestra con claridad la relación positiva entre masa corporal y longitud de aleta. Cuando más grande es el
pingüino, más larga es la aleta. Hasta podemos usar dos figuras geométricas en el mismo diagrama. Digamos que queremos
mostrar la relación entre la línea de tendencia y los puntos de datos con mayor claridad. Podemos combinar el código para
geom_point y el código para geom_smooth agregando un símbolo más después de geom_smooth. Escribamos el código y
ejecutémoslo.

Digamos que queremos modelar una línea separada para cada especie de pingüino. Podemos agregar la estética de tipo de
línea a nuestro código y aplicarla a la variable species. Geom_smooth dibujará una línea diferente con un tipo de línea
diferente para cada especie de pingüino.

La leyenda muestra cómo cada tipo de línea coincide con cada especie. El diagrama muestra claramente la tendencia para
cada especie. Por último, echemos un vistazo a la función geom_jitter. La función geom_jitter crea un diagrama de
dispersión y luego agrega una pequeña cantidad de ruido aleatorio a cada punto del diagrama. Jitter nos ayuda a lidiar con
el trazado excesivo, que sucede cuando los puntos de datos en un diagrama se superponen unos con otros. El uso de jitter
hace que los puntos sean más fáciles de encontrar. Te mostraré a qué me refiero. Reemplacemos geom_point con
geom_jitter.
Ahora que ya vimos qué puede hacer ggplot2 con los diagramas de dispersión, exploremos los gráficos de barras. Usaremos
el conjunto de datos de diamantes que ya conoces. Esto incluye datos como la calidad, la claridad y el corte de más de
50,000 diamantes. Este conjunto de datos viene con el paquete ggplot2, entonces ya está cargado. Para hacer un gráfico de
barras, usamos la función geom_bar. Escribamos un código que trace un gráfico de barras de la variable cut en el conjunto
de datos de diamantes. Cut se refiere a las proporciones, la simetría y el pulido del diamante.

Observa que no indicamos una variable para el eje Y. Cuando usas geom_bar, R cuenta automáticamente cuántas veces
aparece cada valor X en los datos y luego muestra los recuentos en el eje Y. La opción predeterminada para geom_bar es
contar filas. Pero esa es solo una de las diversas aplicaciones para gráficos de barras. Por ejemplo, el eje X de nuestro
diagrama muestra cinco categorías de calidad de corte: regular, buena, muy buena, <i>premium</i> e ideal. El eje Y muestra
el número de diamantes en cada categoría. Más de 20,000 diamantes tienen un valor de ideal, que es el tipo de corte más
común. Geom_bar utiliza diversas estéticas que ya conoces, como color, tamaño y alfa. Agreguemos la estética color a
nuestro diagrama y apliquémosla a la variable cut. Escribimos el código de la misma manera que lo hicimos con los
diagramas de dispersión y agreguemos color signo igual cut después de x signo igual cut. No te olvides de colocar una coma
después de x signo igual cut para agregar una nueva estética.

La estética color agrega color al contorno de cada barra. R también produce una leyenda para mostrarnos los códigos de
color. Digamos que queremos destacar la diferencia entre cortes con aun mayor claridad para que nuestro diagrama sea
más fácil de entender. Podemos usar la estética fill para agregar color al interior de cada barra. En nuestro código,
colocamos fill signo igual cut en vez de color signo igual cut.

R elige automáticamente los colores y produce una leyenda. Se ve genial. Realmente me encanta usar la estética fill. Si
aplicamos fill a una nueva variable, geom guion bajo bar mostrará lo que se llama un gráfico de barras apiladas. Apliquemos
fill a clarity en vez de cut.
Nuestro diagrama ahora muestra 40 combinaciones diferentes de corte y claridad. Cada combinación tiene su propio
rectángulo coloreado. Los rectángulos que tienen el mismo valor de corte están apilados uno encima del otro en cada barra.
El diagrama organiza los datos complejos. Ahora sabemos la diferencia en volumen entre cortes y podemos averiguar la
diferencia en claridad dentro de cada corte. Este es solo el inicio de lo que puedes hacer con figuras geométricas. Ggplot2
tiene más de 30 funciones de figuras geométricas que puedes usar para hacer diagramas, y los paquetes de extensión te
ofrecen aún más opciones. La hoja de referencia de ggplot2 es un gran recurso para aprender más acerca de figuras
geométricas. A medida que sigas avanzando y realices análisis de datos más avanzado, encontrarás muchas nuevas figuras
geométricas con las que trabajar. Hasta ese momento, las figuras geométricas que acabamos de ver te mantendrán
ocupado y te dejarán hacer muchas cosas con tus datos. A continuación, aprenderemos a usar las funciones facet para
mostrar nuestros datos de diferentes maneras. Hasta pronto.

Pregunta
¿Cuáles de los siguientes elementos puedes crear con la función geom_point()?
Diagrama de caja
Diagrama de dispersión
Diagrama de líneas
Gráfico de barras
Correcto
Puedes crear un diagrama de dispersión con la función geom_point().

Suavizado
En esta lectura, aprenderás sobre el suavizado en ggplot2 y cómo puede usarse para hacer que tus visualizaciones
de datos en R sean más claras y fáciles de seguir. A veces, puede ser difícil comprender tendencias en tus datos solo
a través de diagramas de dispersión. El suavizado permite detectar una tendencia de datos aun cuando no puedes
notar con facilidad una tendencia en los puntos de datos graficados. La funcionalidad de suavizado de ggplot2 es útil
porque suma una línea de suavizado como otra capa en un diagrama; la línea de suavizado ayuda a que un
observador casual entienda el sentido de los datos.

Código de ejemplo
ggplot(data, aes(x=distance, y= dep_delay)) + geom_point() + geom_smooth()
El código de ejemplo crea un diagrama con una línea de tendencia similar a la línea azul que aparece debajo.
Dos tipos de suavizado

Tipo de
Descripción Código de ejemplo
suavizado
El proceso de suavizado LOESS es
Suavizado ggplot(data, aes(x=, y=))+ geom_point() +
óptimo para suavizar diagramas con
LOESS geom_smooth(method="loess")
menos de 1000 puntos.
El suavizado con GAM, o suavizado
Suavizado con modelos aditivos generalizados, es ggplot(data, aes(x=, y=)) + geom_point() +
GAM útil para suavizar diagramas con un geom_smooth(method="gam", formula = y ~s(x))
gran número de puntos.
La funcionalidad de suavizado en ggplot2 ayuda a que los diagramas de datos sean más legibles, para que puedas
reconocer mejor las tendencias de datos y sacar conclusiones clave. El primer diagrama que aparece debajo son los
datos antes de suavizar y el segundo diagrama son los mismos datos después de suavizar.

Recurso adicional
Para obtener más información sobre suavizado, consulta la sección de Suavizado en el curso Introducción a R de Stats
Education. Incluye descripciones y ejemplos detallados de cómo usar los diferentes tipos de suavizado en ggplot2.
Además, incluye enlaces a otras lecciones sobre ggplot2. Puedes explorarlas para familiarizarte más con el trazado
de datos en R.

Estética y facetas
¡Hola de nuevo! En este vídeo, aprenderemos a usar las funciones de facetas de ggplot2 para mostrar nuestros datos de
nuevas maneras. Las funciones de facetas te dejan mostrar grupos más pequeños, o subconjuntos, de datos. Una faceta es
una cara o una sección de un objeto, como las caras de una piedra preciosa. Las facetas muestran diferentes caras de tus
datos colocando cada subconjunto en su propio diagrama. El uso de facetas te ayudará a descubrir nuevos patrones en tus
datos y enfocarte en relaciones entre diferentes variables. Por ejemplo, digamos que estás observando datos de ventas de
una empresa de indumentaria. Quizás quieras separar tus datos por categoría para mostrar tendencias específicas: ropa
infantil versus ropa de adulto, o moda de primavera versus moda de otoño. O si estás realizando una encuesta de
participación de empleados, quizás quieras separar tus datos por antigüedad y comparar empleados antiguos con
empleados nuevos. Ggplot2 tiene dos funciones para facetas: facet_wrap y facet_grid. Exploremos ambas. Comenzaremos
con facet_wrap. Para facetar tu diagrama según una sola variable, usa facet_wrap. Digamos que queremos enfocarnos en
los datos para cada especie de pingüino. Tomemos nuestro diagrama que muestra la relación entre masa corporal y
longitud de aleta en cada especie de pingüino. La función facet_wrap nos deja crear un diagrama separado para cada
especie.

Para agregar una nueva capa a nuestro diagrama, agregaremos un símbolo más a nuestro código. Luego dentro de los
paréntesis de la función facet_wrap escribe un símbolo de virgulilla, seguido del nombre de la variable. Iniciemos sesión en
RStudio Cloud y echémosle un vistazo. Como recordatorio, comenzaremos cargando el paquete de ggplot2 y el conjunto de
datos de pingüinos. Puedes encontrar el símbolo de virgulilla en la esquina superior izquierda de tu teclado, justo debajo de
la tecla escape.

Ahí está. Los diagramas separados muestran la relación entre masa corporal y longitud de aleta dentro de cada especie de
pingüino. Genial, ¿verdad? Las facetas nos ayudan a enfocarnos en partes importantes de nuestros datos que quizás no
notemos en un solo diagrama. Si tu visualización es muy cargada, por ejemplo, si tiene demasiadas variables o niveles
dentro de las variables, el uso de facetas puede ser una buena opción. Intentemos facetar el conjunto de datos de
diamantes. Anteriormente, hicimos un gráfico de barras que mostraba el número de diamantes para cada categoría de
corte. Regular, buena, muy buena, <i>premium</i> e ideal. Podemos usar facet guion bajo wrap en la variable cut para
crear un diagrama separado para cada categoría de corte. Vamos a revisarlo.
Para facetar tu diagrama con dos variables, usa la función facet guion bajo grid. Facet guion bajo grid separará el diagrama
en facetas verticalmente según los valores de la primera variable y horizontalmente según los valores de la segunda
variable. Por ejemplo, podemos tomar nuestro diagrama de pingüinos y usar facet guion bajo grid con las dos variables, sex
y species. En el paréntesis después de la función facet guion bajo grid, escribimos sex, después el símbolo de virgulilla,
después species. Vamos a ejecutar el código.

Hay nueve diagramas separados, cada uno basado en una combinación de las tres especies de pingüino y tres categorías de
sexo. Facet guion bajo grid te permite reorganizar y mostrar con rapidez datos complejos y hace que sea más fácil ver
relaciones entre diferentes grupos. Si queremos, podemos enfocar nuestro diagrama en solo una de las dos variables. Por
ejemplo, podemos indicarle a R que elimine sexo de la dimensión vertical del diagrama y solo muestre las especies. Vamos a
revisarlo. Puedes ver fácilmente diferencias en la relación entre longitud de aleta y masa corporal entre las tres especies. De
la misma manera, podemos enfocar nuestro diagrama en el sexo en lugar de las especies.

Las facetas te permiten reorganizar tus datos para mostrar relaciones específicas entre variables y revelar patrones y
tendencias importantes en subconjuntos de tus datos. Eso es todo por ahora. A continuación, aprenderemos cómo
personalizar nuestros diagramas usando etiquetas y anotaciones. Hasta la próxima.

Pregunta
Las funciones de facetas te permiten mostrar grupos más pequeños, o subconjuntos, de datos.
Verdadero
Falso
Correcto
Las funciones de facetas te permiten mostrar grupos más pequeños, o subconjuntos, de datos.

1.
Pregunta 1
Resumen de la actividad

En actividades anteriores, aprendiste y trabajaste con ggplot2, un paquete de R para visualización de datos. En esta
actividad, seguirás un caso y continuarás aplicando ggplot2 para personalizar características estéticas de las
visualizaciones.

Al final de esta actividad, podrás usar R para crear gráficos de barras, actualizar etiquetas de gráficos y personalizar
la estética de una visualización según criterios específicos. Esto te permitirá crear visualizaciones más complejas para
demostrar tus resultados.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta RStudio Cloud y abre el proyecto con este enlace. Navega al explorador de
archivos en la parte inferior derecha y haz clic en lo siguiente: Course 7 -> Week 4 -> Lesson3_Aesthetics.Rmd.

El archivo .csv que necesitarás, hotel_bookings.csv, también está en esta carpeta.

Si encuentras dificultades para encontrar la actividad correcta, consulta la guía del usuario en guía paso a paso sobre
cómo navegar en RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos
Rmd se usarán en otras actividades.

Si estás usando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

Hands-On Activity- Aesthetics and visualizations1_SPA

TXT File

Hands-On Activity- Aesthetics and visualizations2_SPA

CSV File

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:

Hands-On Activity- Aesthetics and visualizations3_SPA

TXT File

Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como usar códigos pre escritos, mientras que otros pueden requerir que escribas tus propias
funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu trabajo está completo.

Confirmación
Según el gráfico de barras que creaste en el Paso 4, ¿qué tipo de distribución tiene la mayor cantidad de reservas?
1 / 1 punto

Agencia de viajes/Operador de viajes


Directa
Sistema de distribución global
Corporativa
Correcto

Feedback: El tipo de distribución Agencia de viajes/Operador de viajes tiene la mayor cantidad de reservas. Usando
ggplot2, pudiste personalizar la visualización para que muestre con claridad qué tipo de distribución tiene la mayor
cantidad de reservas. De aquí en adelante, puedes modificar la estética de tu visualización para hacer hincapié en
diferentes aspectos de tus resultados, responder a solicitudes de interesados y mejorar tus presentaciones.

Filtrado y diagramas
A esta altura, probablemente descargaste al menos algunos paquetes a tu biblioteca R. Las herramientas incluidas
en algunos de estos paquetes de hecho se pueden combinar y usar en conjunto para que sean aún más útiles. Esta
lectura compartirá algunos recursos que te enseñarán cómo usar la función de filtrado de dplyr para hacer que los
diagramas que crees con ggplot2 sean más fáciles de leer.

Ejemplo de filtrado de datos para el trazado


Filtrar tus datos antes del trazado te permite enfocarte en subconjuntos específicos de tus datos y sacar
conclusiones más dirigidas. Para hacerlo, usa la función dplyr filter() en tu sintaxis de ggplot.

Example code
data %>% filter(variable1 == "DS") %>% ggplot(aes(x = weight, y = variable2, colour = variable1)) +
geom_point(alpha = 0.3, position = position_jitter()) + stat_smooth(method = "lm")

Recursos adicionales
Para obtener más detalles sobre ggplot2 y filtrado con dplyr, consulta estos recursos:

 Reunir todos los elementos: (dplyr+ggplot): El curso sobre R de las RLadies of Sydney utiliza datos
reales para demostrar funciones de R. Esta lección se enfoca específicamente en la combinación de dplyr y
ggplot para filtrar datos antes de trazarlos. El vídeo instructivo te guiará por cada paso del proceso mientras
lo sigues con los datos que ellas te suministraron.
 Transformación de datos: Este recurso se enfoca en cómo usar la función filter() en R y demuestra cómo
combinar filter() con ggplot(). Este es un recurso útil si te interesa aprender sobre cómo se puede usar
filter() antes del trazado.
 Visualización de datos con ggplot2: Esta guía integral incluye todo, desde los usos más básicos de
ggplot2 hasta la creación de visualizaciones complejas. Incluye la función filter() en la mayor parte de los
ejemplos para que puedas aprender a implementarla en R para crear visualizaciones de datos.
1.
Pregunta 1
Resumen de la actividad

Hasta ahora, aprendiste mucho acerca de ggplot2 y cómo crear visualizaciones de datos en R. En esta actividad,
seguirás un escenario hasta el final y usarás las funciones de filtros y facetas de ggplot2.

Al final de esta actividad, podrás personalizar tus visualizaciones aplicando filtros y resaltando facetas. Esto te
permitirá hacer énfasis en determinados aspectos de tus conclusiones para crear comparaciones y conclusiones con
más matices en tus presentaciones.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta RStudio Cloud y abre el proyecto con este enlace. Navega al explorador de
archivos en la parte inferior derecha y haz clic en lo siguiente: Course 7-> Week 4 -> Lesson3_Filters.Rmd.

El archivo .csv que necesitarás, hotel_bookings.csv, también está en esta carpeta.

Si encuentras dificultades para encontrar la actividad correcta, consulta la guía del usuario en guía paso a paso sobre
cómo navegar en RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos
Rmd se usarán en otras actividades.

Si estás usando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

Hands-On Activity- Filters and plots1_SPA

TXT File

Hands-On Activity- Filters and plots2_SPA

CSV File

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:

Hands-On Activity- Filters and plots3_SPA

TXT File

Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como usar códigos pre escritos, mientras que otros pueden requerir que escribas tus propias
funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu trabajo está completo.

Confirmación
En el Paso 5 de esta actividad, creaste el marco de datos onlineta_city_hotels_v2. ¿Cuál es el tiempo de espera en la
primera fila creada en este marco de datos?
1 / 1 punto

65
88
92
100
Correcto

El tiempo de espera en la primera fila del marco de datos onlineta_city_hotels_v2 es 88. Usando un filtro con ggplot2,
puedes seleccionar segmentos específicos de tus datos y aplicarlos usando R. De ahora en adelante, puedes usar
filtros y facetas para comparar visualizaciones de diferentes aspectos de los mismos datos para sacar conclusiones
aún más profundas de tus análisis.

Título de gráfico
Para agregar un título al gráfico, utiliza la función label: title = Calificación de producto promedio.

Gráfico de barras
Para crear las barras en el gráfico, utiliza una función geom:geom_bar ().

Barras azules y amarillas


Para destacar productos poco rentables, utiliza la función aesthetics: col = ifelse (x<2, 'blue', 'yellow').

Diagrama de dispersión
Para crear un diagrama de dispersión, utiliza una función geom:geom_point ().

Línea de tendencia
Para crear una línea de tendencia, utiliza una función geom:geom_smooth ().

Comparar datos
Para comparar las tendencias de datos en las calificaciones promedio, utiliza una función facet: facet_wrap (~Average
Rating)

Etiquetas de ejes
Para etiquetar los ejes, utiliza una función aesthetics: aes (x = Precio promedio (USD), y = Producto)

1.
Pregunta 1

¿Cuáles de los siguientes atributos estéticos puedes asignar a los datos en un diagrama de dispersión? Selecciona
todas las opciones que correspondan.
1 / 1 punto

 Color
Correcto. Puedes asignar la estética de color, forma y tamaño a los datos en un diagrama de dispersión.

 Forma
Correcto. Puedes asignar la estética de color, forma y tamaño a los datos en un diagrama de dispersión.

 Tamaño
Correcto. Puedes asignar la estética de color, forma y tamaño a los datos en un diagrama de dispersión.
 Texto
2.
Pregunta 2

¿Cuál de las siguientes funciones te permiten mostrar grupos más pequeños, o subconjuntos, de datos?
1 / 1 punto

facet_wrap()
geom_point()
geom_bar()
ggplot()
Correcto

La función facet_wrap() te permite mostrar grupos más pequeños, o subconjuntos, de datos.


3.
Pregunta 3

¿Cuál es el rol del argumento x en el siguiente código?

ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))


1 / 1 punto

Un conjunto de datos
Una variable
Una función
Una estética
Correcto

X es una estética que hace referencia al eje X del diagrama. La estética x aplica la variable corte del conjunto de
datos de diamantes al eje X del diagrama.
4.
Pregunta 4

Un analista de datos crea un diagrama de dispersión con muchos puntos de datos. Es difícil para el analista distinguir
los puntos individuales del diagrama porque se superponen. ¿Qué función podría usar el analista para hacer que los
puntos sean más fáciles de encontrar?
1 / 1 punto

geom_jitter()
geom_point()
geom_bar()
geom_line()
Correcto

El analista podría usar la función geom_jitter() para hacer que los puntos sean más fáciles de encontrar. La función
geom_jitter() agrega una pequeña cantidad de ruido aleatorio a cada punto del diagrama, lo que ayuda a lidiar con la
superposición de puntos.

Anota y guarda visualizaciones:


Capa de anotaciones
Hola. Es genial tenerte de vuelta. A continuación, aprenderemos a personalizar la apariencia de nuestros diagramas usando
las funciones label y annotate. En el lenguaje cotidiano, anotar significa agregar notas a un documento o diagrama para
explicarlo o comentarlo. En ggplot2, agregar anotaciones a un diagrama puede ayudar a explicar el propósito del diagrama o
a destacar datos importantes. Cuando presentas tus visualizaciones de datos a interesados, quizás no tengas mucho tiempo
para reunirte con ellos. Las etiquetas y anotaciones dirigirán su atención a elementos clave y los ayudarán a comprender tu
diagrama con rapidez. Comencemos con la función label. Es muy útil para agregar etiquetas informativas a un diagrama,
como títulos, subtítulos y leyendas. Por ejemplo, podemos agregar un título a nuestro diagrama que muestra la relación
entre masa corporal y longitud de aleta en las tres especies de pingüino. Un título indicará con claridad el propósito del
diagrama. Repasemos el código. Primero, agregamos un signo más para agregar una nueva capa a nuestro diagrama. Luego
en los paréntesis, después de la función label, escribimos la palabra title, después un signo igual con el texto específico que
queremos en nuestro título. Iniciemos sesión en RStudio Cloud y echémosle un vistazo. Primero, carguemos el paquete de
ggplot2 y el conjunto de datos de pingüinos.

Recuerda que debes colocar el signo más al final de una línea de código. Es fácil olvidarse.

R muestra automáticamente el título en la parte superior del diagrama.

Además, podemos agregar un subtítulo a nuestro diagrama para


destacar información importante sobre nuestros datos. Para hacerlo, ingresamos el código para el subtítulo del mismo
modo que lo hicimos para el título. Recuerda agregar una coma después del argumento title antes de agregar tu subtítulo.

R muestra automáticamente el subtítulo justo debajo del título. Podemos agregar una leyenda a nuestro diagrama de la
misma manera. Las leyendas nos permiten mostrar la fuente de nuestros datos. Los datos sobre pingüinos de Palmer fueron
recolectados de 2007 a 2009 por la Dra. Kristen Gorman, miembro del programa de Investigación Ecológica a Largo Plazo de
la Estación Palmer. Citemos a la Dra. Gorman en nuestra leyenda.

R muestra la leyenda automáticamente en la esquina inferior


derecha de nuestro diagrama.
Los títulos, los subtítulos y las leyendas son etiquetas que colocamos fuera de la cuadrícula de nuestro diagrama para
indicar información importante. Si queremos colocar texto dentro de la cuadrícula para destacar puntos de datos
específicos, podemos usar la función annotate. Por ejemplo, digamos que queremos destacar los datos sobre los pingüinos
Papúa (Gentoo). Podemos usar la función annotate para agregar texto al lado de los puntos de datos que se refieren a los
pingüinos Papúa. Este texto comunicará con claridad lo que muestra el diagrama y reforzará una parte importante de
nuestros datos.

Perfecto, ahora miremos el código. Dentro de los paréntesis de la función annotate, tenemos información sobre el tipo de
etiqueta, la ubicación específica de la etiqueta y el contexto de la etiqueta. En este caso, queremos escribir una etiqueta de
texto. También queremos colocarla cerca de los puntos de datos sobre pingüinos Papúa. Coloquémosla en las siguientes
coordenadas: eje X equivale a 220 milímetros y eje Y equivale a 3,500 gramos. Por último, escribamos nuestro texto. Los
Papúa son los más grandes.

Reproduce el video desde :4:26 y sigue la transcripción4:26

Ejecutemos eso.

Vamos a analizarlo. R coloca automáticamente la


etiqueta de texto en las coordenadas correctas en tu diagrama. Podemos personalizar nuestra anotación aún más. Digamos
que queremos cambiar el color de nuestro texto. Bueno, podemos agregar color signo igual seguido del nombre del color.
Probemos con purple.

También podemos modificar el estilo de fuente y el tamaño de nuestro texto. Usa font face y size para escribir el código.
Coloquemos nuestro texto en negrita y hagámoslo un poco más grande.
Hasta podemos modificar el ángulo de nuestro texto. Por ejemplo,
podemos inclinar nuestro texto en un ángulo de 25 grados para que se alinee con nuestros puntos de datos. Probemos.

Se ve genial. A esta altura, nuestro código se está alargando bastante. Si quieres usar menos código, puedes guardar tu
diagrama como una variable en R.

Como recordatorio rápido, para crear una variable en R, escribes el nombre de la variable, después un signo menor que,
seguido de un guion. Probémoslo con el nombre de variable p.

Ahora, en vez de volver a escribir todo el


código, simplemente podemos decir p y agregarle una anotación como esta.
Obtienes el mismo resultado. A algunas personas les gusta ver cada paso de su código indicado frente a sus ojos. Existen
ventajas de hacerlo del modo más largo. Realmente queda a tu criterio. Solo quiero que sepas que tienes opciones. Espero
que esto te de una idea de algunas de las maneras en que puedes personalizar tus diagramas. Las etiquetas y anotaciones
pueden ser muy útiles a la hora de destacar partes importantes de tus datos y transmitir puntos clave. Eso es todo por
ahora. A continuación, aprenderás algunas maneras útiles de guardar tus diagramas en ggplot2. Hasta la próxima.

Pregunta
¿Qué hacen las funciones de etiquetar y anotar?
Cargar un conjunto de datos
Mostrar subconjuntos de tus datos
Elegir una figura geométrica
Personalizar la apariencia de tus diagramas
Correcto
Las funciones de etiquetar y anotar personalizan la apariencia de tus diagramas.

Dibujar flechas y formas en R

Las anotaciones son una manera útil de agregar notas a tu diagrama. Te ayudan a explicar la finalidad del diagrama,
destacar puntos de datos importantes o comentar cualquier tendencia o resultados de datos que ilustra el diagrama.
Ya aprendiste cómo agregar notas como etiquetas, títulos y subtítulos. Además, puedes dibujar flechas o agregar
formas a tu diagrama para generar mayor énfasis. Generalmente, agregas este tipo de anotaciones a tu aplicación de
presentación después de haber guardado las visualizaciones. Pero ahora puedes agregar líneas, flechas y formas a
tus diagramas usando ggplot2.

Recursos
Consulta estos recursos para obtener más información:

 Cómo crear una capa de anotaciones: Esta guía explica cómo agregar una capa de anotaciones con ggplot2.
Incluye un código de muestra y visualizaciones de datos con anotaciones creadas en ggplot2.
 Cómo anotar un diagrama en ggplot2: Este recurso incluye explicaciones sobre cómo agregar diferentes tipos
de anotaciones a tus diagramas de ggplot2, y es una gran referencia si necesitas consultar rápidamente un
tipo específico de anotación.
 Anotaciones: El capítulo ocho del manual en línea de ggplot2 se enfoca exclusivamente en las anotaciones.
Ofrece explicaciones exhaustivas de los diferentes tipos de anotaciones, cómo se usan y ejemplos detallados.
 Cómo anotar un diagrama: Este artículo de R-Bloggers incluye explicaciones sobre cómo anotar diagramas en
ggplot2. Comienza con conceptos básicos y abarca información más complicada cuanto más sigas leyendo.
 Anotaciones de texto: Este recurso se enfoca específicamente en agregar anotaciones de texto y etiquetas a
visualizaciones en ggplot2.

Guardar tus visualizaciones


Hola y bienvenido nuevamente. En este vídeo, aprenderemos cómo guardar nuestros diagramas. Guardar tu trabajo para
que puedas acceder a él es importantísimo. Y te permite seguir trabajando o compartir tu trabajo con otros. Poder
reproducir y compartir tu trabajo es una parte clave de tu futuro rol de analista porque te permite colaborar con
compañeros de equipo. Ellos pueden volver a revisar tu trabajo y darte su opinión para ayudarte a mejorarlo. Entonces
guardemos nuestros diagramas. Para hacerlo, usarás la opción Exportar en la pestaña de diagramas de RStudio o la función
ggsave que ofrece el paquete ggplot2. Primero, guardaremos nuestros diagramas usando la opción Exportar. Luego
usaremos la función ggsave. Iniciemos sesión en RStudio Cloud. Cargaremos el paquete de ggplot2 y el conjunto de datos
de pingüinos. Para empezar, escribamos un código y creemos el diagrama que muestra la relación entre masa corporal y
longitud de aleta en tres especies de pingüino.

Usemos la opción Exportar en la pestaña diagramas para guardar nuestro diagrama.

Podemos guardarlo como un archivo de imagen o un archivo PDF.


Probemos guardarlo como imagen. Existen seis opciones diferentes para formato de imagen, entre ellas PNG y JPEG.
Probemos PNG. Luego, nombramos nuestro archivo y hacemos clic en Guardar.

Reproduce el video desde :1:52 y sigue la transcripción1:52

Ahora, si hacemos clic en la pestaña archivos, encontraremos nuestro archivo en la lista. Abrámoslo. ¡Se ve genial! Eso
abarca la opción exportar para guardar un diagrama. Ahora, echemos un vistazo a la función ggsave. Ggsave es una función
útil para guardar un diagrama. De manera predeterminada, guarda el último diagrama que mostraste y usa el tamaño del
dispositivo gráfico actual. Intentemos guardar nuestro diagrama como archivo PNG usando ggsave. Ggsave guardará
automáticamente el diagrama que muestra la relación entre masa corporal y longitud de aleta porque este es el último
diagrama que mostramos. Queremos darle un nombre al archivo e indicar como qué tipo de archivo queremos guardarlo.
Escribamos el código. Dentro de los paréntesis de la función, comenzamos con comillas, seguidas del nombre del archivo.
Pongámosle de nombre Three Penguin Species. Colocamos un punto después del nombre del archivo, luego el tipo de
archivo que queremos, después comillas de cierre. Ejecutemos eso.

Ahora, si hacemos clic en la pestaña archivos,


encontraremos nuestro nuevo archivo en la lista. Abrámoslo. Nuevamente, se ve genial. Eso abarca los puntos básicos de
guardar diagramas. Después de todo tu arduo trabajo creando diagramas en ggplot2, sin dudas deberías recordar
guardarlos para que puedas acceder a ellos y compartirlos más adelante. Aquí termina nuestro trabajo sobre visualización
de datos. Has tenido un gran inicio en la visualización de datos con ggplot2. Además, los conceptos que abarcamos son una
gran base para aprender aun más sobre visualización de datos en R a medida que avances. Comenzamos aprendiendo los
pasos básicos para crear diagramas en ggplot2. A partir de allí, aprendimos cómo las estéticas pueden modificar la
apariencia de nuestros diagramas y destacar partes importantes de nuestros datos. Usamos diferentes figuras geométricas
para crear diferentes tipos de diagramas, como diagramas de dispersión y gráficos de barras, y usamos funciones de facetas
para guardar subconjuntos de datos. Después personalizamos nuestros diagramas con etiquetas y anotaciones. Por último,
aprendimos a guardar todo nuestro arduo trabajo para poder acceder a él y compartirlo más adelante. Es mucho lo que
hemos abarcado. Como siempre, eres libre de volver a ver los vídeos cada vez que quieras y de avanzar a tu propio ritmo.
Lleva mucho tiempo y práctica familiarizarse con nuevos conceptos y desarrollar nuevas destrezas. Nadie acierta en todo la
primera vez. Pero cuanto más practiques, más a gusto te empezarás a sentir en ggplot2. Si esto no siempre se siente fácil,
está bien. Solo significa que tu mente se está expandiendo y que tu conjunto de destrezas está creciendo. Confía en mí, vale
la pena. Aprender ggplot2 es un antes y un después para cualquier persona interesada en visualizar datos. Espero que lo
hayas disfrutado tanto como yo. Me encanta crear visualizaciones en ggplot2. A continuación, aprenderás a documentar e
informar tus datos usando R. Hasta la próxima.

Pregunta
¿En qué lugar de RStudio puedes encontrar el menú de exportación para guardar diagramas?
El panel de entorno
El panel del editor de código fuente
La pestaña de diagramas
El panel de la consola de R
Correcto
En RStudio puedes encontrar el menú de exportación para guardar diagramas en la pestaña de diagramas.

Guardado de imágenes sin ggsave()


En la mayoría de los casos, ggsave() es la manera más sencilla de guardar tu diagrama. Pero existen situaciones en
las que quizás sea mejor guardar tu diagrama escribiéndolo directamente en un dispositivo gráfico. Esta lectura
abarcará algunas de las diferentes maneras en que puedes guardar imágenes y diagramas sin ggsave() e incluye
recursos adicionales para consultar si quieres obtener más información.

Un dispositivo gráfico permite que un diagrama aparezca en tu computadora. Algunos ejemplos incluyen:

 Una ventana en tu computadora (dispositivo de pantalla)


 Un archivo PDF, PNG o JPEG (dispositivo de archivo)
 Un archivo SVG, o gráfico de vector escalable (dispositivo de archivo)
Cuando haces un diagrama en R, tiene que “enviarse” a un dispositivo gráfico específico. Para guardar imágenes sin
usar ggsave(), puedes abrir un dispositivo gráfico R como png() o pdf(); estos te permitirán guardar tu diagrama como
archivo .png o .pdf. También puedes optar por imprimir el diagrama y luego cerrar el dispositivo usando dev.off().

Ejemplo de uso de png() Ejemplo de uso de pdf()


png(file = "exampleplot.png", bg = pdf(file = "/Users/username/Desktop/example.pdf", width = 4, height =
"transparent") plot(1:10) rect(1, 5, 4) plot(x = 1:10, y = 1:10) abline(v = 0) text(x = 0, y = 1, labels = "Random
3, 7, col = "white") dev.off() text") dev.off()
Para obtener más información sobre los diferentes procesos para guardar imágenes, consulta estos recursos:
 Guardado de imágenes sin ggsave(): Este recurso está extraído directamente de la documentación de ggplot2 en
tidyverse.org. Explora las herramientas que puedes usar para guardar imágenes en R e incluye varios
ejemplos para seguir y aprender cómo guardar imágenes en tu propio espacio de trabajo en R.
 Cómo guardar un ggplot: Este recurso abarca diversos métodos diferentes de guardado de ggplots. Además,
incluye un código copiable con explicaciones sobre cómo se está usando cada función para que puedas
entender mejor cada paso en el proceso.
 Cómo guardar un diagrama en R: Esta guía abarca múltiples formatos de archivo que puedes usar para
guardar tus diagramas en R. Cada sección incluye un ejemplo con un diagrama concreto que puedes copiar y
usar para practicar en tu propio espacio de trabajo en R.
1.
Pregunta 1

Resumen de la actividad

Hasta ahora, has usado ggplot2 para crear diferentes tipos de visualizaciones. En esta actividad, seguirás un
escenario y agregarás anotaciones a una visualización de datos con ggplot2. Además, aprenderás a guardar
imágenes de visualizaciones en ggplot2.

Al final de esta actividad, serás capaz de mejorar una visualización con anotaciones y guardarla como imagen para
que puedas agregarla directamente a una presentación. Esto te permitirá demostrar tus resultados con mayor claridad
y explicar mejor tus conclusiones en tu carrera como analista de datos.

Trabajar en la nube con RStudio Cloud

Para comenzar, inicia sesión en tu cuenta RStudio Cloud y abre el proyecto con este enlace. Navega al explorador de
archivos en la parte inferior derecha y haz clic en lo siguiente: Course 7 -> Week 4 -> Lesson4_Annotations.Rmd.

El archivo .csv que necesitarás, hotel_bookings.csv, también está en esta carpeta.

Si tienes dificultades para encontrar la actividad correcta, consulta la guía del usuario en guía paso a paso sobre
cómo navegar en RStudio Cloud. Asegúrate de seleccionar el archivo R Markdown (Rmd) correcto. Los otros archivos
Rmd se usarán en otras actividades.

Si estás usando RStudio Desktop, puedes descargar el archivo Rmd y los datos para esta actividad directamente
aquí:

Hands-On Activity- Annotating and saving visualizations1_SPA

TXT File

Hands-On Activity- Annotating and saving visualizations2_SPA

CSV File

También puedes encontrar el archivo Rmd con las soluciones para esta actividad aquí:
Hands-On Activity- Annotating and saving visualizations3_SPA

TXT File

Lee cuidadosamente las instrucciones en los comentarios del archivo Rmd y completa cada paso. Algunos pasos
pueden ser tan simples como usar códigos pre escritos, mientras que otros pueden requerir que escribas tus propias
funciones. Luego de finalizar los pasos en el archivo Rmd, regresa aquí para confirmar que tu trabajo está completo.

Confirmación

La primera vez que guardaste una imagen en el Paso 5, ¿qué dimensiones pusiste en la función ggsave()?
1 / 1 punto

5x5
7x7
10x10
25x25
Correcto

Las dimensiones que pusiste en ggsave() imagen fueron 7x7. Puedes ver estas dimensiones indicadas después de
que ejecutes el bloque de código. De aquí en adelante, puedes agregar anotaciones para mejorar y aclarar tus
visualizaciones con etiquetas de eje, títulos de gráficos, etc. Luego puedes guardar imágenes en tus visualizaciones
para compartir en informes y presentaciones.

1.
Pregunta 1

¿Cuáles de los siguientes son beneficios de agregar etiquetas y anotaciones a tu diagrama? Selecciona todas las
opciones que correspondan.
1 / 1 punto

 Destacar datos importantes en tu diagrama


Correcto. Los beneficios de agregar anotaciones a tu diagrama incluyen indicar el propósito principal de tu
diagrama, destacar datos importantes en tu diagrama y ayudar a los interesados a comprender tu diagrama
con rapidez.

 Ayudar a interesados a comprender rápidamente tu diagrama


Correcto. Los beneficios de agregar anotaciones a tu diagrama incluyen indicar el propósito principal de tu
diagrama, destacar datos importantes en tu diagrama y ayudar a los interesados a comprender tu diagrama
con rapidez.

 Indicar el propósito principal de tu diagrama


Correcto. Los beneficios de agregar anotaciones a tu diagrama incluyen indicar el propósito principal de tu
diagrama, destacar datos importantes en tu diagrama y ayudar a los interesados a comprender tu diagrama
con rapidez.

 Elegir una figura geométrica para tu diagrama


2.
Pregunta 2

Un analista de datos crea un diagrama para una presentación ante interesados. El analista quiere agregar una
leyenda al diagrama para comunicar información importante. ¿Qué función podría usar el analista?
1 / 1 punto

La función geom_point()
La función labs()
La función geom_bar()
La función facet_wrap()
Correcto

El analista podría usar la función labs() para agregar una leyenda al diagrama.
3.
Pregunta 3

¿Qué función puedes usar para colocar una etiqueta de texto dentro de la cuadrícula de tu diagrama para destacar
puntos de datos específicos?
1 / 1 punto

La función aes()
La función annotate()
La función facet_wrap()
La función labs()
Correcto

Puedes usar la función annotate() para colocar una etiqueta de texto dentro de la cuadrícula de tu diagrama para
destacar puntos de datos específicos.
4.
Pregunta 4

Estás trabajando con el conjunto de datos de los pingüinos. Creas un diagrama de dispersión con el siguiente código:

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g)) +

Deberías usar la función labs() para agregar el título “Pingüinos” a tu diagrama. Agrega el bloque de código que te
permite agregar el título "Pingüinos" a tu diagrama.

labs(title= "Pingüinos")
EjecutarRestablecer
Error in labs(title = " Pingüinos ") : could not find function "labs"
¿Dónde muestra el título tu visualización?
1 / 1 punto

La esquina superior derecha


La esquina inferior izquierda
La esquina inferior derecha
La esquina superior izquierda
Correcto

Agregas el bloque de código labs(title = “Penguins”) para agregar el título "Pingüinos" a tu diagrama. Dentro de los
paréntesis de la función labs(), escribe la palabra title, un signo igual y el texto específico del título entre comillas. La
función labs() te permite agregar etiquetas a tu diagrama.

La visualización muestra el título en la esquina superior izquierda.

Glosario
Análisis computacional de datos
Términos y definiciones

A
Agenda: Lista de citas programadas

Agregación de datos: Proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida

Agregación: Proceso de recolectar o juntar muchas partes separadas en un todo

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro

Análisis: Proceso usado para dar sentido a los datos recopilados

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada

Anidado: Código que realiza una función particular y está contenido dentro de código que realiza una función más amplia

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la
eliminación de información que pueda asociarse a ellas

Anotación: Texto que explica brevemente los datos o ayuda al público a concentrarse en un aspecto concreto de los datos
en una visualización

Apertura: Aspecto de la ética de datos que promueve el acceso libre, el uso y el uso compartido de los datos

Árbol de decisiones: Herramienta que ayuda a los analistas a tomar decisiones sobre características esenciales de una
visualización

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores

Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido

Archivo de registro: Archivo generado por computadora que registra eventos de sistemas operativos y otros programas de
software
Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido como por ejemplo MP4, MV4, MOV, AVI o FLV

Argumento (R): Información necesaria para la ejecución de una función en R

Asignación de alias: Nombrar temporalmente una tabla o columna en una consulta para que sea más fácil de leer y escribir

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

Atributos preatencionales: Elementos de una visualización de datos que las personas reconocen automáticamente sin
hacer un esfuerzo consciente

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado

AVERAGEIF: Función de una hoja de cálculo que devuelve el promedio de todos los valores de las celdas de un determinado
rango que cumplen una condición especificada

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones

Base de datos: Recopilación de datos almacenados en un sistema informático

Biblioteca: Directorio que contiene todos los paquetes instalados de un analista de datos

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otro término

C
C#: Lenguaje de programación orientado al objeto usado para crear juegos y aplicaciones móviles en la plataforma de
desarrollo de código abierto .NET

C++: Extensión del lenguaje de programación C que se usa para crear juegos de consola, como los juegos para Xbox

Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras
Cálculo: Rama de la matemática que implica el estudio de las tasas de cambio y los cambios entre valores que están
relacionados por una función

Campo calculado: Campo nuevo dentro de una tabla dinámica que realiza ciertos cálculos en función de los valores de otros
campos

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

Canal: Aspecto visual o variable que representa características de los datos en una visualización

Canalización (R): Herramienta en R para expresar una secuencia de varias operaciones, representadas por “%>%”

Captación de interés: Captar la atención de alguien y mantener su interés durante una presentación de datos

CASE: Instrucción de SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

Caso práctico: Una manera común en que los empleadores evalúan destrezas profesionales y obtienen información sobre
cómo un candidato aborda desafíos comunes relacionados con los datos

CAST: Función de SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema

Causalidad: Cuando una acción lleva directamente a un resultado, como una relación de causa-efecto

Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Clasificación: Sistema para ubicar valores de un conjunto de datos en una escala de logro o estado

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
clave externa)

Clúster: Conjunto de puntos de datos en una visualización de datos con valores similares

COALESCE: Función de SQL que arroja valores que no son nulos en una lista
Codificación: El proceso de escribir instrucciones para una computadora usando la sintaxis de un lenguaje de programación
específico

Código abierto: Código que está libremente disponible y puede ser modificado y compartido por las personas que lo usan

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Combinación de datos: Método de Tableau que combina datos provenientes de múltiples fuentes de datos

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

Composición de datos: Proceso que combina las partes individuales en una visualización y las muestra juntas como un todo

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos

Consulta externa: Instrucción de SQL que contiene una subconsulta

Consulta interna: Subconsulta de SQL que está dentro de otra instrucción de SQL

Consulta: Solicitud de datos o información de una base de datos

Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger
una hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
puede arrastrar a través de las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

CONVERT: Función de SQL que cambia la unidad de medida de un valor en los datos
Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

Correlación: Medición del grado de cambio de dos variables entre sí

COUNT DISTINCT: Función de SQL que solo devuelve los valores distintos en un rango especificado

COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con una condición
especificada

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango especificado que cumplen con un
criterio especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas dentro de un rango que coinciden con un valor
especificado

CRAN (Comprehensive R Archive Network) (R): Archivo en línea con paquetes R, código fuente, manuales y documentación

CREATE TABLE: Cláusula de SQL que añade una tabla temporal a una base de datos que puede ser utilizada por varias
personas

CSS (Cascading Style Sheets): Lenguaje de programación usado para el diseño de páginas web que controla los elementos
gráficos y la presentación de la página

Cuarteto de Anscombe: Cuatro conjuntos de datos que tienen estadísticas de resumen casi idénticas, pero contienen
valores graficados diferentes

D
DATEDIF: Función de la hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos
Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no los recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema
tiene datos en varias filas

Datos en tiempo real: Datos que se actualizan automáticamente

Datos estáticos: Datos que no cambian una vez que se registraron

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas

Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos

Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos y son correctos y pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordenados (R): Forma de estandarizar la organización de los datos en R

Datos ordinales: Datos cualitativos con un orden o escala establecidos


Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Design Thinking: Proceso que se usa para resolver problemas complejos de una manera centrada en el usuario

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diagrama de caja: Visualización de datos que muestra la distribución de valores a lo largo de un eje x

Diagrama de dispersión: Visualización de datos que representa relaciones entre las diferentes variables con puntos de
datos individuales sin una línea de conexión

Diagrama de Gantt: Visualización de datos que muestra la duración de los eventos o actividades en una línea de tiempo

Diseño de datos: Cómo se organiza la información

DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

dplyr (R): Paquete de R en Tidyverse que ofrece un conjunto de funciones uniforme para completar tareas comunes de
manipulación de datos

DROP TABLE: Cláusula de SQL que elimina una tabla temporal de una base de datos

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar,
analizar y compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Eje X: Línea horizontal de un gráfico que suele situarse en la parte inferior y, a menudo, se usa para representar escalas de
tiempo y categorías puntuales
Eje Y: Línea vertical de un gráfico que suele situarse a la izquierda y, a menudo, se usa para representar frecuencias y otras
variables numéricas

Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Énfasis: Principio de diseño que consiste en organizar los elementos visuales para centrar la atención del público en la
información importante de una visualización de datos

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Equilibrio: Principio de diseño que consiste en crear un atractivo estético y claridad en una visualización de datos mediante
la distribución uniforme de los elementos visuales

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y
organizar datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estadísticas: El estudio de cómo recopilar, analizar, resumir y presentar datos

Estética (R): Propiedad visual de un objeto en un diagrama

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Estructura de los datos: Formato para organizar y almacenar datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas

Etiqueta: Texto en una visualización que identifica un valor o describe una escala

Etiquetas y anotaciones (R): Grupo de funciones de R para personalizar un diagrama

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados
Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Facetas (R): Serie de funciones que divide datos en subconjuntos en una matriz de paneles

Factor (R): Objeto que almacena datos de categoría en el que los valores de datos están limitados y generalmente se basan
en un grupo finito, como país o año

Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Filtro de panel: Herramienta que muestra solo los datos que cumplen con un criterio específico y oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de la hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Formato visual: Apariencia de la visualización de datos que les aporta una estructura y un atractivo estético

Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG

Framework: Contexto que necesita una presentación para establecer conexiones lógicas entre la tarea empresarial y las
métricas

FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función (R): Contenido de código reutilizable para realizar tareas específicas en R

Función anidada: Función que está contenida completamente dentro de otra función

Función matemática: Función que se utiliza como parte de una fórmula matemática
Función: Comando preestablecido que realiza automáticamente un proceso o tarea específico utilizando los datos de una
hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Fusión: Acuerdo que une dos organizaciones en una organización nueva

FWF (archivo de ancho fijo): Archivo de texto con un formato específico que permite guardar datos textuales de manera
organizada

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

Geom (R): Objeto geométrico usado para representar datos

ggplot2 (R): Paquete de R en Tidyverse que crea diversas visualizaciones de datos aplicando diferentes propiedades visuales
a las variables de datos en R

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico circular: Visualización de datos que usa segmentos de un círculo para representar las proporciones de cada
categoría de datos en comparación con el total

Gráfico combinado: Visualización de datos que combina más de un tipo de visualización

Gráfico de anillos: Visualización de datos en donde los segmentos de un anillo representan valores de datos que se suman
en un conjunto

Gráfico de áreas: Visualización de datos que utiliza puntos de datos individuales para una variable cambiante conectados
por una línea continua con un área de relleno debajo

Gráfico de barras: Visualización de datos que usa el tamaño para contrastar y comparar dos o más valores

Gráfico de burbujas agrupadas: Visualización de datos que muestra los datos en círculos agrupados

Gráfico de burbujas: Visualización de datos que muestra puntos de datos individuales como burbujas, y compara valores
numéricos por su tamaño relativo

Gráfico de calibre: Visualización de datos que muestra un único resultado en un rango de valores progresivo
Gráfico de columnas: Visualización de datos que usa puntos de datos individuales para una variable cambiante,
representada mediante columnas verticales

Gráfico de distribución: Visualización de datos que muestra la frecuencia de diversos resultados en una muestra

Gráfico de líneas: Visualización de datos que usa una o más líneas para mostrar cambios o variaciones en los datos a lo
largo del tiempo

Gráfico de viñetas: Visualización de datos que muestra los datos como un gráfico de barras horizontal que se mueve hacia
un valor deseado

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

Gráfico: Representación gráfica de los datos en una hoja de cálculo

GROUP BY: Cláusula de SQL que agrupa las filas que tienen los mismos valores de una tabla en filas de resumen

Guiones bajos: Líneas utilizadas para subrayar palabras y conectar caracteres de texto

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

HAVING: Cláusula de SQL que añade un filtro a una consulta en lugar de la tabla subyacente que solo se puede usar con
funciones de agregado

head() (R): Función en R que devuelve una vista previa de los nombres de las columnas y las primeras filas de un conjunto
de datos

Hipótesis: Teoría que se intenta corroborar o refutar con datos

Histograma: Visualización de datos que muestra con qué frecuencia los valores de los datos se encuadran en ciertos rangos

Historia: Narrativa de una presentación de datos que la hace significativa e interesante

Hoja de cálculo: Hoja de cálculo digital

HTML5: Lenguaje de programación que brinda una estructura para páginas web y conecta a plataformas de hosting
I
IDE (entorno de desarrollo integrado): Aplicación de software que junta todas las herramientas que un analista de datos
puede querer usar en un solo lugar

Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura
confiable

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

INNER JOIN: Función de SQL que devuelve registros con valores coincidentes en ambas tablas

Instrucción condicional: Declaración de que si una determinada condición es verdadera, entonces debe producirse un
determinado evento

Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población

J
Java: Lenguaje de programación que se usa ampliamente para crear aplicaciones web de empresas que pueden ejecutarse
en múltiples clientes

JOIN: Función de SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada

L
LEFT JOIN: Función de SQL que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla
derecha
LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de programación: Sistema de palabras y símbolos usados para escribir instrucciones que las computadoras siguen

Leyenda: Herramienta que identifica el significado de diversos elementos en una visualización de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Línea de suavizado (R): Línea en una visualización de datos que usa suavizado para representar una tendencia

Lista: Vector con elementos que pueden ser de cualquier tipo

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

Longitud: Número de caracteres en una cadena de texto

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que
permiten que los analistas de datos aborden los problemas comerciales de gran alcance

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapa coroplético: Visualización de datos que colorea las áreas en un mapa según las mediciones o las dimensiones

Mapa de densidad: Visualización de datos que representa concentraciones, con un color que representa el número o la
frecuencia de los puntos de datos en un área determinada de un mapa

Mapa de símbolos: Visualización de datos que muestra una marca sobre una determinada longitud y latitud

Mapa térmico: Visualización de datos que usa el contraste del color para comparar categorías en un conjunto de datos
Mapa: Visualización de datos que organiza los datos geográficamente

Mapeo (R): Proceso de emparejar una variable específica de un conjunto de datos con una estética específica

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Marca: Objeto visual en una visualización de datos, como un punto, una línea o una forma

Marco de datos: Conjunto de columnas que contienen datos, que es similar a una hoja de cálculo o una tabla de SQL

Margen de beneficio: Porcentaje que indica cuántos centavos de ganancia se generaron por cada dólar de venta

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

MATCH: Función de la hoja de cálculo que se usa para ubicar la posición de un valor de búsqueda específico

Matriz: Conjunto bidimensional de elementos de datos con filas y columnas

MAX: Función de la hoja de cálculo que muestra el resultado del valor numérico más alto de un rango de celdas

MAXIFS: Función de la hoja de cálculo que devuelve el valor máximo de un determinado rango que cumple una condición
especificada

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer,
tanto en el campo profesional como en el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Metadatos: Datos sobre los datos

Método McCandless: Método que se utiliza para presentar visualizaciones de datos y que pasa de la información general a
la específica
Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados

Métrica de negocios: Criterio de medición que se utiliza para resolver una tarea empresarial

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

MINIFS: Función de la hoja de cálculo que devuelve el valor mínimo de un rango determinado que cumple una condición
especificada

Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Modelo mental: Proceso de pensamiento del analista de datos y enfoque a un problema

Módulo: Operador (%) que devuelve el resto cuando se divide un número por otro

Movimiento: Principio de diseño que consiste en organizar los elementos visuales para guiar la atención del público de una
parte de una visualización de datos a otra

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un
todo

mutate() (R): Función de R que realiza cambios a un marco de datos separando y combinando columnas o creando nuevas
variables

N
Narrativa de datos: Comunicar el significado de un conjunto de datos con elementos visuales y una historia personalizada
según el público
Narrativa: (Ver Historia)

Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos

O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Operador aritmético: Operador usado para realizar operaciones matemáticas básicas como suma, resta, multiplicación y
división

Operador de asignación: Operador usado para asignar valores a variables y vectores

Operador lógico: Operador que devuelve un tipo de datos lógico

Operador relacional: Operador usado para comparar valores, también conocido como comparador

Operador: Símbolo que designa la operación o cálculo a realizarse

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el
que deben realizarse las operaciones

Ordenación: Proceso de organizar los datos en un orden significativo para que sean más fáciles de entender, analizar y
visualizar

Ordenar hoja: Función del menú de la hoja de cálculo que ordena todos los datos por la clasificación de una columna
específica ordenada y mantiene los datos juntos a través de las filas

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de dirigir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas

OUTER JOIN: Función de SQL que combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas
tablas

P
Paleta de color divergente: Tema de color que muestra dos rangos de valores de datos que usan dos tonalidades diferentes,
donde la intensidad del color representa la magnitud de los valores

Panel: Herramienta que monitorea los datos entrantes en vivo

Paquete (R): Una unidad de código R reproducible

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Patrón: Principio de diseño que usa elementos visuales similares para demostrar tendencias y relaciones en una
visualización de datos

Pensamiento analítico: Proceso de identificar y definir un problema para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

PHP (preprocesador de hipertexto): Lenguaje de programación para el desarrollo de aplicaciones web

Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Poner de relieve: Explorar los datos para identificar rápidamente la información más importante
Portfolio: Conjunto de materiales que puede compartirse con empleadores potenciales

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente

Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio

Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta

Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una
transacción de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es
el de obtener conocimiento que propicie la toma de decisiones informada

Proceso de validación de datos: Proceso de comprobar y volver a comprobar la calidad de los datos para que sean
completos, precisos, seguros y coherentes

Programación informática: El proceso de darle instrucciones a una computadora para que realice una acción o un conjunto
de acciones

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido

Proporción: Principio de diseño que consiste en usar el tamaño relativo y la disposición de los elementos visuales para
mostrar la información en una visualización de datos

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Python: Lenguaje de programación de uso general

Q
Quitar duplicados: Herramienta de la hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

R
R: Lenguaje de programación que se usa para análisis estadísticos, visualización y análisis de datos

Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango de ordenación: Función del menú de la hoja de cálculo que ordena un rango especificado y preserva las celdas que
no están incluidas en ese rango

Rango: Conjunto de dos o más celdas en una hoja de cálculo

readr (R): Paquete de R en Tidyverse usado para importar datos

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia absoluta: Referencia dentro de una función que está bloqueada para que las filas y las columnas no cambien si
se copia la función

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila

Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Relatividad: Proceso de considerar las observaciones en relación con o en proporción a algo más

Repetición: Principio de diseño que consiste en repetir elementos visuales para demostrar el significado en una
visualización de datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones


Repositorio de metadatos: Base de datos creada para almacenar metadatos

Resaltar tabla: Visualización de datos que usa formato condicional y color en una tabla

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una
inversión

RIGHT JOIN: Función de SQL que devuelve todos los registros de la tabla derecha y solo los registros coincidentes de la
izquierda

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

Ritmo: Principio de diseño que consiste en crear movimiento y fluidez en una visualización de datos para captar la atención
de una audiencia

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales.

Ruby: Lenguaje de programación orientado a objetos para el desarrollo de aplicaciones web

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

Selección: Conjunto de valores en celdas de una hoja de cálculo

SELECT INTO: Cláusula de SQL que copia datos de una tabla a una tabla temporal sin añadir la nueva tabla a la base de datos

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Sesgo del investigador: Tendencia de distintas personas a observar las cosas de forma diferente (Ver Sesgo del observador)

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se
trabaja con una muestra que no representa a la población en su totalidad
Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria

Sintaxis: Estructura predeterminada de un lenguaje que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación

SPLIT: Función de la hoja de cálculo que divide el texto en base a un carácter específico y ubica cada fragmento en una
nueva celda separada

SQL: (Ver Lenguaje de consulta estructurado)

Suavizado (R): Proceso usado para hacer que las visualizaciones de datos en R sean más claras y legibles

Suavizado con GAM (modelo aditivo generalizado) (R): Proceso para suavizar diagramas con un gran número de puntos

Suavizado Loess (R): Proceso usado para suavizar diagramas con menos de 1,000 puntos

Subcadena: Subconjunto de una cadena de texto

Subconsulta: Consulta de SQL anidada dentro de una consulta más grande

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

Subtítulo: Texto que complementa al título al indicar el contexto y la descripción

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

SUMIF: Función de una hoja de cálculo que suma datos numéricos basados en una condición

SUMPRODUCT: Función que multiplica las matrices y muestra el resultado de la suma de esos productos

Swift: Lenguaje de programación para macOS, iOS, watchOS y tvOS

T
Tabla de resumen: Tabla que se usa para resumir información estadística sobre los datos
Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos

Tabla temporal: Tabla de una base de datos que se crea y existe temporalmente en el servidor de una base de datos

Tableau: Plataforma de inteligencia de negocios y análisis que ayuda a las personas a visualizar y comprender datos, y a
tomar decisiones basadas en los datos

Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados
significativos

Texto alternativo: Texto que ofrece una alternativa al contenido no textual, como las imágenes y los vídeos

Tibble (R): Variación optimizada de marcos de datos

tidyr (R): Paquete de R en Tidyverse usado para limpieza de datos para generar datos ordenados

Tidyverse (R): Sistema de paquetes en R con una filosofía de diseño en común para la manipulación, exploración y
visualización de datos

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina
tipo de datos de texto)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo
de datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar

Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Título: Texto en la parte superior de una visualización que comunica los datos que se están presentando

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial

Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común
Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o


de una computadora a otra

Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

TSV (archivo con valores separados por tabuladores): Archivo de texto que almacena una tabla de datos separando
columnas de datos con tabuladores

U
Único: Valor que no puede tener un duplicado

Unidad: Principio de diseño que consiste en usar elementos visuales que se complementan entre sí para crear un atractivo
estético y claridad en la visualización de datos

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de
datos

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

VALUE: Función de la hoja de cálculo que convierte una cadena de texto que representa un número en un valor numérico

Variable (R): Representación de un valor en R que puede almacenarse para uso posterior

Variedad: Principio de diseño que consiste en usar diferentes tipos de elementos visuales en una visualización de datos para
captar la atención del público

Vector (R): Grupo de elementos de datos del mismo tipo almacenados en una secuencia unidimensional en R
Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos
resultantes son precisos y confiables

Vignette (R): Documentación para un paquete en R que describe el problema que el paquete está diseñado para resolver,
explica cómo pueden usarse sus funciones y enumera cualquier dependencia de otros paquetes

Vista en círculo: Visualización de datos que muestra la fortaleza comparativa en los datos

Visualización de datos: Representación gráfica de los datos

Visualización estática: Visualización de datos que no cambia a lo largo del tiempo a menos que se edite

Visualización: (Ver Visualización de datos)

Visualizaciones dinámicas: Visualizaciones de datos que son interactivas o cambian a lo largo del tiempo

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados

WITH: Cláusula de SQL que crea una tabla temporal que se puede

1.
Pregunta 1

¿Cuáles de las siguientes son operaciones que puedes realizar en ggplot2? Selecciona todas las opciones que
correspondan.
1 / 1 punto

 Agregar un título y un subtítulo a tu diagrama


Correcto. En ggplot2, puedes crear diagramas de dispersión y gráficos de barras, modificar los colores y las
dimensiones de tu diagrama y agregar un título y subtítulo a tu diagrama.

 Limpiar automáticamente los datos antes de crear un diagrama


 Cambiar los colores y las dimensiones de tu diagrama
Correcto. En ggplot2, puedes crear diagramas de dispersión y gráficos de barras, modificar los colores y las
dimensiones de tu diagrama y agregar un título y subtítulo a tu diagrama.

 Crear diagramas de dispersión y gráficos de barras


Correcto. En ggplot2, puedes crear diagramas de dispersión y gráficos de barras, modificar los colores y las
dimensiones de tu diagrama y agregar un título y subtítulo a tu diagrama.

2.
Pregunta 2

En ggplot2, ¿qué símbolo usas para agregar capas a tu diagrama?


1 / 1 punto

El símbolo et (&)
El signo igual (=)
El signo más (+)
El operador de canalización (%>%)
Correcto

En ggplot2, usas el signo más (+) para agregar capas a tu diagrama.


3.
Pregunta 3

Un analista de datos crea un diagrama usando el siguiente bloque de código:

ggplot(data = penguins) + geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

¿Cuáles de las siguientes opciones representan una función en el bloque de código? Selecciona todas las opciones
que correspondan.
0.5 / 1 punto

La función aes
la función data
La función ggplot
La función geom_point
Correcto. Las funciones en el bloque de código son la función ggplot(), la función geom_point() y la función aes(). La
función ggplot() especifica qué marco de datos usar para el diagrama. La función geom_point() especifica el objeto
geométrico que representa los datos. La función aes() especifica los atributos estéticos del diagrama.

4.
Pregunta 4

En ggplot2, ¿cuáles de los siguientes atributos estéticos puedes usar para aplicar variables a puntos? Selecciona
todas las opciones que correspondan.
1 / 1 punto

 Faceta
 Forma
Correcto. En ggplot2, el color, la forma y el tamaño son atributos estéticos que puedes usar para aplicar
variables a puntos. El color se refiere al color de los puntos en tu diagrama, forma a la forma de los puntos y
tamaño al tamaño de los puntos.

 Tamaño
Correcto. En ggplot2, el color, la forma y el tamaño son atributos estéticos que puedes usar para aplicar
variables a puntos. El color se refiere al color de los puntos en tu diagrama, forma a la forma de los puntos y
tamaño al tamaño de los puntos.

 Color
Correcto. En ggplot2, el color, la forma y el tamaño son atributos estéticos que puedes usar para aplicar
variables a puntos. El color se refiere al color de los puntos en tu diagrama, forma a la forma de los puntos y
tamaño al tamaño de los puntos.

5.
Pregunta 5

Un analista de datos está trabajando con los datos de los pingüinos. El analista crea un diagrama de dispersión con el
siguiente código:

ggplot(data = penguins) + geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g, alpha = species))

¿Qué hace la estética alfa a la apariencia de los puntos en el diagrama?


1 / 1 punto

 Hace que los puntos del diagrama sean más coloridos


 Hace que los puntos del diagrama sean más pequeños
 Hace que los puntos del diagrama sean más grandes
 Hace que algunos puntos del diagrama sean más transparentes
Correcto. La estética alfa hace que algunos puntos de un diagrama sean más transparentes, o traslúcidos, que otros.

6.
Pregunta 6

Estás trabajando con el conjunto de datos de los pingüinos. Creas un diagrama de dispersión con el siguiente código:

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Quieres resaltar los diferentes años de recolección de datos en tu diagrama. Agrega un bloque de código a la
segunda línea del código para aplicar la estética size a la variable year.

NOTA: los tres puntos (...) indican dónde añadir el bloque de código.

1. geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g, size=year))


EjecutarRestablecer

¿Qué años muestra tu visualización?


1 / 1 punto

2005-2009
2006-2010
2007-2009
2007-2011
Correcto

Agregas el bloque de código size = year para aplicar la estética size a la variable year. El código correcto es
ggplot(data = penguins) + geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g, size = year)). Dentro
del paréntesis de la función aes(), luego de la coma que va después de y = body_mass_g, escribe la estética (size),
un signo igual y la variable (year). Los puntos de datos para los diferentes años ahora aparecen en diferentes
tamaños.

Tu visualización muestra los años 2007-2009.


7.
Pregunta 7

Completa el espacio en blanco: La _____ crea un diagrama de dispersión y luego agrega una pequeña cantidad de
ruido aleatorio a cada punto del diagrama para que los puntos sean más fáciles de encontrar.
1 / 1 punto

función geom_smooth()
función geom_bar()
función geom_point()
función geom_jitter()
Correcto

La función geom_jitter() crea un diagrama de dispersión y luego agrega una pequeña cantidad de ruido aleatorio a
cada punto del diagrama para que los puntos sean más fáciles de encontrar.
8.
Pregunta 8

Estás trabajando con el conjunto de datos de los diamantes. Creas un gráfico de barras con el siguiente código:

ggplot(data = diamonds) +

geom_bar(mapping = aes(x = color, fill = cut)) +

Quieres usar la función facet_wrap() para mostrar subconjuntos de tus datos. Agrega el bloque de código que te
permite agregar facetas a tu diagrama según la variable cut.

2. facet_wrap(~cut)
EjecutarRestablecer

¿Cuántos subdiagramas muestra tu visualización?


1 / 1 punto

 6
 3
 5
 4
Correcto

Agrega el bloque de código facet_wrap(~cut) para agregar facetas a tu diagrama según la variable cut. El código
correcto es ggplot(data = diamonds) + geom_bar(mapping = aes(x = color, fill = cut)) + facet_wrap(~cut). Dentro del
paréntesis de la función facet_wrap() escribes el símbolo de la virgulilla (~) seguido del nombre de la variable a la que
quieres agregar facetas. La función facet_wrap() te permite mostrar subconjuntos de datos.

Tu visualización muestra 5 subdiagramas.


9.
Pregunta 9
Completa el espacio en blanco: Puedes usar la función _____ para colocar una etiqueta de texto en tu diagrama para
destacar puntos de datos específicos.
1 / 1 punto

annotate()
geom_smooth()
facet_grid()
ggplot()
Correcto

Puedes usar la función annotate() para colocar una etiqueta de texto en tu diagrama para destacar puntos de datos
específicos.
10.
Pregunta 10

Estás trabajando con el conjunto de datos de los pingüinos. Creas un diagrama de dispersión con las siguientes líneas
de código:

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g)) +

¿Qué bloque de código agregas a la tercera línea para guardar tu diagrama como un archivo png que lleve la palabra
“penguins” como nombre?
1 / 1 punto

ggsave(“penguins.png”)
ggsave(“png.penguins”)
ggsave(penguins.png)
ggsave(“penguins”)
Correcto

Agregas el bloque de código ggsave(“penguins.png”) para guardar tu diagrama como un archivo png que lleve la
palabra “penguins” como nombre. Dentro del paréntesis de la función ggsave(), abre comillas seguidas del nombre del
archivo (penguins), después un punto, después el tipo de archivo (png) y luego cierra las comillas.

MODULO 5:
Crear documentos e informes en RStudio
Documentos e informes:
Hola y bienvenido nuevamente. Vimos muchos temas durante el tiempo que trabajamos con R. Aprendimos los
pormenores de R y RStudio, incluso cómo analizar y visualizar tus datos. Ahora, aprenderás a documentar e informar tu
trabajo utilizando R Markdown. R Markdown es un formato de archivo para hacer documentos dinámicos con R. Puedes
utilizar un archivo R Markdown como un <i>notebook</i> de código para guardar, organizar y documentar tu análisis
utilizando bloques de códigos, comentarios y otras funciones. Cuando terminas la limpieza y la exploración de datos,
puedes crear un informe en R Markdown para resumir los resultados para los interesados. El trabajo principal que hacemos
en mi departamento incluye un análisis. Cuando mi equipo comenzó a crecer, notamos que no teníamos un lenguaje en
común para el análisis de datos. Así que todos hicimos el esfuerzo de aprender R para poder colaborar con más facilidad.
Ahora todos hablamos el mismo lenguaje de programación. Podemos revisar los códigos de otros, lo que nos lleva a tener
más coherencia, a ser más colaborativos y a realizar un mejor análisis. Los informes de R Markdown son geniales para
compartir conocimientos. Esos informes le permiten compartir y reproducir el análisis a cualquier persona, ya sea parte de
un grupo pequeño de usuarios en línea o de una gran empresa. En este curso, empezaremos con una descripción general de
R Markdown y luego aprenderemos a instalar R Markdown en RStudio. A continuación, aprenderemos cómo crear un
documento de R Markdown. También analizaremos la estructura y los componentes del documento para que tengas una
idea de cómo utilizarlos para registrar e informar tu análisis. Luego te mostraremos cómo insertar y editar piezas de un
código, llamadas bloques, en tu documento. Por último, aprenderemos el proceso de exportar la documentación. Siempre
es bueno tener un informe del análisis que hiciste, tanto para ti mismo como para los interesados. Después, daremos por
finalizado nuestro trabajo con R. Por supuesto, tú puedes seguir adelante y practicar un poco más. También, espero que
puedas darle un buen uso a R en tu futuro trabajo como analista de datos. Es una gran ventaja en tu carrera. Hablando de
tu carrera, cuando hayas terminado todo lo propuesto en el programa, podrás agregarlo a tu portfolio o comenzar a crear
uno si finalizas un caso práctico. Esa es una excelente manera de exhibir todas las destrezas que adquiriste hasta ahora y de
destacarte frente a futuros empleadores. Más adelante hablaremos sobre ese proyecto. Mientras tanto, retomemos el
ritmo de R. Nos vemos pronto.

Descripción general de R Markdown


Hola de nuevo. Como analista de datos, necesitarás consultar tu análisis en cualquier momento. Es posible que necesites
compartirlo con los otros integrantes del equipo o que un interesado te consulte sobre alguna de tus conclusiones. Si
documentas tu trabajo, será más fácil compartir tu análisis rápidamente con cualquiera, y allí es donde entra en juego R
Markdown. Anteriormente, hemos visto que R Markdown es un formato de archivo para crear documentos dinámicos con
R. R Markdown te permite crear un informe de tu análisis y de tus conclusiones en un documento. Une tu código y tu
informe para que puedas compartir cada paso de tu análisis. La mejor parte es que no tienes que salir de RStudio para
hacer eso. Ese documento ayudará a los interesados y a los integrantes del equipo a comprender lo que hiciste en tu
análisis para llegar a tus conclusiones. Sus comentarios también te ayudarán a mejorar tu análisis. Los documentos de R
Markdown están escritos en Markdown. Markdown es un tipo de sintaxis para formatear archivos de texto sin formato. Si
utilizas Markdown, te será más fácil escribir y formatear texto en tu documento. Markdown también es fácil de leer y de
aprender. Por ejemplo, si quieres escribir una palabra o una frase en cursiva en Markdown, solo tienes que agregar un guion
bajo o un asterisco al principio y al final de la palabra o la frase. Cuando haces un informe del documento, el formateo de
Markdown ya no es visible; solo se ve la palabra o la frase en cursiva. Pronto te mostraremos más opciones de formateo,
pero todas son muy similares al ejemplo que dimos. Básicamente, son tan simples que te permiten enfocarte en las
descripciones y en las explicaciones de tu análisis sin que tengas que pensar demasiado en cómo formatearlas. Además de
texto, R Markdown también incluye una opción interactiva llamada <i>Notebook</i> de R, que permite a los usuarios
ejecutar su código y mostrar los gráficos y las tablas que visualizan el código. Cualquier documento de R Markdown puede
utilizarse como un <i>notebook</i>. Eso da lugar a un panorama general más claro de tu análisis y de tus conclusiones. R
Markdown también te permite convertir tus archivos en muchos formatos diferentes. Puedes crear documentos HTML, PDF
y de Word, o puedes convertirlos en una presentación de diapositivas o en un panel. Esas opciones hacen que sea más fácil
compartir el mismo análisis de muchas formas diferentes, según tu público. El lenguaje Markdown fue diseñado
originalmente para un archivo de salida HTML. HTML es un conjunto de símbolos y códigos de marcado que se utiliza para
crear una página web. R Markdown cuenta con funciones que son más accesibles para ese formato, pero puedes obtener
buenos resultados con cualquiera de los formatos. Si bien R Markdown es una excelente manera de registrar y compartir tu
análisis, también hay otras opciones. <i>Notebooks</i> como Jupyter, Kaggle y Google Colab hacen cosas muy parecidas a
las que hace el <i>notebook</i> de R Markdown, e incluyen los elementos interactivos. Muy pronto leerás más sobre esas
opciones. A continuación, crearemos un documento de R Markdown. Podrás ver esta efectiva herramienta de análisis en
acción. Nos vemos pronto.

Pregunta
Completa el espacio en blanco: R Markdown es _____ para crear documentos dinámicos con R.
una herramienta de visualización
un formato de archivo
un lenguaje de programación
una guía de estilo
Correcto
R Markdown es un formato de archivo para crear documentos dinámicos con R.

Pregunta
Los notebooks de R permiten que otros usuarios ejecuten tu código y obtengan gráficos y tablas para visualizarlo.
Verdadero
Falso
Correcto
Los notebooks de R son una opción interactiva de R Markdown que permiten que otros usuarios ejecuten tu código
y obtengan gráficos y tablas para visualizarlo.

Recursos de R Markdown
R Markdown es una herramienta útil que te permite guardar códigos y ejecutarlos, y también crear informes para
compartir con los interesados. A medida que aprendas cómo usar ese sistema, quizá quieras marcar ciertos recursos
para volver a consultarlos más adelante.

Esta lectura explora algunos de los recursos en línea más útiles para aprender más sobre R Markdown y cómo
usarlos para dejar asentado tu análisis.

Documentos de R Markdown
Los documentos de R Markdown, de la plataforma de RStudio, incluyen una serie de tutoriales para aprender más
acerca de las funciones principales de R Markdown, incluidos los bloques de código, los formatos de salida, los
notebooks, los documentos interactivos y mucho más. Los tutoriales incluyen lecciones en línea que puedes
completar directamente en tu espacio de trabajo de RStudio Cloud.

Materiales de referencia de R Markdown


RStudio ha creado una guía de referencia y una hoja de referencia que puedes marcar y usar cuando practiques
cómo escribir tus archivos en R Markdown.

 La Guía de referencia de R Markdown está compuesta por tres secciones: La sintaxis de Markdown, las
opciones para bloques de códigos del paquete knitr, y las opciones que ofrece Pandoc. La guía es muy
detallada e incluye muchísimos ejemplos y explicaciones, de modo que puedas encontrar la información que
necesitas para personalizar tus documentos de R Markdown.
 La Hoja de referencia de R Markdown es un resumen práctico que contiene los distintos pasos y procesos del
flujo de trabajo de R. Además, incluye secciones con explicaciones más breves sobre las opciones que
ofrecen knitr y pandoc para los bloques de código, así como otros datos útiles para repasar o buscar mientras
trabajas.

Libro R para ciencia de datos


Para leer una introducción bien organizada sobre los puntos básicos de R Markdown, consulta la sección
Comunicarse del libro R para ciencia de datos. Ese capítulo abarca los elementos y funciones más importantes de R
Markdown, los distintos formatos de salida, y el flujo de trabajo que puedes usar para combinar texto y códigos y, así,
crear un notebook para documentar tu análisis.

R Markdown: la guía definitiva


Si quieres explorar a fondo las capacidades de R Markdown de forma sistemática, consulta R Markdown: la guía
definitiva, que te brinda un manual exhaustivo sobre el ecosistema de R Markdown. Este libro está dividido en cuatro
partes:

1. La parte I te explica cómo instalar los paquetes pertinentes y hace un repaso general de R Markdown, incluida
la sintaxis de R Markdown y los bloques de código.
2. La parte II te ofrece documentos detallados sobre los formatos de salida incluidos en R Markdown, como
formatos de documentos y de presentaciones.
3. La parte III detalla varios paquetes de extensión de R Markdown que puedes usar para construir distintas
aplicaciones o generar documentos de salida con estilos diferentes.
4. La parte IV abarca temas más avanzados de R Markdown.
Opcional: Notebooks de Jupyter

Los notebooks de Jupyter son documentos que contienen códigos informáticos y elementos de texto enriquecido,
como comentarios, enlaces o descripciones de tu análisis y de tus resultados. Verás que se usan en distintas
herramientas en línea, incluido el Proyecto Jupyter, Kaggle y Google Colaboratory ("Colab" para abreviar). Estos
notebooks pueden usarse como documentos ejecutables para que lleves a cabo tu análisis.

Los notebooks de Jupyter son útiles para todo lo que tiene que ver con limpieza y transformación de datos,
modelos estadísticos y visualizaciones. Son compatibles con R, así que son otra opción si no quieres usar R
Markdown. Al igual que los documentos de R Markdown, puedes compartir los notebooks de Jupyter sin
problemas con otros miembros del equipo e interesados.

Notebooks de Jupyter en Kaggle


Cuando trabajas con Kaggle, tienes disponibles dos tipos de notebooks: Los notebooks de Jupyter y los scripts
(incluidos los scripts de R Markdown). Para más información, consulta la página sobre Cómo usar los notebooks
de Kaggle.

Notebooks de Jupyter en Google Colab


Google Colab es un producto de Google Research. Colab es un servicio de notebook alojado en Jupyter y no
necesita ningún tipo de instalación. Para más información, consulta la página Te damos la bienvenida a Colab.

Recursos adicionales
Para saber más sobre los notebooks de Jupyter, consulta estos recursos:

 Proyecto Jupyter: Aquí encontrarás los notebooks de Jupyter y también el entorno JupyterLab, un entorno
web de desarrollo interactivo para los notebooks, los códigos y los datos de Jupyter.
 Notebook de Jupyter: Una introducción: El personal de Real Python, un sitio de tutoriales para todo lo
relacionado con Python, creó esta introducción detallada a los notebooks de Jupyter. Para dar tus primeros
pasos con los notebooks de Jupyter y conocer todas sus funciones y capacidades, puedes hacer un curso
con los vídeos que ofrecen o seguir el tutorial escrito.
Además, al igual que R Markdown, los notebooks de Jupyter incluyen herramientas y reglas para formateo básico
que te ayudarán a mantener tu trabajo organizado y también hacerlo intuitivo para otros usuarios. De hecho,
Jupyter usa R Markdown como lenguaje para escribir y formatear texto en sus notebooks.

Para saber más sobre formateo básico en los notebooks de Jupyter, consulta estos recursos:

 El notebook de Jupyter: Este recurso te brinda un panorama de los notebooks de Jupyter, incluida
información sobre la estructura de la interfaz de usuario y el documento de los notebooks. También
aprenderás sobre el flujo de trabajo básico para usar un documento de notebook y podrás leer sobre atajos
en el teclado y otras funciones para formatear tu trabajo.
 Usar los notebooks de Jupyter para escribir: Con este recurso, podrás aprender a usar el lenguaje
Markdown para formatear tu texto en un notebook de Jupyter. Úsalo como guía para poner en práctica la
sintaxis en tus textos, incluido cómo crear títulos y subtítulos, y también agregar enlaces.
 La guía de formateo de notebooks de Jupyter: Este recurso incluye una gran variedad de opciones de
formateo para los notebooks de Jupyter. Aprenderás lo básico y también algunas opciones más avanzadas,
por ejemplo, cómo incrustar documentos en formato .pdf y vídeos.
Cuando sepas cómo usar el formateo básico en tus notebooks, podrás explorar opciones más avanzadas.

Usar R Markdown en RStudio


Bienvenido de nuevo. Explorar las diferentes herramientas disponibles para el análisis es una de las cosas más divertidas de
ser analista de datos. Hasta ahora, tuviste la oportunidad de probar herramientas como hojas de cálculo, BigQuery, otras
herramientas de SQL y Tableau. Ahora echaremos un vistazo a una herramienta que puedes utilizar en RStudio: R
Markdown. A modo de recordatorio, R Markdown es una gran herramienta para documentar tu análisis en cualquier etapa.
Pero especialmente cuando completaste un proyecto. Abramos RStudio y comencemos a usar R Markdown. Puedes seguir
viendo este vídeo e intentarlo por tu cuenta más adelante. O acompañarnos y seguir los pasos en tu propia cuenta de
RStudio. Primero instalaremos el paquete R Markdown con la función para instalar paquetes y R Markdown entre
paréntesis. Recuerda que instalar paquetes puede tomar un poco de tiempo. Es posible que aparezca un texto rojo y
brillante en tu consola mientras se está instalando el paquete. Esto es normal. Bueno, abramos un archivo nuevo de R
Markdown o RMD desde el menú Archivo. Si estás siguiendo nuestros pasos y se te pide que instales paquetes que
necesitarás para abrir el archivo, haz clic en Sí. De inmediato, podrás ver algunos de los archivos de salida disponibles en R
Markdown. Por ahora, utilizaremos las opciones de HTML y documento por defecto. Las otras opciones de archivos de
salida también estarán disponibles más adelante. Agregaremos un nombre de archivo y un autor, y luego abriremos nuestro
archivo. Luego lo guardaremos para poder utilizarlo más adelante.

Reproduce el video desde :2:1 y sigue la transcripción2:01

Ahora tenemos un archivo RMD lleno de metadatos en la parte superior y bloques de códigos en las secciones grises. Hay
texto en el medio para explicar el código y agregar comentarios a tu análisis y a tus conclusiones. Este documento de R
Markdown está en su formato original. Es muy útil, y puedes editarlo y agregar información, pero si queremos hacer un
informe que contenga el texto, el código y los resultados, tendremos que hacer clic en el botón Convertir. Ahora tenemos el
informe. Es un archivo HTML que puedes compartir con otros. Comparemos el archivo original .rmd con el informe de
HTML. Como ves, el texto ahora tiene un formato más amigable visualmente. También se ejecutaron todos los bloques del
código. Y ahora tenemos el archivo de salida: las columnas de datos y la trama de un análisis sobre un conjunto de datos
acerca de autos.

Reproduce el video desde :3:22 y sigue la transcripción3:22

El informe es claro y está formateado de una manera que facilita el seguimiento y la comprensión. Podemos compartirlo
con los interesados aunque no tengan experiencia en R. Definitivamente, los archivos de R Markdown son una forma
efectiva de completar el proceso de análisis de datos. Puedes comenzar tu análisis en R y hacer un informe, y agregar un
código y visualizaciones, todo en el mismo espacio de trabajo. A continuación, te mostraremos más ejemplos sobre cómo
usar R Markdown para que tu documentación sea aún más efectiva. Hasta pronto.
Como puedes ver en el informe en formato .html al lado del archivo .rmd, para crear títulos en el informe, debes incluir
un numeral (#) o más antes del texto del título, por ejemplo, ## Incluir tramas. Cuantos más numerales uses, más
pequeña será la fuente del título. Por ejemplo, si escribes # Incluir tramas, aplicarás el estilo Título 1 mientras que si
escribes ## Incluir tramas, usarás el estilo Título 2.

Pregunta
Un analista de datos quiere encontrar los títulos de su documento de R Markdown. ¿Qué debería buscar?
Espacios
Punto y coma
Numerales
Comillas simples
Correcto
Los numerales se usan para crear títulos. Por ejemplo, ### Resultados indica que el título Resultados tendrá el
estilo Título 3 porque tiene tres numerales.

Pregunta
El botón Convertir se usa para guardar un documento de R Markdown como informe en formato .html para
compartir con otras personas.
Verdadero
Falso
Correcto
El botón Convertir crea un informe en formato .html a partir del archivo de R Markdown y se puede compartir con
otras personas.

Pregunta
Un analista de datos incluye bloques de códigos en su archivo de R Markdown. ¿Cómo se verán en un informe en
formato .html?
Resultado generado
Adjuntos
Texto sin formato
Código HTML
Correcto
Como se ejecutan los bloques de códigos, en el informe en formato .html aparece directamente el resultado.

1.
Pregunta 1

Resumen de la actividad

Anteriormente, en este curso, hiciste actividades que estaban presentadas en un formato de archivo .rmd (R
Markdown). Los analistas de datos usan este formato de archivo para crear documentos dinámicos, llamados
notebooks, en R. En esta actividad, copiarás el análisis que hiciste en una actividad anterior en tu notebook de R
Markdown.

Cuando completes esta actividad, sabrás cómo crear documentos de R Markdown para registrar tu análisis en R. Así,
podrás realizar un seguimiento del proceso de análisis de datos y compartir tu trabajo con otras personas.
Empezar a usar R Markdown:

El formato de archivo R Markdown se usa para crear documentos dinámicos en R. Estos documentos, también
conocidos como notebooks, llevan un registro del análisis para que tú, otros miembros del equipo y cualquier
interesado comprenda los pasos que seguiste en tu análisis para llegar a las conclusiones que llegaste. También
puedes publicar tu notebook como .html, .pdf o archivo de Word, o en otros formatos, por ejemplo, presentación en
diapositivas. Recuerda que puedes consultar la Hoja de referencia de R Markdown en cualquier momento de la
actividad. Este recurso sirve como referencia para todo lo relacionado con R Markdown, desde cómo abrir un archivo
hasta cómo publicar un informe final de tu análisis.

Seleccionar tu análisis y revisarlo:

En este curso, tuviste la oportunidad de practicar cómo hacer análisis en RStudio y cómo guardar esos archivos. Para
empezar, abre algún análisis que hayas guardado.

Para eso, puedes dirigirte a Abrir archivo en el menú Archivo:

También puedes usar la pestaña Archivos en el panel de visualización en la esquina inferior derecha:

Ahora, revisa el archivo que abriste. Examina los datos que extrajiste del análisis y las funciones que usaste para
analizarlos.

Cuando creas un notebook de R Markdown, lo que quieres es poder compartirlo con otras personas para que
comprendan el proceso de análisis y las conclusiones. Quizá también quieras guardarlo como registro propio y, así,
realizar un seguimiento de tu progreso cuando usas R para el análisis de datos.

Abrir un archivo .rmd


Ahora, pasarás el código del archivo que abriste a un nuevo archivo de R Markdown para poder explicar con tus
palabras los pasos que llevaste a cabo. Así, podrás tener un registro más completo de tu proceso de pensamiento
para que otros puedan seguirlo y entenderlo.

1. Abre un nuevo archivo .rmd (R Markdown) para generar la estructura básica de tu notebook. Selecciona Archivo ->
Nuevo archivo -> R Markdown.

2. En el cuadro de diálogo que se abra, escribe un título para tu notebook. Dale un nombre que te ayude a saber de
qué trata tu análisis (por ejemplo, “Penguins Plots”).

3. En el campo Autor, escribe tu nombre.

4. Por el momento, vamos a dejar el archivo en el formato de salida recomendado: .html. Más tarde, cuando abras el
archivo, verás un informe en formato .html. Recuerda que siempre puedes pasarlo a formato .pdf o de archivo de
Word.

5. Haz clic en OK. En el panel de visualización del script, aparecerá un nuevo archivo de R Markdown en una pestaña
nueva. Ahora, deberías ver dos pestañas: una para el archivo .rmd nuevo y otra para tu análisis. Para pasar de una a
otra, solo tienes que hacer clic en la pestaña a la que quieras acceder.

Formatear tunotebook

La primera sección de tu notebook es el encabezado YAML. YAML es un lenguaje que se utiliza en archivos de datos
para que los seres humanos puedan leer los datos de forma más simple. El encabezado YAML brinda a las personas
que lo lean información sobre el documento. RStudio completa esta sección automáticamente con la información que
tú proveas y también con otros datos generales, como la fecha en que creaste el archivo.
Puedes agregar datos o escribir sobre los datos que ya están puestos para modificar la información de esta sección
cuando quieras. Fíjate que cada línea tiene un número asociado. Así puedes saber con más rapidez dónde están
ubicados los datos en el notebook y puedes controlar en qué lugar del notebook estás haciendo cambios.

La sección que sigue, la que tiene el fondo gris, es un bloque de código. En las actividades de este curso, cada vez
que ejecutabas un bloque de un código, aparecía esta información.

Como ya dijimos, RStudio completa automáticamente el notebook con el bloque de código formateado de forma
predeterminada. En pocas palabras, este bloque indica que cuando estés listo para reproducir tu informe final, podrás
ver el código en el informe.

Todos los bloques de códigos empiezan y terminan con un delimitador. Para empezar un bloque de código, escribe
tres comillas simples seguidas de una “r” en minúscula entre llaves: ```{r}

Para terminarlo, solo tienes que volver a escribir las tres comillas simples: ```

Puedes agregar el código usando uno de estos dos atajos: En tu teclado, puedes presionar Ctrl+ Alt + I(en Windows)
o Cmd + Option + I (en Mac). La otra opción es hacer clic en el comando Agregar bloque en la barra de herramientas
del editor:

Para agregar un bloque de código a tu archivo .rmd, sigue estos pasos:

1. Haz clic en el extremo de la última línea de tu archivo .rmd. Para crear el bloque del código, usa alguno de los dos
atajos que mencionamos más arriba.

2. Presiona Enter (Windows) o Return (Mac) dos o tres veces después de haber creado el bloque de código
predeterminado. Así, dejarás espacio entre el bloque de código existente y el próximo que vas a agregar.

3. Copia el código del archivo de análisis que abriste anteriormente y pégalo en la sección gris, entre los delimitadores
de principio y fin.

4. Selecciona el resto del contenido de la plantilla en el archivo y bórralo. Así, tendrás espacio en blanco para trabajar
y evitarás que surjan errores por mezclar tus propios comentarios y códigos con los que ya estaban en la plantilla.

En la sección de fondo blanco, podrás escribir el texto sin formato usando la sintaxis de R Markdown. Como ya
aprendiste en este curso, la sintaxis de R Markdown sirve para formatear los archivos de texto sin formato. Si usas
este tipo de sintaxis, podrás escribir texto en tu notebook y formatearlo sin problemas.
A continuación, te brindamos algunas opciones básicas para el formateo:

Para empezar un nuevo párrafo, termina la línea con dos espacios

Para usar itálicas en una palabra o una frase, coloca un asterisco al principio y al final, por ejemplo, *texto en itálicas*

Para resaltar en negrita una palabra o una frase, coloca dos asteriscos al principio y al final, por ejemplo, **texto en
negrita**

Para crear un título, inserta un numeral (#) seguido de un espacio y el texto que quieras, por ejemplo, # Primeros
pasos con R Markdown

Cuando generes tus títulos, ten en cuenta lo siguiente:

Los títulos aparecen en azul

Si agregas un solo numeral, el título tendrá el tamaño más grande

Cuantos más numerales agregues (máximo de seis), más pequeño será el título

Para formatear comentarios en tu notebook, sigue estos pasos:

1. Haz clic en cualquier línea arriba del bloque del código que tú agregaste, pero debajo de la sección YAML.

2. Escribe un título principal para tu informe usando un solo numeral. Quizá quieras reformular el título de la sección
YAML o ampliarlo con una descripción breve.

3. Agrega un título más pequeño debajo de eso para indicar que es la primera parte de la programación. Luego,
incluye una descripción del bloque del código que agregaste.

Las comillas simples le dan formato al texto para que parezca que es un bloque de código aunque no lo sea. Las
comillas simples en el código más arriba hacen que el fondo de los textos “tidyverse” y “palmerpenguins” se vea gris.

Seguir formateando
Sigue trabajando en el formateo del archivo hasta que tengas, al menos, tres niveles distintos de títulos y más
descripciones para tu análisis. Cuando quieras, puedes hacer clic en Convertir (knit) en el panel del script para abrir el
archivo.

Cuando abras el archivo, podrás tener idea de cómo se verá el archivo en el formato que elegiste. En este ejemplo, el
archivo previsualizado es un .html.

Cuando abres el archivo, automáticamente se ejecutan los bloques de códigos para mostrar el resultado. En este
ejemplo, podemos ver que tidyverse se cargó usando la función library().

Reflexión

Supongamos que incluyes el título ## Conclusion en el notebook de tu archivo de R Markdown. ¿Cómo puedes
modificar el título para que sea más pequeño?
1 / 1 punto

 Agregando otro numeral


 Eliminando un numeral
 Agregando otro espacio entre los numerales y el título
 Eliminando el espacio entre los numerales y el título
Correcto

Para que el título sea más pequeño, agrega más numerales antes. Por ejemplo, el título ### Conclusion se vería más
pequeño que ## Conclusión. Más adelante, podrás usar la sintaxis de R Markdown para formatear tus notebooks. Así
podrás dar rienda suelta a tu creatividad a la hora de presentar tu análisis ante otras personas.
2.
Pregunta 2

En esta actividad, creaste tu propio notebook en formato R Markdown. En el cuadro de texto a continuación, escribe 2
o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿Cómo puedes usar los notebooks de R Markdown a futuro?

¿Qué formateo usaste en este notebook de R Markdown para que otras personas comprendan más fácilmente tu
análisis?
1 / 1 punto

.
Correcto

¡Felicitaciones por completar esta actividad práctica! Para que tu respuesta sea buena, deberías incluir que los
notebooks de R Markdown son recursos útiles para crear registros e informes sobre tu análisis en R y te permiten
formatear tu trabajo para compartirlo con otras personas.

Para realizar un seguimiento de tus análisis para lo que necesites, siempre es bueno crear un notebook en R
Markdown. También puedes usar los notebooks para generar informes finales sobre tu análisis y compartirlos con
otras personas. A futuro, podrás aprovechar recursos como la Hoja de referencia de R Markdown para que tus
notebooks sean más efectivos.

1.
Pregunta 1

Completa el espacio en blanco: Cuando hablamos de Markdown, nos referimos a un tipo de _____ para formatear
archivos de texto sin formato.
0 / 1 punto

guía
lenguaje de programación
aplicación de archivos
sintaxis
Correcto

Markdown es un tipo de sintaxis para formatear archivos de texto sin formato.


2.
Pregunta 2

Un analista de datos crea una versión interactiva de su documento de R Markdown y lo comparte con otros usuarios
para que ejecuten el código que este analista escribió. ¿Qué es lo que creó el analista?
1 / 1 punto

Un bloque de código
Un informe de HTML
Un notebook de R
Un lenguaje markdown
Correcto

Creó un notebook de R, una opción interactiva de R Markdown. Permite a los usuarios ejecutar un código del
documento de R Markdown y ver tablas y gráficos de ese código.
3.
Pregunta 3

Un analista de datos quiere guardar su archivo de R Markdown en otro formato. ¿Cuáles son sus opciones?
Selecciona todas las opciones que correspondan.
1 / 1 punto

JPEG, PNG y GIF


HTML, PDF y Word
Correcto. Los archivos de R Markdown pueden guardarse como archivos HTML, PDF y de Word, presentaciones con
diapositivas o paneles.

Panel
Correcto. Los archivos de R Markdown pueden guardarse como archivos HTML, PDF y de Word, presentaciones con
diapositivas o paneles.

Presentación con diapositivas


Correcto. Los archivos de R Markdown pueden guardarse como archivos HTML, PDF y de Word, presentaciones con
diapositivas o paneles.

4.
Pregunta 4

Un analista de datos terminó de editar su archivo de R Markdown y quiere guardarlo como informe HTML. ¿Qué
herramienta va a usar?
1 / 1 punto
Guardar
Numerales
Archivo de salida
Convertir
Correcto

El botón Convertir te permite crear un informe con todo el texto, el código y los resultados del archivo de R Markdown.

Crear documentos de R Markdown


Estructura de los documentos de R Markdown
Hola. Anteriormente, te mostramos cómo comenzar a utilizar R Markdown. Creamos un documento de Markdown
denominado archivo RMD, que es muy útil para realizar y guardar un informe final que resuma tu exploración de datos y los
resultados de tu análisis. En este vídeo, veremos la estructura del texto en un archivo RMD y cómo podrías formatearla para
organizar y enfatizar tus resultados de mejor manera. Vayamos a RStudio y abramos el archivo que guardamos previamente,
denominado R Markdown Intro. Si estás siguiendo nuestros pasos y no tienes un archivo guardado, puedes abrir un archivo
nuevo de R Markdown o RMD desde el menú Archivo. Si se te solicita que instales paquetes, haz clic en Sí. Haz clic en
Aceptar para abrirlo con las opciones predeterminadas y luego guarda tu archivo. Ahora, analicemos este archivo en
profundidad. Comenzaremos por la parte superior.

Esta es la sección del encabezado YAML. YAML es un lenguaje para datos que los traduce para que sean legibles. Dato
curioso: Originalmente, YAML representaba otro lenguaje de marcado (<i>yet another markup language</i>). Para el
nombre de esta sección se utilizan tres guiones en la primera y en la última línea. Esa sintaxis crea automáticamente la
sección del encabezado YAML cuando se la utiliza en un archivo RMD. En un archivo RMD, esa sección es básicamente para
los metadatos o para los datos sobre los datos en el resto del archivo. El título, el autor, la fecha y el tipo de archivo de un
archivo de salida se incluyen automáticamente cuando creas un nuevo archivo. Hay muchas funciones y opciones de
formateo diferentes en esta sección. Por ahora, solo asegúrate de comprender al menos los cuatro detalles que tenemos en
nuestro archivo actual. Puedes utilizar la plantilla que aparece cuando abres el archivo y editarla. O puedes comenzar de
cero y utilizar los tres guiones para crear la sección YAML y el resto de los contenidos del archivo. Analizaremos esos pasos
en los siguientes vídeos y en los otros recursos del programa.

A continuación, echemos un vistazo al texto de las áreas en blanco de nuestro archivo. Piensa que el texto es una forma de
comentar y explicar tu código, tu análisis y cualquier visualización que incluyas.

Puedes formatear el texto para incluir enlaces, listas ordenadas, ecuaciones y más. El texto se formatea con Markdown, la
sintaxis que ya presentamos. Incluimos una lectura que te muestra todas las maneras de formatear texto, así como muchos
otros consejos y trucos geniales de Markdown. También verás otros ejemplos de formateo en el próximo vídeo. Por ahora,
probemos algunos ejemplos que están en este archivo. En la línea 12 hay dos numerales y un espacio antes de las palabras
R Markdown. Los numerales se utilizan para los encabezados. Cuantos más hashtags haya, más pequeño será el
encabezado. El espacio también es importante. De lo contrario, RStudio no reconocerá que es un encabezado. Vamos a
convertir el archivo de nuevo.
Allí está el encabezado de R Markdown en el archivo HTML.

Si agregamos dos numerales más en el archivo punto RMD y hacemos clic en Convertir otra vez, el archivo de salida
cambiará.

Ahora el encabezado es más pequeño. Lo volveremos a cambiar porque el formato original estaba bien.

Como este encabezado presenta información sobre R Markdown que aparece en los dos párrafos siguientes, queremos
enfatizarla. En el primer párrafo de esta sección hay un breve resumen de Markdown. Hay un enlace en el texto y está
formateado con comillas angulares. Si utilizas esos corchetes, tendrás un enlace en el que podrás hacer clic en el archivo de
salida. Esa es una función interesante si quieres hacer referencia a cualquier enlace útil o si quieres incluir enlaces como
fuentes de tu análisis. En el párrafo siguiente, Convertir aparece con dos asteriscos a los lados de la palabra. Eso hace que la
palabra se vea en negrita. Si colocas un asterisco a un lado de la palabra, se verá en cursiva. Desplacémonos hacia abajo,
hasta el último párrafo. Aquí tenemos un código insertado, que se puede insertar directamente en el texto de un archivo
punto RMD. El código aparece en un cuadro gris, como los bloques de códigos sobre los que hablaremos pronto. Utilizar un
código insertado como este te permite hacer referencia al código directamente, mientras lo explicas. Vamos a convertir el
archivo una vez más. Todo el formateo funciona en conjunto para dar como resultado un archivo bien diseñado y legible,
que se puede compartir fácilmente con los interesados y con los integrantes del equipo. Muy bien, eso es todo por ahora.
Pero hay mucho más para aprender sobre cómo crear tus propios informes. Mantente atento.

Pregunta
Un analista de datos quiere que los títulos de su documento de R Markdown sean más pequeños. ¿Qué debería
incluir en el texto en Markdown para poder hacerlo?
Espacios
Numerales
Punto y coma
Comillas simples
Correcto
Los numerales se usan para los títulos: cuantos más numerales uses, más pequeño será el título.

Pregunta
Un analista de datos inserta algunos códigos directamente en el archivo de R Markdown para poder consultarlos
directamente a la hora de escribir. ¿Cómo se llama esto?
Encabezado YAML
Notebook de R
Código insertado
Markdown
Correcto
Un código insertado es un código que se puede incluir directamente en el texto de un archivo .rmd.

Meg: Programar empodera


Mi nombre es Meg y soy directora del producto en Google. Como directora del producto, trabajo con diseñadores y
desarrolladores web para crear funciones que nuestros usuarios amarán. Específicamente, trabajo para Kaggle, que es una
comunidad en línea de ciencia de datos para personas que están aprendiendo ciencia de datos y aprendizaje automático.
Creamos funciones interesantes que ayudan a las personas a aprender de los datos y a avanzar en sus carreras. Trabajo con
diseñadores e investigadores para realizar estudios y descubrir qué quieren nuestros usuarios y qué necesitan del producto,
y trabajo con ingenieros para descubrir exactamente cómo escribir esos requisitos para las funciones que decidimos crear.
Aprender cualquier lenguaje de programación es realmente inspirador porque los únicos límites son tu creatividad y tu
curiosidad. Justamente, la curiosidad que me genera el mundo es la que me llevó a la investigación y al análisis de datos, en
especial con R. Sentí que era realmente liberador poder hacer una pregunta sobre el mundo y saber cómo trabajar con
datos para obtener la respuesta. La segunda cosa que creo que es realmente interesante y estimulante sobre saber un
lenguaje de programación son las destrezas transferibles que te brinda. La última cosa que creo que es realmente
interesante es la comunidad y el ecosistema que viene con eso. R no es una excepción cuando se trata de eso. De hecho,
creo que la comunidad de R es realmente sobresaliente. Contar con la comunidad y con el ecosistema público de recursos al
alcance de tus dedos realmente cambiará por completo lo que puedes hacer con los datos como analista de datos, y creo
que eso es muy emocionante. Es muy normal sentirse intimidado, confundido o atascado si estás comenzando a aprender
R. Hay cosas que son peculiares sobre el lenguaje, y no es tu culpa. Solo tienes que superar esas dificultades y te prometo
que las cosas tendrán mucho más sentido, en especial una vez que puedas comenzar a utilizar tidyverse. Yo te diría que
sigas para adelante. Otro consejo que puedo darte es que trates de ponerte en contacto con la comunidad R lo antes
posible en tu proceso de aprendizaje de R. Lo que es fantástico sobre R es el hecho de que su comunidad es realmente
vibrante y muy acogedora, y descubrirás cosas al igual que aquellas personas que son expertas en R y que comparten sus
errores y también quieren compartir su proceso de aprendizaje. Creo que eso te ayudará a no sentirte tan solo. Yo tuve
momentos en los que me sentía frustrada cuando recién comenzaba a aprender R. En realidad lo entendí cuando tuve la
oportunidad de utilizar R para responder mis propias preguntas de investigación. Ese es el momento en que sientes que
tienes un interés personal en el resultado de tu análisis. El sentimiento de recompensa y satisfacción cuando alcanzas el
éxito es algo que puede ayudar realmente a generar ese impulso para seguir aprendiendo.

Algunos elementos más para tus documentos


¡Qué bueno volver a verte! Ya hemos abordado R Markdown y hemos aprendido cómo funcionan los elementos
interactivos. Cuando realizas un cambio en tu archivo RMD, RStudio lo aplica automáticamente a tu informe. En este vídeo,
te mostraremos algunas opciones más de formateo para que tu informe sea más completo y dinámico. Regresemos una vez
más a nuestro archivo punto RMD denominado R Markdown Intro. Lo editaremos, agregaremos algunos elementos y lo
convertiremos en un documento HTML. Comenzaremos por agregar viñetas. Al igual que en un documento estándar, las
viñetas te pueden servir para organizar tu contenido. En nuestro archivo, convertiremos la lista de documentos que R
Markdown puede crear en viñetas. Utilizamos asteriscos en el archivo punto RMD para crear las viñetas en el documento de
salida. Revisaremos esta sección para que las viñetas estén configuradas de manera correcta. Ahora, echemos un vistazo a
una manera diferente de incluir un enlace en el archivo. Cuando estás escribiendo un informe, es posible que quieras
agregar un enlace para ir al sitio web de la empresa o a alguna página que hayas utilizado para la investigación. En este
momento, en el primer párrafo, tenemos la URL del sitio web dentro de comillas angulares. Pero si queremos incrustar el
enlace en el texto debemos cambiar el formato. Comenzaremos por cambiar el texto para que se ajuste mejor al enlace
incrustado. Luego agregaremos corchetes y la palabra en la que queremos incrustar el enlace, y cambiaremos las comillas
angulares que encierran la URL por paréntesis. Los dos tipos de enlace funcionan correctamente, pero algunas URL son
largas y podrían desordenar tu informe. En esos casos, incorporar los enlaces ahorra espacio y hace que se vea más prolijo.

Supongamos que también quieres incrustar una imagen. Las imágenes son buenas para presentar tu flujo de trabajo o para
mostrar las visualizaciones a las que quieres hacer referencia en tu informe. O quizás solo quieres agregar un GIF o alguna
otra imagen divertida. Eso está perfecto. Solo asegúrate de que los interesados puedan apreciarla. Continuemos y
divirtámonos un poco con este ejemplo. Incrustaremos una imagen con el ejemplo de la trama. Luego agregaremos un
signo de exclamación y una leyenda para la imagen entre corchetes. Luego, copiaremos la URL para nuestra imagen y la
pegaremos dentro de los paréntesis.
Ahora, echemos un vistazo a nuestro producto terminado.

Lo veremos en nuestro navegador. Así, cuando hagamos clic en el enlace incrustado, se abrirá en una pestaña nueva en el
mismo navegador.

Aquí están nuestras viñetas, nuestra imagen y nuestra leyenda.

Y aquí está nuestro enlace incrustado, sobre el que podemos hacer clic para abrir el sitio web; y hay muchas formas más de
formatear un archivo RMD para que esté listo para convertirse en un informe completo, organizado y efectivo. Si bien los
informes son una parte fundamental de la presentación de tu análisis a los interesados, también pueden ser importantes
para tu propio aprendizaje; puedes utilizar documentos punto RMD para hacer un seguimiento de tu aprendizaje si incluyes
notas y enlaces a recursos en línea. También puedes incorporar imágenes útiles y agregar viñetas. Hablando de aprender,
descubramos más sobre los bloques de códigos y sobre archivos RMD en el próximo vídeo. Nos vemos.

Pregunta
Un analista de datos quiere insertar un enlace en su documento de R Markdown. Debería usar la siguiente sintaxis:
(haz clic aquí)[rstudio.com].
Verdadero
Falso
Correcto
Esta sintaxis es incorrecta. El analista debería poner entre corchetes el texto que quiere que aparezca en el
documento. La URL debería estar entre paréntesis después de ese texto. El analista de datos intercambió los
elementos de formateo. Debería haber escrito lo siguiente: [haz clic aquí](rstudio.com).

Pregunta
Un analista de datos quiere incluir la leyenda ejemplo 1 debajo de una imagen (URL de la imagen:
r-project.org/logo/Rlogo.png). ¿Cuál es la sintaxis correcta para agregar una imagen con esa leyenda en un
documento de R Markdown?
%>%[example 1](r-project.org/logo/Rlogo.png)
+[example 1](r-project.org/logo/Rlogo.png)
=[example 1](r-project.org/logo/Rlogo.png)
![example 1](r-project.org/logo/Rlogo.png)
Correcto
La sintaxis correcta para agregar una imagen con la leyenda ejemplo 1 en un archivo de R Markdown es la
siguiente: ![example 1](r-project.org/logo/Rlogo.png). La sintaxis incluye un signo de exclamación seguido de la
leyenda entre corchetes y la URL o la ruta de la imagen entre paréntesis.

1.
Pregunta 1

¿Qué información suele encontrar el analista de datos en la sección del encabezado de un documento de R
Markdown? Selecciona todas las opciones que correspondan.
1 / 1 punto

 Título y autor
Correcto. La sección de encabezado de un documento de R Markdown contiene el título, el autor, la fecha y el
tipo de archivo.
 Conclusiones
 Fecha
Correcto. La sección de encabezado de un documento de R Markdown contiene el título, el autor, la fecha y el
tipo de archivo.

 Tipo de archivo
Correcto. La sección de encabezado de un documento de R Markdown contiene el título, el autor, la fecha y el
tipo de archivo.

2.
Pregunta 2

Un analista de datos está formateando su documento de R Markdown y decide que uno de sus títulos tiene que ser
más pequeño. ¿Qué va a escribir en el documento para achicar el título?
1 / 1 punto

Numerales
Comillas simples
Corchetes
Paréntesis
Correcto

Los numerales se usan para disminuir el tamaño de los títulos. Cuantos más numerales usas, más pequeño es el
título.
3.
Pregunta 3

Un analista de datos quiere agregar viñetas en el documento de salida, así que agrega _____ al documento de R
Markdown.
1 / 1 punto

asteriscos
corchetes
numerales
espacios
Correcto

Para agregar viñetas en el documento de salida, el analista de datos debe agregar asteriscos en el documento de R
Markdown.
4.
Pregunta 4

Un analista de datos quiere insertar un enlace en su documento de R Markdown. Escribe (Haz clic aquí)
(www.rstudio.com), pero no funciona. ¿Qué debería haber escrito?
1 / 1 punto

<Haz clic aquí>(www.rstudio.com)


"Haz clic aquí"(www.rstudio.com)
Haz clic aquí(www.rstudio.com)
[Haz clic aquí](www.rstudio.com)
Correcto

El analista debería haber escrito [Haz clic aquí](www.rstudio.com). El texto del enlace debería estar entre corchetes.
Los paréntesis que encierran la URL son correctos.

Comprender bloques de códigos y exportaciones


Bloques de códigos
Hola de nuevo. Hemos aprendido mucho sobre R Markdown o archivos RMD y acerca de cómo se pueden formatear y
convertir en informes para los interesados. También exploramos el encabezado YAML y los comentarios, las descripciones y
las explicaciones para el análisis que se muestra en el informe. Ahora viene el núcleo del archivo RMD: el código. El código
que se agrega a un archivo RMD suele denominarse bloque de código. Te hemos mostrado esos bloques de códigos en
algunas de las sesiones de RStudio que estuvimos realizando. Quizás hayas notado los bloques de códigos si estuviste
practicando junto con nosotros. Ahora te contaremos de qué se tratan. Anteriormente, trabajamos con el conjunto de datos
Palmer penguins. Ejecutamos un código para analizar los datos y crear visualizaciones. Luego de ese paso es posible que
queramos configurar un informe de práctica con notas sobre nuestro análisis. Haremos eso ahora e incorporaremos algún
código y elementos visuales. Comencemos por abrir RStudio y luego el <i>script</i> con nuestra programación: el archivo
ggplot_hook. Siéntete libre de seguir los pasos. Puedes utilizar este enlace para acceder al archivo. Podemos compartir este
archivo directamente con otros, pero no es muy efectivo. Es difícil de leer y no siempre incluye conclusiones. En lugar de
eso, crearemos un nuevo archivo .RMD. Le agregaremos el título y el autor.

Reproduce el video desde :1:42 y sigue la transcripción1:42

Ahora tenemos dos pestañas en nuestro panel de <i>scripts</i>. Puedes pasar de una a otra, como si fueran las pestañas
del explorador. Guardaremos nuestro archivo .RMD nuevo.

Reproduce el video desde :2: y sigue la transcripción2:00

Este archivo tiene el formato de la plantilla, así que borraremos todo excepto la sección del encabezado y comenzaremos
uno propio. Ya configuramos la sección del encabezado así que no necesitamos hacer ningún cambio allí. En lugar de borrar,
podríamos editar sección por sección, y agregar nuestro comentario y nuestro código a medida que avanzamos. Pero borrar
los contenidos del archivo nos deja un espacio en blanco para trabajar y nos ayuda a evitar posibles errores que pueden
surgir si mezclamos nuestro comentario y nuestro código con los que estaban en la plantilla. Antes de agregar cualquier
código, queremos describir su propósito. El primer bloque de código, configuraremos el entorno de R, cargando nuestros
paquetes con la función <i>library</i>. En una línea nueva, escribiremos dos numerales para formatear un encabezado para
esta sección, seguidos del texto del encabezado: "Configurar mi entorno". Luego agregaremos una nota sobre el código.

Ya agregamos apóstrofos antes y después de tidy verse y Palmer penguins porque son los nombres de los paquetes que los
hacen parte del código real. Ahora agregaremos nuestro código. RStudio tiene un menú código a mano que podemos
utilizar para insertar un bloque de código. También hay un botón en nuestro panel de <i>scripts</i> que nos permite
agregar bloques de códigos. Esto crea una sección gris en nuestro archivo y en los delimitadores de bloque. Un delimitador
es un carácter que indica el principio o el fin de un elemento de datos. También puedes escribir los delimitadores
directamente en el archivo: tres comillas simples seguidas de la letra r entre llaves para comenzar el bloque de código y tres
comillas simples para finalizarlo. O puedes usar los atajos del teclado: Control más Alt más l en una PC o Chromebook y
Command más Option más l en una Mac. Como estamos en RStudio, el menú Código funciona bien. Dentro de la primera
llave etiquetaremos nuestro bloque de código. Luego de la letra r agregaremos un espacio y luego escribiremos loading
packages.
Eso agrega otra capa a nuestra organización. Ahora podemos encontrar el bloque de código y su etiqueta con facilidad si
utilizamos el menú Contenidos que está en la parte inferior del panel de <i>scripts</i>.

Reproduce el video desde :4:37 y sigue la transcripción4:37

Luego, entre los delimitadores, agregaremos nuestro primer bloque de código, que usaremos para cargar los dos paquetes.
Incluso si ya están cargados, cargarlos nuevamente te asegurará que los paquetes están actualizados a su última versión.
Podemos comenzar a escribir en la línea que sigue al primer delimitador. Pero dado que también tenemos nuestro archivo
de programación disponible, copiaremos y pegaremos desde allí.

Reproduce el video desde :5:10 y sigue la transcripción5:10

Ahora podemos ejecutar nuestro código en el archivo para evaluar si hay errores y allí está el resultado del código. También
podemos cambiar las opciones de nuestro bloque de código. Hay opciones para cambiar el archivo de salida, y para
desactivar advertencias y mensajes. Eso resulta útil cuando estás listo para hacer un informe final para los interesados.
Podrás controlar lo que quieres mostrarles en el informe. Por ejemplo, si hay advertencias con respecto a tu archivo de
salida que no impactan en tus resultados, puedes desactivarlas para los interesados. Ahora echemos un vistazo a este
informe en su forma completa. Tiene nuestras notas y nuestros comentarios, que serán de ayuda mientras seguimos
aprendiendo. También tiene los bloques de códigos de nuestro análisis anterior y los archivos de salida como elementos
visuales. Haremos clic en el botón "Convertir" para convertir nuestro informe en un documento HTML.

Reproduce el video desde :6:10 y sigue la transcripción6:10

Los bloques de código son lo principal a la hora de hacer del informe una buena herramienta de aprendizaje y, finalmente,
un documento que valga la pena presentar a los interesados. Cuando tienes un código incrustado en un archivo y puede
mostrar su archivo de salida, puedes proporcionar evidencia para tus resultados y compartir tus fuentes. Si necesitas más
evidencia sobre cómo R Markdown te puede ayudar a documentar tu análisis, la encontrarás a continuación. Nos vemos
pronto.

Pregunta
Completa el espacio en blanco: Por lo general, llamamos bloque de código al código que agregamos a un archivo
_____.
rmd
markdown
HTML
data
Correcto
Por lo general, llamamos bloque de código al código que agregamos a un archivo .rmd.

Pregunta
Un analista de datos escribe un bloque de código y coloca tres comillas simples al final del código para indicar que
allí termina el elemento de datos. ¿Cómo se llaman esas comillas simples?
Delimitadores
Código insertado
YAML
Metadatos
Correcto
El delimitador es un carácter que indica el principio o el fin de un elemento de datos. En R Markdown, se usan
```{r } y ``` como delimitadores para los bloques de códigos.

1.
Pregunta 1
Descripción general

Anteriormente, en este curso, creaste una visualización usando la función ggplot(). También aprendiste a crear un
notebook de R Markdown. En esta actividad, podrás usar todo lo que aprendiste: agregarás a tu notebook de R
Markdown el código que usaste para crear la visualización.

Cuando completes esta actividad, podrás crear y formatear un archivo .rmd que contenga las visualizaciones que
creaste usando ggplot2. Así, podrás realizar un seguimiento de tu análisis y compartirlo con otras personas. También
podrás compartir el código R que usaste para crear las visualizaciones. Esto sirve para brindarles a otros analistas de
datos un archivo interactivo para probar tu código y también para comunicar de forma más clara tus resultados ante
interesados y colegas.

Agregar bloques de códigos a tu notebook de R Markdown

1. Para empezar, ingresa a tu cuenta de RStudio Cloud.

2. Luego, abre un nuevo notebook de R Markdown y crea una sección para incluir un fragmento de código. Si quieres
agregar un bloque de código al notebook, puedes usar estos atajos: Ctrl + Alt + I(Windows) o Cmd + Option + I
(Mac). También puedes agregar bloques de códigos usando el menú Insertar en la barra de herramientas del editor.

Cuando usas R Markdown y quieres insertar un bloque de código, tienes que usar delimitadores. El delimitador es un
carácter que indica el principio o el fin de un elemento de datos. En este caso, para indicar que estás insertando un
bloque de código, tienes que usar las tres comillas simples seguidas de una llave, texto descriptivo y una llave de
cierre. Luego, verás un espacio en blanco para agregar el código adecuado. Esta es la sintaxis general:

```{r}

```
Cuando crees un bloque de códigos, ten siempre en mente que, cuando lo ejecutes, el resultado del bloque del código
aparecerá inmediatamente después del bloque. Por eso, cuando los bloques de códigos producen más de un
resultado, una buena práctica es dividirlos en dos o más bloques. Así, cada bloque del código producirá un solo
resultado y será más fácil para los usuarios ejecutarlo y examinarlo.

3. Usa el código de la visualización que creaste usando la función ggplot() y genera dos bloques distintos. Para
designar las bibliotecas requeridas, cargar los datos de Penguins y obtener una vista de los datos de Penguins,
escribe lo siguiente en el primer bloque de código:

```{r ggplot for penguin data}

library(ggplot2)

library(palmerpenguins)

data(penguins)

View(penguins)

```

Ahora, el único resultado que genera el bloque del código es una vista tabular de los datos como resultado de la
función Vista.

4. Luego, para crear la visualización, escribe lo siguiente en el segundo bloque de código:

```{r ggplot for penguin data visualization}

ggplot(data = penguins) +

geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

```

5. Por último, ejecuta cada bloque de código para ver los resultados. Puede que te acuerdes de esta visualización
porque la usaste en una actividad anterior.

¡Felicidades! Ahora, puedes agregar tus propias visualizaciones al notebook de R Markdown. Los bloques de códigos
son muy útiles para explicar el proceso que usaste para el análisis de datos y para que otros usuarios exploren tu
trabajo. Agrega todos los bloques de código que puedas a tu notebook de R Markdown para que la experiencia sea
interactiva.

Confirmación y reflexión

En la sintaxis de R Markdown, usamos delimitadores, en este caso, comillas simples, para indicar que vamos a
agregar un bloque de código. ¿Qué le pasaría a tu bloque de código si, en lugar de formatearlo con tres comillas
simples, usaras dos?
1 / 1 punto

Aparecería un mensaje de error en lugar del bloque


Aparecería un bloque de código no ejecutable
Aparecería como un texto normal, no un código
No pasaría nada
Correcto

Si formateas el bloque del código usando dos comillas simples y no tres, aparecerá como un texto normal, no un
código. Los delimitadores son caracteres que indican que hay un código, así que es importante que utilices la sintaxis
correcta. A futuro, siempre corrobora haber escrito bien los delimitadores para que tu notebook de R Markdown
ejecute tu código de manera adecuada.
2.
Pregunta 2
En esta actividad, creaste bloques de códigos en un archivo de R Markdown para generar visualizaciones con
ggplot2. En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a cada
una de las siguientes preguntas:

¿Por qué decimos que al agregar bloques de códigos a un archivo de R Markdown aumentas su usabilidad?

¿En qué se diferencia la visualización de datos en un archivo de R Markdown de la visualización en un programa


como Tableau?
1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que la visualización de bloques de
códigos te permite crear visualizaciones de datos en el mismo documento, pero como texto. Así es mucho más fácil
formatear informes.

Cuando agregas bloques de códigos a tu notebook de R Markdown, les das la posibilidad a otros usuarios de
entender de forma interactiva el proceso que llevaste a cabo para tu análisis de datos y también de probar tu código
en su propia consola de RStudio. Esto es útil para dejar asentado tu código y para darles a los interesados la chance
de que exploren los datos.

Exportar documentos
Hola de nuevo. Una de las cosas más eficaces sobre un archivo de R Markdown es que puedes convertirlo a diferentes tipos
de archivos de salida para crear informes que se puedan compartir. Nos hemos centrado en documentos HTML, pero hay
otras opciones que podemos explorar. Comencemos por abrir nuestro informe anterior.

Reproduce el video desde ::24 y sigue la transcripción0:24

Hicimos ese informe para que tuvieras un documento de aprendizaje que te ayudara a analizar tu código y tu análisis. Para
este vídeo, imagínate que es un informe que tienes que compartir con los interesados. El archivo está en formato punto
RMD, pero como vimos, podemos convertirlo con el botón Convertir. El menú desplegable Convertir tiene tres opciones
principales: HTML, PDF y documento de Word. Puedes utilizar Convertir para convertir tu archivo en cualquiera de esas
opciones cuando lo desees, pero es mejor esperar para convertirlo a PDF o a un documento de Word.

En lugar de convertirlo, quédate en la opción HTML mientras estés trabajando. HTML no tiene saltos de página, así que
puedes enfocarte en generar contenido para tu informe y no en su aspecto. El botón Convertir no es la única opción para
convertir tu archivo. Puedes editar el YAML para cambiar tus metadatos o incorporar más detalles.

Por ejemplo, cambiaremos nuestro archivo de salida en este archivo a PDF. Cuando hacemos clic en el botón Convertir para
abrir el archivo y ejecutar el código, el archivo de salida está en formato PDF. Sabes que cambiar los metadatos puede tener
un efecto en todo el informe.

Reproduce el video desde :1:55 y sigue la transcripción1:55

Si necesitas crear cierto tipo de documento una y otra vez o si quieres personalizar el aspecto de tu informe final, puedes
crear una plantilla. Si es un informe mensual o anual que estás haciendo para los interesados, simplemente puedes ejecutar
una línea de código para actualizar tus datos, y tu informe estará listo. Aquí no hablaremos sobre cómo crear una plantilla,
pero quizás sea algo de lo que quieras obtener más información por tu cuenta a medida que tengas más experiencia en R.

Reproduce el video desde :2:29 y sigue la transcripción2:29


Ya cubrimos gran parte de R Markdown y de la documentación en R. Explicamos qué es R Markdown y cómo utilizarlo en
RStudio para crear archivos punto RMD. Echamos un vistazo a la estructura de esos archivos y vimos cómo puedes
formatearlos para hacer informes. Te mostramos qué son los bloques de códigos y cómo incluirlos en tu documentación. Te
enseñamos cómo tomar todo de ese análisis, además de tu explicación sobre él, y pasarlo de un archivo punto RMD a un
informe que puedas usar como un documento de aprendizaje o que puedas compartir con los interesados. Esta es una
excelente manera de dar un cierre a tu proceso de análisis computacional de datos en R y RStudio. Ya casi es momento de
terminar las cosas en este programa, pero si quieres repasar algún concepto o practicar un poco más en RStudio, puedes
volver a mirar los vídeos en cualquier momento para obtener ayuda adicional. Nos vemos pronto.

Formatos de archivos de salida en R Markdown


Puedes guardar esta lectura para consultarla en el futuro. Ten en cuenta que puedes descargar una versión en PDF
de esta lectura a continuación:

DAC7M5L3R1_ATTACHMENT_SPA

DOCX File

Esta lectura explora los distintos formatos de archivo que puedes producir cuando usas R Markdown.

Configurar el archivo de salida de un documento de R Markdown


Cuando trabajas en RStudio, puedes configurar el archivo de salida de un documento de R Markdown cambiando el
encabezado YAML.

Por ejemplo, el siguiente código genera un documento HTML:

---

título: "Demo"

archivo de salida: html_document

---

Y el siguiente código genera un documento PDF:

---

título: "Demo"

archivo de salida: pdf_document

---

El botón Convertir en el editor de código de RStudio reproduce el archivo según el primer formato enumerado en el
campo de archivo de salida (HTML es el archivo que se genera por defecto). Puedes obtener otros formatos si haces
clic en el menú desplegable al lado del botón Convertir.
Archivos de salida disponibles
Además del archivo predeterminado de salida, que es en formato .html (html_document), puedes crear otros tipos de
documentos en R Markdown usando la siguiente configuración de archivos de salida:

 pdf_document: Crea un archivo PDF con LaTeX (un sistema de diseño de documentos de código abierto). Si
no tienes LaTeX instalado, RStudio te pedirá automáticamente que lo instales.
 word_document: Crea documentos de Microsoft Word (.docx).
 odt_document: Crea un documento de OpenDocument Text (.odt).
 rtf_document: Crea un documento en formato de texto enriquecido (.rtf).
 md_document: Crea un documento de R Markdown (que se ajusta rigurosamente a las especificaciones del
documento original de Markdown).
 github_document: Crea un documento GitHub, que es la versión personalizada del documento de R Markdown
diseñada para compartir en GitHub.
Para una guía detallada de cómo crear distintos tipos de documentos de R Markdown, puedes consultar el capítulo
Documentos de R Markdown: la guía definitiva.

Notebooks
El notebook (html_notebook) constituye una variación del documento de HTML (html_document). En términos
generales, los formatos de salida son similares, la mayor diferencia es que el notebook como archivo de salida
siempre incluye una copia incrustada del código fuente.

Los notebooks y los documentos en formato HTML también se usan con distintos propósitos. Los documentos en
formato HTML son útiles para comunicarse con los interesados. Los notebooks son mejores para trabajar en conjunto
con otros analistas de datos o científicos de datos.

Para más información, dirígete a la sección sobre Notebooks de los documentos de R Markdown.

Presentaciones
También puedes usar R Markdown para crear presentaciones. Si insertas automáticamente los resultados de tu
código R en una presentación, puedes ahorrarte muchísimo tiempo.

Cuando usas las siguientes configuraciones para archivos de salida, R Markdown te muestra distintos formatos
específicos de presentaciones:

 beamer_presentation: Para presentaciones en PDF con Beamer


 ioslides_presentation: Para presentaciones en HTML con ioslides
 slidy_presentation: Para presentaciones en HTML con Slidy
 powerpoint_presentation: Para presentaciones en PowerPoint
 revealjs : : revealjs_presentation: Para presentaciones en HTML con reveal.js (un framework para crear
presentaciones usando archivos HTML, para lo que necesitas el paquete reveal.js).
Para más información, dirígete a la sección sobre Presentaciones con diapositivas entre los documentos de R
Markdown.

Paneles
Los paneles son útiles para comunicar de forma rápida mucha información. El paquete flexdashboard te permite
publicar varias visualizaciones de datos relacionados en un solo panel. Flexdashboard también te ofrece herramientas
para crear barras laterales, conjuntos de pestañas, cuadros de valores e indicadores.

Para más información, visita la página de flexdashboard para R y la sección Paneles entre los documentos de R
Markdown.

Shiny
Shiny es un paquete de R que te permite generar aplicaciones de sitios webs interactivos usando el código R. Puedes
incrustar tus aplicaciones en los documentos de R Markdown o alojarlas en una página web.

Para designar un código Shiny en un documento de R Markdown, agrega runtime: shiny en el encabezado YAML:

---

título: "Shiny Web App"

archivo de salida: html_document

runtime: shiny

---

Para obtener más información sobre Shiny y cómo usar el código de R para agregar componentes interactivos en un
documento de R Markdown, consulta el tutorial de Shiny de RStudio.

Otros formatos
Otros paquetes te brindan más formatos de salida:

El paquete bookdown es útil para escribir libros y artículos detallados.


El paquete prettydoc te brinda distintos temas atractivos para los documentos de R Markdown.
El paquete rticles provee plantillas para distintas revistas y editoriales.
Para obtener una lista exhaustiva de formatos de salida y paquetes, visita la página de Formatos de RStudio entre
los documentos de R Markdown.

Recursos adicionales
Para más información, explora estos recursos adicionales:

 Para ver miles de ejemplos de archivos de salida que puedes crear con R Markdown, consulta la galería de R
Markdown de RStudio.
 El capítulo llamado Formatos de R Markdown en el libro R para Ciencia de Datos te brinda más información
sobre los archivos de salida que presentamos en esta lectura. Esta lectura se redactó a partir de información
de ese libro.
1.
Pregunta 1

Resumen de la actividad
En la última actividad, creaste el borrador de un notebook de R Markdown. Ahora, lo vas a exportar y compartir con
otros.

Cuando completes esta actividad, podrás exportar un notebook de R Markdown como dos archivos distintos: .html
y .pdf. Así, podrás compartir tu trabajo con otras personas fácilmente, recibir sus comentarios y demostrar todo lo que
sabes acerca de R.

Exportar tu notebook de R Markdown

Para esta actividad, vas a exportar el notebook que creaste en las actividades anteriores como archivo .html y .pdf.

Vas a usar la opción Convertir para exportar tu trabajo. Con esta opción, puedes convertir tu archivo .rmd en otro tipo
de archivo que sea más legible y útil para otros usuarios.

Para empezar, sigue estos pasos:

1. Abre un documento en RStudio. Luego, busca el botón Convertir, ubicado en la barra de herramientas en la parte
superior de la ventana de tu documento. Cuando hagas clic, verás un menú desplegable con algunas opciones de
exportación.

2. Haz clic en el tipo de archivo que quieras usar para exportar tu notebook. Primero, vamos a usar .html. Una vez que
hagas clic en Convertir a HTML, es posible que tu consola tarde algunos segundos en procesar el pedido. Cuando
termine, abrirá automáticamente un nuevo archivo.

3. Ahora, repite el paso 2 pero selecciona Convertir a PDF. Compara estos formatos con tu archivo .rmd original.

4. Si quieres descargar los archivos que exportaste, dirígete al explorador Archivos en la esquina inferior derecha de
la pantalla.

5. Tilda la caja del archivo (o de los archivos) que quieras descargar y haz clic en Más en el menú desplegable.
6. Haz clic en Exportar… y dale un nombre al archivo para poder encontrarlo más tarde. Haz clic en Descargar. Ya
exportaste el archivo, lo que significa que lo descargaste en tu computadora.

Después de exportar y descargar tu notebook de R Markdown, puedes compartirlo con amigos, colegas o foros de
discusión para recibir comentarios. Después de recibir los comentarios, puedes revisar tu notebook y seguir
compartiéndolo para perfeccionarlo aún más.

Cuando compartes tu notebook de R Markdown, les das la oportunidad a otros usuarios de examinar tu análisis de
datos. Tienes muchas opciones de exportación en R Markdown, así que puedes elegir el tipo de archivo que mejor se
adapte a tus necesidades.

Cuando aprendes a exportar tus notebooks de R Markdown, es más fácil documentar el proceso que llevaste a cabo
en tu análisis de datos y también compartirlo con otros. Ahora que sabes cómo hacerlo, puedes exportar tus propios
notebooks para proyectos a futuro.

Confirmación y reflexión

Cuando exportas un archivo de R Markdown, ¿qué tipo de archivos puedes elegir desde la opción Convertir?
Selecciona todas las opciones que correspondan.
1 / 1 punto

 pdf
Correcto

Cuando exportas un archivo .rmd de RStudio con la opción Convertir, puedes elegir el formato .html, .pdf y documento
de Word. Así, podrás guardar, exportar y descargar tu notebook de R Markdown en formatos más legibles y
accesibles que podrás compartir en distintos entornos profesionales.
Archivo de Word
Correcto
Cuando exportas un archivo .rmd de RStudio con la opción Convertir, puedes elegir el formato .html, .pdf y documento
de Word. Así, podrás guardar, exportar y descargar tu notebook de R Markdown en formatos más legibles y
accesibles que podrás compartir en distintos entornos profesionales.
html
Correcto

Cuando exportas un archivo .rmd de RStudio con la opción Convertir, puedes elegir el formato .html, .pdf y documento
de Word. Así, podrás guardar, exportar y descargar tu notebook de R Markdown en formatos más legibles y
accesibles que podrás compartir en distintos entornos profesionales.
jpg
2.
Pregunta 2

En esta actividad, exportaste un archivo .rmd como .html y .pdf. En el cuadro de texto a continuación, escribe 2 o 3
oraciones (entre 40 y 60 palabras) en respuesta a cada una de las siguientes preguntas:

¿Cuál es la ventaja de exportar tu archivo como .html o .pdf? ¿Crees que vas a usar alguno de los formatos más a
menudo?

¿Cómo piensas usar o almacenar los archivos .rmd que exportes?


1 / 1 punto

Correcto

¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que R Markdown es una
herramienta útil para dejar asentado el proceso que llevaste a cabo para el análisis y compartirlo.

Los analistas de datos comparten su trabajo en distintos formatos, como .pdf, .html y notebooks de R Markdown. Si
sabes cómo exportar tu trabajo o pasarlo a alguno de estos formatos, tendrás más flexibilidad a la hora de compartirlo
con otros. Cuando descargas tu archivo como .html o .pdf, puedes adjuntarlo en correos electrónicos o subirlo a una
plataforma para compartir archivos en la nube, como Google Drive. También puedes compartir tu análisis con posibles
empleadores cuando buscas trabajo como analista de datos. Aprenderás más al respecto en un curso futuro.

1.
Pregunta 1

Resumen de la actividad

En actividades anteriores, usaste archivos .rmd para completar distintos análisis y hasta creaste uno y lo exportaste.
En esta actividad, aprenderás a acceder a plantillas personalizadas de R Markdown, incluidas en tus paquetes de R, y
a usarlas.

Las plantillas sirven para usar documentos personalizados. Existen muchísimos paquetes de R que incluyen plantillas
personalizables para distintos propósitos. Por ejemplo, hay plantillas para artículos académicos para publicar en
revistas, presentaciones interactivas, o para viñetas que resumen el contenido de los paquetes de R.

Cuando termines esta actividad, sabrás cómo adaptar plantillas prediseñadas según las necesidades de tu proyecto.
Así, podrás ahorrar tiempo y energía mientras configuras tu archivo .rmd y podrás poner el foco en tu análisis.

Ejemplo de plantilla en RStudio


En vídeos y actividades anteriores, conociste las plantillas de R Markdown. Cuando creas un nuevo documento de R
Markdown desde el menú de RStudio, (Archivo -> Nuevo archivo -> R Markdown), aparece un ejemplo
predeterminado en el editor de código de RStudio:

Muchas plantillas personalizadas en los paquetes de R tienen estructuras similares, es decir, incluyen un encabezado
YAML, bloques de códigos y encabezados de texto.

Paquetes de R con plantillas

Algunos de los paquetes más populares con plantillas para R Markdown incluyen los siguientes:

El paquete vitae contiene plantillas para crear y actualizar el currículum vitae (CV)

El paquete rticles provee plantillas para distintas revistas y editoriales

El paquete learnr permite que conviertas cualquier documento de R Markdown en un tutorial interactivo sin problemas

El paquete bookdown agiliza la escritura de libros y artículos detallados

El paquete flexdashboard te permite publicar varias visualizaciones de datos relacionados en un solo panel

Acceder a la plantilla de CV desde RStudio

Para explorar la plantilla de CV incluida en el paquete “vitae”, sigue estos pasos:


1. Primero, inicia sesión en RStudio.

2. En la consola, escribe install.packages("vitae") para instalar el paquete vitae.

3. Escribe library(vitae) para cargar el paquete.

4. Desde el cuadro de diálogo que aparece cuando creas un nuevo archivo, puedes acceder a las plantillas
disponibles en R Markdown. Para crear un archivo nuevo en R Markdown, haz clic en Archivo >Nuevo archivo > R
Markdown.

5. En el cuadro de diálogo de R Markdown, haz clic en Desde plantilla y accede a una lista de plantillas de R
Markdown disponibles en los paquetes instalados.
En el panel de visualización, verás que tienes disponibles algunas plantillas del paquete vitae: Curriculum Vitae
(Awesome-CV format), Curriculum Vitae (Hyndman format), Curriculum Vitae (ModernCV format), etc. Estos son
distintos tipos de plantillas para CV.

6. Desplázate hacia abajo y haz clic en Currículum Vitae (formato de veinte segundos).

7. Agrega un nombre para el nuevo directorio de archivos donde alojarás los archivos agrupados en la plantilla, por
ejemplo, “CV-Ejemplo”.

8. Por último, haz clic en OK.

Convertir la plantilla a formato .pdf

Ahora, la plantilla aparecerá en el panel de edición de códigos. Contiene un encabezado YAML, bloques de códigos y
encabezados de texto, al igual que el documento predeterminado que aparece cada vez que creas un documento R
Markdown nuevo. El CV de ejemplo usa a la científica Marie Curie, la primera mujer en ganar un Premio Nobel (y la
primera persona en ganar dos Premios Nobel). El encabezado YAML contiene entradas para la información general,
como el nombre, la dirección, el número de teléfono, etc.
Si te desplazas hacia abajo, encontrarás texto para los títulos que presentan distintas secciones para distintos temas,
como los datos personales:

Para mostrar el formato de salida de la plantilla, haz clic en Convertir. No necesitas abrir el menú desplegable y
seleccionar un formato, ya que el formato predeterminado de la plantilla es un archivo .pdf.

Nota: Si tu navegador bloquea las ventanas emergentes y te muestra un mensaje de error, haz clic en Intentar de
nuevo.

Así, verás un archivo .pdf que muestra la plantilla personalizable para el CV:
Puedes encontrar ese archivo .pdf en la pestaña Files de la consola en la esquina inferior derecha y descargarlo.

La información en el encabezado YAML aparece en la parte izquierda del CV, y la información de las distintas
secciones, en la parte derecha.

Puedes reemplazar esos datos con los tuyos y, así, adaptar la plantilla según tus necesidades.

Confirmación y reflexión

¿Cuáles de los siguientes tipos de información puedes incluir en esta plantilla de CV? Selecciona todas las opciones
que correspondan.
0.75 / 1 punto

Foto de perfil
Correcto

La plantilla que usaste en esta actividad te permite incluir una dirección de correo electrónico, una foto de perfil y un
nombre de usuario de Twitter. Puedes reemplazar la información en la plantilla con tus propios datos para crear un
CV. A futuro, podrás usar las plantillas de R Markdown para ya tener una estructura preestablecida, lo que te dará
más tiempo para enfocarte en tu contenido y en tu análisis.
Dirección de correo electrónico
Correcto
La plantilla que usaste en esta actividad te permite incluir una dirección de correo electrónico, una foto de perfil y un
nombre de usuario de Twitter. Puedes reemplazar la información en la plantilla con tus propios datos para crear un
CV. A futuro, podrás usar las plantillas de R Markdown para ya tener una estructura preestablecida, lo que te dará
más tiempo para enfocarte en tu contenido y en tu análisis.
Nombre de usuario de Instagram
Nombre de usuario de Twitter
2.
Pregunta 2

En esta actividad, usaste un paquete de R para abrir una plantilla de R Markdown y editarla con tu propia información.
En el cuadro de texto a continuación, escribe 2 o 3 oraciones (entre 40 y 60 palabras) en respuesta a la siguiente
pregunta:

¿Cómo puedes usar las plantillas de R Markdown en análisis futuros?


1 / 1 punto

Correcto

Default Feedback: ¡Felicitaciones por completar esta actividad práctica! Una buena respuesta incluiría que las
plantillas de R Markdown son un recurso muy útil para personalizar tus documentos.

Puedes usar plantillas de R Markdown para muchas cosas. Si exploras los distintos paquetes con plantillas únicas,
podrás saber cuáles te sirven para dejar asentado tu propio análisis y tus conclusiones. Puedes usar las plantillas de
R Markdown como punto de partida para crear informes, elementos del portfolio y otros documentos que tendrás que
generar a lo largo de tu carrera como analista de datos.

1.
Pregunta 1

Completa el espacio en blanco: Un delimitador es un carácter que indica el principio y el fin de _____.
1 / 1 punto

un archivo .rmd
una línea de comando
un elemento de datos
un informe en formato HTML
Correcto

Un delimitador es un carácter que indica el principio y el fin de un elemento de datos. Puede delimitar una sola línea
de código o una sección entera de códigos en un archivo .rmd.
2.
Pregunta 2

Un analista de datos tiene que crear un informe mensual para los interesados. ¿Qué puede hacer para ganar tiempo a
la hora de crear estos informes?
1 / 1 punto

Crear un informe de HTML


Crear un archivo .rmd
Crear una plantilla
Crear un notebook de R
Correcto

Cuando creas una plantilla para tus informes, puedes ejecutar una sola línea de códigos para actualizar los datos sin
tener que hacer el informe de nuevo desde cero. Las plantillas también te permiten personalizar el aspecto que tendrá
tu informe final.
3.
Pregunta 3

Un analista de datos quiere indicar el principio de su bloque de código. ¿Qué delimitador debería escribir en su
archivo .rmd?
1 / 1 punto

+++{r }
***{r }
==={r }
```{r }
Correcto

Las tres comillas simples seguidas de la letra r entre llaves (```{r })


marcan el principio de un bloque de código en un archivo .rmd.

Glosario
Análisis computacional de datos
Términos y definiciones
A
Agenda: Lista de citas programadas

Agregación de datos: Proceso de recolectar datos de múltiples fuentes y combinarlos en una sola colección resumida

Agregación: Proceso de recolectar o juntar muchas partes separadas en un todo

Alcance del trabajo (SOW): Esquema acordado de las tareas a realizar durante un proyecto

Algoritmo: Proceso o conjunto de reglas a seguir para realizar una tarea específica

Análisis computacional de datos: La ciencia de los datos

Análisis de datos: Recopilación, transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones fundamentada

Análisis de déficits: Método para examinar y evaluar el estado actual de un proceso con el fin de identificar las
oportunidades de mejora en el futuro

Analista de datos: Persona que recopila, transforma y organiza los datos para sacar conclusiones, hacer predicciones e
impulsar la toma de decisiones fundamentada

Anidado: Código que realiza una función particular y está contenido dentro de código que realiza una función más amplia

Anonimización de datos: Proceso de protección de los datos privados o confidenciales de las personas mediante la
eliminación de información que pueda asociarse a ellas

Anotación: Texto que explica brevemente los datos o ayuda al público a concentrarse en un aspecto concreto de los datos
en una visualización
Apertura: Aspecto de la ética de datos que promueve el acceso libre, el uso y el uso compartido de los datos

Árbol de decisiones: Herramienta que ayuda a los analistas a tomar decisiones sobre características esenciales de una
visualización

Archivo CSV (valores separados por coma): Archivo de texto delimitado que utiliza una coma para separar valores

Archivo de audio: Almacenamiento en audio digitalizado generalmente en MP3, AAC u otro formato comprimido

Archivo de registro: Archivo generado por computadora que registra eventos de sistemas operativos y otros programas de
software

Archivo de vídeo: Conjunto de imágenes, archivos de audio y otros datos generalmente codificados en un formato
comprimido como por ejemplo MP4, MV4, MOV, AVI o FLV

Argumento (R): Información necesaria para la ejecución de una función en R

Asignación de alias: Nombrar temporalmente una tabla o columna en una consulta para que sea más fácil de leer y escribir

Atributo: Característica o cualidad de los datos que se usa para etiquetar una columna en una tabla

Atributos preatencionales: Elementos de una visualización de datos que las personas reconocen automáticamente sin
hacer un esfuerzo consciente

AVERAGE: Función de una hoja de cálculo que muestra el resultado de un promedio de los valores de un rango
seleccionado

AVERAGEIF: Función de una hoja de cálculo que devuelve el promedio de todos los valores de las celdas de un determinado
rango que cumplen una condición especificada

B
Base de datos normalizada: Base de datos en la que solo se almacenan datos relacionados en cada tabla

Base de datos relacional: Base de datos que contiene una serie de tablas que se pueden conectar para formar relaciones

Base de datos: Recopilación de datos almacenados en un sistema informático

Biblioteca: Directorio que contiene todos los paquetes instalados de un analista de datos
Bloque de código: Sección de un código que se agrega en el archivo de R Markdown y que se utiliza para procesar datos,
visualizarlos o analizarlos

Bordes: Líneas que se pueden agregar alrededor de dos o más celdas en una hoja de cálculo

Buscar y reemplazar: Herramienta que encuentra un término de búsqueda específico y lo reemplaza por otro término

C
C# : Lenguaje de programación orientado al objeto usado para crear juegos y aplicaciones móviles en la plataforma de
desarrollo de código abierto .NET

C++: Extensión del lenguaje de programación C que se usa para crear juegos de consola, como los juegos para Xbox

Cadena de texto: Grupo de caracteres en una celda, mayormente compuesto por letras

Cálculo: Rama de la matemática que implica el estudio de las tasas de cambio y los cambios entre valores que están
relacionados por una función

Campo calculado: Campo nuevo dentro de una tabla dinámica que realiza ciertos cálculos en función de los valores de otros
campos

Campo: Información de una fila o columna de una hoja de cálculo; en una tabla de datos, suele ser una columna de la tabla

Canal: Aspecto visual o variable que representa características de los datos en una visualización

Canalización (R): Herramienta en R para expresar una secuencia de varias operaciones, representadas por “%>%”

Captación de interés: Captar la atención de alguien y mantener su interés durante una presentación de datos

CASE: Instrucción de SQL que muestra resultados de registros que cumplen con las condiciones al incluir una instrucción
si/entonces en una consulta

Caso práctico: Una manera común en que los empleadores evalúan destrezas profesionales y obtienen información sobre
cómo un candidato aborda desafíos comunes relacionados con los datos

CAST: Función de SQL que convierte los datos de un tipo en otro

Causa raíz: Razón por la que ocurre un problema

Causalidad: Cuando una acción lleva directamente a un resultado, como una relación de causa-efecto
Ciclo de vida de los datos: Secuencia de etapas por las que pasan los datos, que incluye planificar, capturar, gestionar,
analizar, archivar y destruir

Ciencia de datos: Campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y entender lo
desconocido

Clasificación: Sistema para ubicar valores de un conjunto de datos en una escala de logro o estado

Clave externa: Campo en una tabla de una base de datos que es una clave primaria en otra tabla (Ver clave primaria)

Clave primaria: Identificador en una base de datos que hace referencia a una columna en la que cada valor es único (Ver
clave externa)

Clúster: Conjunto de puntos de datos en una visualización de datos con valores similares

COALESCE: Función de SQL que arroja valores que no son nulos en una lista

Codificación: El proceso de escribir instrucciones para una computadora usando la sintaxis de un lenguaje de programación
específico

Código abierto: Código que está libremente disponible y puede ser modificado y compartido por las personas que lo usan

Código insertado: Código que se puede insertar directamente en el texto de un archivo de R Markdown

Coherencia: Grado de repetibilidad de los datos desde diferentes puntos de entrada o recopilación

Combinación de datos: Método de Tableau que combina datos provenientes de múltiples fuentes de datos

Compatibilidad: Qué tan bien dos o más conjuntos de datos pueden trabajar juntos

Composición de datos: Proceso que combina las partes individuales en una visualización y las muestra juntas como un todo

CONCAT: Función de SQL que une cadenas y crea nuevas cadenas de texto que se pueden usar como claves únicas

CONCATENATE: Función de una hoja de cálculo que une dos o más cadenas de texto

Conjunto de datos: Recopilación de datos que pueden ser manipulados o analizados como una unidad

Consentimiento: Aspecto de la ética de datos que presupone el derecho de una persona a conocer cómo y por qué se
utilizarán sus datos personales antes de aceptar proporcionarlos

Consulta externa: Instrucción de SQL que contiene una subconsulta


Consulta interna: Subconsulta de SQL que está dentro de otra instrucción de SQL

Consulta: Solicitud de datos o información de una base de datos

Contexto: Condición en la que algo existe o sucede

Control de acceso: Funciones como la protección de contraseñas, permisos de usuario y cifrado que se usan para proteger
una hoja de cálculo

Controlador de relleno: Cuadro en la esquina inferior derecha de una celda seleccionada de una hoja de cálculo que se
puede arrastrar a través de las celdas vecinas para seguir una instrucción

Convenciones de nomenclatura: Pautas uniformes para el nombre de un archivo que describen el contenido, la fecha de
creación y la versión

Conversión de tipos: Convertir datos de un tipo en otro

CONVERT: Función de SQL que cambia la unidad de medida de un valor en los datos

Cookie: Pequeño archivo almacenado en una computadora que contiene información acerca de sus usuarios

Correlación: Medición del grado de cambio de dos variables entre sí

COUNT DISTINCT: Función de SQL que solo devuelve los valores distintos en un rango especificado

COUNT: Función de la hoja de cálculo que cuenta el número de celdas en un rango que cumplen con una condición
especificada

COUNTA: Función de la hoja de cálculo que cuenta el número total de valores en un rango especificado que cumplen con un
criterio especificado

COUNTIF: Función de la hoja de cálculo que devuelve el número de celdas dentro de un rango que coinciden con un valor
especificado

CRAN (Comprehensive R Archive Network) (R): Archivo en línea con paquetes R, código fuente, manuales y documentación

CREATE TABLE: Cláusula de SQL que añade una tabla temporal a una base de datos que puede ser utilizada por varias
personas

CSS (Cascading Style Sheets): Lenguaje de programación usado para el diseño de páginas web que controla los elementos
gráficos y la presentación de la página
Cuarteto de Anscombe: Cuatro conjuntos de datos que tienen estadísticas de resumen casi idénticas, pero contienen
valores graficados diferentes

D
DATEDIF: Función de la hoja de cálculo que calcula el número de días, meses o años entre dos fechas

Datos abiertos: Datos que están disponibles para el público

Datos booleanos: Tipo de datos con solo dos valores posibles, generalmente verdadero o falso

Datos continuos: Datos que se miden y que pueden tener casi cualquier valor numérico

Datos cualitativos: Medida subjetiva y explicativa de una cualidad o característica

Datos cuantitativos: Medida específica y objetiva, como un número, cantidad o rango

Datos de primera fuente: Datos recopilados por una persona o por un grupo por medio de sus propios recursos

Datos de segunda fuente: Datos recopilados por un grupo directamente de su audiencia y que luego se venden

Datos de terceros: Datos proporcionados por fuentes externas que no los recopilaron de forma directa

Datos desactualizados: Cualquier dato que haya sido reemplazado por información más nueva y más precisa

Datos discretos: Datos que se cuentan y tienen un número limitado de valores

Datos duplicados: Cualquier registro que inadvertidamente comparte datos con otro registro

Datos en formato ancho: Conjunto de datos en el que cada tema tiene una sola fila con varias columnas para retener los
valores de los distintos atributos del tema

Datos en formato largo: Conjunto de datos en el que cada fila es un punto de tiempo por tema; por lo tanto, cada tema
tiene datos en varias filas

Datos en tiempo real: Datos que se actualizan automáticamente

Datos estáticos: Datos que no cambian una vez que se registraron

Datos estructurados: Datos organizados en un cierto formato, por ejemplo, filas y columnas
Datos externos: Datos que se alojan y generan fuera de una organización

Datos incoherentes: Datos que usan diferentes formatos para representar lo mismo

Datos incompletos: Datos que carecen de campos importantes

Datos incorrectos/inexactos: Datos que son completos pero inexactos

Datos internos: Datos alojados en los sistemas propios de una empresa

Datos limpios: Datos que están completos y son correctos y pertinentes para el problema que se está resolviendo

Datos no estructurados: Datos que no se organizan de forma que sea fácil identificarlos

Datos nominales: Tipo de datos cualitativos que se categorizan sin un orden establecido

Datos ordenados (R): Forma de estandarizar la organización de los datos en R

Datos ordinales: Datos cualitativos con un orden o escala establecidos

Datos sucios: Datos que están incompletos o son incorrectos o irrelevantes para el problema a resolver

Datos: Recopilación de hechos

Delimitador: Carácter que indica el principio o el fin de un elemento de datos

Design Thinking: Proceso que se usa para resolver problemas complejos de una manera centrada en el usuario

Destrezas analíticas: Cualidades y características asociadas al uso de hechos para resolver problemas

Destrezas transferibles: Habilidades y cualidades que se pueden transferir de un trabajo o un sector a otro

Diagrama de caja: Visualización de datos que muestra la distribución de valores a lo largo de un eje x

Diagrama de dispersión: Visualización de datos que representa relaciones entre las diferentes variables con puntos de
datos individuales sin una línea de conexión

Diagrama de Gantt: Visualización de datos que muestra la duración de los eventos o actividades en una línea de tiempo

Diseño de datos: Cómo se organiza la información


DISTINCT: Palabra clave que se agrega a una instrucción SELECT en SQL para recuperar solamente entradas no duplicadas

Dominio del problema: Área de análisis que abarca cada actividad que afecta a un problema o se ve afectada por él

dplyr (R): Paquete de R en Tidyverse que ofrece un conjunto de funciones uniforme para completar tareas comunes de
manipulación de datos

DROP TABLE: Cláusula de SQL que elimina una tabla temporal de una base de datos

E
Ecosistema de datos: Los distintos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar,
analizar y compartir datos

Ecuación: Cálculo que implica suma, resta, multiplicación o división (también se denomina expresión matemática)

Eje X: Línea horizontal de un gráfico que suele situarse en la parte inferior y, a menudo, se usa para representar escalas de
tiempo y categorías puntuales

Eje Y: Línea vertical de un gráfico que suele situarse a la izquierda y, a menudo, se usa para representar frecuencias y otras
variables numéricas

Elemento de datos: Información en un conjunto de datos

Encabezado: Primera fila en una hoja de cálculo que hace referencia al tipo de datos en cada columna

Énfasis: Principio de diseño que consiste en organizar los elementos visuales para centrar la atención del público en la
información importante de una visualización de datos

Equidad: Cualidad del análisis de datos que no genera sesgos ni los reafirma

Equilibrio: Principio de diseño que consiste en crear un atractivo estético y claridad en una visualización de datos mediante
la distribución uniforme de los elementos visuales

Especialista en almacenamiento de datos: Profesional que desarrolla procesos y procedimientos para almacenar y
organizar datos efectivamente

Esquema: Forma de describir cómo se organiza algo, por ejemplo, los datos

Estadísticas: El estudio de cómo recopilar, analizar, resumir y presentar datos


Estética (R): Propiedad visual de un objeto en un diagrama

Estrategia de datos: Gestión de las personas, los procesos y las herramientas que se usan en el análisis de datos

Estructura de los datos: Formato para organizar y almacenar datos

Ética de los datos: Normas justificadas respecto de lo que está bien y lo que está mal a la hora de recopilar, compartir y usar
datos

Ética: Normas justificadas respecto de lo que está bien y lo que está mal. Por lo general, presuponen lo que deben hacer los
seres humanos, usualmente en términos de derechos, obligaciones, beneficios para la sociedad, equidad o virtudes
específicas

Etiqueta: Texto en una visualización que identifica un valor o describe una escala

Etiquetas y anotaciones (R): Grupo de funciones de R para personalizar un diagrama

Exactitud: Grado de conformidad de los datos con respecto a la entidad real que se mide o describe

Exhaustividad: Grado en que los datos contienen todas las medidas o componentes deseados

Expresión matemática: Cálculo que implica suma, resta, multiplicación o división (también se denomina ecuación)

Expresión regular (RegEx): Regla que establece que los valores de una tabla deben coincidir con un patrón prescrito

F
Facetas (R): Serie de funciones que divide datos en subconjuntos en una matriz de paneles

Factor (R): Objeto que almacena datos de categoría en el que los valores de datos están limitados y generalmente se basan
en un grupo finito, como país o año

Filtrado: Proceso que muestra solo los datos que cumplen con un criterio específico mientras oculta el resto

Flotante: Número que contiene un decimal

Formato condicional: Herramienta de la hoja de cálculo que cambia la forma en que aparecen las celdas cuando los valores
cumplen con una condición específica

Formato visual: Apariencia de la visualización de datos que les aporta una estructura y un atractivo estético
Fórmula: Conjunto de instrucciones que se utilizan para realizar un cálculo utilizando los datos de una hoja de cálculo

Foto digital: Imagen electrónica o computarizada generalmente en formato BMP o JPG

Framework: Contexto que necesita una presentación para establecer conexiones lógicas entre la tarea empresarial y las
métricas

FROM: Sección de una consulta que indica de qué tabla(s) extraer los datos

Fuente de datos correctos: Fuente de datos que es confiable, original, integral, actual y citada (ROCCC)

Fuente de datos erróneos: Fuente de datos que no es confiable, original, integral, actual ni citada (ROCCC)

Función (R): Contenido de código reutilizable para realizar tareas específicas en R

Función anidada: Función que está contenida completamente dentro de otra función

Función matemática: Función que se utiliza como parte de una fórmula matemática

Función: Comando preestablecido que realiza automáticamente un proceso o tarea específico utilizando los datos de una
hoja de cálculo

Fusión de datos: Proceso de combinar dos o más conjuntos de datos en un único conjunto de datos

Fusión: Acuerdo que une dos organizaciones en una organización nueva

FWF (archivo de ancho fijo): Archivo de texto con un formato específico que permite guardar datos textuales de manera
organizada

G
Geolocalización: Ubicación geográfica de una persona o dispositivo mediante información digital

Geom (R): Objeto geométrico usado para representar datos

ggplot2 (R): Paquete de R en Tidyverse que crea diversas visualizaciones de datos aplicando diferentes propiedades visuales
a las variables de datos en R

Gobierno de datos: Proceso para garantizar la gestión formal de los recursos de datos de una empresa

Gráfico circular: Visualización de datos que usa segmentos de un círculo para representar las proporciones de cada
categoría de datos en comparación con el total

Gráfico combinado: Visualización de datos que combina más de un tipo de visualización

Gráfico de anillos: Visualización de datos en donde los segmentos de un anillo representan valores de datos que se suman
en un conjunto

Gráfico de áreas: Visualización de datos que utiliza puntos de datos individuales para una variable cambiante conectados
por una línea continua con un área de relleno debajo

Gráfico de barras: Visualización de datos que usa el tamaño para contrastar y comparar dos o más valores

Gráfico de burbujas agrupadas: Visualización de datos que muestra los datos en círculos agrupados

Gráfico de burbujas: Visualización de datos que muestra puntos de datos individuales como burbujas, y compara valores
numéricos por su tamaño relativo

Gráfico de calibre: Visualización de datos que muestra un único resultado en un rango de valores progresivo

Gráfico de columnas: Visualización de datos que usa puntos de datos individuales para una variable cambiante,
representada mediante columnas verticales

Gráfico de distribución: Visualización de datos que muestra la frecuencia de diversos resultados en una muestra

Gráfico de líneas: Visualización de datos que usa una o más líneas para mostrar cambios o variaciones en los datos a lo
largo del tiempo

Gráfico de viñetas: Visualización de datos que muestra los datos como un gráfico de barras horizontal que se mueve hacia
un valor deseado

Gráfico dinámico: Gráfico creado a partir de los campos en una tabla dinámica

Gráfico: Representación gráfica de los datos en una hoja de cálculo

GROUP BY: Cláusula de SQL que agrupa las filas que tienen los mismos valores de una tabla en filas de resumen

Guiones bajos: Líneas utilizadas para subrayar palabras y conectar caracteres de texto

H
Habilidades interpersonales: Rasgos y comportamientos no técnicos que se relacionan con la manera en que las personas
trabajan

Hacer contactos: Construir relaciones con otros tanto en persona como en línea

HAVING: Cláusula de SQL que añade un filtro a una consulta en lugar de la tabla subyacente que solo se puede usar con
funciones de agregado

head() (R): Función en R que devuelve una vista previa de los nombres de las columnas y las primeras filas de un conjunto
de datos

Hipótesis: Teoría que se intenta corroborar o refutar con datos

Histograma: Visualización de datos que muestra con qué frecuencia los valores de los datos se encuadran en ciertos rangos

Historia: Narrativa de una presentación de datos que la hace significativa e interesante

Hoja de cálculo: Hoja de cálculo digital

HTML (Lenguaje de marcado de hipertexto): Conjunto de símbolos o códigos de marcado que se usan para crear una
página web

HTML5: Lenguaje de programación que brinda una estructura para páginas web y conecta a plataformas de hosting

I
IDE (entorno de desarrollo integrado): Aplicación de software que junta todas las herramientas que un analista de datos
puede querer usar en un solo lugar

Informe: Recopilación estática de datos que se entrega periódicamente a los interesados

Ingeniero de datos: Profesional que transforma los datos en un formato útil para su análisis y les da una estructura
confiable

Ingresos: Cantidad total de ingresos generados por la venta de mercaderías o servicios

INNER JOIN: Función de SQL que devuelve registros con valores coincidentes en ambas tablas

Instrucción condicional: Declaración de que si una determinada condición es verdadera, entonces debe producirse un
determinado evento
Integridad de datos: Exactitud, exhaustividad, coherencia y confiabilidad de los datos a lo largo de su ciclo de vida

Interesados: Personas que invierten tiempo y recursos en un proyecto y se interesan por su resultado

Interoperabilidad de los datos: Capacidad de integrar datos de varias fuentes y un factor clave que conduzca al uso
satisfactorio de los datos abiertos entre las empresas y los gobiernos

Intervalo de confianza: Rango de valores que transmite qué probabilidad hay de que una estimación estadística refleje la
población

J
Java: Lenguaje de programación que se usa ampliamente para crear aplicaciones web de empresas que pueden ejecutarse
en múltiples clientes

JOIN: Función de SQL que se usa para combinar filas de dos o más tablas basadas en una columna relacionada

L
LEFT JOIN: Función de SQL que devuelve todos los registros de la tabla izquierda y solo los registros coincidentes de la tabla
derecha

LEFT: Función que devuelve un número establecido de caracteres a la izquierda de una cadena de texto

LEN: Función que indica la longitud de una cadena de texto al contar el número de caracteres que contiene

Lenguaje de consulta estructurado: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de consulta: Lenguaje de programación informática usado para comunicarse con una base de datos

Lenguaje de programación: Sistema de palabras y símbolos usados para escribir instrucciones que las computadoras siguen

Leyenda: Herramienta que identifica el significado de diversos elementos en una visualización de datos

LIMIT: Cláusula de SQL que especifica el número máximo de registros devueltos en una consulta

Limitaciones de datos: Criterio que determina si un dato está limpio y es válido

Línea de suavizado (R): Línea en una visualización de datos que usa suavizado para representar una tendencia
Lista: Vector con elementos que pueden ser de cualquier tipo

Longitud de campo: Herramienta para determinar cuántos caracteres pueden incluirse en el campo de una hoja de cálculo

Longitud: Número de caracteres en una cadena de texto

M
Macrodatos: Conjuntos de datos grandes y complejos que, generalmente, se recopilan durante largos períodos y que
permiten que los analistas de datos aborden los problemas comerciales de gran alcance

Manipulación de datos: Proceso para cambiar los datos, de manera que estén más organizados y sean más fáciles de leer

Mapa coroplético: Visualización de datos que colorea las áreas en un mapa según las mediciones o las dimensiones

Mapa de densidad: Visualización de datos que representa concentraciones, con un color que representa el número o la
frecuencia de los puntos de datos en un área determinada de un mapa

Mapa de símbolos: Visualización de datos que muestra una marca sobre una determinada longitud y latitud

Mapa térmico: Visualización de datos que usa el contraste del color para comparar categorías en un conjunto de datos

Mapa: Visualización de datos que organiza los datos geográficamente

Mapeo (R): Proceso de emparejar una variable específica de un conjunto de datos con una estética específica

Mapeo de datos: Proceso de hacer coincidir campos entre una fuente de datos y otra

Marca: Objeto visual en una visualización de datos, como un punto, una línea o una forma

Marco de datos: Conjunto de columnas que contienen datos, que es similar a una hoja de cálculo o una tabla de SQL

Margen de beneficio: Porcentaje que indica cuántos centavos de ganancia se generaron por cada dólar de venta

Margen de error: Cantidad máxima que se espera que los resultados de la muestra difieran de los de la población real

Markdown (R): Sintaxis para formatear archivos de texto sin formato


MATCH: Función de la hoja de cálculo que se usa para ubicar la posición de un valor de búsqueda específico

Matriz: Conjunto bidimensional de elementos de datos con filas y columnas

MAX: Función de la hoja de cálculo que muestra el resultado del valor numérico más alto de un rango de celdas

MAXIFS: Función de la hoja de cálculo que devuelve el valor máximo de un determinado rango que cumple una condición
especificada

Mentalidad técnica: Capacidad de dividir las cosas en pasos o piezas más pequeñas y trabajar con ellas de forma ordenada
y lógica

Mentor: Persona que comparte su conocimiento, sus habilidades y su experiencia para ayudar a otras personas a crecer,
tanto en el campo profesional como en el personal

Metadato administrativo: Metadato que indica el origen técnico de un recurso digital

Metadatos descriptivos: Metadatos que describen datos y que se pueden utilizar para identificarlos más adelante

Metadatos estructurales: Metadatos que indican cómo se organizan ciertos datos y si forman parte de una recopilación de
datos o de varias

Metadatos: Datos sobre los datos

Método McCandless: Método que se utiliza para presentar visualizaciones de datos y que pasa de la información general a
la específica

Metodología SMART: Herramienta para determinar la eficacia de una pregunta basándose en si es específica, medible,
orientada a la acción, relevante y con plazos determinados

Métrica de negocios: Criterio de medición que se utiliza para resolver una tarea empresarial

Métrica: Tipo único y cuantificable de datos que pueden utilizarse para medición

Microdatos: Puntos de datos pequeños, específicos, que generalmente involucran un breve período y que son útiles para
tomar decisiones diarias

MID: Función que extrae un segmento desde el medio de una cadena de texto

MIN: Función de la hoja de cálculo que muestra el resultado del valor numérico más bajo de un rango de celdas

MINIFS: Función de la hoja de cálculo que devuelve el valor mínimo de un rango determinado que cumple una condición
especificada
Modelo de datos: Herramienta para organizar los elementos de los datos y la forma en que se relacionan entre ellos

Modelo mental: Proceso de pensamiento del analista de datos y enfoque a un problema

Módulo: Operador (%) que devuelve el resto cuando se divide un número por otro

Movimiento: Principio de diseño que consiste en organizar los elementos visuales para guiar la atención del público de una
parte de una visualización de datos a otra

Muestra: En el análisis computacional de datos, segmento de una población que la representa en su totalidad

Muestreo aleatorio: Forma de seleccionar una muestra de una población para que todos los tipos posibles de la muestra
tengan la misma oportunidad de ser elegidos

Muestreo imparcial: Cuando la muestra de la población que se está midiendo es representativa de la población como un
todo

mutate() (R): Función de R que realiza cambios a un marco de datos separando y combinando columnas o creando nuevas
variables

N
Narrativa de datos: Comunicar el significado de un conjunto de datos con elementos visuales y una historia personalizada
según el público

Narrativa: (Ver Historia)

Nivel de confianza: Probabilidad de que el tamaño de una muestra refleje con precisión a la porción más grande de la
población

Notebook de Jupyter: Aplicación web de código abierto que se usa para crear documentos que contienen código en vivo,
ecuaciones, visualizaciones y textos, y compartirlos con otras personas

Notebook de R: Documento para ejecutar códigos y ver los gráficos y tablas que permiten visualizar el código

Notebook: Entorno de programación interactivo y editable para generar informes de datos y mostrar destrezas en el uso de
datos

Nube: Lugar para mantener los datos en línea, en vez de guardarlos en el disco duro de una computadora

Nulo: Indicación de que un valor no existe en un conjunto de datos


O
Objetivo métrico: Objetivo medible establecido por una empresa y evaluado mediante métricas

Obligatorio: Valor de datos que no puede quedar en blanco ni vacío

Observación: Atributos que describen los datos contenidos en la fila de una tabla

Oficina del Censo de los Estados Unidos: Agencia del Departamento de Comercio de los Estados Unidos que funciona como
proveedor principal de la nación de datos de calidad sobre las personas y la economía

Operador aritmético: Operador usado para realizar operaciones matemáticas básicas como suma, resta, multiplicación y
división

Operador de asignación: Operador usado para asignar valores a variables y vectores

Operador lógico: Operador que devuelve un tipo de datos lógico

Operador relacional: Operador usado para comparar valores, también conocido como comparador

Operador: Símbolo que designa la operación o cálculo a realizarse

Orden de las operaciones: Uso de paréntesis para agrupar los valores de la hoja de cálculo a fin de aclarar el orden en el
que deben realizarse las operaciones

Ordenación: Proceso de organizar los datos en un orden significativo para que sean más fáciles de entender, analizar y
visualizar

Ordenar hoja: Función del menú de la hoja de cálculo que ordena todos los datos por la clasificación de una columna
específica ordenada y mantiene los datos juntos a través de las filas

ORDER BY: Cláusula de SQL que ordena los resultados devueltos en una consulta

Organización Mundial de la Salud: Organización cuya función principal es la de dirigir y coordinar la salud a nivel
internacional dentro del sistema de las Naciones Unidas

OUTER JOIN: Función de SQL que combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas
tablas

P
Paleta de color divergente: Tema de color que muestra dos rangos de valores de datos que usan dos tonalidades diferentes,
donde la intensidad del color representa la magnitud de los valores

Panel: Herramienta que monitorea los datos entrantes en vivo

Paquete (R): Una unidad de código R reproducible

Patrocinador: Profesional que se compromete a hacer progresar la carrera profesional de otra persona

Patrón: Principio de diseño que usa elementos visuales similares para demostrar tendencias y relaciones en una
visualización de datos

Pensamiento analítico: Proceso de identificar y definir un problema para luego resolverlo mediante el uso de datos de
manera organizada, paso a paso

Pensamiento estructurado: Proceso de reconocer el problema o la situación actuales, organizar la información disponible,
revelar déficits y oportunidades e identificar opciones

PHP (Preprocesador de hipertexto): Lenguaje de programación para el desarrollo de aplicaciones web

Píxel: En imágenes digitales, área pequeña de iluminación en una pantalla de visualización que, cuando se combina con
otras áreas adyacentes, forma una imagen digital

Población: En el análisis computacional de datos, todos los valores posibles en un conjunto de datos

Poder estadístico: Probabilidad de que una prueba de importancia reconozca un efecto presente

Poner de relieve: Explorar los datos para identificar rápidamente la información más importante

Portfolio: Conjunto de materiales que puede compartirse con empleadores potenciales

Pregunta con límite de tiempo: Pregunta que especifica un plazo para ser analizada

Pregunta específica: Pregunta simple, significativa y enfocada en un solo tema o en algunas ideas estrechamente
relacionadas entre sí

Pregunta injusta: Pregunta en la que se hacen suposiciones o que es difícil de responder honestamente

Pregunta medible: Pregunta cuyas respuestas se pueden cuantificar y evaluar

Pregunta orientada a la acción: Pregunta cuyas respuestas conducen al cambio


Pregunta principal: Pregunta que orienta a las personas hacia cierta respuesta

Pregunta relevante: Pregunta que tiene importancia para el problema que se debe resolver

Presentación concisa: Declaración breve que describe una idea o un concepto

Privacidad de los datos: Preservación de la información sobre los datos de una persona cada vez que ocurre una
transacción de datos

Proceso de análisis de datos: Las seis fases de preguntar, preparar, procesar, analizar, compartir y actuar cuyo propósito es
el de obtener conocimiento que propicie la toma de decisiones informada

Proceso de validación de datos: Proceso de comprobar y volver a comprobar la calidad de los datos para que sean
completos, precisos, seguros y coherentes

Programación informática: El proceso de darle instrucciones a una computadora para que realice una acción o un conjunto
de acciones

Propiedad: Aspecto de la ética de datos que presupone que cada persona es dueña de los datos sin procesar que
proporciona y que tiene control primordial sobre su uso, procesamiento y uso compartido

Proporción: Principio de diseño que consiste en usar el tamaño relativo y la disposición de los elementos visuales para
mostrar la información en una visualización de datos

Pruebas A/B: Proceso de probar dos variaciones de la misma página web para determinar qué página es más exitosa para
atraer el tráfico de usuarios y generar ingresos

Python: Lenguaje de programación de uso general

Q
Quitar duplicados: Herramienta de la hoja de cálculo que busca y elimina automáticamente las entradas duplicadas de una
hoja de cálculo

R
R Markdown: Formato de archivo para crear documentos dinámicos con R

R: Lenguaje de programación que se usa para análisis estadísticos, visualización y análisis de datos
Rango de datos: Valores numéricos que se encuentran entre valores máximos y mínimos predefinidos

Rango de ordenación: Función del menú de la hoja de cálculo que ordena un rango especificado y preserva las celdas que
no están incluidas en ese rango

Rango: Conjunto de dos o más celdas en una hoja de cálculo

readr (R): Paquete de R en Tidyverse usado para importar datos

Redes sociales: Sitios web y aplicaciones donde los usuarios crean y comparten contenido o interactúan entre sí

Redundancia: Cuando los mismos datos se almacenan en dos o más lugares

Referencia absoluta: Referencia dentro de una función que está bloqueada para que las filas y las columnas no cambien si
se copia la función

Referencia de celda: Celda o rango de celdas en una hoja de cálculo que se usa generalmente en fórmulas y funciones

Reformulación: Proceso de replantear un problema o desafío, que se redirecciona luego hacia una posible resolución

Registro de cambios: Archivo que contiene una lista ordenada cronológicamente de las modificaciones realizadas en un
proyecto

Registro: Conjunto de datos relacionados en una tabla de datos, generalmente sinónimo de fila

Reglamento General de Protección de Datos de la Unión Europea (RGPD): Organismo formulador de políticas en la Unión
Europea, creado para ayudar a proteger a las personas y sus datos

Relatividad: Proceso de considerar las observaciones en relación con o en proporción a algo más

Repetición: Principio de diseño que consiste en repetir elementos visuales para demostrar el significado en una
visualización de datos

Replicación de datos: Proceso de almacenamiento de datos en varias ubicaciones

Repositorio de metadatos: Base de datos creada para almacenar metadatos

Resaltar tabla: Visualización de datos que usa formato condicional y color en una tabla

Retorno de la inversión (ROI): Fórmula que utiliza las métricas de inversión y ganancias para evaluar el éxito de una
inversión
RIGHT JOIN: Función de SQL que devuelve todos los registros de la tabla derecha y solo los registros coincidentes de la
izquierda

RIGHT: Función que muestra un número establecido de caracteres a la derecha de una cadena de texto

Ritmo: Principio de diseño que consiste en crear movimiento y fluidez en una visualización de datos para captar la atención
de una audiencia

ROUND: Función de SQL que devuelve un número redondeado hasta un número determinado de decimales.

Ruby: Lenguaje de programación orientado a objetos para el desarrollo de aplicaciones web

S
Seguridad de los datos: Emplear medidas de seguridad para proteger los datos contra el acceso no autorizado o contra la
corrupción

Selección: Conjunto de valores en celdas de una hoja de cálculo

SELECT INTO: Cláusula de SQL que copia datos de una tabla a una tabla temporal sin añadir la nueva tabla a la base de datos

SELECT: Sección de una consulta que indica de qué columna(s) extraer los datos

Sesgo de confirmación: Tendencia de buscar o interpretar la información de manera que confirme creencias preexistentes

Sesgo de interpretación: Tendencia a interpretar situaciones ambiguas de manera positiva o negativa

Sesgo de los datos: Cuando una preferencia a favor o en contra de una persona, un grupo de personas o una cosa sesga
sistemáticamente los resultados del análisis de datos en una cierta dirección

Sesgo del muestreo: Representar en mayor o en menor medida a ciertos miembros de una población debido a que se
trabaja con una muestra que no representa a la población en su totalidad

Sesgo del observador: Tendencia de distintas personas a observar las cosas de forma diferente (también se denomina sesgo
del investigador)

Sesgo: Preferencia consciente o subconsciente a favor o en contra de una persona, un grupo de personas o una cosa

Shiny (R): Paquete de R que se utiliza para crear aplicaciones web interactivas usando códigos R

Significancia estadística: Probabilidad de que los resultados de una muestra no se deban a una posibilidad aleatoria
Sintaxis: Estructura predeterminada de un lenguaje que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta ubicación

SPLIT: Función de la hoja de cálculo que divide el texto en base a un carácter específico y ubica cada fragmento en una
nueva celda separada

SQL: (Ver Lenguaje de consulta estructurado)

Suavizado (R): Proceso usado para hacer que las visualizaciones de datos en R sean más claras y legibles

Suavizado con GAM (modelo aditivo generalizado) (R): Proceso para suavizar diagramas con un gran número de puntos

Suavizado Loess (R): Proceso usado para suavizar diagramas con menos de 1,000 puntos

Subcadena: Subconjunto de una cadena de texto

Subconsulta: Consulta de SQL anidada dentro de una consulta más grande

SUBSTR: Función de SQL que extrae una subcadena de una variable de cadenas

Subtítulo: Texto que complementa al título al indicar el contexto y la descripción

SUM: Función de una hoja de cálculo que suma los valores de un rango de celdas seleccionadas

SUMIF: Función de una hoja de cálculo que suma datos numéricos basados en una condición

SUMPRODUCT: Función que multiplica las matrices y muestra el resultado de la suma de esos productos

Swift: Lenguaje de programación para macOS, iOS, watchOS y tvOS

T
Tabla de resumen: Tabla que se usa para resumir información estadística sobre los datos

Tabla dinámica: Herramienta de resumen de datos que se utiliza para clasificar, reorganizar, agrupar, contar, totalizar o
promediar datos

Tabla temporal: Tabla de una base de datos que se crea y existe temporalmente en el servidor de una base de datos

Tableau: Plataforma de inteligencia de negocios y análisis que ayuda a las personas a visualizar y comprender datos, y a
tomar decisiones basadas en los datos
Tarea empresarial: Pregunta o problema que el análisis de datos resuelve para un negocio

Tasa de respuesta estimada: Número promedio de personas que suele completar una encuesta

Tasa de rotación: Ritmo en el que los empleados abandonan voluntariamente una empresa

Testeo de hipótesis: Proceso que se realiza para determinar si una encuesta o un experimento tiene resultados
significativos

Texto alternativo: Texto que ofrece una alternativa al contenido no textual, como las imágenes y los vídeos

Tibble (R): Variación optimizada de marcos de datos

tidyr (R): Paquete de R en Tidyverse usado para limpieza de datos para generar datos ordenados

Tidyverse (R): Sistema de paquetes en R con una filosofía de diseño en común para la manipulación, exploración y
visualización de datos

Tipo de datos de cadena: Secuencia de caracteres y puntuación que contiene información textual (también se denomina
tipo de datos de texto)

Tipo de datos de texto: Secuencia de caracteres y puntuación que contiene información textual (también se denomina tipo
de datos de cadena)

Tipo de datos: Atributo que describe cierto dato según sus valores, su lenguaje de programación o las operaciones que
puede realizar

Tipos de problemas: Distintos problemas que encuentra el analista de datos; entre ellos, categorizar elementos, descubrir
conexiones, hallar patrones, identificar temas, hacer predicciones y detectar algo inusual

Título: Texto en la parte superior de una visualización que comunica los datos que se están presentando

Toma de decisiones basada en datos: Uso de datos para guiar la estrategia empresarial

Toma de decisiones inspirada en datos: Explorar diferentes fuentes de datos para descubrir qué tienen en común

Transacciones: Aspecto de la ética de los datos que considera que las personas deben conocer las transacciones financieras
resultantes del uso de sus datos personales y la dimensión de esas transacciones

Transferencia de datos: Proceso de copiar datos de un dispositivo de almacenamiento a la memoria de la computadora, o


de una computadora a otra
Transparencia de la transacción: Aspecto de la ética de datos que presupone que se deben explicar todas las actividades de
procesamiento de datos y los algoritmos a la persona que proporciona los datos y que también presupone que esta persona
debe comprenderlos

TRIM: Función que quita los espacios al principio, al final o los repetidos en los datos

TSV (archivo con valores separados por tabuladores): Archivo de texto que almacena una tabla de datos separando
columnas de datos con tabuladores

U
Único: Valor que no puede tener un duplicado

Unidad: Principio de diseño que consiste en usar elementos visuales que se complementan entre sí para crear un atractivo
estético y claridad en la visualización de datos

V
Validación de campos cruzados: Proceso que garantiza el cumplimiento de ciertas condiciones para múltiples campos de
datos

Validación de datos: Herramienta para corroborar la exactitud y la calidad de los datos

Validez: Grado de conformidad de los datos con respecto a las restricciones cuando se los ingresa, recopila o crea

VALUE: Función de la hoja de cálculo que convierte una cadena de texto que representa un número en un valor numérico

Variable (R): Representación de un valor en R que puede almacenarse para uso posterior

Variedad: Principio de diseño que consiste en usar diferentes tipos de elementos visuales en una visualización de datos para
captar la atención del público

Vector (R): Grupo de elementos de datos del mismo tipo almacenados en una secuencia unidimensional en R

Verificación: Proceso que confirma que se ejecutó correctamente un esfuerzo de limpieza de datos y que los datos
resultantes son precisos y confiables

Vignette (R): Documentación para un paquete en R que describe el problema que el paquete está diseñado para resolver,
explica cómo pueden usarse sus funciones y enumera cualquier dependencia de otros paquetes
Vista en círculo: Visualización de datos que muestra la fortaleza comparativa en los datos

Visualización de datos: Representación gráfica de los datos

Visualización estática: Visualización de datos que no cambia a lo largo del tiempo a menos que se edite

Visualización: (Ver Visualización de datos)

Visualizaciones dinámicas: Visualizaciones de datos que son interactivas o cambian a lo largo del tiempo

VLOOKUP: Función de una hoja de cálculo que busca verticalmente cierto valor en una columna y arroja la información
correspondiente

W
WHERE: Sección de una consulta que especifica los criterios que deben cumplir los datos solicitados

WITH: Cláusula de SQL que crea una tabla temporal que se puede consultar muchas veces

Y
YAML: Lenguaje que traduce datos para aumentar su legibilidad

1.
Pregunta 1

R Markdown es un formato de archivo que sirve para generar documentos dinámicos con R. ¿Cuáles son los
beneficios de crear este tipo de documento? Selecciona todas las opciones que correspondan.
0.75 / 1 punto

 Realizar cálculos más eficaces para el análisis


 Crear un registro del proceso de limpieza de datos
 Guardar códigos, organizarlos y documentarlos
Correcto. Los documentos de R Markdown se pueden usar para guardar códigos, organizarlos y dejarlos
documentados, así como para crear un informe del proceso de limpieza de datos o generar informes con
códigos ejecutables para los interesados.

 Crear un informe con bloques ejecutables de códigos


Correcto. Los documentos de R Markdown se pueden usar para guardar códigos, organizarlos y dejarlos
documentados, así como para crear un informe del proceso de limpieza de datos o generar informes con
códigos ejecutables para los interesados.

2.
Pregunta 2
Completa el espacio en blanco: Los notebooks de R Markdown pueden guardarse como archivos HTML, PDF y de
Word, presentaciones con diapositivas y _____.
1 / 1 punto

tablas
YAML
hojas de cálculo
paneles
Correcto

Los notebooks de R Markdown pueden guardarse como archivos HTML, PDF y de Word, presentaciones con
diapositivas o paneles.
3.
Pregunta 3

Un analista de datos quiere cambiar el título en su archivo para que sea de un tamaño más pequeño. ¿Qué debería
agregar a la sintaxis de R Markdown?
1 / 1 punto

Una comilla simple


Doble espaciado
Un signo de exclamación
Un numeral
Correcto

Los numerales se usan para cambiar el tamaño de los títulos. Cuantos más numerales agregues, más pequeño será
el título.
4.
Pregunta 4

Completa el espacio en blanco: Un código _____ es un código que puedes incluir directamente en un archivo .rmd.
1 / 1 punto

insertado
Markdown
ejecutable
YAML
Correcto

Un código insertado es un código que puedes incluir directamente en un archivo .rmd.


5.
Pregunta 5

¿Qué símbolo puedes usar para agregar viñetas a tu documento de R Markdown?


1 / 1 punto

Asteriscos
Corchetes
Comillas simples
Signos de exclamación
Correcto

Los asteriscos se usan para agregar viñetas en un archivo .rmd. También puedes usar guiones.
6.
Pregunta 6

Un analista de datos incluye un bloque de código en su archivo .rmd. ¿Qué les permite hacer a otros usuarios?
Selecciona todas las opciones que correspondan.
1 / 1 punto

 Modificar el código directamente desde el archivo .rmd


Correcto. El código que agregas al archivo .rmd suele denominarse bloque de código. Los bloques de códigos
permiten que los usuarios ejecuten el código R desde el archivo .rmd, lo modifiquen y lo copien.

 Copiar el código directamente desde el archivo .rmd


Correcto. El código que agregas al archivo .rmd suele denominarse bloque de código. Los bloques de códigos
permiten que los usuarios ejecuten el código R desde el archivo .rmd, lo modifiquen y lo copien.
 Ejecutar el código directamente desde el archivo .rmd
Correcto. El código que agregas al archivo .rmd suele denominarse bloque de código. Los bloques de códigos
permiten que los usuarios ejecuten el código R desde el archivo .rmd, lo modifiquen y lo copien.

 Deshacer el código original del proyecto directamente desde el archivo .rmd


7.
Pregunta 7

Un analista de datos inserta una línea de código directamente en su archivo .rmd. ¿Qué usará para indicar el principio
y el final de su código?
1 / 1 punto

Markdown
Numerales
Asteriscos
Delimitadores
Correcto

El delimitador es un carácter que indica el principio o el fin de un elemento de datos.


8.
Pregunta 8

Un analista de datos que usa R genera un informe semanal de ventas usando siempre el mismo archivo .rmd y
convirtiéndolo en un informe. ¿Qué puede hacer para agilizar ese proceso?
1 / 1 punto

Crear una plantilla


Crear un notebook de R
Convertir su archivo .rmd
Correcto

Si un analista crea siempre el mismo tipo de documento o personaliza el aspecto de un informe final, puede usar una
plantilla para ahorrar tiempo.

1.
Pregunta 1

Scenario 1, questions 1-7

Como parte del equipo de ciencia de datos de Gourmet Analytics, utilizas análisis computacional de datos para
asesorar a las empresas de la industria alimentaria. Limpias, organizas y visualizas datos para llegar a conclusiones
que beneficiarán a tus clientes. Como miembro de un equipo colaborativo, compartir tu análisis con otros es una parte
importante de tu trabajo.

Tu cliente actual es Chocolate and Tea, una nueva cadena de cafeterías.


El establecimiento combina un menú extenso de tés finos y barras de chocolate de todo el mundo. Su diversa
selección incluye chocolate con leche y plátano, chocolate blanco con mandarina, y chocolate amargo con pistacho e
higo. La larguísima lista de barras de chocolate es la base del encanto de la marca Chocolate and Tea. Las ventas de
barras de chocolate son el principal motor de ingresos.

Chocolate and Tea busca ofrecer barras de chocolate que estén bien calificadas por los críticos profesionales.
También cambia el menú continuamente para asegurarse de que refleje la diversidad mundial de la producción de
chocolate. El equipo de gestión actualiza con regularidad la lista de barras de chocolate para que esté alineada con
las últimas calificaciones y para asegurar que la lista contenga barras de distintos países.

Te pidieron que recopiles y analices los datos de las últimas calificaciones de chocolate. En particular, les gustaría
saber qué países producen las barras de chocolate muy amargo (con un gran porcentaje de cacao) que tienen la
mejor calificación. Esos datos ayudarán a crear el próximo menú de barras de chocolate.

Tu equipo recibió un conjunto de datos que muestra las últimas calificaciones de cientos de chocolates de todo el
mundo. Haz clic aquí para acceder al conjunto de datos. Teniendo en cuenta los datos y la naturaleza del trabajo que
realizarás para el cliente, tu equipo decide utilizar R para este proyecto.

Tu supervisor te pide que escribas un pequeño resumen de los beneficios de utilizar R para el proyecto. ¿Cuáles de los
siguientes beneficios incluirías en el resumen? Selecciona todas las opciones que correspondan.
1 / 1 punto

 Crear visualizaciones de datos de alta calidad


Correcto. Los beneficios de utilizar R para el proyecto incluyen la capacidad para procesar muchos datos de
manera rápida y crear visualizaciones de datos de alta calidad. También puedes reproducir y compartir tu
análisis fácilmente.

 Definir un problema y hacer las preguntas correctas


 Reproducir y compartir tu análisis fácilmente
Correcto. Los beneficios de utilizar R para el proyecto incluyen la capacidad para procesar muchos datos de
manera rápida y crear visualizaciones de datos de alta calidad. También puedes reproducir y compartir tu
análisis fácilmente.

 Procesar muchos datos de manera rápida


Correcto. Los beneficios de utilizar R para el proyecto incluyen la capacidad para procesar muchos datos de
manera rápida y crear visualizaciones de datos de alta calidad. También puedes reproducir y compartir tu
análisis fácilmente.

2.
Pregunta 2

Scenario 1, continued

Antes de que comiences a trabajar con tus datos, necesitas importarlos y guardarlos como un marco de datos. Para
comenzar, abre tu espacio de trabajo de RStudio y carga la biblioteca tidyverse. Carga un archivo .csv que contenga
los datos a RStudio y almacénalo en una carpeta de proyecto denominada flavors_of_cacao.csv.

Utilizas la función read_csv() para importar los datos desde el archivo .csv. Supongamos que el nombre del marco de datos
es bars_df y el archivo .csv se encuentra en el directorio de trabajo. ¿Qué bloque de código te permite crear el marco de
datos?
1 / 1 punto

read_csv("flavors_of_cacao.csv") + bars_df
bars_df %>% read_csv("flavors_of_cacao.csv")
bars_df + read_csv("flavors_of_cacao.csv")
bars_df <- read_csv("flavors_of_cacao.csv")
Correcto

El bloque de código: bars_df <- read_csv("flavors_of_cacao.csv")te permite crear el marco de datos. En este bloque
de código:

bars_df es el nombre del marco de datos que almacenará los datos.

<- es el operador de asignación que asignará valores al marco de datos.


read_csv() es la función que importará los datos al marco de datos.

"flavors_of_cacao.csv" es el nombre del archivo que la función read.csv() toma como su argumento.
3.
Pregunta 3

Scenario 1, continued

Ahora que creaste un marco de datos, quieres saber más sobre cómo se organizan los datos. El marco de datos tiene
cientos de filas y muchas columnas.

Supongamos que el nombre de tu marco de datos es flavors_df. ¿Qué bloque de código te permite revisar los nombres de
las columnas en el marco de datos?
1 / 1 punto

colnames(flavors_df)
arrange(flavors_df)
rename(flavors_df)
col(flavors_df)
Correcto

Escribes el bloque de código colnames(flavors_df). En este bloque de código:

colnames() es la función que te permitirá revisar los nombres de las columnas en el marco de datos.

flavors_df es el nombre del marco de datos que la función colnames() toma como su argumento.
4.
Pregunta 4

Scenario 1, continued

A continuación, comienzas a limpiar los datos. Cuando observas los encabezados de las columnas de tu marco de
datos, notas que la primera columna se denomina Company...Maker.if.known. (Nota: El punto que aparece luego de
known es parte del nombre de la variable). Para ser claro y consistente, decides cambiar el nombre de esta columna
por el de Company(sin el punto al final).

Supongamos que la primera parte del bloque de código sea:

flavors_df %>%

¿Qué bloque de código agregas para cambiar el nombre de la columna?


1 / 1 punto

rename(Company <- Company...Maker.if.known.)


rename(Company...Maker.if.known. <- Company)
rename(Company = Company...Maker.if.known.)
rename(Company...Maker.if.known. = Company)
Correcto

Feedback: Escribes el bloque de código rename(Company = Company...Maker.if.known.).

En este bloque de código:

rename() es la función que cambiará el nombre de tu columna.

Dentro del paréntesis de la función, escribe el nombre nuevo (Company), luego un signo igual y después el nombre
que quieres cambiar (Company...Maker.if.known.).
5.
Pregunta 5

Luego de previsualizar y limpiar tus datos, determinas qué variables son más relevantes para tu análisis. Puedes
enfocarte en Rating, Cocoa.Percent y Company. Decides utilizar la función select() para crear un nuevo marco de
datos con estas tres variables solamente.
Supongamos que la primera parte del código sea:

trimmed_flavors_df <- flavors_df %>%

Añade el bloque de código que te permite seleccionar las tres variables.

1. select(Rating, Cocoa.Percent, Company)


EjecutarRestablecer
# A tibble: 1,795 <U+00D7> 3
Rating Cocoa.Percent Company
<dbl> <chr> <chr>
1 3.75 63% A. Morin
2 2.75 70% A. Morin
3 3.00 70% A. Morin
4 3.50 70% A. Morin
5 3.50 70% A. Morin
6 2.75 70% A. Morin
7 3.50 70% A. Morin
8 3.50 70% A. Morin
9 3.75 70% A. Morin
10 4.00 70% A. Morin
# ... with 1,785 more rows
¿Qué empresa aparece en la fila 1 de tu tibble?
1 / 1 punto

Rogue
Soma
A. Morin
Videri
Correcto

Agregas el bloque de código select(Rating, Cocoa.Percent, Company) para seleccionar las tres variables. El código
correcto es trimmed_flavors_df <- flavors_df %>% select(Rating, Cocoa.Percent, Company). En este bloque de
código:

La función select() te permite seleccionar variables específicas para tu nuevo marco de datos.

select() toma el nombre de las variables que quieres elegir como su argumento. Rating, Cocoa.Percent, Company.

La empresa A. Morin aparece en la fila 1 de tu tibble.


6.
Pregunta 6

Luego, seleccionas las estadísticas básicas que pueden ayudar a tu equipo a comprender mejor el sistema de
calificaciones en los datos.

Supongamos que la primera parte del código sea:

trimmed_flavors_df %>%

Utilizarás las funciones summarize() y max() para encontrar la calificación máxima para los datos. Agrega el bloque de
código que te permite encontrar el valor máximo de la variable Rating.

1 summarize(max(Rating))
EjecutarRestablecer
# A tibble: 1 <U+00D7> 1
`max(Rating)`
<dbl>
1 5
¿Cuál es la calificación máxima?
1 / 1 punto
5
6
5.5
4.5
Correcto

Agrega el bloque de código summarize(max(Rating)) para encontrar el valor máximo de la variable Rating. El código
correcto es trimmed_flavors_df %>% summarize(max(Rating)). En este bloque de código:

La función summarize() te permite mostrar las estadísticas resumidas. Puedes usar la función summarize() en
combinación con otras funciones, como mean(), max() y min(), para calcular estadísticas específicas.

En este caso, utilizas max() para calcular el valor máximo de la variable Rating.

La calificación máxima es 5.
7.
Pregunta 7

Luego de completar tu análisis sobre el sistema de calificación, determinas que cualquier calificación superior o igual a
3.5 puntos puede considerarse una calificación alta. También sabes que Chocolate and Tea considera que una barra
de chocolate es muy amarga si tiene un porcentaje de cacao superior o igual al 70%. Decides crear un nuevo marco
de datos para averiguar qué barras de chocolate cumplen con esas dos condiciones.

Supongamos que la primera parte del código sea:

best_trimmed_flavors_df <- trimmed_flavors_df %>%

Quieres aplicar la función filter() a las variables Cocoa.PercentyRating. Agrega el bloque de código que te permita filtrar el
marco de datos para las barras de chocolate que contienen al menos 70% de cacao y que tienen una calificación de al
menos 3.5 puntos.

filter(Cocoa.Percent >= 70, Rating >= 3.5)


EjecutarRestablecer
# A tibble: 574 <U+00D7> 9
Company Specific.Bean.Origin.or.Bar.Name REF Review.Date Cocoa.Percent
<chr> <chr> <int> <int> <chr>
1 A. Morin Akata 1680 2015 70%
2 A. Morin Quilla 1704 2015 70%
3 A. Morin Cuba 1315 2014 70%
4 A. Morin Sur del Lago 1315 2014 70%
5 A. Morin Puerto Cabello 1319 2014 70%
6 A. Morin Pablino 1319 2014 70%
7 A. Morin Equateur 1011 2013 70%
8 A. Morin Chuao 1015 2013 70%
9 A. Morin Chanchamayo Province 1019 2013 70%
10 A. Morin Bolivia 797 2012 70%
# ... with 564 more rows, and 4 more variables: Company.Location <chr>,
# Rating <dbl>, Bean.Type <chr>, Broad.Bean.Origin <chr>
¿Qué calificación aparece en la fila 1 de tu tibble?
0 / 1 punto

3.75
4.00
4.25
3.50
Incorrecto

Vuelve a mirar el vídeo sobre organización de datos en R para hacer un repaso.


8.
Pregunta 8
Ahora que ya limpiaste y organizaste tus datos, estás listo para crear algunas visualizaciones de datos útiles. Tu
equipo te asigna la tarea de crear una serie de visualizaciones en base a las solicitudes del equipo de gestión de
Chocolate and Tea. Decides utilizar ggplot2 para crear tus elementos visuales.

Supongamos que tu primera línea de código sea:

ggplot(data = best_trimmed_flavors_df) +

Quieres utilizar la función geom_bar() para crear un gráfico de barras. Agrega el bloque de código que te permite crear un
gráfico de barras con la variable Ratingen el eje X.

2. geom_bar(mapping = aes(x = Rating))


EjecutarRestablecer
Error in function_list[[k]](value) : could not find function "geom_bar"
Calls: %>% ... eval -> _fseq -> freduce -> withVisible -> <Anonymous>
¿Cuántas barras muestra el gráfico de barras?
0 / 1 punto

5
6
3
2
Incorrecto

Vuelve a mirar el vídeo sobre funciones geométricas para hacer un repaso.


9.
Pregunta 9

El gráfico de barras muestras las ubicaciones donde se producen las barras de chocolate mejor calificadas. Para
comprender mejor la calificación específica de cada ubicación, te gustaría resaltar cada barra.

Supongamos que estás trabajando con el siguiente código:

ggplot(data = best_trimmed_flavors_df) +

geom_bar(mapping = aes(x = Company.Location))

Agrega un bloque de código a la segunda línea del código para aplicar la estética filla la variableRating.

NOTA: los tres puntos (...) indican dónde añadir el bloque de código.

3. geom_bar(mapping = aes(x = Company.Location, fill=Rating))


EjecutarRestablecer
De acuerdo con tu gráfico de barras, ¿cuáles son las dos ubicaciones de empresas que producen las barras de chocolate
mejor calificadas?
1 / 1 punto

Canadá y Francia
Escocia y EE.UU.
Escocia y Canadá
Ámsterdam y Francia
Correcto

Agregas el bloque de código fill = Rating a la segunda línea del código para aplicar la estética fill a la variableRating.
El código correcto es ggplot(data = best_trimmed_flavors_df) + geom_bar(mapping = aes(x = Company.Location, fill =
Rating)). En este bloque de código:

Dentro del paréntesis de la función aes(), luego de la coma que va después de x = Company.Location, escribe la
estética (fill), un signo igual y la variable (Rating).

La calificación específica de cada ubicación tendrá un color específico dentro de cada barra de tu gráfico de barras.

En tu visualización, la leyenda titulada "Rating" muestra el código de color para la variable Rating. Los azules más
claros corresponden a las calificaciones más altas y los más oscuros, a las más bajas.

De acuerdo con tu gráfico de barras, las dos ubicaciones de empresas que producen las barras de chocolate mejor
calificadas se encuentran en Canadá y Francia.
10.
Pregunta 10

Scenario 2, continued

Un compañero de equipo crea un nuevo diagrama en base a los datos de las barras de chocolate. Tu compañero de
equipo te pide que hagas unas revisiones sobre su código.

Supongamos que tu compañero comparte el siguiente bloque de código:

ggplot(data = best_trimmed_flavors_df) +

geom_bar(mapping = aes(x = Cocoa.Percent)) +

¿Qué bloque de código agregas a la tercera línea para hacer un ajuste sobre las facetas de la variable Cocoa.Percent?
1 / 1 punto
facet(=Cocoa.Percent)
facet_wrap(Cocoa.Percent~)
facet_wrap(%>%Cocoa.Percent)
facet_wrap(~Cocoa.Percent)
Correcto

Escribes el bloque de código facet_wrap(~Cocoa.Percent). En este bloque de código:

facet_wrap() es la función que te permite hacer un ajuste sobre las facetas de una variable.

Dentro del paréntesis de la función facet_wrap() escribes el símbolo de la virgulilla (~) seguido del nombre de la
variable (Cocoa.Percent).
11.
Pregunta 11

Scenario 2, continued

Tu equipo ha creado unas visualizaciones básicas para explorar diferentes aspectos de los datos de la barra de
chocolate. Te has ofrecido para agregar títulos a los diagramas. Comienzas con el diagrama de dispersión.

Supongamos que la primera parte del bloque de código sea:

ggplot(data = trimmed_flavors_df) +

geom_point(mapping = aes(x = Cocoa.Percent, y = Rating)) +

¿Qué bloque de código agregas a la tercera línea para agregar el título Recommended Barsa tu diagrama?
1 / 1 punto

labs(title = Recommended Bars)


labs(title + "Recommended Bars")
labs(title = “Recommended Bars”)
labs("Recommended Bars")
Correcto

Escribes el bloque de código labs(title = “Recommended Bars”). En este bloque de código:

labs() es la función que te permite agregar un título a tu diagrama.

En el paréntesis de la función labs(), escribe la palabra título, un signo igual y el texto específico del título entre
comillas (“Recommended Bars”).
12.
Pregunta 12

Scenario 2, continued

Luego, creas un nuevo diagrama de dispersión para explorar la relación entre las diferentes variables. Quieres
guardar tu diagrama para poder acceder a él más adelante. Sabes que la función ggsave() guarda por defecto el
último diagrama que has utilizado en RStudio, así que estás listo para escribir el código para guardar tu diagrama de
dispersión.

Supongamos que las primeras dos líneas de tu código son:

ggplot(data = trimmed_flavors_df) +

geom_point(mapping = aes(x= Cocoa.Percent, y = Rating)) +

¿Qué bloque de código agregas a la tercera línea para guardar tu diagrama como un archivo jpeg que lleve la palabra
chocolatecomo nombre?
1 / 1 punto

ggsave(“chocolate.jpeg”)
ggsave(“chocolate.png”)
ggsave(chocolate.jpeg)
ggsave(“jpeg.chocolate”)
Correcto

Agregas el bloque de código ggsave(“chocolate.jpeg”) para guardar tu diagrama como un archivo jpeg que lleve
“chocolate” como nombre. En este bloque de código:

Dentro del paréntesis de la función ggsave(), abre comillas, escribe el nombre del archivo (chocolate), un punto, el tipo
de formato del archivo (jpeg) y luego cierra las comillas.
13.
Pregunta 13

Scenario 2, continued

Como paso final del proceso de análisis, creas un informe para documentar y compartir tu trabajo. Antes de compartir
tu trabajo con el equipo de gestión de Chocolate and Tea, te reunirás con tu equipo para intercambiar comentarios. Tu
equipo quiere que la documentación incluya todos los códigos y muestre todas las visualizaciones.

Completa el espacio en blanco: Quieres registrar y compartir cada paso de tu análisis, permitir a tus compañeros que
ejecuten tu código y mostrar tus visualizaciones. Decides crear _____ para documentar tu trabajo.
1 / 1 punto

un marco de datos
una hoja de cálculo
un notebook de R Markdown
una base de datos
Correcto

Utilizas un notebook de R Markdown para documentar tu trabajo. El notebook te permite registrar y compartir cada
paso de tu análisis, les permite a tus compañeros ejecutar tu código y muestra tus visualizaciones.

También podría gustarte