Caso práctico: Nuevas perspectivas de datos
Este es un ejemplo real de cómo un grupo de analistas de datos utilizó los seis
pasos del proceso de análisis de datos para mejorar su lugar de trabajo y sus
procesos empresariales. Su historia incluye lo que se denomina «análisis de
personas», también conocido como «análisis de recursos humanos» o «análisis de
la fuerza laboral». El análisis de personas es la práctica de recopilar y analizar datos
sobre las personas que conforman la fuerza laboral de una empresa con el fin de
obtener información para mejorar su funcionamiento.
Ser analista de personas implica utilizar el análisis de datos para obtener
información sobre los empleados y cómo viven su vida laboral. El conocimiento se
utiliza para definir y crear un lugar de trabajo más productivo y empoderador. Esto
puede liberar el potencial de los empleados, motivar a las personas a rendir al
máximo y garantizar una cultura empresarial justa e inclusiva.
Los seis pasos del proceso de análisis de datos que has estado aprendiendo en
este programa son: preguntar, preparar, procesar, analizar, compartir y actuar.
Estos seis pasos se aplican a cualquier análisis de datos. Continúa leyendo para ver
cómo un equipo de analistas de personas utilizó estos seis pasos para responder a
una pregunta de negocios.
Corrección del artículo en negrita a continuación: El equipo de Workplace Analytics
de Microsoft planteó la hipótesis de que mover el grupo de 1,200 personas de cinco
edificios a cuatro podría mejorar la colaboración al aumentar el número de
empleados por edificio y reducir la distancia que el personal necesitaba viajar para
reuniones.
Para obtener más información sobre algunas aplicaciones recientes del análisis
computacional de datos en el mundo empresarial, consulta el artículo “4 Examples
of Business Analytics in Action” (Cuatro ejemplos de análisis de negocios en acción)
de Harvard Business School. En este artículo, se revela cómo las empresas utilizan
los conocimientos de datos para optimizar su proceso de toma de decisiones. Ten
en cuenta que el primer ejemplo del artículo contiene un error menor en el segundo
párrafo, pero el ejemplo sigue siendo válido.
Corrección del artículo en negrita a continuación: El equipo de Workplace Analytics
de Microsoft planteó la hipótesis de que mover el grupo de 1,200 personas de cinco
edificios a cuatro podría mejorar la colaboración al aumentar el número de
empleados por edificio y reducir la distancia que el personal necesitaba viajar para
reuniones.
Dimensiones de la analítica de datos (conveniente especializarse solamente en una)
La ciencia de datos es un término general que abarca tres disciplinas: aprendizaje
automático, estadística y análisis. Estas están separadas porcuántas decisiones sabs que
quieres tomar antes de empezar con ellas.
Si quieres tomar unas cuantas decisiones imporantes con incertidumbre, eso es estadística.
Si quieres automatizar, en otras palabras, tomar muchs, muchas decisiones con
incertidumbre, eso es aprendizazje automático e IA.
Pero ¿qué sucede si no sabes cuántas decisiones quieres tomar antes de empezar? ¿Qué
pasa si lo que estás buscando es inspiración? Quieres encontrar tus incógnitas
desconocidas. Eso es análisis.
¿Cuál de las 3 excelencias en ciencia de datos parecería ajustarse mejor a ti?
La excelencia de la estadística es la exactitud. Los estadísticos son esencialmente filósofos,
epistemólogos.
Son muy cuidadosos en proteger a los responsables de la toma de decisiones para que no
lleguen a una conclusión equivocada. Si ese cuidado y rigor es lo que te apasiona,
recomiendo la estadística.
El rendimiento es la excelencia del aprendizaje automático y el ingeniero de IA.
¿Qué hay de los análisis? La excelencia de un analista es la velocidad. ¿Qué tan rápido
puedes ahondar en grandes cantidades de datos y explorarlos y descubrir algo interesante?
¿Te emociona la ambigüedad de la exploración? ¿Prosperas en proyectos abiertos y
creativos?
Ecosistema de datos: un ecosistema es un grupo de elementos que interactúan uno con el
otro. Los ecosistemas de datos se componen de varios elementos que interactúan entre sí
para producir, gestionar, almacenar, organizar, analizar y compartir datos. Esto elementos
incluyen software y hardware y las personas que los usan. Los datos también se pueden
encontrar en la nube.
Científico de datos vs analista de datos: Se define como crear nuevas formas de
modelar y entender lo desconocido mediante el uso de datos sin procesar. Los científicos de
datos crean nuevas preguntas con los datos,mientras que los analistas encuentran
respuestas a las preguntas existentes y crean información a partir de las fuentes de datos.
Análisis de datos vs Data analytics: el análisis de datos es la recopilación,
transformación y organización de los datos para sacar conclusiones, hacer predicciones e
impulsar una toma de decisiones informada. El data analytics, en los términos más
sencillos, es la ciencia de datos; es un conceptomuy amplio que abarca todo, desde el
trabajo de gestión y el uso de los datos hasta las herramientas y los métodos que los
trabajadores de datos usan.
Datos e instinto
Los detectives y los analistas de datos tienen mucho en común. Ambos dependen
de hechos y pistas para tomar decisiones. Ambos recopilan y observan la evidencia.
Ambos hablan con personas que conocen parte de la historia. Y ambos podrían
incluso seguir algunas huellas para ver hacia dónde llevan. Tanto si eres detective
como analista de datos, tu trabajo consiste en seguir pasos para recopilar y
entender los hechos.
Los analistas utilizan la toma de decisiones basada en datos y siguen un proceso
paso a paso. Has aprendido que hay seis pasos en este proceso:
1. Hacer preguntas y definir el problema.
2. Preparar datos al recopilar y almacenar la información.
3. Procesar los datos al limpiar y comprobar la información.
4. Analizar los datos para encontrar patrones, relaciones y tendencias.
5. Compartir datos con tu audiencia.
6. Actuar en función de los datos y utilizar los resultados del análisis.
Pero hay otros factores que influyen en el proceso de toma de decisiones. Es
posible que hayas leído casos de misterio en los que el detective utilizó su instinto y
siguió una corazonada que lo ayudó a resolver el caso. El instinto es una
comprensión intuitiva de algo con poca o ninguna explicación. No siempre es algo
consciente; a menudo captamos señales sin siquiera darnos cuenta. Solo tienes la
«sensación» de que es así.
Por qué el instinto puede ser un problema
El centro de la toma de decisiones basada en datos son los datos. Por lo tanto, es
esencial que los analistas de datos se centren en ellos para garantizar que toman
decisiones informadas. Si ignoras los datos y prefieres tomar decisiones basadas en
tu propia experiencia, tus decisiones pueden ser sesgadas. Pero lo que es peor, las
decisiones basadas en el instinto, sin datos para respaldarlas, pueden generar
errores.
Considera el ejemplo de un promotor inmobiliario que licita para redesarrollar una
parte del distrito central de una ciudad. Se los conoce por la preservación de
edificios históricos. Aprovechando su reputación, los planificadores de la agencia
siguieron su instinto e incluyeron la preservación de varios edificios para obtener
apoyo y la aprobación del proyecto. Sin embargo, las donaciones privadas no
alcanzaron, y una asociación prevista no se concretó para evitar la desgracia.
Finalmente, los edificios tuvieron que ser derribados tras mucho retraso y una
costosa disputa con la ciudad.
Cuanto más entiendas los datos relacionados con un proyecto, más fácil será
averiguar qué se necesita. Estos esfuerzos también te ayudarán a identificar errores
y lagunas en tus datos para que puedas comunicar tus hallazgos de forma más
eficaz. A veces, la experiencia pasada te ayuda a establecer una conexión que
nadie más notaría. Por ejemplo, un detective podría abrir un caso porque le
recuerda a uno anterior similar al que está resolviendo hoy. No es solo instinto.
Datos + conocimiento empresarial = misterio
resuelto
Combinar datos con conocimiento empresarial, además de un toque de instinto,
será una parte habitual de tu proceso como analista de datos junior. La clave está
en averiguar la combinación exacta de cada proyecto en particular. Muchas veces,
dependerá de los objetivos de tu análisis. Por eso los analistas a menudo
preguntan: «¿Cómo defino el éxito de este proyecto?»
Además, intenta hacerte estas preguntas sobre un proyecto para encontrar el
equilibrio perfecto:
● ¿Qué tipo de resultados se necesitan?
● ¿A quién se informará?
● ¿Estoy respondiendo la pregunta que se está haciendo?
● ¿Con qué rapidez hay que tomar una decisión?
Por ejemplo, si estás trabajando en un proyecto urgente, es posible que tengas que
confiar en tus propios conocimientos y experiencia más de lo habitual. No hay
tiempo suficiente para analizar a fondo todos los datos disponibles. Pero si tienes un
proyecto que implica mucho tiempo y recursos, entonces la mejor estrategia es
centrarse más en los datos. Dependerá de ti, el analista de datos, tomar la mejor
decisión posible. Probablemente combines datos y conocimientos de un millón de
formas diferentes a lo largo de tu carrera de análisis de datos. Y cuanto más
practiques, mejor conseguirás encontrar la combinación perfecta.
Orígenes del proceso de análisis de datos
Cuando decidiste unirte a este programa, demostraste que eras una persona
curiosa. Así que aprovechemos tu curiosidad y hablemos sobre los orígenes del
análisis de datos. No sabemos a ciencia cierta cuándo ni por qué la primera persona
decidió registrar datos sobre personas y cosas. Pero sí sabemos que fue útil porque
la idea sigue existiendo hoy.
También sabemos que el análisis de datos se basa en la estadística, que de por sí
ya tiene una historia bastante larga. Los arqueólogos fueron los primeros en usar la
estadística en el Antiguo Egipto con la construcción de las pirámides. Los antiguos
egipcios eran maestros de la organización de datos. Documentaban sus cálculos y
teorías sobre papiros (material similar al papel), que ahora se consideran los
primeros ejemplos de hojas de cálculo y listas de verificación. Los analistas de datos
actuales deben mucho a esos brillantes escribas, que ayudaron a crear un proceso
más técnico y eficiente.
Es hora de entrar en el ciclo de vida del análisis de datos, que es el proceso de
pasar de los datos a la decisión. Los datos pasan por varias fases a medida que se
crean, consumen, prueban, procesan y reutilizan. Con un modelo de ciclo de vida,
todos los miembros clave del equipo pueden impulsar el éxito al planificar el trabajo
tanto por adelantado como al final del proceso de análisis de datos. A pesar de que
el ciclo de vida del análisis de datos es bien conocido entre los expertos, no existe
una sola estructura definida de esas fases. Es posible que no haya una única
arquitectura a seguir de manera uniforme por todos los expertos en análisis de
datos, pero que existan algunos fundamentos compartidos en cada proceso de
análisis de datos. En esta lectura se proporciona una descripción general de varios
aspectos, empezando por el proceso que constituye la base del certificado de
Google Data Analytics.
El proceso que se presenta como parte del certificado de Google Data Analytics es
uno que te resultará valioso a medida que avances en tu carrera profesional:
1. Preguntar: Desafío empresarial/objetivo/pregunta. Define el problema y
confirma las expectativas de los interesados.
2. Preparar: Generación, recopilación, almacenamiento y administración de
datos.
3. Procesar: Limpieza de datos/integridad de datos. Limpia y transforma los
datos para asegurar su integridad.
4. Analizar: Exploración, visualización y análisis de datos. Utilizar herramientas
de análisis de datos para sacar conclusiones.
5. Compartir: Comunicación e interpretación de los resultados. Interpresa y
comunica los resultados a otros para que tomen decisiones basadas en
datos.
6. Actuar: Uso de tus conocimientos para resolver el problema original.
Comprender este proceso, y todas las iteraciones que ayudaron a hacerlo popular,
será una parte importante a la hora de guiar tu propio análisis y tu trabajo en este
programa. Repasemos algunas otras variaciones del ciclo de vida del análisis de
datos.
Ciclo de vida del análisis de datos de EMC
El ciclo de vida del análisis de datos de EMC Corporation es cíclico con seis pasos:
1. Descubrimiento
2. Preprocesamiento de datos
3. Planificación de modelos
4. Construcción de modelos
5. Comunicación de los resultados
6. Puesta en funcionamiento
EMC Corporation ahora es Dell EMC. Este modelo, creado por David Dietrich,
refleja la naturaleza cíclica de los proyectos del mundo real. Las fases no son hitos
estáticos; cada paso se conecta y conduce al siguiente, y eventualmente se repite.
Las preguntas clave ayudan a los analistas a probar si han logrado lo suficiente
como para avanzar y garantizar que los equipos hayan dedicado tiempo necesario
en cada una de las fases y no empiecen a modelar antes de que los datos estén
listos. Es un poco diferente del ciclo de vida del análisis de datos en el que se basa
este programa, pero tiene algunas ideas básicas en común: la primera fase está
interesada en descubrir y formular preguntas; los datos deben prepararse antes de
poder analizarse y utilizarse; y luego se deben compartir los hallazgos y actuar en
consecuencia.
Para obtener más información, consulta The Genesis of EMC's Data Analytics
Lifecycle (La génesis del ciclo de vida del análisis computacional de datos de EMC).
Ciclo de vida iterativo de SAS
Una empresa llamada SAS, proveedora líder de soluciones de análisis
computacional de datos, creó un ciclo de vida iterativo. Se puede utilizar para
producir resultados repetibles, fiables y predictivos:
1. Preguntar
2. Preparar
3. Explorar
4. Modelar
5. Implementar
6. Actuar
7. Evaluar
El modelo SAS enfatiza la naturaleza cíclica de su modelo al visualizarlo como
símbolo infinito. Su ciclo de vida tiene siete pasos, muchos de los cuales hemos
visto en los otros modelos, como Preguntar, Preparar, Modelar y Actuar. Pero este
ciclo de vida es un poco diferente; incluye un paso posterior a la fase Actuar,
diseñado para que los analistas evalúen sus soluciones y, potencialmente, vuelvan a
la fase Preguntar.
Para obtener más información, consulta Managing the Analytics Life Cycle for
Decisions at Scale (Administración del ciclo de vida de los análisis para tomar
decisiones a escala).
Ciclo de vida del análisis computacional de
datos basado en proyectos
Un ciclo de vida del análisis de datos basado en proyectos consta de cinco sencillos
pasos:
1. Identificación del problema
2. Diseño de requisitos de datos
3. Preprocesamiento de datos
4. Realización de análisis de datos
5. Visualización de datos
El ciclo de vida de este proyecto de análisis de datos fue desarrollado por Vignesh
Prajapati. No incluye la sexta fase ni lo que denominamos la fase Actuar. Sin
embargo, abarca igualmente muchos de los mismos pasos de los ciclos de vida que
ya hemos descrito. Comienza por identificar el problema, preparar y procesar datos
antes del análisis y termina con la visualización de datos.
Para obtener más información, consulta Understanding the data analytics project life
cycle(Descripción del ciclo de vida del proyecto de análisis computacional de datos).
Ciclo de vida del análisis de big data
Los autores Thomas Erl, Wajid Khattak y Paul Buhler propusieron un ciclo de vida
de análisis de big data en su libro, Big Data Fundamentals: Concepts, Drivers &
Techniques (Aspectos básicos del big data: conceptos, eje impulsor y técnicas). Su
ciclo de vida sugiere fases divididas en nueve pasos:
1. Evaluación de casos de negocio
2. Identificación de datos
3. Adquisición y filtrado de datos
4. Extracción de datos
5. Validación y limpieza de datos
6. Agregación y representación de datos
7. Análisis de datos
8. Visualización de datos
9. Utilización de los resultados del análisis
Este ciclo de vida parece tener tres o cuatro pasos más que los modelos de ciclo de
vida anteriores. Pero, en realidad, lo que hacen es dividir aquello a lo que nos
hemos referido como Preparar y Procesar en pasos más pequeños. Hace hincapié
en las tareas individuales necesarias para recopilar, preparar y limpiar datos antes
de la fase de análisis.
Para obtener más información, consulta Big Data Adoption and Planning
Considerations (Consideraciones a la hora de adoptar y planificar big data).
Conclusión clave
Desde nuestro viaje a las pirámides y los datos del Antiguo Egipto hasta ahora, la
forma en que analizamos los datos ha evolucionado (y sigue haciéndolo). El proceso
de análisis de datos es como la arquitectura de la vida real: hay diferentes formas de
hacer las cosas, pero las ideas fundamentales aparecen en cada modelo del
proceso. Ya sea que utilices la estructura de este certificado de Google Data
Analytics o una de las muchas otras iteraciones que has aprendido, estamos aquí
para guiarte en tu camino hacia los datos.
Destrezas del analista de datos
- Destrezas analíticas: Cualidades y características asociadas al uso de hechos para
resolver problemas.
- Mentalidad técnica: La destreza analítica que implica desglosar los procesos en
pasos más pequeños y trabajar con ellos de manera ordenada y lógica.
- Diseño de datos: La destreza analítica que implica la forma en que organizas la
información.
- Comprender el contexto: la destreza analítica que tiene que ver con cómo agrupas
los elementos en categorías.
- Estrategia de datos: La destreza analítica que implica gestionar los procesos y las
herramientas utilizadas en el análisis de datos.
Data analytics = Análisis (computacional) de datos
● Curiosidad: el deseo de saber más sobre algo y formular las preguntas
correctas
● Comprensión del contexto: comprender dónde encaja la información en el
“panorama general”
● Mentalidad técnica: dividir las cosas grandes en pasos más pequeños
● Diseño de datos: pensar en cómo organizar los datos y la información
● Estrategia de datos: pensar en las personas, los procesos y las
herramientas que se utilizan en el análisis de datos
Pensamiento analítico
El pensamiento analítico consiste en identificar y definir un problema, y luego resolverlo
mediante el uso de datos ed manera organizada y paso a paso.
Cinco habilidades:
1. Visualización: representación gráfica de la información.
2. Estrategia
3. Orientación hacia los problemas: se trata de mantener el problema en mente a lo
largo de todo el proyecto.
4. Correlación: es un tipo de relación. La correlación no equivale a la causalidad.
5. Pensamiento con perspectiva global y orientado hacia los detalles: ser capaz de ver
el panorama general, así como los detalles.
Pensar en los resultados
Toma de decisiones basada en datos: implica el uso de hechos para guiar la estrategia
empresarial.
Diseñar los datos para organizarlos de forma lógica hace que sea más fácil para los
analistas de datos acceder, comprender y aprovechar al máximo la información disponible.
La última habilidad es la estrategia de datos, que incorpora a las personas, los procesos y
las herramientas utilizadas para resolver un problema. Ofrece una visión de alto nivel del
camino que se debe seguir para alcanzarlos objetivos.
Un cuartil divide los puntos de datos en cuatro partes iguales o cuartos.
Ciclo de vida de los datos
1. Planificar: durante la planificación, una empresa decide qué tipo de datos necesita,
cómo se gestionarán a lo largo de su ciclo de vida, quién será el responsable de
ellos y cuáles son los resultados óptimos. ¿Qué planes debes realizar y qué
decisiones debes tomar? ¿Qué datos necesitas para responder tu pregunta?
2. Capturar: en esta fase, se recopilan datos de diversas fuentes y se incorporan en la
organización. Los métodos de recopilación son infinitos. Un método común es
obtener datos de recursos externos. Otra forma de obtener datos es a partir de
documentos y archivos propios de una empresa, que, normalmente, se almacenan
en una base de datos. Una base de datos es un conjunto de datos almacenado en
un sistema informático. Cuando tienes una base de datos con información de los
clientes, debes preocuparte por garantizar la integridad, la credibilidad y la
privacidad de esos datos. ¿De dónde provienen tus datos? ¿Cómo los
obtendrás?
3. Gestionar: cuida y brinda mantenimiento a los datos. Esto incluye determinar
cómo y dónde se almacenan y las herramientas utilizadas para hacerlo, qué
herramientas usamos para protegerlos y mantenerlos seguros, y qué medidas
adoptamos para asegurarnos de que se conserven correctamente. Esta fase es muy
importante para la limpieza de los datos. ¿Cómo almacenarás tus datos? ¿Para
qué deben usarse? ¿Cómo mantienes estos datos seguros y protegidos?
4. Analizar: en esta fase, los datos se usan para resolver problemas, tomar decisiones
importantes y respaldar los objetivos empresariales. ¿Cómo la empresa analizará
los datos? ¿Qué herramientas deberían usar?
5. Archivar: archivar significa almacenar datos en un lugar donde todavía están
disponibles, pero es poco probable que se vuelvan a usar. ¿Qué deben hacer con
sus datos cuando dejan de ser actuales? ¿Cómo saben cuándo es el
momento indicado?
6. Destruir: es importante para proteger la información privada de una empresa, así
como los datos privados sobre sus clientes. ¿Deben eliminar algún dato? Si la
respuesta es “sí”, ¿cuándo y cómo?
Advertencia: Ten cuidado de no mezclar o confundir las seis etapas del ciclo de
vida de los datos (Planificar, Capturar, Administrar, Analizar, Archivar y Destruir) con
las seis fases del ciclo de vida del análisis de datos (Preguntar, Preparar, Procesar,
Analizar, Compartir y Actuar). No deben usarse ni referirse indistintamente.
El ciclo de vida de los datos proporciona un framework genérico o común sobre
cómo se gestionan los datos. Recordarás que las variaciones del ciclo de vida del
análisis de datos se describieron en Orígenes del proceso de análisis de datos. Esto
también se puede aplicar al ciclo de vida de los datos. En el resto de esta lectura, se
brinda una visión sobre cómo el gobierno y las instituciones educativas y financieras
pueden ver los ciclos de vida de los datos de una manera un poco diferente.
Comprender la importancia del ciclo de vida de los datos lo preparará para ser un
analista de datos exitoso. Cada etapa del ciclo de vida de los datos variará de una
empresa a otra o según la industria o el sector. Los datos históricos son importantes
tanto para el Servicio de Pesca y Vida Silvestre de EE.UU. como para el USGS, por
lo que su ciclo de vida de los datos se centra en archivar y respaldar datos. Los
intereses de Harvard se enfocan en la investigación y la enseñanza, por lo que su
ciclo de vida de los datos incluye la visualización y la interpretación, aunque estos
suelen asociarse con el ciclo de vida de análisis de datos. En el ciclo de vida de los
datos de la HBS, tampoco se incluye una etapa para depurar o destruir datos. Por el
contrario, el ciclo de vida de los datos en el sector financiero identifica claramente
las etapas de archivo y depuración. En resumen, aunque los ciclos de vida de los
datos varían, existe un principio de gestión de datos universal: se debe controlar
cómo se manejan los datos para que sean precisos y estén seguros y disponibles
para satisfacer las necesidades de su organización.
Proceso de análisis de datos
1. Preguntar: En esta fase, hacemos dos cosas. Definimos el problema que se
pretende resolver y nos aseguramos de que entendemos plenamente las expectativa
de los interesados. Definir un problema significa que observas el estado actual e
identificas cómo difiere del estado ideal. Normalmente, hay un obstáculo que
debemos eliminar o un error que tenemos que corregir. Otra parte importante de esta
fase es entender las expectativas de los interesados. En este punto, el primer paso
es determinar quiénes son los interesados. Este aspecto de preguntar te ayuda a
enfocarte en el problema y no solo en los síntomas. Los cinco porqués son
extremadamente útiles en este punto.
a. Los interesados tienen una participación en el proyecto. Los interesados son
personas que han dedicado tiempo y recursos a un proyecto, y están
interesadas en el resultado. Ayudan a tomar decisiones, influyen en las
acciones y estrategias, y tienen objetivos específicos por cumplir.
2. Preparación: en este punto, los analistas de datos recopilar y almacenan datos que
usarán para el próximo proceso de análisis.
3. Procesar: se encuentra y elimina cualquier error e inexactitud que puedan interferir
con los resultados. Implica la limpieza de los datos, su conversión a un formato más
útil, combinar dos o más conjuntos de datos para lograr que la información sea más
completa y eliminar los valores atípicos, que son puntos de datos que podrían
sesgar la información.
4. Análisis: analizar los datos recopilados implica el uso de herramientas para
transformar y organizar esa información a fin de poder extraer conclusiones útiles,
hacer predicciones e impulsar una toma de decisiones fundamentada.
5. Compartir: manera en que se interpretan y comparten los resultados para ayudar a
los interesados a tomar decisiones efectiva basadas en datos. La visualización es el
mejor amigo del analista de datos.
6. Actuar: momento en que la empresa toma toda la información que se ha
proporcionado y la pone a trabajar para resolver el problema inicial del negocio y
actuar.
El kit de herramientas del análisis de datos
- Hojas de cálculo: microsoft excel, google sheets. Una hoja de cálculo es una hoja
de trabajo digital. Almacena, organiza y ordena los datos. Tienen algunas
características muy útiles llamadas fórmulas y funciones.
- Una fórmula es un conjunto de instrucciones que realiza un cálculo específico
con los datos de una hoja de cálculo.
- Una función es un comando preestablecido que realiza automáticamente un
proceso o tarea específicos con los datos de una hoja de cálculo.
- Lenguajes de consulta: es un idioma de programación informático que te permite
encontrar y manipular datos en una base de datos.
- SQL (lenguaje de consulta estructurado): permite que los analistas de datos
se comuniquen con una base de datos.
- Herramientas de visualización: la visualización de datos es la representación gráfica
de la información. Gráficos, mapas, tablas, etc. Algunas herramientas de
visualización populares son Tableau y Looker.
Como has visto en este curso, los programas y las soluciones más comunes
utilizados por los analistas de datos incluyen las hojas de cálculo, los lenguajes de
consulta y las herramientas de visualización. En esta lectura, aprenderás más sobre
cada uno. También aprenderás cuándo usarlos y por qué son tan importantes en el
análisis de datos.
Hojas de cálculo
Los analistas de datos dependen de las hojas de cálculo para recopilar y organizar
los datos. Dos aplicaciones populares de hojas de cálculo que probablemente
usarás mucho en el futuro, cuando seas analista de datos, son Microsoft Excel y
Google Sheets.
Las hojas de cálculo estructuran los datos de una manera comprensible y te
permiten hacer lo siguiente:
● Recopilar, almacenar, organizar y ordenar información
● Identificar patrones y reunir los datos de una manera que se adapte a cada
proyecto de datos específico
● Crear excelentes visualizaciones de datos, como gráficos y tablas.
Bases de datos y lenguajes de consulta
Una base de datos es una colección de datos estructurados almacenados en un
sistema informático. Algunos programas populares de lenguaje de consulta
estructurado (SQL) incluyen MySQL, Microsoft SQL Server y BigQuery.
Funciones de los lenguajes de consulta:
● Hacen que los analistas puedan aislar información específica de unas bases
de datos
● Facilitan el aprendizaje y la comprensión de las solicitudes realizadas a las
bases de datos
● Permiten que los analistas seleccionen, creen, agreguen o descarguen datos
de una base de datos para su análisis
Herramientas de visualización
Los analistas de datos usan un conjunto de herramientas de visualización, como
gráficos, mapas, tablas y cuadros, entre otras. Dos herramientas de visualización
populares son Tableau y Looker.
Funciones de estas herramientas:
● Convierten los números complejos en una historia que las personas pueden
entender
● Ayudan a los interesados a sacar conclusiones que permiten tomar
decisiones informadas y elaborar estrategias empresariales eficaces
● Tienen múltiples características
- Con la sencilla función de arrastrar y soltar de Tableau, los usuarios pueden crear
gráficos interactivos en paneles y hojas de trabajo.
- Looker se comunica directamente con una base de datos, con lo cual puedes
conectar tus datos directamente a la herramienta de visualización que elijas.
En la carrera de analista de datos, también se usan lenguajes de programación,
como R y Python, muy utilizados para el análisis estadístico, la visualización y otros
análisis de datos.
Conclusión clave
Cuentas con muchas herramientas para trabajar como analista de datos. Este es un
primer vistazo a las posibilidades, y explorarás muchas de estas herramientas en
profundidad durante este programa.
Cuando trabajes como analista de datos, tendrás que definir cuál es el programa o
la solución adecuados para el proyecto en el que estés participando. En esta
lectura, aprenderás más sobre cómo elegir qué herramienta necesitas y cuándo.
Dependiendo de la fase del proceso de análisis de datos en la que estés, deberás
usar diferentes herramientas. Por ejemplo, si te estás enfocando en crear
visualizaciones complejas y llamativas, las herramientas de visualización que
revisamos anteriormente son la mejor opción. Sin embargo, si te estás enfocando en
organizar, limpiar y analizar datos, probablemente deberás elegir entre hojas de
cálculo y bases de datos con consultas. Las hojas de cálculo y las bases de datos
ofrecen formas de almacenar, administrar y usar datos. El contenido básico de
ambas herramientas son conjuntos de valores. Sin embargo, también hay algunas
diferencias clave:
Hojas de cálculo Bases de datos
Aplicaciones de software Almacenes de datos a los que se
accede mediante un lenguaje de
consulta (por ejemplo, SQL)
Estructurar datos en formato de filas y Estructurar datos usando reglas y
columnas relaciones
Organizar la información en celdas Organizar la información en
colecciones complejas
Proporcionar acceso a una cantidad Proporcionar acceso a grandes
limitada de datos cantidades de datos
Ingreso manual de los datos Ingreso de datos estricto y coherente
Generalmente, un usuario a la vez Múltiples usuarios
Controlado por el usuario Controlado por un sistema de gestión
de bases de datos
No tienes que elegir uno u otro porque cada uno sirve para algo distinto. En general,
los analistas de datos trabajan con una combinación de los dos, ya que ambas
herramientas son muy útiles en el análisis de datos. Por ejemplo, puedes almacenar
datos en una base de datos y, luego, exportarlos a una hoja de cálculo para
analizarlos. O bien, si estás recopilando información en una hoja de cálculo y se
vuelve excesiva para esa plataforma en particular, puedes importarla a una base de
datos. Más adelante en este curso, aprenderás que hay lenguajes de programación
como R que te permiten tener un mayor control de los datos, su análisis y las
visualizaciones que creas.
A medida que avanzas en el aprendizaje de estas importantes herramientas,
obtendrás el conocimiento suficiente para elegir la herramienta adecuada para
cualquier trabajo de datos.
Hojas de cálculo
Atributo: es una característica o calidad de los datos que se utilizan para etiquetar una
columna en una tabla. Más frecuentemente se denominan nombres de columna, etiquetas
de columna, encabezados o fila de encabezado.
En un conjunto de datos, una fila también se llama observación. Una observación incluye
todos los atributos de algo contenido en una fila de una tabla de datos. Por ejemplo, la fila 3
es una observación de Willa Stein porque vemos todos sus atributos en esta fila.
Para reforzar el aprendizaje permanente, es importante que tengas recursos para consultar
cuando quieras saber más sobre el uso de hojas de cálculo. Dos de las plataformas de
hojas de cálculo más conocidas y que más se usan son Google Sheets y Microsoft Excel.
Ambas ofrecen recursos de capacitación en línea gratuitos a los que puedes acceder
cuando sea necesario. Marca estos enlaces si quieres acceder a ellos más tarde.
Ayuda y capacitación de Google Sheets
https://support.google.com/a/users/answer/9282959?visit_id=637361702049227170-181541
3770&rd=1
Aprende otras maneras de mover, almacenar y analizar tus datos con la página de
Capacitación y ayuda de Google Sheets, que está en el Centro de aprendizaje de Google
Workspace. Este centro ofrece una lista ampliada de consejos para los niveles desde
principiante hasta avanzado, junto con hojas de referencia, plantillas, guías y tutoriales.
Hoja de referencia de Google Sheets
https://support.google.com/a/users/answer/9300022
¿Deseas obtener más información sobre Google Sheets? En este artículo de ayuda en
línea, se proporciona una breve lista de las funciones más importantes que usarás, incluidas
filas, columnas, celdas y funciones.
Capacitación en Microsoft Excel para Windows
https://support.microsoft.com/en-us/office/excel-video-training-9bc05390-e94c-46af-a5b3-d7
c22f6990bb
Si deseas saber un poco más sobre las hojas de cálculo de Excel, visita este centro de
capacitación en línea gratuito. Encontrarás todo lo que necesitas saber en un solo lugar;
desde una guía de inicio rápida e introducción hasta tutoriales y plantillas.
Lenguaje de consulta estructurado (SQL)
Se utiliza para almacenar, organizar y analizar datos.
Query: una query (consulta) es una solicitud de datos o información proveniente de una
base de datos.
Ej: SELECT * FROM movie_data.movies WHERE Genre = 'Action’
Las computadoras usan diferentes idiomas para comunicarse entre sí, al igual que
los seres humanos. El lenguaje de consulta estructurado (SQL, que se pronuncia
“ese-cu-ele”) permite a los analistas de datos hablar con sus bases de datos. SQL
es una de las herramientas de análisis de datos más útiles, especialmente cuando
se trabaja con grandes conjuntos de datos en tablas. Puede ayudarte a investigar
grandes bases de datos y rastrear texto (conocido como cadenas) y números, y
filtrar el tipo exacto de datos que necesitas, mucho más rápido que una hoja de
cálculo.
Si es la primera vez que usas SQL, esta lectura te ayudará a adquirir los conceptos
básicos para que veas lo útil que es SQL y, en particular, las consultas. Empezarás
a escribir consultas SQL en muy poco tiempo.
¿Qué es una consulta?
Una consulta es una solicitud de datos o información que proviene de una base de
datos. Cuando consultas bases de datos, usas SQL para comunicar tu pregunta o
solicitud. Puedes intercambiar información con la base de datos siempre y cuando
dominen el mismo idioma.
Cada lenguaje de programación, incluido SQL, sigue un conjunto de pautas único
que se conoce como sintaxis. La sintaxis es la estructura predeterminada de un
lenguaje, que incluye todas las palabras, los símbolos y la puntuación requeridos,
así como su correcta colocación. Cuando escribes tus criterios de búsqueda con la
sintaxis correcta, la consulta empieza a trabajar en extraer los datos que solicitaste
de la base de datos de destino.
La sintaxis de cada consulta SQL es la misma:
● Usa SELECT para elegir las columnas que deseas devolver.
● Usa FROM para elegir las tablas donde se encuentran las columnas que
deseas.
● Usa WHERE para filtrar determinada información.
Una consulta SQL es como rellenar una plantilla. Descubrirás que, si escribes una
consulta SQL desde cero, es mucho mejor iniciar una consulta escribiendo las
palabras clave SELECT, FROM y WHERE en el siguiente formato:
A continuación, escribe el nombre de la tabla después del FROM, las columnas de
la tabla que deseas después de SELECT y, por último, las condiciones que quieres
agregar a tu consulta después del WHERE. Asegúrate de agregar un nuevo renglón
y sangría cuando las agregues, como se muestra a continuación:
Seguir este método facilita el proceso de escribir consultas SQL. También puede
ayudarte a cometer menos errores de sintaxis.
Ejemplo de una consulta
Así es como aparecería una simple consulta en BigQuery, un almacén de datos de
Google Cloud Platform.
La consulta anterior usa tres comandos para localizar clientes que se llaman Tony:
1. ELEGIR (SELECT) la columna denominada nombre (first_name)
2. DESDE (FROM) una tabla denominada nombre_del_cliente
(customer_data) (en un conjunto de datos denominado nombre_del_cliente
[customer_data]) (el nombre del conjunto de datos siempre va seguido de un
punto y, a continuación, del nombre de la tabla).
3. Pero solo se devuelven los datos DONDE (WHERE) el primer_nombre
(first_name) es Tony
Los resultados de la consulta pueden ser similares a los siguientes:
first_name
Tony
Tony
Tony
En conclusión, esta consulta tenía la sintaxis correcta, pero no fue muy útil después
de la devolución de los datos.
Varias columnas en una consulta
En la vida real, tendrás que trabajar con más datos, además de los clientes
llamados Tony. El mismo comando SELECT elige varias columnas que se pueden
sangrar y agrupar.
Si solicitas varios campos de datos de una tabla, debes incluir estas columnas en el
comando SELECT. Cada columna está separada por una coma, como se muestra a
continuación:
Este es un ejemplo de cómo aparecería en BigQuery:
La consulta anterior usa tres comandos para localizar clientes que se llaman Tony:
1. ELEGIR (SELECT) las columnas denominadas id_del_cliente
(customer_id), nombre (first_name) y apellido (last_name)
2. DESDE (FROM) una tabla denominada nombre_del_cliente
(customer_data) (en un conjunto de datos denominado nombre_del_cliente
[customer_data]) (el nombre del conjunto de datos siempre va seguido de un
punto y, a continuación, del nombre de la tabla)3. Pero solo se devuelven los
datos DONDE (WHERE) el nombre (first_name) es Tony”
3. Pero solo se devuelven los datos DONDE (WHERE) el nombre (first_name)
es Tony
La única diferencia entre esta consulta y la anterior es que se eligen más columnas
de datos. La consulta anterior eligió solamente el nombre (first_name), mientras que
esta consulta elige el ID_del_cliente (customer_id) y el apellido (last_name), además
del nombre (first_name). En general, para usar los recursos de manera más
eficiente, debes elegir solo las columnas que necesitas. Por ejemplo, tiene sentido
que elijas más columnas si vas a usar los campos adicionales en tu cláusula
WHERE. Si tienes varias condiciones en tu cláusula WHERE, pueden escribirse de
la siguiente manera:
Ten en cuenta que, a diferencia del comando SELECT, que usa una coma para
separar campos/variables/parámetros, el comando WHERE usa la instrucción AND
para conectar condiciones. Cuando te conviertas en un escritor de consultas más
experimentado, usarás otros conectores u operadores, como OR y NOT.
Este es un ejemplo de BigQuery con varios campos usados en una cláusula
WHERE:
La consulta anterior usa tres comandos para localizar clientes con un ID de cliente
válido (mayor que 0) cuyo nombre es Tony, y su apellido es Magnolia.
1. ELEGIR (SELECT) las columnas denominadas id_del_cliente
(customer_id), nombre (first_name) y apellido (last_name)
2. DESDE (FROM) una tabla denominada nombre_del_cliente
(customer_data) (en un conjunto de datos denominado nombre_del_cliente
[customer_data]) (el nombre del conjunto de datos siempre va seguido de un
punto y, a continuación, del nombre de la tabla).
3. Pero solo devuelve los datos DONDE (WHERE) el ID_del_cliente
(customer_id) es mayor que 0, el nombre (first_name) es Tony y el apellido
(last_name) es Magnolia.
Ten en cuenta que una de las condiciones es una condición lógica que comprueba si
el ID_del_cliente (customer_id) es mayor que cero.
Si un cliente se llama Tony Magnolia, los resultados de la consulta podrían ser:
1967 Tony
Si hay más de un cliente con el mismo nombre, los resultados de la consulta podrían
ser:
1967 Tony Magnolia
7689 Tony Magnolia
Conclusión clave
Lo más importante es recordar cómo usar SELECT, FROM y WHERE en una
consulta. Una vez que hayas practicado cómo escribir tus propias consultas SQL
más adelante en el programa, las consultas con varios campos serán más sencillas.
Has aprendido que una consulta SQL usa SELECT, FROM y WHERE para
especificar los datos que se devolverán desde la consulta. Esta lectura proporciona
información más detallada sobre cómo estructurar las consultas, usar condiciones
WHERE, elegir todas las columnas en una tabla, agregar comentarios y usar alias.
Esta información hace que sea más fácil para ti entender (y escribir) consultas para
poner SQL en práctica. En la última sección de esta lectura, se proporciona un
ejemplo de lo que haría un analista de datos a fin de extraer los datos de los
empleados para un proyecto.
Uso de mayúsculas, sangría y punto y coma
Puedes escribir tus consultas SQL solo en minúsculas, y no tienes que preocuparte
por los espacios adicionales entre palabras. Sin embargo, el uso de mayúsculas y
sangría puede ayudarte a leer la información más fácilmente. Mantén tus
consultadas ordenadas. Serán más fáciles de revisar o solucionar si necesitas
comprobarlas más adelante.
Ten cuenta que la instrucción SQL que se muestra arriba tiene un punto y coma al
final. El punto y coma es un terminador de instrucción que forma parte de la norma
SQL-92 del Instituto Nacional Estadounidense de Estándares (ANSI), la cual es una
sintaxis común recomendada para su adopción por todas las bases de datos SQL.
Sin embargo, no todas las bases de datos SQL han adoptado o cumplido con el uso
del punto y coma, por lo que es posible que te encuentres con algunas instrucciones
SQL que no terminan con un punto y coma. Si una instrucción funciona sin punto y
coma, es correcta.
Condiciones WHERE
En la consulta que se mostró anteriormente, la cláusula SELECT identifica la
columna de la cual deseas extraer datos por nombre, field1, y la cláusula FROM
identifica la tabla donde se encuentra la columna por nombre, table. Por último, la
cláusula WHERE restringe la consulta para que la base de datos devuelva solo los
datos con una coincidencia de valor exacta, o los datos que coincidan con una
determinada condición que deseas satisfacer.
Por ejemplo, si estás buscando a un cliente específico con el apellido Chavez, la
cláusula WHERE sería:
WHERE field1 = 'Chavez'
Sin embargo, si estás buscando a todos los clientes que tienen un apellido que
empieza con las letras “Ch”, la cláusula WHERE sería:
WHERE field1 LIKE 'Ch%'
En conclusión, la cláusula LIKE es muy poderosa porque te permite decirle a la base
de datos que busque un patrón determinado. El signo de porcentaje (%) se usa
como comodín para que coincida con uno o más caracteres. En el ejemplo anterior,
se devolverían tanto Chávez como Chen. Ten en cuenta que en algunas bases de
datos se usa un asterisco (*) como comodín en lugar de un signo de porcentaje (%).
ELEGIR (SELECT) todas las columnas
¿Puedes usar SELECT * ?
En el ejemplo, si reemplazaras SELECT field1 por SELECT * , elegirías todas las
columnas de la tabla en lugar de la columna field1 sola. Desde el punto de vista de
la sintaxis, es una instrucción SQL correcta, pero debes usar el asterisco (*) con
moderación y precaución. Según cuántas columnas tenga una tabla, es posible que
elijas una enorme cantidad de datos. Si eliges demasiados datos, es posible que la
consulta se ejecute muy lentamente.
Comentarios
Algunas tablas no están diseñadas con convenciones de nomenclatura
suficientemente descriptivas. En el ejemplo, field1 era la columna del apellido de un
cliente; pero no podrías saberlo por el nombre. Un nombre más adecuado podría
haber sido algo como last_name. En estos casos, puedes agregar comentarios
junto a tu SQL para ayudarte a recordar qué representa el nombre. Los comentarios
son textos colocados entre ciertos caracteres, /* y */, o después de dos guiones (--),
como se muestra a continuación.
Los comentarios también se pueden agregar dentro o fuera de una instrucción.
Puedes usar esta flexibilidad para proporcionar una descripción general de lo que
harás, notas paso a paso sobre cómo lo lograrás y por qué estableces diferentes
parámetros o condiciones.
Mientras más cómodo te sientas con SQL, más fácil te resultará leer y comprender
las consultas de un vistazo. Aun así, nunca está de más que tengas comentarios en
una consulta para recordar lo que estás tratando de hacer. Esto también facilita que
otros usuarios entiendan tu consulta si la compartes con ellos. A medida que tus
consultas se vuelvan más complejas, esta práctica te ahorrará mucho tiempo y
energía para comprender las consultas complejas que escribiste hace meses o
años.
Ejemplo de una consulta con comentarios
Este es un ejemplo de cómo se pueden escribir los comentarios en BigQuery:
En el ejemplo anterior, se agregó un comentario antes de la instrucción SQL para
explicar qué hace la consulta. Además, se agregó un comentario junto a cada uno
de los nombres de columna para describir la columna y su uso. Generalmente, se
admiten dos guiones (--). Por lo tanto, se recomienda usarlos de manera coherente.
Puedes usar # en lugar de -- en la consulta anterior, pero # no se reconoce en todas
las versiones de SQL; por ejemplo, MySQL no reconoce #. También puedes colocar
comentarios entre /* y */ si la base de datos que estás usando lo permite.
A medida que perfecciones tus capacidades desde un punto de vista profesional,
según la base de datos SQL que uses, podrás elegir los símbolos de delimitación de
comentarios adecuados que prefieras y continuar su uso para mantener un estilo
coherente. A medida que tus consultas se vuelvan más complejas, esta práctica te
ahorrará mucho tiempo y energía para comprender las consultas complejas que
escribiste, probablemente, hace varios meses o años.
Alias
Para simplificarte la tarea, puedes asignar un nuevo nombre o alias a los nombres
de columna o tabla para que sea más fácil trabajar con ellos (y evitar la necesidad
de agregar comentarios). Esto se hace con una cláusula SQL AS. En el siguiente
ejemplo, se asigna el alias last_name a field1 y el alias customers a table.Estos
alias son válidos solo para la duración de la consulta. Un alias no cambia el nombre
real de una columna o tabla de la base de datos.
Ejemplo de una consulta con alias
Pon SQL a trabajar como analista de datos
Imagina que eres un analista de datos que trabaja para una pequeña empresa, y tu
gerente te pide algunos datos de los empleados. Tú decides escribir una consulta
con SQL para obtener lo que necesitas de la base de datos.
Quieres extraer todas las columnas: empID, firstName, lastName, jobCode y
salary. Como sabes que la base de datos no es tan amplia, usas SELECT * en
lugar de escribir el nombre de cada columna en la cláusula SELECT. Mediante esta
opción, elegirás todas las columnas de la tabla Empleado (Employee) en la cláusula
FROM.
Ahora, puedes obtener información más específica sobre los datos que deseas de la
tabla Empleado (Employee). Si deseas todos los datos sobre los empleados que
trabajan en el código de trabajo SFI, puedes usar una cláusula WHERE para filtrar
los datos en función de este requisito adicional.
Aquí usas:
Es posible que una parte de los datos de los resultados devueltos por la consulta
SQL tengan el siguiente aspecto:
empID firstName lastName jobCode salary
0002 Homer Simpson SFI 15000
0003 Marge Simpson SFI 30000
0034 Bart Simpson SFI 25000
0067 Lisa Simpson SFI 38000
0088 Ned Flanders SFI 42000
0076 Barney Gumble SFI 32000
Supongamos que observas un amplio intervalo salarial para el código de trabajo
SFI. Puede que quieras marcar a los empleados de todos los departamentos que
tienen los salarios más bajos para tu gerente. Debido a que los pasantes también
están incluidos en la tabla y tienen salarios inferiores a USD 30,000, debes
asegurarte de que los resultados te devuelvan únicamente a los empleados de
tiempo completo con salarios que sean menores que esa cantidad. En otras
palabras, deseas excluir a los pasantes con el código de trabajo INT que también
ganan menos de USD 30,000. La cláusula AND te permite analizar ambas
condiciones.
Tú creas una consulta SQL similar a la siguiente, en la cual <> significa “no es igual
a”:
Los datos obtenidos de la consulta SQL podrían ser parecidos a los siguientes (los
datos de los pasantes con el código de trabajo INT no se devuelven):
empID firstName lastName jobCode salary
0002 Homer Simpson SFI 15000
0003 Marge Simpson SFI 30000
0034 Bart Simpson SFI 25000
0108 Edna Krabappel TUL 18000
0099 Moe Szyslak ANA 28000
Al contar con un rápido acceso a este tipo de datos mediante SQL, puedes
proporcionarle a tu gerente muchas perspectivas diferentes acerca de los datos de
los empleados, por ejemplo, si los salarios que ganan los empleados en toda la
empresa son equitativos. Afortunadamente, la consulta muestra que solo dos
empleados adicionales podrían necesitar un ajuste salarial, y compartes los
resultados con tu gerente.
Extraer los datos, analizarlos e implementar una solución podría, en última instancia,
contribuir a mejorar la satisfacción y la lealtad de los empleados. Esto convierte a
SQL en una herramienta muy poderosa.
Recursos para obtener más información
Los no abonados pueden acceder a estos recursos de forma gratuita; pero, si un
sitio limita el número de artículos gratuitos por mes y tú ya alcanzaste tu límite,
marca el recurso como favorito y vuelve a él más tarde.
● Tutorial de SQL de W3Schools: Si te gustaría explorar un tutorial detallado de
SQL, este es el lugar perfecto para empezar. Este tutorial incluye ejemplos
interactivos que puedes editar, analizar y recrear. Úsalo como referencia o
completa todo el tutorial para practicar el uso de SQL. Haz clic en el botón
verde Empezar el aprendizaje de SQL ahora o en el botón Siguiente para
comenzar el tutorial.
● Hoja de referencia de SQL: Si eres un estudiante más avanzado, lee este
artículo para obtener información sobre la sintaxis SQL estándar que se usa
en PostgreSQL. Cuando finalices, sabrás mucho más sobre SQL y estarás
preparado para aplicarlo en el análisis empresarial y otras tareas.
Visualización de datos
La visualización de datos es la representación gráfica de cierta información.
Antes, aprendiste que la visualización de datos es la representación gráfica de la
información. Como analista de datos, te interesará crear visualizaciones que hagan
que tus datos sean fáciles de entender e interesantes para observar. Debido a la
importancia de la visualización de datos, la mayoría de las herramientas de análisis
de datos (como hojas de cálculo y bases de datos) tienen un componente de
visualización integrado, mientras que otras (como Tableau) se especializan en la
visualización como su principal valor agregado. En esta lectura, explorarás los
pasos que implica el proceso de visualización de datos y algunas de las
herramientas de visualización de datos más comunes disponibles.
Pasos para planificar una visualización de
datos
Veamos un ejemplo de una situación de la vida real en la que un analista de datos
podría necesitar crear una visualización de datos para compartir con los
interesados. Imagina que eres un analista de datos que trabaja para un distribuidor
de ropa. La compañía ayuda a las pequeñas tiendas de ropa a administrar su
inventario, y las ventas están en auge. Un día, te enteras de que tu compañía se
está preparando para hacer una actualización importante en su sitio web. Para guiar
las decisiones relativas a la actualización del sitio web, se te pide que analices los
datos del sitio web existente y de los registros de ventas. Revisemos los pasos que
deberías seguir.
Paso 1: Explora los datos en busca de patrones
Primero, le pides a tu gerente o al propietario de los datos acceso a los registros de
ventas actuales y a los informes de análisis del sitio web. Esto incluye información
sobre cómo se comportan los clientes en el sitio web existente de la compañía; es
decir, información básica sobre quiénes lo visitaron, quiénes compraron en la
compañía y cuánto compraron.
Mientras revisas los datos, observas un patrón entre las personas que visitan el sitio
web de la empresa con mayor frecuencia: la geografía y mayores cantidades de
dinero invertido en compras. Si se realiza un análisis más detallado, esta
información podría explicar por qué las ventas son tan fuertes en este momento en
el noreste y ayudar a tu compañía a encontrar nuevas formas de continuar
mejorándolas a través del nuevo sitio web.
Paso 2: Planifica tus imágenes
A continuación, llegó la hora de refinar los datos y presentar los resultados de tu
análisis. En este momento, tienes muchos datos distribuidos en varias tablas, y esta
no es la mejor manera de compartir tus resultados con la administración y el equipo
de Marketing. Probablemente, te interesará crear una visualización de datos que
explique los resultados a tu público objetivo de una forma rápida y efectiva. Como
sabes que tu público está orientado a las ventas, eres consciente de que la
visualización de datos que uses debería tener estas características:
● Mostrar números de ventas a lo largo del tiempo
● Conectar las ventas con la ubicación
● Mostrar la relación entre las ventas y el uso del sitio web
● Mostrar qué clientes impulsan el crecimiento
Paso 3: Crea tus imágenes
Como ya decidiste qué tipo de información y perspectivas deseas mostrar, es hora
de empezar a crear las visualizaciones reales. Ten en cuenta que crear la
visualización correcta para una presentación o para compartir con los interesados es
un proceso. Este proceso consiste en probar diferentes formatos de visualización y
hacer ajustes hasta conseguir lo que estás buscando. En este caso, una
combinación de diferentes imágenes comunicará mejor tus resultados y convertirá tu
análisis en una historia más atractiva para los interesados. Por lo tanto, puedes usar
las capacidades de diagrama que están incorporadas en tus hojas de cálculo para
organizar los datos y crear imágenes.
1) los gráficos de líneas pueden rastrear las ventas a lo largo del tiempo; 2) los
mapas pueden conectar las ventas con las ubicaciones; 3) los gráficos de donas
pueden mostrar segmentos de clientes, y 4) los gráficos de barras pueden comparar
el total de visitantes que realizan una compra.
Crea tu kit de herramientas de visualización de
datos
Hay muchas herramientas que puedes usar en la visualización de datos.
● Puedes usar las herramientas de visualización de tu hoja de cálculo para
crear visualizaciones simples, como gráficos de líneas y barras.
● Puedes usar herramientas más avanzadas, como Tableau, que te permiten
integrar datos en visualizaciones de estilo de panel.
● Si estás trabajando con el lenguaje de programación R, puedes usar las
herramientas de visualización en RStudio.
Tu elección de visualización dependerá de varios factores, incluidos el tamaño de
tus datos y el proceso que usaste para analizarlos (hoja de cálculo, bases de
datos/consultas o lenguajes de programación). Por ahora, solo considera los
conceptos básicos.
Hojas de cálculo (Microsoft Excel o Google
Sheets)
En nuestro ejemplo, los diagramas y gráficos integrados en las hojas de cálculo
facilitaron y aceleraron el proceso de creación de imágenes. Las hojas de cálculo
son excelentes para crear visualizaciones simples, como gráficos de barras y de
torta, e incluso proporcionan algunas visualizaciones avanzadas, como mapas y
diagramas de cascada y embudo (que se muestran en las siguientes figuras).
Pero, a veces, necesitas una herramienta más poderosa para darles realmente vida
a tus datos. Tableau y RStudio son dos ejemplos de plataformas muy usadas que
pueden ayudarte a planificar, crear y presentar visualizaciones de datos efectivas y
atractivas.
Software de visualización (Tableau)
Tableau es una herramienta de visualización de datos popular que te permite extraer
datos de casi cualquier sistema y convertirlos en imágenes atractivas o información
procesable. La plataforma ofrece las mejores prácticas visuales integradas, lo que
hace que analizar y compartir datos sea más rápido, fácil y (lo más importante) útil.
Tableau funciona bien con una amplia variedad de datos, e incluye un panel
interactivo que les permite tanto a ti como a tus interesados hacer clic para explorar
los datos de forma interactiva.
Puedes comenzar a explorar Tableau en los recursos de Video instructivo. Tableau
Public es gratuito, fácil de usar y contiene mucha información útil. La página
Recursos es una ventanilla única para videos instructivos, ejemplos y conjuntos de
datos con los cuales puedes practicar. Si deseas ver lo que otros analistas de datos
comparten en Tableau, visita la página Visualización del día, donde encontrarás
hermosas imágenes que varían desde la Búsqueda de planetas (habitables) hasta
Quién habla en películas populares.
Lenguaje de programación (R con RStudio)
Muchos analistas de datos trabajan con un lenguaje de programación llamado R. La
mayoría de las personas que trabajan con R también terminan usando RStudio, un
entorno de desarrollo integrado (IDE), para satisfacer sus necesidades de
visualización de datos. Al igual que con Tableau, puedes crear visualizaciones de
datos de estilo panel con RStudio.
Visita su sitio webpara obtener más información sobre RStudio.
Seguramente, pasarías días explorando todos los recursos que se proporcionan en
RStudio.com, pero las Hojas de referencia de RStudio y la Guía de iniciación a la
visualización de datos de RStudio son excelentes lugares para empezar. Cuando
tengas más tiempo, consulta los videos y seminarios web que ofrecen consejos y
perspectivas útiles para usuarios principiantes y avanzados.
Conclusión clave
Los mejores analistas de datos usan una gran variedad de herramientas y métodos
para visualizar y compartir sus datos. A medida que vayas aprendiendo más sobre
la visualización de datos durante este curso, mantén la curiosidad, investiga
diferentes opciones y prueba continuamente nuevos programas y plataformas que te
ayuden a aprovechar tus datos al máximo.
Posibilidades profesionales infinitas
Issue - asunto o tema para investigar.
Pregunta - está diseñada para descubrir información.
Problem - obstáculo o complicación que es necesario resolver.
Tarea empresarial - es la pregunta o el problema que el análisis de datos responde
para las empresas.
En el área de análisis de datos, equidad significa garantizar que tu análisis no introduzca ni
refuerce sesgos. Esto requiere el uso de procesos y sistemas que sean justos e inclusivos.
Por ejemplo, una empresa quiere ver qué empleados hacen un buen trabajo y los datos
demuestran que los hombres son las únicas personas que tienen éxito. Esta no es una
conclusión equitativa por varias razones, como que no se tienen en cuenta otros factores
sobre la cultura de la empresa o no se piensa en otros factores que afectan a los datos
(dificultades de otros géneros para desempeñarse en un entorno laboral tóxico). La
conclusión de que los hombres tienen más éxito en esta empresa es cierta, per ignora otros
factores sistemáticos que contribuyen al problema. Un analista de datos ético, lo que
debería concluir aquí entonces, es que la cultura de la empresa impide que algunos
empleados tengan éxito.
Es importante garantizar que el análisis sea equitativo y que los hechos se encuentren en el
complicado contexto social que podría generar sesgos en las conclusiones.
Los analistas de datos pueden garantizar la equidad teniendo en cuenta las muestras de
población inclusivas, el contexto social y los datos autoinformados.
A medida que la tecnología avanza, poder recopilar y analizar los datos de esa
nueva tecnología se ha convertido en una enorme ventaja competitiva para muchas
empresas. Todo, desde sitios web hasta la alimentación de redes sociales, está
repleto de datos fascinantes que, cuando se analizan y usan correctamente, pueden
ayudar a fundamentar las decisiones empresariales. Ahora, la capacidad de una
empresa para prosperar depende a menudo de cómo puede aprovechar los datos,
aplicar el análisis e implementar nuevas tecnologías.
Por eso, los analistas de datos calificados son algunos de los profesionales más
solicitados en el mundo. En un estudio realizado por IBM, se estimó que las
empresas de los Estados Unidos cubrirán 2,720,000 puestos de trabajo en Ciencia
de Datos y Análisis de Datos para 2020*. Debido a que la demanda es tan elevada,
podrás encontrar oportunidades de trabajo en prácticamente cualquier industria. Haz
una búsqueda rápida en cualquier sitio de trabajo importante y notarás que todos los
tipos de negocios, desde zoológicos hasta clínicas de salud y bancos, buscan
profesionales de datos talentosos. Incluso si el puesto no utiliza el término exacto
«analista de datos», la descripción del puesto para la mayoría de las funciones
relacionadas con el análisis de datos probablemente incluirá muchas de las
habilidades y calificaciones que obtendrás al final de este programa. En esta lectura,
exploraremos algunas de las funciones relacionadas con los analistas de datos que
puedes encontrar en diferentes empresas e industrias.
* «El crujido cuántico: cómo la demanda de habilidades en Ciencia de Datos está
alterando el mercado laboral», de Will Markow, Soumya Braganza y Bledi Taska,
con Steven M. Miller y Debbie
Hughes.https://www.ibm.com/downloads/cas/3RL3VXGA
Decodificación de la descripción del puesto
La función de analista de datos es uno de los muchos puestos de trabajo que
contienen la palabra «analista».
Nombraré algunos otros que suenan similares, pero que pueden no tener la misma
función:
● Analista de negocios: analiza los datos para ayudar a las empresas a mejorar
los procesos, productos o servicios
● Analista de inteligencia empresarial: analiza los datos para obtener
información financiera o del mercado
● Consultor en análisis de datos: analiza los sistemas y modelos para el uso de
datos
● Ingeniero de datos: prepara e integra datos de diferentes fuentes para uso
analítico
● Científico de datos: utiliza habilidades expertas en tecnología y ciencias
sociales para encontrar tendencias a través del análisis de datos
● Especialista en datos: organiza o convierte los datos para utilizarlos en bases
de datos o sistemas de software
● Analista de operaciones: analiza los datos para evaluar el rendimiento de las
operaciones y los flujos de trabajo del negocio
Analista de datos, científico de datos y especialista en datos suenan muy similares,
pero se centran en tareas diferentes. A medida que empieces a buscar ofertas de
empleo en línea, podrás notar que las descripciones de puestos de las empresas
parecen combinar estas funciones o buscar candidatos que puedan tener
habilidades superpuestas. El hecho de que las empresas a menudo desdibujen las
líneas entre ellas significa que debes tener especial cuidado al leer las
descripciones de los puestos de trabajo y las habilidades requeridas.
La tabla siguiente ilustra algunos de los solapamientos y las distinciones entre ellas:
Decodificación de la descripción del puesto
Analistas de Científicos de Especialistas de
datos datos datos
Resolución de Utilizar las Inventar nuevas Utilizar un
problemas herramientas y herramientas y conocimiento
los métodos modelos, profundo de las
existentes para plantear bases de datos
resolver preguntas como
problemas con abiertas y herramienta para
los tipos de datos recopilar nuevos resolver
existentes tipos de datos problemas y
administrar datos
Análisis Analizar los datos Analizar e Organizar
recopilados para interpretar datos grandes
ayudar a los complejos para volúmenes de
interesados a hacer datos para
utilizarlos en
tomar mejores predicciones análisis de datos
decisiones comerciales u operaciones
empresariales
Otras habilidades
relacionadas
Usamos la función de especialista en datos como ejemplo de muchas
especializaciones dentro del área de análisis de datos, pero no tienes que
convertirte en especialista en datos. Las especializaciones pueden tomar varios
caminos diferentes. Por ejemplo, podrías especializarte en el desarrollo de
visualización de datos y asimismo profundizar mucho en esa área.
Especializaciones laborales por industria
Aprendimos que la función de especialista en datos se concentra en el conocimiento
profundo de las bases de datos. De manera similar, otras funciones especializadas
de los analistas de datos pueden centrarse en el conocimiento profundo de
industrias específicas. Por ejemplo, en un trabajo como analista de negocios puedes
cumplir roles diferentes a los de un puesto más general como analista de datos.
Como analista de negocios, es probable que colabores con los gerentes, compartas
tus hallazgos de datos y, tal vez, expliques cómo un pequeño cambio en el sistema
de gestión de proyectos podría ahorrarle a la empresa un 3% cada trimestre. Si bien
seguirías trabajando con datos todo el tiempo, te centrarías en utilizar los datos para
mejorar las operaciones empresariales, la eficiencia o los resultados finales.
Otros puestos de especialistas específicos de la industria que puedes encontrar en
la búsqueda de empleo de analista de datos incluyen los siguientes:
● Analista de marketing: analiza las condiciones del mercado para evaluar las
ventas potenciales de productos y servicios
● Analista de recursos humanos y nóminas: analiza los datos de nómina en
busca de ineficiencias y errores
● Analista financiero: analiza el estado financiero mediante la recopilación, el
monitoreo y la revisión de datos
● Analista de riesgos: analiza documentos financieros, condiciones económicas
y datos de clientes para ayudar a las empresas a determinar el nivel de
riesgo que implica tomar una decisión empresarial concreta
● Analista sanitario: analiza los datos médicos para mejorar el aspecto
empresarial de los hospitales y las instalaciones médicas
Conclusión clave
Explora las descripciones de los puestos de trabajo de los analistas de datos y las
funciones específicas de la industria. Empezarás a tener una mejor idea de los
diferentes trabajos de analista de datos que existen y qué tipos de funciones te
interesan más.
Flashcards
What is data-driven decision-making? Using facts to guide business strategy.
What is a data ecosystem? A group of elements that interact with one another to
produce,manage, store, organize, analyze and share data.
What is the difference between data scientists and data analysts? Data scientists create new
questions using data, while analysts find answers to existing questions by creating insights
from data sources.
What is decision intelligence? A combination of applied data science and social/managerial
sciencies.
What is data analysis? The collection, transformation, and organization of data in order to
draw conclusions, make predictions, and drive informed decision-making.
What are the phases of the data analysis process? Ask, prepare, process, analyze, share
and act.
Why are data analysts in high demand? Data analysts are in high demand because they
help business control the waves of data they collect every day,make sense of it,and turn it
into insights that lead to action.
What are the different processes for data analysis covered in the google data analytics
certificate? ask, prepare, process, analyze, share and act.
What are the three disciplines that make up data science? machine learning, statistics and
analytics.
Who are subject matter experts? People who are familiar with the business problem and can
validate choices being made.
What is the five Whys? A process where you ask 'why' five times to reveal the root cause of
a problem.
What is data strategy? The management of people,processes and tools used in data
analysis.
What are the five aspects of analytical thinking? visualization, strategy, problem-orientation,
correlation, and big-picture and detail-oriented thinking.
What are the five essential skills of a data analyst? Curiosity, understanding context,
technical mindset, data design and data strategy.
What is analytical thinking? Analytical thinking involves identifying and solving problems
using data in an organized, step-by-step manner.
What are the five key characteristics of data analysts? analytical, curious, detail-oriented,
problem solver ad good communicator.
What is data-driven decision-making? Using facts to guide business strategy.
What are the five key skills for a data analyst? communication, technical expertise, analytical
thinking, creativity and business acumen.
What are the five essential points of analytical skills? curiosity, understanding context,
having a technical mindset, data design and data strategy.
What did data analysts research in the nonprofit sector? How journalists can make a more
meaningful impact for the nonprofits they write about.
How can asking the right questions impact a business? Asking the right questions can have
a huge impact on the overall success of a business.
What are analytical skills? Qualities and characteristics associated with solving problems
using facts.
What are the five essential analytical skills? curiosity, understanding context, having a
technical mindset, data design and data strategy.
Why is data-driven decision-making usually more successful than other methods? Because
it is based on evidence and facts, rather than assumptions or personal biases.
What was the purpose of Google's people analytics team? To determine if there was value in
having managers and what makes a great manager.
Can you develop skills for both big-picture and detail-oriented thinking? Yes, you can always
develop the skills to fit both pieces together.
What is the process step in the data analysis process? The process step involves finding
and eliminating errors and inaccuracies in the data, cleaning and transforming it, and
checking for completeness and correctness.
What is the most critical part of an employee engagement survey? Acting on the results to
introduce interventions at both the organization and team level.
What is the purpose of the archive phase? To store data that may not be used again but is
still available.
What are the most common tools used by data analysts? spreadsheets, query languages
and visualization tools.
What are the phases of the data life cycle? plan, capture, manage,analyze, archive and
destroy.
What is the hardest thing about analyzing data? As analysts, we are trained to look for
patterns, but we must let the data speak for itself.
What is the share phase in data analysis? The share phase is when data analysts interpret
results and share them with stakeholders to make effective data-driven decisions.
What is SQL? A structured query language that allows data analysts to communicate with a
database and retrieve and manipulate data.
What are some tools used in data analysis? Spreadsheets and structured query language
(SQL) are two powerful tools used in data analysis.
What is the first step in data analysis? asking the right questions at the beginning of the
engagement.
What is the first step in the data analysis process? The first step is the ask phase, where the
problem to be solved is defined and stakeholder expectations are understood.
What are the phases of the data analysis process? Ask, prepare, process, analyze, share
and act.
What is the role of an analyst in data storytelling? To amplify and tell the story of the data in
an unbiased and objective way.
What are some examples of data analysis tools? spreadsheets, databases, query languages
and visualization software.
Who was Florence Nightingale? A data analyst who used visualization to improve patient
care during the Crimean War.
What is data visualization? The dessert to the meal of data analytics, served at the end of
the analysis as a visual representation of data.
What is the structure of a basic SQL query? Select, from and where.
What is an attribute in a spreadsheet? A characteristic or quality of a data used to label a
column in a table.
What is data visualization? Graphical representation of information.
What are the three main features of a spreadsheet? Cells, rows and columns.
What are data visualizations? Pictures that make data come alive.
Why are interactive data visualization important? They can support points of view and make
decisions a no-brainer.
what is a formula in a spreadsheet? A set of instructions that performs a specific action using
the data in a spreadsheet.
What are the three valuable tools for a budding data analyst? Spreadsheets, SQL and data
visualization know-how.
What i the purpose of sorting data in a spreadsheet? to organize the data in a specific order
based on a chosen attribute, such as sorting by the number of siblings each person has.
What is SQL? A query language used to store, organize and analyze data.
What industries use data analytics? Technology, marketing, finance, healthcare and more.
What is the importance of asking questions as a data analyst? Asking questions helps to
avoid making assumptions that can lead to mistakes.
What does fairness mean in data analysis? Ensuring that analysis doesn't create or reinforce
bias.
What are some factors to consider when searching for a job in data analytics? Industry,
tools, location, travel and culture.
What is the ethical AI team concerned about? The ethical AI team is concerned about how
AI interacts with society and how it might help or harm marginalized communities.
What is a tip for preparing for an in-person interview as a data analyst? Prepare questions
for the interviewer that will help you understand the team and job better.
What is the role of a finance data analyst? To turn financial information into reports and
insights for business leads.
What is a business task? A question or problem data analysis answers for business.
What is the core skill set that a generalist should develop in the first two years of their
career? Developing the core skill sets that make them a fantastic generalist.
What is data-driven decision-making? Using facts discovered through data analysis to guide
business strategy.
Why is it important to consider your interests when searching for a job in data analytics? It
will lead you in the right direction and help you stand out in interviews.
What is data ethics? Is about the good and right way of using data and how to improve the
lives of people by using data while minimizing harm and maximizing beneficence.
Why is it important to understand data and know how to work with it? Because every role in
some form or fashion will involve data and its use in learning how to extract insights from it
will be at the core of any critical role across any company organization.
What is REWS? Real estate and workplace services.
What did the team do to avoid potential racial bias in their study? They collected
self-reported data in a separate system.
Why is it important to consider fairness in data analysis? To create systems that are fair and
inclusive to everyone and to avoid harmful conclusions.
How did the team ensure their sample population was representative? They oversampled
non-dominant groups.