Documentos de Académico
Documentos de Profesional
Documentos de Cultura
G2 - Tidy Data
G2 - Tidy Data
Contexto
Esta guía da las instrucciones para el trabajo que haremos en clase. Si no pueden seguir el trabajo,
o quieren repasarlo, usen esta guía porque aquí están todos los pasos.
Requisitos
Es importante haber consultado la lectura de Data-preprocessing, y ojalá la de Tidy Data, que
pueden encontrar en el Bloc de notas del curso, en la lista general de recursos.
Examinemos la tabla. Tiene el nombre de la pandemia (event), las fechas en las que se presentó
(date), dónde (location), cuál fue el agente infeccioso responsable (disease), cuántas personas
mató (death toll) y un campo para la referencia. Vamos a trabajar un poco con esto y a aprender
sobre epidemias, de paso.
Luego abajo hagan clic en Download, y la tabla debe descargarse a sus equipos. Recuerden donde
se descargó, inicien la aplicación Statscloud (http://statscloud.app) e importen el archivo usando
el botón Import. Statscloud les preguntará si tienen una cabecera, digan que sí:
Parte 2. Identificar y corregir los problemas de tidiness
Revisen por favor la lectura asignada sobre pre-procesamiento de datos o la presentación antes de
seguir, para que recuerden en qué consisten los problemas. Recuerden que podemos tener
problemas de suciedad (se resuelve con limpieza), desintegración (se resuelve con integración),
lenguaje no común (se resuelve con transformación) e inflación (se resuelve con reducción).
Problema 1 - Redundancia. El primer problema muy obvio es de redundancia: hay una información
que no nos sirve, que son las referencias (porque no las podemos analizar, no están de una forma
que podamos usar). Vamos entonces a la pestaña Variables (en la cinta de la izquierda),
seleccionemos Ref y en la parte inferior derecha Delete Variable. La operación que hicimos fue
reducir.
Problema 2 – Lenguaje común. Ahora miremos las otras variables. Todas tienen un nivel de
medición nominal (lo saben porque a la izquierda de cada variable hay un cuadrito de texto). Eso
no debe ser así. Por ejemplo, el número de muertos debería ser un número - ¿por qué es un
texto? Vamos a la pestaña Datos otra vez y veamos dónde está nuestro problema.
Usen el botón Insert en la parte de arriba de Statscloud para añadir una columna
después de la variable Death toll. En esta columna nueva vamos a poner la menor
cifra de muertos estimada. Por ejemplo, en la plaga de Atenas murieron, según la
tabla, entre 75.000 y 100.000 personas, entonces en esta nueva variable vamos a
poner 75000. No usen puntos ni comas, solamente pongan la cifra en unidades. La
siguiente fue la plaga Antonina, que mató, según la tabla, entre 5 y 10 millones de
personas. Aquí vamos a poner el límite inferior nuevamente: 5000000. Completen la
tabla. Si van bien, debe empezar a verse como está a la derecha.
Sin embargo, parece que aquí solamente podemos hacer una cosa: ignorar la información
incompleta, con todo lo que ello conlleva.
Otro problema de suciedad es el que tenemos con las ubicaciones. Algunas ubicaciones son
solamente un país (ej. “Japón”), pero otras son regiones (“Mesopotamia”) o una combinación de
regiones (“Europa, Asia y Norteamérica”). Para poder tener una base bien limpia deberíamos
tener estas separadas. Lo mismo las fechas: deberíamos tener una “fecha de inicio” y una “fecha
de finalización”, y no un rango en una sola columna, pero estos ya son bastantes problemas y nos
tomaría mucho tiempo arreglarlos. Lo haremos en otro momento.
No tenemos problemas de integración porque toda la información la tenemos en una sola base de
datos.
Luego cambiemos los niveles de medición de las variables. Vayan a Variables y cambien Event a
nominal.
Trabajo adicional
Para practicar un poco nuestras habilidades para traer datos, identificar problemas y resolverlos,
quisiera que vayan a la lista de listas de Wikipedia
(https://en.wikipedia.org/wiki/List_of_lists_of_lists). De ahí busquen y elijan una que tenga una
tabla, o que tenga datos que ustedes puedan meter en una tabla. Tráiganla al convertidor de tablas,
luego a Statscloud y hagan un pequeño reporte de los problemas de suciedad, desintegración,
inflación y lenguaje no común que les puedan encontrar, y cómo los corregirían – no es necesario
que los corrijan directamente por ahora, solamente que digan que harían.
Envíen ese reporte, junto con el enlace de la tabla (o si quieren el archivo con la tabla) como
respuesta a esta actividad.