Está en la página 1de 4

MCI – Guía de trabajo

Organización y limpieza de la información – tidy data

Contexto
Esta guía da las instrucciones para el trabajo que haremos en clase. Si no pueden seguir el trabajo,
o quieren repasarlo, usen esta guía porque aquí están todos los pasos.

Requisitos
Es importante haber consultado la lectura de Data-preprocessing, y ojalá la de Tidy Data, que
pueden encontrar en el Bloc de notas del curso, en la lista general de recursos.

Parte I – Detectar y corregir problemas de tidiness


Supongamos que, como parte de un proyecto de investigación, nos asignan la tarea de hacer una
infografía sobre las pandemias más fuertes de la historia. Para esta parte vamos a ir al “mundo
real”, y ver una tabla de Wikipedia que nos muestra justo lo que necesitamos – vayan a
https://en.wikipedia.org/wiki/List_of_epidemics

Examinemos la tabla. Tiene el nombre de la pandemia (event), las fechas en las que se presentó
(date), dónde (location), cuál fue el agente infeccioso responsable (disease), cuántas personas
mató (death toll) y un campo para la referencia. Vamos a trabajar un poco con esto y a aprender
sobre epidemias, de paso.

Paso 1. Convertir esta tabla en algo que podamos manejar


Usaremos una página web que convierte las tablas de Wikipedia en formato CSV (Comma-
separated values, un formato que todos los programas estadísticos entienden). Vayan a
https://wikitable2csv.ggor.de y pongan la dirección de la página de Wikipedia (la que está arriba)
en donde dice Page URL y hagan clic en Convert:

Luego abajo hagan clic en Download, y la tabla debe descargarse a sus equipos. Recuerden donde
se descargó, inicien la aplicación Statscloud (http://statscloud.app) e importen el archivo usando
el botón Import. Statscloud les preguntará si tienen una cabecera, digan que sí:
Parte 2. Identificar y corregir los problemas de tidiness
Revisen por favor la lectura asignada sobre pre-procesamiento de datos o la presentación antes de
seguir, para que recuerden en qué consisten los problemas. Recuerden que podemos tener
problemas de suciedad (se resuelve con limpieza), desintegración (se resuelve con integración),
lenguaje no común (se resuelve con transformación) e inflación (se resuelve con reducción).

Problema 1 - Redundancia. El primer problema muy obvio es de redundancia: hay una información
que no nos sirve, que son las referencias (porque no las podemos analizar, no están de una forma
que podamos usar). Vamos entonces a la pestaña Variables (en la cinta de la izquierda),
seleccionemos Ref y en la parte inferior derecha Delete Variable. La operación que hicimos fue
reducir.

Problema 2 – Lenguaje común. Ahora miremos las otras variables. Todas tienen un nivel de
medición nominal (lo saben porque a la izquierda de cada variable hay un cuadrito de texto). Eso
no debe ser así. Por ejemplo, el número de muertos debería ser un número - ¿por qué es un
texto? Vamos a la pestaña Datos otra vez y veamos dónde está nuestro problema.

Ok, aquí se ve fácilmente. No son solamente números – algunos son “Unknown”


(desconocido), otros son rangos (75 000 – 100 000) y otros son textos
claramente (1 millón +). Así no podemos sacar información útil. Si quisiéramos
hacer una gráfica, por ejemplo y fuéramos a Charts, no tendríamos variables con
nivel de medición que lo permitiera y no nos saldría nada.

¿Qué hacemos? Este es un problema de lenguaje no común, y lo resolveremos


con transformación. Primero vamos a hacerla manualmente, aunque esta no es
la forma como se hace siempre.

Usen el botón Insert en la parte de arriba de Statscloud para añadir una columna
después de la variable Death toll. En esta columna nueva vamos a poner la menor
cifra de muertos estimada. Por ejemplo, en la plaga de Atenas murieron, según la
tabla, entre 75.000 y 100.000 personas, entonces en esta nueva variable vamos a
poner 75000. No usen puntos ni comas, solamente pongan la cifra en unidades. La
siguiente fue la plaga Antonina, que mató, según la tabla, entre 5 y 10 millones de
personas. Aquí vamos a poner el límite inferior nuevamente: 5000000. Completen la
tabla. Si van bien, debe empezar a verse como está a la derecha.

Esto tomará un tiempo, pero es importante que lo practiquen.


Problema 3 – Suciedad. El principal problema con el cual quedamos es de suciedad. Hay muchos
datos perdidos, es decir muchos números desconocidos (“Unknown”), y muchos otros que no se
sabe bien cuáles son las cifras de muertos. ¿Qué podríamos hacer? Pues habría tres soluciones:

- La primera no es exactamente una solución, pero es simplemente ignorar los datos


perdidos y trabajar con lo que tenemos
- La segunda es completar la información. Ir a otras fuentes (libros, artículos, personas
expertas) a ver si podemos completar los datos.
- La tercera es imputar, es decir, poner un valor que sea más o menos aproximado a la
realidad. Esto lo podemos hacer de muchas formas porque hay muchas estrategias para
descubrir estos valores aproximados. Una forma fácil de hacerlo es ponerle la mediana de
las cifras que tenemos a las que no tenemos. Por ejemplo, como la mediana de nuestras
epidemias es 4500 muertos, le pondríamos esa cifra a todos los datos incompletos.

Sin embargo, parece que aquí solamente podemos hacer una cosa: ignorar la información
incompleta, con todo lo que ello conlleva.

Otro problema de suciedad es el que tenemos con las ubicaciones. Algunas ubicaciones son
solamente un país (ej. “Japón”), pero otras son regiones (“Mesopotamia”) o una combinación de
regiones (“Europa, Asia y Norteamérica”). Para poder tener una base bien limpia deberíamos
tener estas separadas. Lo mismo las fechas: deberíamos tener una “fecha de inicio” y una “fecha
de finalización”, y no un rango en una sola columna, pero estos ya son bastantes problemas y nos
tomaría mucho tiempo arreglarlos. Lo haremos en otro momento.

No tenemos problemas de integración porque toda la información la tenemos en una sola base de
datos.

Parte 3. Ajustes últimos de los datos


Muy bien, ya podemos tener algunas indicaciones sobre las personas que murieron en todas estas
epidemias. Primero elijamos solamente los datos que podemos visualizar. Vayan a Filters y ajusten
como está en la caja, para que en los análisis no tengamos los datos “Unknown”:

Luego cambiemos los niveles de medición de las variables. Vayan a Variables y cambien Event a
nominal.

Parte 4. Hacer gráficos


Bien, vamos a visualizar algo de los datos. Vamos a Charts y Bar. Pongamos Event en las Barras
(Bars) y nuestra variable nueva de muertes en las medidas (Measures). Para que no tengamos una
gráfica tan grande, elijamos solamente algunas plagas en el evento. Dejen solamente algunas, como
las que están en la gráfica, por ejemplo, y luego denle clic en Build Chart. Los ajustes deberían
quedar así:
Intenten ahora jugar con los esquemas de colores de la gráfica, los tipos de letra y encuentren un
esquema que les guste. También pueden intentar hacer una gráfica de barras horizontales y decidir
qué les gusta más para esta gráfica.

Trabajo adicional
Para practicar un poco nuestras habilidades para traer datos, identificar problemas y resolverlos,
quisiera que vayan a la lista de listas de Wikipedia
(https://en.wikipedia.org/wiki/List_of_lists_of_lists). De ahí busquen y elijan una que tenga una
tabla, o que tenga datos que ustedes puedan meter en una tabla. Tráiganla al convertidor de tablas,
luego a Statscloud y hagan un pequeño reporte de los problemas de suciedad, desintegración,
inflación y lenguaje no común que les puedan encontrar, y cómo los corregirían – no es necesario
que los corrijan directamente por ahora, solamente que digan que harían.

Envíen ese reporte, junto con el enlace de la tabla (o si quieren el archivo con la tabla) como
respuesta a esta actividad.

También podría gustarte