Está en la página 1de 2

Actividad

Analista de datos [Nivel 1]


Lección 3 / Actividad 1
Limpia datos

IMPORTANTE

Para resolver tu actividad, guárdala en tu computadora e imprímela.

Si lo deseas, puedes conservarla para consultas posteriores ya que te sirve


para reforzar tu aprendizaje. No es necesario que la envíes para su revisión

Propósito de la actividad

Identificar los errores plasmados en los set de datos para corregirlos con el uso
del software de limpieza.

Practica lo que aprendiste

I. Entra al siguiente link y descarga el software de limpieza de datos.

http://openrefine.org/download.html

• Elige la descarga que corresponda al sistema operativo de tu


computadora
 Descomprime el archivo y abre el ejecutable

El software estará corriendo en el navegador de internet que tengas


predefinido.

II. Descarga el set de datos del siguiente enlace:

https://drive.google.com/open?id=0B-Wr3Aycg5TLeURKT2FTOGNLTm8

En el software de limpieza crea un nuevo proyecto para limpiar el


archivo en .CSV que acabas de descargar y agrupa nombres
similares, para reducir el número de registros
Actividad

III. Descarga el set de datos del siguiente enlace:

https://drive.google.com/open?id=0B-Wr3Aycg5TLTE1oUXdUREt1Znc

En el software de limpieza crea un nuevo proyecto para limpiar el


archivo en .CSV que acabas de descargar y sigues estos pasos:

1. Elimina la información basura utilizando la función “Facet”


2. Elimina los registros repetidos
3. Elimina los registros en blanco

IV. Utiliza expresiones regulares para resolver el siguiente problema

Descarga el siguiente archivo html y con ayuda de expresiones


regulares completa el siguiente programa en Python para filtra todos
los email y los números telefónicos se contenga el archivo.

Apáyate de la siguiente página que te permitirá probar tus


expresiones regulares:

http://www.regexpal.com/

Código:

import re

archivo = open("Ruta y nombre del archivo", "r")


contenido = archivo.read()
arregloMails = re.findall(r’Expresión Regular Emails', contenido)
cuenta = 0
for mail in arregloMails:
print(mail)
arregloTelefono = re.findall(r’Expresión Regular Telefonos', contenido)
cuenta = 0
for tel in arregloTelefono:
print(tel)

También podría gustarte