Está en la página 1de 1

Antes de iniciar con Data Science, se nos presenta una interrogante que vale la pena responder, ¿qué

deberíamos extraer? La extracción de datos en la web no es legal en todos los sitios o en todos los
países, por lo tanto, el primer paso del proyecto fue definir periódicos o diarios que permitan el scraper
o que no esté contemplado en sus políticas de uso. Por ética, cada artículo extraído siempre va a tener
un en enlace en la que pueden leer la nota original.

En lo que respecta a DS, se uso 100% python para realizar el scraper de los periódicos. Este lenguaje es
muy práctico y sencillo de utilizar, puesto que su sintaxis es muy similar al lenguaje humano, por lo
que haremos tareas muy complejas con muy pocas líneas de código.

Un scraper es básicamente un extractor de información. Nuestro proyecto utiliza un archivo de


configuración en formato yaml en la que están almacenadas las rutas xpath de cada item que se está
extrayendo.

Xpath es la ruta en la que existe un elemento dentro de una página web. El tener la ruta xpath nos
permite facilitar la extracción de la información. Podríamos imaginarlo como un mapa del tesoro, en la
que la X marca el sitio, similar con las rutas Xpath, la ruta nos índica qué elemento vamos a extraer.

Para evitar que se extraigan 2 veces el mismo artículo, se utilizo la persistencia de la información, la
primera vez que se ejecuta el scraper crea inmediatamente 2 documentos planos, uno que contiene
todas las urls que ya se han extraído, y otro que contiene la lista de categorías, de esta manera,
garantizamos que NUNCA vamos a extraer 2 veces el mismo artículo o la misma categoría.

Nuestro proyecto utiliza las 3 fases que todo ingeniero de datos debe seguir para extraer o minar
información.

La primera fase es la fase de extracción, en la que se extrajo la información más relevante de cada
artículo disponible de los periódicos.

La segunda fase es la transformación, consiste en eliminar artículos sin título y sin contenido, y
enriquecimiento de la información. El enriquecimiento consiste en utilizar la información disponible
para llenar los campos que se enviaron vacíos.

Ahora, una vez transformada la información, pasamos a la fase final, la cual consiste en la carga de la
información, para nuestro proyecto, esta carga se realiza en una base de datos no relacional en
mongodb.

También podría gustarte