Está en la página 1de 5

30/6/2016

Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder

An Open Knowledge Foundation Site


Inicio

Acerca de

Aprende

Blog

Experiencias

School of Data

Introduccin a la extraccin de datos de


sitios web: scraping
Contents

[hide]

Recibe actualiz
datos por corre

direccin de co
Suscribir

1 Introduccin a la extraccin de datos de sitios web: scraping


2 Introduccin
3 Scraping en 5 minutos usando Google Spreadsheets y Google Chrome
3.1 Pasos
3.2 Reto
3.3 Tip

Entradas rec

4 Scraping ms de una pgina web: Scraperwiki


4.0.1 La estructura de la limpieza de datos o scraper

Otra alternativa
Excel

4.1 Cundo debo hacer la inversin para aprender a hacer scraping?


4.2 Resumen
5 Lecturas complementarias (en ingls)

Estado de los d
Radiografa de

OCR con FineRe

Una nueva herr

Introduccin a la extraccin de datos de sitios web: scraping


Scraping es un trmino que, traducido al espaol, literalmente quiere decir rascado. Sin
embargo, en este contexto, se reere a la limpieza y ltro de los datos.

Introduccin
Muchas veces los datos no estn a un clic, como nos gustara. O estn en formatos que no
siempre sabemos manejar. La mayora de los datos no estn siquiera en un formato
uniforme. Cmo le podras hacer si quieres usar los datos para combinarlos con otra base
de datos y analizarlos de manera independiente?
El scraping al rescate!
Scraping es un mtodo que te permite extraer datos escondidos en un documento, como
pginas web y PDF, y los hace tiles para usarlos despus. Es fcil de llevar a cabo, y para
hacer scraping, afortunadamente no tienes que saber nada de programacin.
Para explicarte como hacer scraping, usaremos Google Chrome. Otros servidores tambin
son tiles; sin embargo, estaremos usando una aplicacin exclusiva de Chrome.

Scraping en 5 minutos usando Google Spreadsheets y


Google Chrome

http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/

1/5

30/6/2016

Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder

Google Chrome
Conocer la estructura de una pgina web es el primer paso para extraer y usar los datos.
Pasa tus datos a una hoja de clculo para que los uses despus. Una manera muy fcil de
hacer esto es con una frmula en Google Spreadsheets.
Ahorra miles de horas copiando y pegando con el comando ImportHTML en Google
Spreadsheets. Es maravilloso!

Pasos
Para que puedas completar la prxima tarea, entra a las siguientes direcciones:
1. Extracting data from HTML tables(en ingls)
2. Scraping usando laScraper Extension for Chrome.

Los dos mtodos sirven para:


Extraer listas o tablas de una sola pgina web.
El segundo link te puede traer ms problemas, ya que debes usar informacin cruzada.
Revisa los tips para que te ds una mejor idea.
Si no entiendes:
Extrae datos de muchas bases de datos de diferentes pginas web.

Reto
Tarea: Encuentra una pgina web con una tabla y obtn informacin de ella.

Tip
Una vez que tengas la tabla en tu hoja de clculo, lo ms seguro es que quieras jugar con
los datos o cambiarlos de hoja. Haz clic en el botn superior izquierdo y selecciona paste
special (pegado especial) y luego paste values only (pegar slo valores).

Scraping ms de una pgina web: Scraperwiki

http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/

2/5

30/6/2016

Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder

Scraping ms de una pgina web: Scraperwiki


Nota: Antes de instalarte en el modo scraping, primero debes entender cmo son las
pginas web. Lee Introduction to HTML recipe(en ingls) en el manual.
Hasta ahora, slo hemos utilizado datos de una sola pgina web. Y qu si son ms? O si
quieres limpiar los datos de una base compleja? Tienes que aprender un poco de
programacin.
Va ms all de las metas de este tutorial ensearte a hacer scraping. El objetivo es
ayudarte a entender que vale mucho invertir tu tiempo en la investigacin y el estudio de
las herramientas que te hacen la vida ms fcil para cumplir con este gran objetivo.

La estructura de la limpieza de datos o scraper


Scrapers se compone de tres partes:
1. De una pgina web para hacer scraping;
2. Un lugar donde puedas guardar tus datos: por ejemplo, una base de datos;
3. Un downloader y un analizador que agregue URLs a la informacin contenida en la
base de datos.
Afortunadamente, existe una pgina web para programar scrapers: ScraperWiki.com

ScraperWiki tiene dos funciones principales: Puedes escribir scrapers que son opcionales,
y los datos estn disponibles para cualquiera o los puedes pedirlos. Esta opcin no es
gratuita, pero te podrs poner en contacto con la comunidad de Scraperwiki (Google
Group), y alguno de sus miembros podra interesarse en tu proyecto y ayudarte. Si te
interesa escribir scrapers con Scraperwiki, dale un vistazo a estos ejemplos depura
algunos datos del parlamento Parliament. Haz clic en View source para ver ms detalles.
Tambin checa los docuemntos de Scraperwiki enhttps://scraperwiki.com/docs/python/

Cundo debo hacer la inversin para aprender a hacer scraping?


Algunas razones (aunque hay ms!):
http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/

3/5

30/6/2016

Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder

1. Si tienes que extraer datos de una sola pgina que contenga muchas tablas y, por lo
tanto, muchos nmeros.
2. Si tu informacin est dispersa en mltiples bases de datos, o si la informacin es
liberada cada semana o mes.
3. Si quieres recibir alertas de email si cambian las base de datos que generalmente usas.
4. Y si no le quieres pagar a nadie para que lo haga por ti!

Resumen
En este curso hablamos sobre Web scraping y cmo extraer datos de las pginas web. La
funcin bsica del scraping es la de convertir datos que son semi-estructurados en
estructurados para hacerlos fciles de leer y aplicar. Esta tarea es relativamente sencilla si
sabes algo de programacin; para pginas muy sencillas, no necesitas saber programar. Te
enseamos el comando =importHTML y la extensin Scraper para las necesidades que
tengas.

Lecturas complementarias (en ingls)


Scraping for Journalism: A Guide for Collecting Data: ProPublica Guides
Scraping for Journalists (ebook): Paul Bradshaw
Scrape the Web: Strategies for programming websites that dont expect it : Talk from
PyCon
An Introduction to Compassionate Screen Scraping: Will Larson

2 respuestas a Introduccin a la extraccin de datos de sitios web:


scraping
1.
Jose Antonio Delgado a dicho en abril 5, 2016
Es un curso? Me interesa aprender.
Responder
2.
Carlos Vasco a dicho en junio 13, 2016
Hola que tal!
Muy buen contenido, me ha sido de gran utilidad.
Me parece que los enlaces que contiene este articulo deberan abrirse en nuevas
pestaas para no perder el hilo de la lectura en su sitio web.
Muchas gracias.
Responder
http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/

4/5

30/6/2016

Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder

Deja una respuesta


Tu direccin de correo electrnico no ser publicada. Los campos necesarios
estn marcados *
Nombre *

Correo electrnico *

Web

Publicar comentario

Este sitio utiliza cookies No hay problema Mas informacion


A collaboration between

Built with support from

Terms of Use
Privacy Policy

All content is licensed under a Creative Commons Attribution-ShareAlike v3.0 License


Buscar

Condiciones de uso
poltica de privacidad
Poltica IP

http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/

5/5

También podría gustarte