Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder
Acerca de
Aprende
Blog
Experiencias
School of Data
[hide]
Recibe actualiz
datos por corre
direccin de co
Suscribir
Entradas rec
Otra alternativa
Excel
Estado de los d
Radiografa de
Introduccin
Muchas veces los datos no estn a un clic, como nos gustara. O estn en formatos que no
siempre sabemos manejar. La mayora de los datos no estn siquiera en un formato
uniforme. Cmo le podras hacer si quieres usar los datos para combinarlos con otra base
de datos y analizarlos de manera independiente?
El scraping al rescate!
Scraping es un mtodo que te permite extraer datos escondidos en un documento, como
pginas web y PDF, y los hace tiles para usarlos despus. Es fcil de llevar a cabo, y para
hacer scraping, afortunadamente no tienes que saber nada de programacin.
Para explicarte como hacer scraping, usaremos Google Chrome. Otros servidores tambin
son tiles; sin embargo, estaremos usando una aplicacin exclusiva de Chrome.
http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/
1/5
30/6/2016
Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder
Google Chrome
Conocer la estructura de una pgina web es el primer paso para extraer y usar los datos.
Pasa tus datos a una hoja de clculo para que los uses despus. Una manera muy fcil de
hacer esto es con una frmula en Google Spreadsheets.
Ahorra miles de horas copiando y pegando con el comando ImportHTML en Google
Spreadsheets. Es maravilloso!
Pasos
Para que puedas completar la prxima tarea, entra a las siguientes direcciones:
1. Extracting data from HTML tables(en ingls)
2. Scraping usando laScraper Extension for Chrome.
Reto
Tarea: Encuentra una pgina web con una tabla y obtn informacin de ella.
Tip
Una vez que tengas la tabla en tu hoja de clculo, lo ms seguro es que quieras jugar con
los datos o cambiarlos de hoja. Haz clic en el botn superior izquierdo y selecciona paste
special (pegado especial) y luego paste values only (pegar slo valores).
http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/
2/5
30/6/2016
Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder
ScraperWiki tiene dos funciones principales: Puedes escribir scrapers que son opcionales,
y los datos estn disponibles para cualquiera o los puedes pedirlos. Esta opcin no es
gratuita, pero te podrs poner en contacto con la comunidad de Scraperwiki (Google
Group), y alguno de sus miembros podra interesarse en tu proyecto y ayudarte. Si te
interesa escribir scrapers con Scraperwiki, dale un vistazo a estos ejemplos depura
algunos datos del parlamento Parliament. Haz clic en View source para ver ms detalles.
Tambin checa los docuemntos de Scraperwiki enhttps://scraperwiki.com/docs/python/
3/5
30/6/2016
Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder
1. Si tienes que extraer datos de una sola pgina que contenga muchas tablas y, por lo
tanto, muchos nmeros.
2. Si tu informacin est dispersa en mltiples bases de datos, o si la informacin es
liberada cada semana o mes.
3. Si quieres recibir alertas de email si cambian las base de datos que generalmente usas.
4. Y si no le quieres pagar a nadie para que lo haga por ti!
Resumen
En este curso hablamos sobre Web scraping y cmo extraer datos de las pginas web. La
funcin bsica del scraping es la de convertir datos que son semi-estructurados en
estructurados para hacerlos fciles de leer y aplicar. Esta tarea es relativamente sencilla si
sabes algo de programacin; para pginas muy sencillas, no necesitas saber programar. Te
enseamos el comando =importHTML y la extensin Scraper para las necesidades que
tengas.
4/5
30/6/2016
Introduccinalaextraccindedatosdesitiosweb:scraping|EscuelaDeDatosevidenciaespoder
Correo electrnico *
Web
Publicar comentario
Terms of Use
Privacy Policy
Condiciones de uso
poltica de privacidad
Poltica IP
http://es.schoolofdata.org/introduccionalaextracciondedatosdesitioswebscraping/
5/5