Está en la página 1de 2

Proyecto unificador abstracto de páginas web

https://scrapy.org/ : scraping paralelo desde diferentes máquinas


remotas. Tiene una documentación brutal y te enseña a scrapear
prácticamente.

Coordinador por linea de comandos


Coordinador / Lanzador de tareas --- scripts JS que invocan
selenium ¿modo lectura solo?
Agregador de datos ¿Datos streaming? ¿Soluciones tipo Kafka (se
espera a evento para actualizar datos)?
Despliegue selenium como workers que reciben los trabajos

sc config podlimit 10
sc up my-scrape.js --frequency 1d --pods 5 --target http://www.game.com/ --datasink A
sc up my-scrape.js --frequency 5d --pods 5 --target http://www.game.com/ --datasink B
--filter reduceA.js --credentials secret=A

Contenido:

● Introducción: motivación del proyecto, interés del desarrollo de una solución que
sea abstracta para la unificación de páginas web de una determinada categoría, que
realice algún tipo de tratamiento de la información unificada o no.
● Estructura: explicación en alto nivel de los módulos/capas que componen el
proyecto y que proporcionan la abstracción necesaria para conferir una gran
adaptabilidad a diferentes tipos de problemas de unificación.
○ Explicación de los distintos módulos, flujo de comunicación y problemática
en detalle.
○ Módulo Interfaz: dependiendo del problema a solucionar, quizá se quiera
utilizar una interfaz u otra, o varias alternativas o paralelas.
● Problemas:
○ Frecuencia de scrapeo: periódica, bajo demanda, etc.
● Tecnologías utilizadas, y el por qué de su elección, en el desarrollo de los módulos
del proyecto.
● Ejemplos de solución de la herramienta haciendo hincapié en la compartición de
módulos, en el mínimo desarrollo partiendo de estos y en los módulos de la
herramienta que se han considerado más apropiados para el desarrollo de la
solución.
○ Comparador de cuotas de casas de apuestas deportivas.
○ Comparador de precios de coche de un modelo de segundamano.
○ Comparador de noticia según editorial de prensa.
● Conclusiones con respecto al producto final.

También podría gustarte