Guión Presentación Del Proyecto Final.

Cargado por

Oscar Eduardo Palomino Cardenas

0% encontró este documento útil (0 votos)

19 vistas1 página

Guión presentación del proyecto final Data Science.

Título original

Guión presentación del proyecto final.

Derechos de autor

Formatos disponibles

ODT, PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Guión presentación del proyecto final Data Science.

Copyright:

Formatos disponibles

Descargue como ODT, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

19 vistas1 página

Guión Presentación Del Proyecto Final.

Cargado por

Oscar Eduardo Palomino Cardenas

Guión presentación del proyecto final Data Science.

Copyright:

Formatos disponibles

Descargue como ODT, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 1

Buscar dentro del documento

Antes de iniciar con Data Science, se nos presenta una interrogante que vale la pena responder, ¿qué

deberíamos extraer? La extracción de datos en la web no es legal en todos los sitios o en todos los
países, por lo tanto, el primer paso del proyecto fue definir periódicos o diarios que permitan el scraper
o que no esté contemplado en sus políticas de uso. Por ética, cada artículo extraído siempre va a tener
un en enlace en la que pueden leer la nota original.

En lo que respecta a DS, se uso 100% python para realizar el scraper de los periódicos. Este lenguaje es
muy práctico y sencillo de utilizar, puesto que su sintaxis es muy similar al lenguaje humano, por lo
que haremos tareas muy complejas con muy pocas líneas de código.

Un scraper es básicamente un extractor de información. Nuestro proyecto utiliza un archivo de

configuración en formato yaml en la que están almacenadas las rutas xpath de cada item que se está
extrayendo.

Xpath es la ruta en la que existe un elemento dentro de una página web. El tener la ruta xpath nos
permite facilitar la extracción de la información. Podríamos imaginarlo como un mapa del tesoro, en la
que la X marca el sitio, similar con las rutas Xpath, la ruta nos índica qué elemento vamos a extraer.

Para evitar que se extraigan 2 veces el mismo artículo, se utilizo la persistencia de la información, la
primera vez que se ejecuta el scraper crea inmediatamente 2 documentos planos, uno que contiene
todas las urls que ya se han extraído, y otro que contiene la lista de categorías, de esta manera,
garantizamos que NUNCA vamos a extraer 2 veces el mismo artículo o la misma categoría.

Nuestro proyecto utiliza las 3 fases que todo ingeniero de datos debe seguir para extraer o minar
información.

La primera fase es la fase de extracción, en la que se extrajo la información más relevante de cada
artículo disponible de los periódicos.

La segunda fase es la transformación, consiste en eliminar artículos sin título y sin contenido, y
enriquecimiento de la información. El enriquecimiento consiste en utilizar la información disponible
para llenar los campos que se enviaron vacíos.

Ahora, una vez transformada la información, pasamos a la fase final, la cual consiste en la carga de la
información, para nuestro proyecto, esta carga se realiza en una base de datos no relacional en
mongodb.

También podría gustarte

El camino a las redes neuronales artificiales
De Everand
El camino a las redes neuronales artificiales
Diego Andrés Restrepo Leal
Aún no hay calificaciones
IACC Análisis Forense Digital Control Tarea Semana 6
Documento10 páginas
IACC Análisis Forense Digital Control Tarea Semana 6
loadmasther
100% (1)
Fundamentos de Web Scrapping Con Python y Xpath
Documento33 páginas
Fundamentos de Web Scrapping Con Python y Xpath
Pablo Perez Moya
100% (1)
Seminario Python+Django
Documento38 páginas
Seminario Python+Django
valeriaeh
Aún no hay calificaciones
Scraping Con Python
Documento14 páginas
Scraping Con Python
dpmorocho
Aún no hay calificaciones
Evolución Del K-Pop.
Documento6 páginas
Evolución Del K-Pop.
Oscar Eduardo Palomino Cardenas
Aún no hay calificaciones
Python
Documento31 páginas
Python
kamusgeminis
100% (1)
Big Data Analityc
Documento25 páginas
Big Data Analityc
lUMUS LXSA
Aún no hay calificaciones
Librerias Python
Documento9 páginas
Librerias Python
Tatiana Yois Mera Placencia
Aún no hay calificaciones
Django
Documento12 páginas
Django
wilton alfredo parrilla acha
Aún no hay calificaciones
Proyecto Fin de Ciclo Asir
Documento11 páginas
Proyecto Fin de Ciclo Asir
Ricardo Urzainqui
Aún no hay calificaciones
ESP32 Manejandoarchivos1
Documento10 páginas
ESP32 Manejandoarchivos1
rodamato
Aún no hay calificaciones
TEXTMINING
Documento17 páginas
TEXTMINING
RAQUEL GONZALEZ RODRIGUEZ
Aún no hay calificaciones
CD - M7 AE2 Contenidos - 2023
Documento18 páginas
CD - M7 AE2 Contenidos - 2023
li_sisay
Aún no hay calificaciones
LXNDf0-Manual Usuario
Documento32 páginas
LXNDf0-Manual Usuario
Deiwi Zurbaran
Aún no hay calificaciones
Tatiana Chitiva WebScrapingR
Documento4 páginas
Tatiana Chitiva WebScrapingR
tatiana chitiva
Aún no hay calificaciones
Fundamentos de Web Scrapping Con Python y Xpath
Documento18 páginas
Fundamentos de Web Scrapping Con Python y Xpath
Pablo Perez Moya
100% (1)
Chapter7 PDF
Documento12 páginas
Chapter7 PDF
carlossg01
Aún no hay calificaciones
Teoria de La Informacion
Documento4 páginas
Teoria de La Informacion
VictorDíaz
Aún no hay calificaciones
Evidencia 1 - Grupo 10
Documento16 páginas
Evidencia 1 - Grupo 10
ALEXANDRA CRISTOBAL GUTARRA
Aún no hay calificaciones
Flujo de Archivos
Documento27 páginas
Flujo de Archivos
jaci garcia
Aún no hay calificaciones
Hadoop
Documento7 páginas
Hadoop
Gustavo Montero
Aún no hay calificaciones
Persistencia Java
Documento6 páginas
Persistencia Java
F. A.R
Aún no hay calificaciones
Analisis de Puertos
Documento11 páginas
Analisis de Puertos
MARIA ALEJANDRA SANTIAGO GARCIA
Aún no hay calificaciones
Unidad 3 Internet y Su Uso en La Organización
Documento4 páginas
Unidad 3 Internet y Su Uso en La Organización
BrandonLee Hdz
Aún no hay calificaciones
Informe 2
Documento8 páginas
Informe 2
AlanJo AlcocerLo
Aún no hay calificaciones
Clase 1
Documento36 páginas
Clase 1
Adrian Pedraza Aquije
Aún no hay calificaciones
La Necesidad de La Experimentación en Los Estudiantes de Economía
Documento6 páginas
La Necesidad de La Experimentación en Los Estudiantes de Economía
Denis Mulato
Aún no hay calificaciones
Practica Data Mining Tools
Documento21 páginas
Practica Data Mining Tools
Alejandra Hernandez
Aún no hay calificaciones
Cisco Packet Tracer
Documento6 páginas
Cisco Packet Tracer
Angel RoDi
Aún no hay calificaciones
Practica 08
Documento7 páginas
Practica 08
Eduardo Garcia
Aún no hay calificaciones
Bibliotecas de Funciones en C y C++
Documento25 páginas
Bibliotecas de Funciones en C y C++
Anonymous qr87oR7B
Aún no hay calificaciones
Actividad 1-Librerias Phyton
Documento9 páginas
Actividad 1-Librerias Phyton
Brian Salinas
Aún no hay calificaciones
Informe La Programacion Web Formato IEEE
Documento3 páginas
Informe La Programacion Web Formato IEEE
kjashkasjh
Aún no hay calificaciones
Packet Tracer ICIS
Documento14 páginas
Packet Tracer ICIS
Angel RoDi
Aún no hay calificaciones
TAREA#1
Documento3 páginas
TAREA#1
Mishel
Aún no hay calificaciones
Act 1 Algoritmos y Estructuras de Datos
Documento5 páginas
Act 1 Algoritmos y Estructuras de Datos
Deanney Sandoval
Aún no hay calificaciones
Tutorial Foca
Documento11 páginas
Tutorial Foca
Javier Lopez
Aún no hay calificaciones
Prog Datasci 5 Api
Documento31 páginas
Prog Datasci 5 Api
504591 504591
100% (1)
¿Problemas de Ortografía? La R.A.E. y Python Raudas Al Rescate.
Documento5 páginas
¿Problemas de Ortografía? La R.A.E. y Python Raudas Al Rescate.
Aprender Libre
Aún no hay calificaciones
Resume Gestión de La Información
Documento10 páginas
Resume Gestión de La Información
Sebastian Jurado
Aún no hay calificaciones
Openxava 3.1.1 Reference Guide Es
Documento165 páginas
Openxava 3.1.1 Reference Guide Es
Jkarlos ZLeon
Aún no hay calificaciones
PROYECTO1
Documento4 páginas
PROYECTO1
Guido
Aún no hay calificaciones
Clase 2 - Introducción A Django - Compressed
Documento22 páginas
Clase 2 - Introducción A Django - Compressed
ElkinUniverse643
Aún no hay calificaciones
Clase 01
Documento40 páginas
Clase 01
Cursos Cortos
Aún no hay calificaciones
Fase 2 - 1enovoa - 233011 - 13
Documento10 páginas
Fase 2 - 1enovoa - 233011 - 13
EdwinN.Gutierrez
Aún no hay calificaciones
PROYECTO EyPC
Documento12 páginas
PROYECTO EyPC
40.Claudia.Alin. Rojas.Jimenez.
Aún no hay calificaciones
Apache Spark - Elasticsearch-Apache storm-RSTUDIO
Documento16 páginas
Apache Spark - Elasticsearch-Apache storm-RSTUDIO
AXEL IRIARTE
Aún no hay calificaciones
Wire Shark
Documento8 páginas
Wire Shark
Taty Méndez
Aún no hay calificaciones
WebScraping WebCrawling
Documento7 páginas
WebScraping WebCrawling
Nancy Grisell Ramirez
Aún no hay calificaciones
ns-3 vns-3.14 Documentación
Documento112 páginas
ns-3 vns-3.14 Documentación
Luis Farinango
Aún no hay calificaciones
Librerias - Guillermo Ramirez - TI 51
Documento5 páginas
Librerias - Guillermo Ramirez - TI 51
Guillermo Enrique Ramirez Rosas
Aún no hay calificaciones
Manual Técnico
Documento14 páginas
Manual Técnico
David Ute
Aún no hay calificaciones
Wuolah Free RainbowCrack y Blacktrack y Cain and Abel
Documento8 páginas
Wuolah Free RainbowCrack y Blacktrack y Cain and Abel
Bertrand Lorente Yanez
Aún no hay calificaciones
Control Semana 6 IoT
Documento5 páginas
Control Semana 6 IoT
Rodolfo Enrique Codoceo Veas
100% (2)
Año Del Bicentenario Del Perú 200 Años de Independencia
Documento13 páginas
Año Del Bicentenario Del Perú 200 Años de Independencia
jua huaman
Aún no hay calificaciones
DescargaEnWebPython Equipo5
Documento12 páginas
DescargaEnWebPython Equipo5
mayte fadrique
Aún no hay calificaciones
Charles Severance - Python para Todos 2020 Pp. 81-93
Documento13 páginas
Charles Severance - Python para Todos 2020 Pp. 81-93
Floo
Aún no hay calificaciones
Brochure Detallado - DEP
Documento8 páginas
Brochure Detallado - DEP
leo rojas
Aún no hay calificaciones
Dive Into Python
Documento8 páginas
Dive Into Python
daniel jimenez aliaga
Aún no hay calificaciones
Procesamientode Datosen Tiempo Real
Documento64 páginas
Procesamientode Datosen Tiempo Real
davidinn
Aún no hay calificaciones
Folleto Estrategias para La Solución de Conflictos en Contexto Productivo y Social.
Documento2 páginas
Folleto Estrategias para La Solución de Conflictos en Contexto Productivo y Social.
Oscar Eduardo Palomino Cardenas
60% (5)
La Importancia de Las Habilidades Sociales
Documento2 páginas
La Importancia de Las Habilidades Sociales
Oscar Eduardo Palomino Cardenas
Aún no hay calificaciones
Cómo Funciona El Parche Anticonceptivo
Documento3 páginas
Cómo Funciona El Parche Anticonceptivo
Oscar Eduardo Palomino Cardenas
Aún no hay calificaciones
Decision Es
Documento17 páginas
Decision Es
Oscar Eduardo Palomino Cardenas
Aún no hay calificaciones
Trabajo
Documento47 páginas
Trabajo
Oscar Eduardo Palomino Cardenas
Aún no hay calificaciones
Cuento Alteridades
Documento5 páginas
Cuento Alteridades
Oscar Eduardo Palomino Cardenas
Aún no hay calificaciones
Mejoramiento Del Sistema Logístico de Una Empresa Del Sector de Ferretería en La Ciudad de Barrancabermeja.
Documento71 páginas
Mejoramiento Del Sistema Logístico de Una Empresa Del Sector de Ferretería en La Ciudad de Barrancabermeja.
Oscar Eduardo Palomino Cardenas
Aún no hay calificaciones