Está en la página 1de 7

Unidad 1

“Big Data para Gestión de Redes Inteligentes”

Informe para evaluar el Saber Hacer de la


materia de Tecnologías para el Manejo Masivo
de Datos

Ingeniería
En

Redes Inteligentes y Ciberseguridad

Elaborado por:
Josué Martínez Hernández

Maestro:
M.A. Patricia Guadalupe Mora González

Ramos Arizpe, Coahuila 11 de febrero del 2022


Índice

Introducción 1

Fuentes de datos 2

Técnicas de recopilación de información 2

Diagrama de la estructura del almacén de datos 2

Procesamiento paralelo de los datos 3

Programa que realiza el proceso de análisis, detección de patrones y visualización de los


datos 3

Power BI 3

Conclusiones 5
Introducción

El presente reporte tiene como objetivo explicar el proceso para realizar la


visualización de datos usando la herramienta Power BI de Microsoft.

Primero se verá el proceso de obtención de los datos y donde se obtuvieron estos.


Luego se describirá la técnica de recopilación de datos que se utilizo para extraer
los datos. En seguida se verá el diagrama que explica de manera visual el diagrama
del almacenamiento de datos, así como también el proceso en general tomando en
cuenta los puntos mencionados previamente. Después se verá una tabla en la que
se expresa el modo de procesamiento paralelo que se utilizó al igual que su tipo. Al
final se describe el uso de la información que se obtuvo luego de pasar por los
procesos previos para finalmente elaborar una visualización de los datos en donde
se observaron algunos patrones en los datos los cuales se ven en el reporte final
elaborado con Power BI.

1
Fuentes de datos

La fuente de datos que uso para elaborar este reporte fue de un repositorio de
GitHub llamado vgsales-data-analysis el cual a su vez se basó de una página web
llamada VGChartz usando el web scraping. El archivo en formato CSV contiene
información sobre videojuegos con ventas por región mayores a 100,000 copias.

Técnicas de recopilación de información

La técnica utilizada fue el web scraping como se mencionó anteriormente. La


herramienta que se utilizó fue una librería de Python llamada “Beautiful Soup”.

Diagrama de la estructura del almacén de datos

El diagrama explica el proceso que se llevó a cabo desde la recolección de los datos
desde VGChartz mediante el web scraping, luego paso por el proceso de
transformación en donde se le dio un formato CSV a los datos, para luego cargarlos
en el repositorio de GitHub. Y al final se descargan esos datos y se cargan en Power
BI para realizar la visualización de los datos.

2
Procesamiento paralelo de los datos

Modo de procesamiento paralelo Tipo de arquitectura de


de los datos procesamiento
Procesamiento paralelo masivo Clúster de computadoras

Programa que realiza el proceso de análisis, detección de patrones


y visualización de los datos

Power BI

Para realizar el proceso de análisis, detección de patrones y visualización de datos


se utilizó la herramienta Power BI de Microsoft, debido a la sencilles de su interfaz
y su capacidad de obtener datos de múltiples tipos y sitios. Los datos que se
obtuvieron fueron sobre las ventas de videojuegos desde el año 1980 hasta el año
2020. Se analizaron los géneros que más se jugaban por año, los juegos más
jugados por año, aunque solo se visualizan los diez más jugados, el género que
más se vendió por Publisher y los géneros más jugados por región. A continuación,
se muestra la visualización de los datos:

3
4
Conclusiones

1. Con respecto al proceso que se llevó a cabo se concluyó que hay varias
fuentes de datos las cuales no todas son accesibles de manera sencilla ya
que en algunos casos se necesitará de un permiso por parte de la empresa
que aloja los datos, mientras que en el caso de otras los datos pueden estar
al alcance de cualquiera que desee utilizarlo, como sucede con GitHub
(exceptuando los que requieren de acceder a los datos por medio de otro
servicio).

2. En relación a las técnicas de recopilación de información se concluyó que


además de las técnicas previamente investigadas existen más las cuales nos
permite obtener información directamente de sitios web mediante scripts o
librerías de algunos lenguajes de programación como es el caso de la librería
“Beautiful Soup” de Python.

3. En la elaboración del diagrama de almacenamiento de datos se concluyó que


hay que verificar de donde extraemos los datos, verificar las herramientas
que se utilizan para transformarlos y no olvidar a donde se cargan para su
posterior manipulación.

4. Sobre el procesamiento paralelo se concluyó que cada almacenamiento de


datos usa un diferente modo y tipo de procesamiento de datos en paralelo.

5. En relación al programa Power BI se concluyó que es un programa bastante


útil en cuanto a visualizar datos y cargarlos de diferentes orígenes ya sea
desde la Web o servicios especializados en alojar información como lo
pueden ser AWS de Amazon e incluso Twitter, además de ser muy intuitivo
para realizar reportes con gráficos.

6. Por último, se concluyó que el género de acción es el más vendido a lo largo


de los años en todas las regiones exceptuando Japón en donde se juega más
a juegos de rol, también se encontró que el juego más vendido en todas las
regiones a loa largo de los años fue el juego Wii Sports de la plataforma Wii.

También podría gustarte