Está en la página 1de 7

INSTITUTO DE ESTUDIOS SUPERIORES DE LA

CIUDAD DE MÉXICO

´´ROSARIO CASTELLANOS¨
Campus “Coyoacán”

Asignatura: Herramientas avanzadas para


grandes volúmenes de datos

Carrera:
Lic. Ciencias de Datos

Actividad:

Tarea

Alumna:
Rodríguez Juárez Yesenia

Profesor:
José Antonio Vázquez Mat

Grupo: LCDA-701

Diciembre 2022

La limpieza del archivo tweets se realizo en colab utilizando python

Ddfffdff

Se eliminaron las columnas, solo dejando la columna de texto


Se exporto el archivo de colab y se guardo en un archivo de texto

Con Spark se hizo el conteo de palabras, se realizo en colab.

Palabras del primer conteo fueron:


1.- (‘covid_19’, 16063)
2.- (‘casos’, 13577)
3.- (‘quedateencasa’, 7737)
4.-(‘pandemia’, 6980)
5.- (‘personas’, 6147)
6.- (‘salud’, 5656)
7.- ('medidas', 5460)
8.- (‘crisis', 5393)
9.- (‘gobierno’, 4643)
10.- (‘día’, 4427),
11.- (‘coronavirus’, 3485)

Con tweepy se buscaron 100 tweets con las 10 palabras


https://colab.research.google.com/drive/
1OD4eu3fy6f7Yu7QI7ivLFulMnb4jD56U?usp=sharing

El archivo exporto en un dataframe y después el archivo se convirtió en en TXT


Se buscaron las 10 palabras mas usadas en los 100 tweets.

Analizando los 100 tweets. Se realizo con Spark en colab


https://colab.research.google.com/drive/
1jhwkCE5tFDm_fFbFD74JVr6AAlp_PWbS?
usp=sharing#scrollTo=bYBArQiXMSuZ

Palabras mas usados del primer conteo fueron:


1.- (‘covid_19’, 16063)
2.- (‘casos’, 13577)
3.- (‘quedateencasa’, 7737)
4.-(‘pandemia’, 6980)
5.- (‘personas’, 6147)
6.- (‘salud’, 5656)
7.- ('medidas', 5460)
8.- (‘crisis', 5393)
9.- (‘gobierno’, 4643)
10.- (‘día’, 4427),
11.- (‘coronavirus’, 3485)

Palabras mas usadas del segundo conteo fueron:


1.- (Covid19, 68)
2.- (prevencion, 52)
3.- (control, 48)
4.- (presidencial, 42)
5.- (comision, 42)
6.- (ultimas, 40)
7.- (informa, 38)
8.- (pueblo, 24)
9.- (horas, 15)
10.-(venezuela, 15)

Coinciden estas palabras encontradas con los #hashtags que utilizaron


para la descarga? Por qué si coinciden o por qué son diferentes? podría
lograr que coincidan

Las palabras no coinciden porque el intervalo de tiempo en que se


generaron esos tweets es diferente, también pueden ser que palabras
tengan cierto grado de superposición, por ejemplo “quedateencasa”

Puede que coincidan si se generan en corto tiempo si los temas de


interés de las personas todavía están vigentes. También si no hubiera
palabras compuestas los tweets coincidirán.
?

También podría gustarte