Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTEGRANTES:
MINERíA DE DAToS
oNlINE
6 SEMESTRE
Tabla de contenido
Objetivo de la Actividad ...................................................................................................... 4
Histograma .................................................................................................................. 8
Frecuencia de palabras................................................................................................... 9
Stopwords...................................................................................................................... 11
Conclusión…………………………………………………………………………………..20
Objetivo de la Actividad
Desarrollo de la Actividad
Librerías a usar.
library(rtweet)
library(tidyverse)
library(knitr)
library(lubridate)
library(wordcloud)
library(RColorBrewer)
library(RWeka)
library(tidytext)
library(wordcloud2)
library(ggwordcloud)
library(igraph)
library(ggraph)
library(quanteda)
library(tm)
Carga de datos
tweets<-read.csv("Datos/CamiloMusica.csv")
view(tweets)
Renombrar Columnas
favorite_count,screen_name)
screen_name)
view(tweets)
Limpieza y Tokenización
# Eliminación de números
return(nuevo_texto)
.f = limpiar_tokenizar))
c(texto_tokenizado))
head(tweets_tidy)
una cantidad de 142 retweets y a las 22:00:54 hubo una cantidad de 445 retweets
de las cuales en el segundo 36 se usaron 2256 veces las palabras van, amar, y
demuestra en sus tweets que se centra mucho en hablar de sí mismo, así como de
theme_bw() +
2022 donde obtuvo su mayor interacción con sus seguidores alcanzando un promedio
Histograma
geom_line(aes(group = nombre)) +
y = "número de tweets") +
theme_bw() +
theme(axis.text.x = element_text(angle = 90, size = 6),
legend.position = "bottom")
Podemos apreciar que conforme van pasando los meses su interacción con su
luego de nuevo su interacción fue bajando lo que hace suponer que Camilo no
Frecuencia de palabras.
sd(longitud))
group_by(nombre) %>%
summarise(media_longitud = mean(longitud),
geom_col() +
coord_flip() + theme_bw()
Palabras más utilizadas
%>%
Stopwords
'por','los','lo')
Filtrado de stopwords
print(tweets_tidy)
%>%
geom_col() +
theme_bw() +
theme(legend.position = "none") +
coord_flip() +
print(grupo)
preposiciones, es decir, usa palabras muy cortas para referiste en sus tweets.
# Preprocesar el corpus
# Crear bigramas
bigram_tokenizer))
frecuencias)
# Ordenar los bigramas por frecuencia descendente
library(ggplot2)
Frecuencia)) +
geom_bar(stat = "identity") +
coord_flip() +
theme_minimal()
Observando el bigrama podemos deducir que Camilo siempre saluda a sus fans y
Análisis de Sentimientos
head(sentimientos)
# Al disponer de los datos en formato tidy (una palabra por fila), mediante un
by = c("token" = "word"))
head()
group_by(nombre) %>%
group_by(nombre) %>%
ungroup() %>%
theme_bw()
Como podemos analizar en la gráfica todos los tweets de Camilo son positivos,
ya que siempre está hablando de amor, cariño, saludando a sus fans, dando
mes = month(fecha),
%>%
ungroup() %>%
geom_point() +
geom_smooth() +
theme_bw() +
theme(legend.position = "none")
CONCLUSIONES
Conforme como fuimos haciendo el ejercicio fuimos haciendo limpieza y tonificación en cada
paso, también la eliminación de página web
Se aprendió a como varía el sentimiento promedio de los tweets agrupados por intervalos de
un mes para cada uno de los usuarios.
El conocimiento adquirido sobre la preparación de datos, selección de parámetros y
visualización de resultados puede aplicarse en diversos contextos comerciales y de análisis de
datos.
También podemos notar que la gran mayoría de las palabras usadas por Camilo, son
preposiciones