Está en la página 1de 12

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/324877805

Twitter mining of the Juan Valdez coffee brand

Preprint · May 2018


DOI: 10.13140/RG.2.2.12863.41128

CITATIONS READS

0 22

1 author:

Samir Ricardo Neme-Chaves


Santo Tomás University
8 PUBLICATIONS   6 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Marketing research View project

symbolic consumption View project

All content following this page was uploaded by Samir Ricardo Neme-Chaves on 13 May 2018.

The user has requested enhancement of the downloaded file.


Minería de texto a través de Twitter de la marca Juan Valdez café
Samir Ricardo Neme-Chaves

Resumen
Juan Valdez Café es una de las empresas más queridas e importantes de café del país, nació
el intereres de hacer minería de texto a través de twitter de la marca. La recolección de
datos se llevó a cabo a través del software The R Project for Statistical Computing se
obtuvieron 243 tweets, la búsqueda se llevó a acabo buscando cualquier tweet que tuviese
en el contenido ‘Juanvaldezcafe’. Se hizo un análisis de frecuencia de palabras, así como
de modelamiento temático del corpus. Las palabras más frecuentes del corpus son “café”,
“colombiano”, “Valdez”, “campeón”. Las palabras “saludarte”, “providencia”, “campeón”,
“bebida” y “Juan Valdez café” se presenta en el tema 1. Mientras que las palabras
“disfruta”, “activamente”, “ustedes”, “vital” hacen parte del tema 2. Se propone un análisis
a través de twitter pero contando con el acceso premium de la API para subsanar limites de
la API gratuita usada en este artículo.
Palabras Clave: Mineria de texto, Twitter, Frecuencia de términos Modelado temático
Abstract
Juan Valdez Café is one of the most beloved and important coffee companies in the
country, the intereres was born to make text mining through the brand's twitter. The data
collection was carried out through software The R Project for Statistical Computing 243
tweets were obtained, the search was carried out looking for any tweet that had in the
content 'Juanvaldezcafe'. A word frequency analysis was carried out, as well as thematic
modeling of the corpus. The most frequent words of the corpus are "coffee", "Colombian",
"Valdez", "champion". The words "salute", "providence", "champion", "drink" and "Juan
Valdez coffee" are presented in topic 1. While the words "enjoy", "actively", "you", "vital"
make part of the topic 2. An analysis is proposed through twitter but with the API's
premium access to correct the limits of the free API used in this article.
Key Words: Text mining, Twitter, Frequency of terms Thematic modeling
Teniendo en cuenta que Colombia es una nación cafetera y este es un producto consumido
y querido por los colombianos, tanto que tuvo un crecimiento de 33% en los últimos 5 años
(Algrano, 2016) siendo uno de sus años clave el 2016 cuando el promedio de consumo del
año fue de 371,2 tazas (El Tiempo, 2017)
Ya que en el 2002 la Federación Nacional de Cafeteros de Colombia, organización sin
ánimo de lucro que representa a más de 500.000 familias productoras de café, le dio a la
marca Juan Valdez la misión de abrir negocios alrededor del mundo (Juan Valdez, 2018)
Juan Valdez café, tiene más de 200 tiendas en operación, líderes en la categoría en grandes
superficies, y está posicionada como la marca de Café Premium más reconocida y admirada
en Colombia. (Juan Valdez, 2018).
Esto llevó al interés por hacer minería de texto de la cuenta de twitter Juan Valdez café. Por
otro lado debido a que el conocimiento obtenido de las redes sociales como Twitter y
Facebook ha demostrado ser extremadamente valioso para las empresas de investigación de
mercado, las organizaciones de opinión pública y otras entidades de minería de texto
(Mostafa, 2013). Viéndose una explosión de este tipo de metodologías en la actualidad
(O'Connor, Balasubramanyan, Routledge, & Smith, 2010; He, Zha, & Li, 2013; Mostafa,
2013).

Método
La recolección de datos se llevó a cabo a través del software The R Project for Statistical
Computing se obtuvieron 243 tweets, la búsqueda se llevo acabo buscando cualquier tweet
que tuviese en el contenido ‘Juanvaldezcafe’.
El manejo de los datos se llevó a cabo con los paquetes twitteR (Gentry, 2016), tm
(Feinerer & Hornik, 2017), tidytext (Queiroz, Keyes, Misra, Robinson & Silge) y topic
models (Grün & Hornik, 2017).
Para poder hacer un análisis apropiado de los datos y analizarlos como vectores de texto los
tweets completos, se dividieron en palabras, a este proceso se le conoce como tokenización,
en la tabla 1 se muestran algunos tweets posterior a la tokenización.
filtered_tokens
["cabe","duda","cappuccino","siempre","va","ser","toda","obra","arte","aprende","prepar
arlo","casa"]
["hoy","conversacion","latte","chai","frio","caliente","decides","ven"]
["we","ran","into","juan","today","the","amount","of","joy","brings","us","every","time",
"we","see","him","makes","the","long","wait","worthwhile"]
["nunca","falte","cafecito","tarde","prefiero","leche","azucar","sobretodo","si","juanvald
ezcafe","us"]
["facil","sencillo","practico","contamos","contigo","norompaselciclo","juanvaldezcafe"]
["this","is","how","you","know","i","am","in","colombia","parsero","juanvaldezcafe","ya
listoparalaboda","amo"]
["pongamos","pies","tierra","sembremos","mejor","manana","haciendo","cuidar","planet
a","dia"]
Tabla 1. Muestra de los tweets posterior a la tokenización
Resultados
Posterior a la tokenización mostrada en la tabla 1, se procedió a graficar las palabras más
frecuentes dentro del corpus de análisis.

Figura 1. Palabras más frecuentes tweets Juan Valdez Café

Figura 2. Nube de palabras Juan Valdez café


La nube de palabras permite mostrar cuales son las palabras más importantes de corpus,
entre más grande la palabra más veces aparece dentro del corpus, en este caso la palabra
más frecuente es “café”, otras también importantes son “colombia”, “grancafe”, entre otras.

Figura 3. Sentimientos del corpus


La figura 3. Muestra que las palabras asociadas a los sentimientos positivos están
relacionados con palabras como “happy”, “gusto”, “valor”, mientras las negativas son,
“horrible”, y “fucking” entre otras.
Figura 4. Agrupamiento de temas 9 temas principales

El agrupamiento del corpus en 9 grupos muestra que el grupo 9 es el más pequeño con 6
palabras principales, luego están el grupo 1 y 4 con 7 palabras, el grupo 7 con 8 palabras, el
grupo 2 y 3 con 9 palabras, el grupo 6 con 10 palabras, y el más grande de todos con es el
grupo 6, con 15 palabras principales (ver figura 4)
Una forma de observar más fácilmente la frecuencia de las palabras dentro de un corpus es
la nube de palabras, donde el tamaño de estas está relacionado con la frecuencia de
aparición dentro del corpus de análisis, como se observa en la figura 2 entre las palabras
más frecuentes del corpus están “café”, “colombiano”, “Valdez”, “campeón” entre otras.
Usando el método de asignación latente de Dirichlet, (LDA) dividimos el corpus de análisis
en dos temas, entendiendo que cada documento es una mezcla de temas y cada tema es una
mezcla de palabras.
LDA es un método matemático para estimar tanto los temas como las palabras al mismo
tiempo: encontrar la mezcla de palabras que se asocia con cada tema, al tiempo que se
determina la mezcla de temas que describe cada documento
El modelado de temas a través del LDA tiene una ventaja en comparación con los métodos
de clustering tradicionales ya que facilita comprender la constitución de los temas del
corpus (Silge & Robinson, 2018). Por eso se eligió hacer dicho modelado en este ejercicio

Figura 5. Modelado temático: Términos más comunes dentro de cada tema


La figura 5 nos permite entender los dos temas que se extrajeron de los tweets. Las palabras
más comunes en el tema 1 incluyen “campeón”, “sembrar”, “marta”, “colombiano” y
“Juan”. Los más comunes en el tema 2 incluyen “café”, “centro” y “Valdez”, Una
observación importante sobre las palabras en cada tema es que aparte de palabras con poco
significado, no existen palabras entre los dos temas entre sí.
Figura 6. Agrupamiento por los 10 temas principales del corpus

La figura 6 del corpus muestra que palabras como “encanta”, montaña”, “café“, y
colombiano” hacen parte del tema número 0. “colombiana”, “gracias”, “gusto”,
“iniciativa”, “lastima”, “sabor”, y “Valdez”, hacen parte del tema 1. “Valdez”, “tostao”,
“tierra”, “celebra”, hace parte del tema 2. “seguimos”, “llegamos”, “histórico”,
“conquistando”, “cima”, hacen parte del tema 3. “encanta”, “película”, “macdonals” hacen
parte del tema 4. “buenos”, “frio”, “lugar”, “película” hacen parte del tema 5. “altos”,
“precios”, hacen parte del tema 6. “gran café”, “fuerza”, “happyhour”, “iniciativa”,
“precios” hacen parte del tema 7. “Bogotá”, “café”, “capital”, “distrito”, hacen parte del
tema 8, “Colombia”, “comparta”, expesarse”, “Libertad de prensa”, “mejor”, “mundo”,
“respeto” y responsabilidad hacen parte del tema 9.
Si tuviéramos que titular los temas serian naturaleza del café, sabor Juan Valdez, conexión
con la tierra a través del café, conquista, actividades, compañía, precios, gran café, Bogotá
y su conexión con Juan Valdez, y libertad.

cual
saludarte
providencia
campeon
pasa
bebida
juanvaldezcafeus
hay
pongamos
sus
disfruta
activamente
ustedes
centro
parte
vital
por
-1.500.000.000.000.000
-1.000.000.000.000.000
-500.000.000.000.000 0 500.000.000.000.000
1.000.000.000.000.000

Figura 7. Términos con mayor diferencia entre el texto 2 y el texto1


La figura 7 muestra que las palabras “saludarte”, “providencia”, “campeón”, “bebida” y
“Juan Valdez café” se presenta en el tema 1. Mientras que las palabras “disfruta”,
“activamente”, “ustedes”, “vital”. Hacen parte del tema 2. Lo que nos muestra que
mientras el tema 1 hace referencia al café como producto y proceso, el tema 2 nos habla del
café como experiencia.
Figura 8. Red de bigrams de los tweets de Juan Valdez
La figura 8, muestra la relación y dirección de las palabras entre sí, esto permite ver si hay
palabras centrales dentro de todo el corpus de los tweets, en este caso vemos que no hay
puntos centrales pero que hay gran cantidad de palabras unidas entre sí en el corpus se ve
que la relación de palabras que inicia en aban y finaliza en calidad es un gran conjunto de
palabras y se puede decir que estas palabras son la centrales dentro de todo el corpus
Conclusiones y limitaciones del estudio
Los tweets de la muestra mostraron que respecto al café juan Valdez hay unos relacionados
con el tema del café como producto, el sabor de juan Valdez, la naturaleza, la conexión con
Bogotá, además la siembra, viéndose una gran relevancia en aspectos como el disfrute del
producto, el compartir y estar con los amigos y la libertad
Aunque las redes sociales son una forma fácil y económica de obtener datos reales e
inmediatos de la interacción de por ejemplo los clientes con una marca, considero este
procedimiento tiene algunas limitantes. Por ejemplo, ya que en la red social los documentos
per se vienen con urls, emoticones, numerales entre otros dificultan el poder dejar el corpus
de análisis en un nivel más que aceptable para el análisis, el hecho que se deba hacer la
consecución de los datos a través de la API oficial gratuita de twitter pone algunas trabas a
la información disponible, como por ejemplo la extensión del corpus mismo, la extensión
de los tweets disponibles, así como la ventana de observación de tweets.
Para un análisis más profundo de la misma temática se debe considerar comprar la
membresía premium de la API de twitter, para así tener datos de mejor calidad para el
análisis
Referencias

Al grano (2016) En cinco años el consumo interno de café crecio 33%. Boletín al grano,
federación Colombiana de Caficultores.
El Tiempo, (2017) Los colombianos toman 32 tazas de café por cada una que beben de té.
Retrieved from http://www.portafolio.co/negocios/colombianos-toman-mas-cafe-que-te-
503495.
Feinerer, I; Hornik, K. (2017) package ‘tm’ retrieved from: http://tm.r-forge.r-project.org/
Grün, B & Hornik, K. (2017) package ‘topicmodels’ retrieved from: https://cran.r-
project.org/web/packages/topicmodels/index.html
Gentry, J. (2016) package ‘TwitteR’ retrieved from:
http://lists.hexdump.org/listinfo.cgi/twitter-users-hexdump.org
He, W., Zha, S., & Li, L. (2013). Social media competitive analysis and text mining: A case
study in the pizza industry International Journal of Information Management, 33(3), 464-
472. //doi.org/10.1016/j.ijinfomgt.2013.01.001
Mostafa, M. M. (2013). More than words: Social networks text mining for consumer brand
sentiments, Expert Systems with Applications 40(10). doi.org./10.1016/j.eswa.2013.01.019
O'Connor, B., Balasubramanyan, R., Routledge, B. R., & Smith, N. A. (2010). From tweets
to polls: Linking text sentiment to public opinion time series. Icwsm, 11(122-129), 1-2.
Queiroz, G; Keyes, O; Misra, K; Robinson, D & Silge, J. (2018) package ‘tidytext’
retrieved from: https://cran.r-project.org/web/packages/tidytext/tidytext.pdf

View publication stats

También podría gustarte