Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/324877805
CITATIONS READS
0 22
1 author:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Samir Ricardo Neme-Chaves on 13 May 2018.
Resumen
Juan Valdez Café es una de las empresas más queridas e importantes de café del país, nació
el intereres de hacer minería de texto a través de twitter de la marca. La recolección de
datos se llevó a cabo a través del software The R Project for Statistical Computing se
obtuvieron 243 tweets, la búsqueda se llevó a acabo buscando cualquier tweet que tuviese
en el contenido ‘Juanvaldezcafe’. Se hizo un análisis de frecuencia de palabras, así como
de modelamiento temático del corpus. Las palabras más frecuentes del corpus son “café”,
“colombiano”, “Valdez”, “campeón”. Las palabras “saludarte”, “providencia”, “campeón”,
“bebida” y “Juan Valdez café” se presenta en el tema 1. Mientras que las palabras
“disfruta”, “activamente”, “ustedes”, “vital” hacen parte del tema 2. Se propone un análisis
a través de twitter pero contando con el acceso premium de la API para subsanar limites de
la API gratuita usada en este artículo.
Palabras Clave: Mineria de texto, Twitter, Frecuencia de términos Modelado temático
Abstract
Juan Valdez Café is one of the most beloved and important coffee companies in the
country, the intereres was born to make text mining through the brand's twitter. The data
collection was carried out through software The R Project for Statistical Computing 243
tweets were obtained, the search was carried out looking for any tweet that had in the
content 'Juanvaldezcafe'. A word frequency analysis was carried out, as well as thematic
modeling of the corpus. The most frequent words of the corpus are "coffee", "Colombian",
"Valdez", "champion". The words "salute", "providence", "champion", "drink" and "Juan
Valdez coffee" are presented in topic 1. While the words "enjoy", "actively", "you", "vital"
make part of the topic 2. An analysis is proposed through twitter but with the API's
premium access to correct the limits of the free API used in this article.
Key Words: Text mining, Twitter, Frequency of terms Thematic modeling
Teniendo en cuenta que Colombia es una nación cafetera y este es un producto consumido
y querido por los colombianos, tanto que tuvo un crecimiento de 33% en los últimos 5 años
(Algrano, 2016) siendo uno de sus años clave el 2016 cuando el promedio de consumo del
año fue de 371,2 tazas (El Tiempo, 2017)
Ya que en el 2002 la Federación Nacional de Cafeteros de Colombia, organización sin
ánimo de lucro que representa a más de 500.000 familias productoras de café, le dio a la
marca Juan Valdez la misión de abrir negocios alrededor del mundo (Juan Valdez, 2018)
Juan Valdez café, tiene más de 200 tiendas en operación, líderes en la categoría en grandes
superficies, y está posicionada como la marca de Café Premium más reconocida y admirada
en Colombia. (Juan Valdez, 2018).
Esto llevó al interés por hacer minería de texto de la cuenta de twitter Juan Valdez café. Por
otro lado debido a que el conocimiento obtenido de las redes sociales como Twitter y
Facebook ha demostrado ser extremadamente valioso para las empresas de investigación de
mercado, las organizaciones de opinión pública y otras entidades de minería de texto
(Mostafa, 2013). Viéndose una explosión de este tipo de metodologías en la actualidad
(O'Connor, Balasubramanyan, Routledge, & Smith, 2010; He, Zha, & Li, 2013; Mostafa,
2013).
Método
La recolección de datos se llevó a cabo a través del software The R Project for Statistical
Computing se obtuvieron 243 tweets, la búsqueda se llevo acabo buscando cualquier tweet
que tuviese en el contenido ‘Juanvaldezcafe’.
El manejo de los datos se llevó a cabo con los paquetes twitteR (Gentry, 2016), tm
(Feinerer & Hornik, 2017), tidytext (Queiroz, Keyes, Misra, Robinson & Silge) y topic
models (Grün & Hornik, 2017).
Para poder hacer un análisis apropiado de los datos y analizarlos como vectores de texto los
tweets completos, se dividieron en palabras, a este proceso se le conoce como tokenización,
en la tabla 1 se muestran algunos tweets posterior a la tokenización.
filtered_tokens
["cabe","duda","cappuccino","siempre","va","ser","toda","obra","arte","aprende","prepar
arlo","casa"]
["hoy","conversacion","latte","chai","frio","caliente","decides","ven"]
["we","ran","into","juan","today","the","amount","of","joy","brings","us","every","time",
"we","see","him","makes","the","long","wait","worthwhile"]
["nunca","falte","cafecito","tarde","prefiero","leche","azucar","sobretodo","si","juanvald
ezcafe","us"]
["facil","sencillo","practico","contamos","contigo","norompaselciclo","juanvaldezcafe"]
["this","is","how","you","know","i","am","in","colombia","parsero","juanvaldezcafe","ya
listoparalaboda","amo"]
["pongamos","pies","tierra","sembremos","mejor","manana","haciendo","cuidar","planet
a","dia"]
Tabla 1. Muestra de los tweets posterior a la tokenización
Resultados
Posterior a la tokenización mostrada en la tabla 1, se procedió a graficar las palabras más
frecuentes dentro del corpus de análisis.
El agrupamiento del corpus en 9 grupos muestra que el grupo 9 es el más pequeño con 6
palabras principales, luego están el grupo 1 y 4 con 7 palabras, el grupo 7 con 8 palabras, el
grupo 2 y 3 con 9 palabras, el grupo 6 con 10 palabras, y el más grande de todos con es el
grupo 6, con 15 palabras principales (ver figura 4)
Una forma de observar más fácilmente la frecuencia de las palabras dentro de un corpus es
la nube de palabras, donde el tamaño de estas está relacionado con la frecuencia de
aparición dentro del corpus de análisis, como se observa en la figura 2 entre las palabras
más frecuentes del corpus están “café”, “colombiano”, “Valdez”, “campeón” entre otras.
Usando el método de asignación latente de Dirichlet, (LDA) dividimos el corpus de análisis
en dos temas, entendiendo que cada documento es una mezcla de temas y cada tema es una
mezcla de palabras.
LDA es un método matemático para estimar tanto los temas como las palabras al mismo
tiempo: encontrar la mezcla de palabras que se asocia con cada tema, al tiempo que se
determina la mezcla de temas que describe cada documento
El modelado de temas a través del LDA tiene una ventaja en comparación con los métodos
de clustering tradicionales ya que facilita comprender la constitución de los temas del
corpus (Silge & Robinson, 2018). Por eso se eligió hacer dicho modelado en este ejercicio
La figura 6 del corpus muestra que palabras como “encanta”, montaña”, “café“, y
colombiano” hacen parte del tema número 0. “colombiana”, “gracias”, “gusto”,
“iniciativa”, “lastima”, “sabor”, y “Valdez”, hacen parte del tema 1. “Valdez”, “tostao”,
“tierra”, “celebra”, hace parte del tema 2. “seguimos”, “llegamos”, “histórico”,
“conquistando”, “cima”, hacen parte del tema 3. “encanta”, “película”, “macdonals” hacen
parte del tema 4. “buenos”, “frio”, “lugar”, “película” hacen parte del tema 5. “altos”,
“precios”, hacen parte del tema 6. “gran café”, “fuerza”, “happyhour”, “iniciativa”,
“precios” hacen parte del tema 7. “Bogotá”, “café”, “capital”, “distrito”, hacen parte del
tema 8, “Colombia”, “comparta”, expesarse”, “Libertad de prensa”, “mejor”, “mundo”,
“respeto” y responsabilidad hacen parte del tema 9.
Si tuviéramos que titular los temas serian naturaleza del café, sabor Juan Valdez, conexión
con la tierra a través del café, conquista, actividades, compañía, precios, gran café, Bogotá
y su conexión con Juan Valdez, y libertad.
cual
saludarte
providencia
campeon
pasa
bebida
juanvaldezcafeus
hay
pongamos
sus
disfruta
activamente
ustedes
centro
parte
vital
por
-1.500.000.000.000.000
-1.000.000.000.000.000
-500.000.000.000.000 0 500.000.000.000.000
1.000.000.000.000.000
Al grano (2016) En cinco años el consumo interno de café crecio 33%. Boletín al grano,
federación Colombiana de Caficultores.
El Tiempo, (2017) Los colombianos toman 32 tazas de café por cada una que beben de té.
Retrieved from http://www.portafolio.co/negocios/colombianos-toman-mas-cafe-que-te-
503495.
Feinerer, I; Hornik, K. (2017) package ‘tm’ retrieved from: http://tm.r-forge.r-project.org/
Grün, B & Hornik, K. (2017) package ‘topicmodels’ retrieved from: https://cran.r-
project.org/web/packages/topicmodels/index.html
Gentry, J. (2016) package ‘TwitteR’ retrieved from:
http://lists.hexdump.org/listinfo.cgi/twitter-users-hexdump.org
He, W., Zha, S., & Li, L. (2013). Social media competitive analysis and text mining: A case
study in the pizza industry International Journal of Information Management, 33(3), 464-
472. //doi.org/10.1016/j.ijinfomgt.2013.01.001
Mostafa, M. M. (2013). More than words: Social networks text mining for consumer brand
sentiments, Expert Systems with Applications 40(10). doi.org./10.1016/j.eswa.2013.01.019
O'Connor, B., Balasubramanyan, R., Routledge, B. R., & Smith, N. A. (2010). From tweets
to polls: Linking text sentiment to public opinion time series. Icwsm, 11(122-129), 1-2.
Queiroz, G; Keyes, O; Misra, K; Robinson, D & Silge, J. (2018) package ‘tidytext’
retrieved from: https://cran.r-project.org/web/packages/tidytext/tidytext.pdf