Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROFESOR GUÍA
Dra. Angélica Urrutia Sepúlveda ________________________
PROFESOR COMISIÓN
Rodrigo Cofré Loyola ________________________
PROFESOR COMISIÓN
Marco Toranzo Céspedes ________________________
La presente tesis tiene como objetivo central implementar una solución a un modelo
de análisis de información relacionado con el valor de la experiencia de clientes en Twitter,
utilizando la herramienta de visualización de datos Qlik Sense Desktop. El propósito es dar a
conocer dicha herramienta y encontrar una solución de fácil utilización para los usuarios
finales, de manera que no tengan que acudir a profesionales del área para elaborar sus propios
reportes.
Esta investigación entrega como resultado una solución de bajo costo y que cumple
con el propósito de ser llevada a cabo por usuarios no expertos en el área de inteligencia de
negocios, que necesiten dar solución al modelo de análisis de la experiencia de clientes de
Twitter, ideal para ser aplicada en pequeñas y medianas empresas. Por otro lado, la
implementación realizada sirve como guía para replicar el resultado en el futuro.
3.1 Cinco redes sociales más populares según el sitio Alexa .......................................................... 21
3.2 Términos utilizados por Twitter ................................................................................................ 23
3.3 Limitaciones APIs de Twitter ..................................................................................................... 26
3.4 Datos extraídos en relación al tweet ........................................................................................ 30
3.5 Datos extraídos relacionados con el usuario ............................................................................ 31
4.1 Requisitos de sistema para instalar Qlik Sense Desktop ........................................................ 38
4.2 Opciones de visualización ......................................................................................................... 42
5.1 Cuentas oficiales de usuarios del caso de estudio .................................................................... 46
5.2 Datos extraídos para analizar .................................................................................................... 47
5.2 Ventajas y desventajas de QlikSense Desktop .......................................................................... 65
Capítulo 1.
Introducción y Objetivos.
1. INTRODUCIÓN Y OBJETIVOS 2
1. Introducción y Objetivos
La finalidad del presente capítulo es presentar los objetivos generales y específicos de
esta tesis. Asimismo se describe el tema, sus alcances y la organización del documento.
1.1 Introducción
Debido al mundo globalizado, a la rapidez de los cambios y a productos cada vez más
sofisticados demandados por la población en el mundo, es primordial contar con un rápido
acceso a la información necesaria y útil para ayudar a las instancias pertinentes, en la toma de
decisiones, esto es especialmente importante en el ámbito de los negocios, en que contar con
información útil, rápida y confiable, se ha convertido en una de las claves para que una empresa
alcance sus objetivos y en definitiva el éxito deseado.
Sin embargo, los sistemas de información tradicionales suelen presentar una estructura
muy inflexible para lograr que las empresas puedan alcanzar este objetivo, como por ejemplo,
una gran rigidez a la hora de extraer datos, largos períodos de respuesta, falta de integración,
entre los más importantes. El resultado es que cualquier empresa, sin importa el tamaño o rubro,
se ve envuelta en problemas como: que cada día las empresas disponen de una mayor cantidad
de información y a la vez menos tiempo para poder analizarla, lo que no permite generar
información útil y pertinente a los fines de la empresa, producto de lo cual los sistemas de
información disponibles no contribuyen a tomar decisiones adecuadas y de manera rápida o
que los responsables de generar información directiva estén desbordados por las peticiones de
información urgente, continua y no coordinada. Para superar estas limitaciones y dar solución a
los problemas ya mencionados, nace el Business Intelligence (BI), “con el objetivo de apoyar
de forma sostenible y continuada a la organización para mejorar su competitividad, facilitando
la información necesaria para la toma de decisiones” [CAN2007].
Las redes sociales han cobrado un gran protagonismo, tanto en el ámbito personal como
empresarial, donde se ha comprobado que los clientes revelan, directa o indirectamente, mucha
información, permitiendo relacionarse con el resto de la sociedad, que a la vez transforman la
comunicación unidireccional en una conversación inmediata entre las empresas comerciales y
su público. Sin embargo, no todas las empresas pueden comunicarse de la mejor forma a través
de los medios sociales, ni comprenderlos completamente, de manera que es imprescindible
contar con un sistema adecuado y efectivo frente a la interactividad social, aspecto necesario
para todas las empresas que no desean quedarse atrás en mercados dinámicos, sean éstos
tradicionales, nichos o emergentes
Twitter es una red social en tiempo real, que mantiene informados a sus usuarios acerca
de contenido que ellos consideran relevantes según sus intereses. Se determina como red social
pero realmente pertenece a una herramienta de microblogging, es decir, es una plataforma que
permite comunicar información, así como contenido multimedia a través de 140 caracteres de
longitud. El gran aumento de usuarios que ha tenido en el último año, ha provocado que Twitter
comience a tener un objetivo similar al de las redes sociales, por tanto, se puede considerar a
Twitter ya sea como una red social o como un servicio de microblogging.
Debido a que las redes sociales son un potencial aliado de las empresas, capaces de atraer
a clientes potenciales, para ofrecerles determinado producto o para lograr que una opinión
negativa cambie a positiva, junto a las funcionalidades que posee Twitter, son las razones por
las que se decide utilizar datos extraídos de esta red social para entregar información relevante
al área de opinión para el producto en que se realizó esta investigación, y apoyar en la toma de
decisiones, debido a que la noción de influencia desempeña un papel vital en el funcionamiento
de las empresas y en cómo funciona la sociedad.
1. INTRODUCIÓN Y OBJETIVOS 4
medio, las plataformas web de empresas. Para esto, se seleccionan los componentes de la
herramienta Qlik Sense Desktop y se implementa el modelo de análisis de cliente en un caso.
Finalmente se analizan los datos obtenidos y los beneficios de esta plataforma para una empresa
que utiliza como medio de comunicación con sus clientes, la red social Twitter.
2.1 Carlos Guadián O.; Francisco Manuel Rangel P.; Javier Llinares
S.[GUA2012]
Esta publicación denominada "Análisis de Redes de Influencia en Twitter" se enfoca
en determinar las redes de influencia y los influenciadores principales para un tema de interés
a partir del análisis de redes sociales y sus métricas, presentando como ejemplo los resultados
del análisis de "topología de la comunidad política española en Twitter". Se destaca la forma
en que los mensajes cortos de Twitter han revolucionado el modo de comunicarse de las
personas, y por lo tanto, de conformar redes de influencia en torno a los temas que más
interesan a los usuarios. Este estudio se facilita por la particular forma en que se relacionan
los usuarios en la red social Twitter ya que ésta se constituye por medio de usuarios que se
denominan seguidores y seguidos, demostrando que en esta relación un usuario sigue a los
usuarios que considera de su interés, y al mismo tiempo es seguido por usuarios que le
consideran a él también de interés. Debido a esto, estas redes se verán conformadas por
usuarios de intereses similares, ya sean políticos, económicos, ocio, etc. lo que los autores
denominan como temas o grupos semánticos primarios.
Por otra parte, los autores destacan que en la comunicación online, la influencia se
traduce en la capacidad de hacer llegar el mensaje al mayor número posible de individuos, lo
que clásicamente en prensa o televisión, sería el número de impresiones, y que es el objetivo
principal de la política de promoción del marketing para cualquier entidad, ya sea una
empresa, partido político, administración pública, etcétera.
Determinación de los temas sobre los cuales los usuarios tienen más interés.
inversa de la investigación y así determinar los temas para los que un usuario influyente es
realmente destacado
Todos estos hallazgos proporcionan nuevas ideas para el marketing viral. El primero
de ellos en particular, indica que el análisis independiente revela poco sobre la influencia de
un usuario lo que reafirma estudios anteriores, que señalan la evidencia anecdótica que la
mayoría de los usuarios siguen a otros, simplemente por la percepción de ser "educado", ya
que siguen a quienes los están siguiendo, y muchos de ellos ni siquiera leen los tweets que
emiten los usuarios a los cuales siguen. De esta forma, este estudio demuestra empíricamente
que tener un millón de seguidores no siempre significa mucho en el mundo de Twitter. Es
por esto que los autores del documento afirman que es más influyente tener una audiencia
activa que más cantidad retweets o de menciones al propio usuario.
Por otra parte, en esta publicación, se analiza la red de Twitter como un medio de
difusión de noticias, estudiando los tipos de grados de influencia dentro de la red, centrándose
en el potencial de un individuo para llevar a otros a participar en un acto determinado,
destacando tres actividades entre usuarios de Twitter. En primer lugar, los usuarios
interactúan siguiendo las actualizaciones de las personas que publican tweets interesantes.
En segundo lugar, los usuarios pueden transmitir interesantes fragmentos de información a
sus seguidores mediante el retweet. Y finalmente, los usuarios pueden responder o comentar
los tweets de otras personas, a los que definen como mención. La mención se identifica
mediante la búsqueda del nombre de un usuario en el comienzo del contenido del tweet, como
una forma de excluir el tweet, ya que un tweet que contiene un nombre de usuario, no se
transmite a todos los seguidores, sino solo al usuario citado. En cambio un tweet que contenga
el nombre del usuario en medio de su texto, se difunde a todos los seguidores. Estas tres
actividades (véase Figura 2.3) representan los diferentes tipos de influencia de una persona
y se resumen en:
Figura 2.3: Diagrama de Venn, los 100 más influyentes por medidas [CHA2013].
En conclusión, se puede mencionar que este estudio demostró que la mayoría de los
usuarios influyentes pueden tener una ascendencia significativa sobre diversos y variados
temas. El análisis realizado además identificó la forma en que los diferentes tipos de usuarios
influyentes interactúan con su audiencia. Las organizaciones de noticias tradicionales, por
ejemplo, generaron un alto nivel de retweets sobre diversos temas. En contraste, las
celebridades terminaron siendo mejores en inducir menciones en su audiencia. Esto se debe
a que si un usuario corriente incluye la mención de la celebridad en su tweet, este hecho le
ayuda a tener respuestas de otros usuarios, obteniendo más interés en el contenido que
publicaron. Finalmente se puede mencionar que este trabajo, descubrió que la influencia no
se obtiene de manera espontánea o accidentalmente, sino que necesariamente debe ser a
través de un esfuerzo concentrado, requiriendo mantener una gran participación personal en
Twitter, con el fin de aventajar y mantener la influencia los usuarios.
2. ESTADO DEL ARTE 14
3. Marco Teórico
En el siguiente capítulo, se exponen y definen los conceptos utilizados para llevar a
cabo la elaboración de la presente investigación, de manera tal que se pueda comprender el
contexto teórico de esta.
Estos beneficios, junto con la gran envergadura que posee la toma de decisiones
dentro de una organización, han provocado que la inteligencia de negocios sea cada día más
esencial e incluso una prioridad para las empresas, debido a las necesidades de la
organización, la evolución del mercado y a las opciones de herramientas y metodologías
disponibles para el uso de información estratégica, produciendo que la toma de decisiones se
lleve a cabo de la forma más ágil posible.
[CAR2010]. Este proceso se encarga de extraer los datos desde los diferentes sistemas de
origen, luego limpiar, depurar, filtrar, manipular y preparar dichos datos para finalmente ser
cargados en un almacén de datos para su posterior análisis. Un proceso ETL se dividen en
los siguientes cuatro subprocesos [CAN2007]:
Extracción: Este proceso se puede realizar de forma manual o bien utilizando
herramientas de ETL. Su principal objetivo corresponde a extraer sólo aquellos datos
de los sistemas transaccionales que son necesarios, por esto es importante seleccionar
las mejores fuentes de información, es decir, las de mejor calidad.
Limpieza: Debido a que las fuentes de información contienen datos que no han sido
depurados, la limpieza de éstos es clave, por ello se debe depurar, corregir,
estandarizar, relacionar y consolidar los datos.
Transformación: Este proceso se lleva a cabo una vez que los datos se encuentran
“limpios”, y consiste en adaptarlo de acuerdo a las reglas de negocio y estándares
establecidos, ya sea, realizar cambios de formato, sustitución de códigos, valores
derivados y agregados.
Integración: Corresponde a la etapa en la cual se cargan los datos anteriores en el
sistema de destino, según los requerimientos de la organización este proceso puede
contener una amplia variedad de actividades.
En definitiva, este proceso tiene como objetivo principal facilitar a las organizaciones
el movimiento de datos desde múltiples fuentes, limpiarlos, transformarlos, y luego integrar
los distintos sistemas para ser utilizados según las necesidades de análisis que se requieren
para la toma de decisiones.
3.3 Spoon
Como ventajas de Spoon se rescata que se puede utilizar como una aplicación
independiente o como parte de Pentaho Suite, cada proceso es creado con una herramienta
gráfica, gracias a que está basado en dos tipos de objetos: Transformaciones (colección de
pasos en un proceso ETL) y Job (colección de transformaciones) permitiendo realizar una
implementación más clara y ordenada; otra ventaja importante es que corresponde a un
software libre y multiplataforma.
Dispone de una gran cantidad de opciones para indicar las diferentes tareas que se
requieren llevar a cabo, conocidas como “steps”. El funcionamiento se basa en crear una
secuencia de steps, indicando todos los pasos necesarios para realizar los procesos de
extracción, transformación y carga de los datos bajo una serie de requerimientos.
Spoon dispone de una amplia gama de steps y cada uno se enfoca en realizar una tarea
específica, como por ejemplo, extraer datos desde diferentes tipos de bases de datos, archivos
con variados formatos o desde direcciones FTP, realizar envió de email, crear, borrar y
descomprimir archivos, programar script, entre otras tareas. En cuanto a las transformaciones
de los datos, permite agregar constantes, columnas, cálculos, separar, cortar o juntar cadenas
de caracteres, validaciones, crear, modificar o eliminar tablas, utilizar comando CMD para
llevar a cabo tareas programables más específicas, y una amplia gama de otras posibilidades.
Una vez realizadas las transformaciones, los datos son cargados a tablas, archivos Excel,
Word, de texto, conexiones de bases de datos, etc., según sean las necesidades. Estas y otras
funciones que permiten realizar los steps, se encuentran descritas en la documentación
elaborada por Pentaho Data Integration [PEN2006].
Se visualiza en la Figura 3.1 un ejemplo de un proceso ETL creado con Spoon, donde
se dispone de un job que consta de un conjunto de steps junto a su transformación. Las
actividades que se realizan durante la ejecución de este proceso ETL corresponden a los
siguientes pasos:
1. Inicio del proceso.
2. Crear carpeta en una ruta determinada.
3. Extraer datos desde un FTP específico y luego guardarlos.
4. Realizar transformación
4.1. Leer los datos desde un archivo de texto.
3. MARCO TEÓRICO 20
sustituir el aislamiento social debido a la facilidad que ofrecen las redes sociales para conocer
gente y así generar relaciones de amistad con personas de intereses similares a los de uno.
Existe una gran cantidad de redes sociales utilizadas en todo el mundo, como también
algunas que no han crecido internacionalmente pero que son influenciables en zonas
específicas. Las redes sociales se clasifican según el enfoque que poseen, como por ejemplo,
de interés general como Facebook, Twitter, MySpace, redes sociales de contenido visual o
para compartir fotografías, enfocadas en los estilos de vida, turismo, para móviles, videos,
reuniones, negocios, blogs, etc.
En la Tabla 3.1 se dan a conocer las cinco redes sociales que poseen la mayor cantidad
de visitantes y tráfico según indica el sitio web Alexa [AMA2011], encargado de llevar un
monitoreo sobre el tráfico de los sitios de internet.
Tabla 3.1: Cinco redes sociales más populares según el sitio Alexa.
Twitter corresponde a una red social con la particularidad de conectar a todos los
usuarios a lo que está sucediendo en el mundo en tiempo real, ideal para informar lo más
rápido posible cualquier noticia. Está basada en un sistema microblogging, esto es, los
usuarios de esta red pueden enviar y publicar mensajes breves, específicamente de 140
caracteres, en los cuales dan a conocer sus actividades y opiniones.
Fue creado en marzo del 2006 por los ex trabajadores de Google, Evan Williams y
Biz Stone junto con la colaboración de Jack Dorsey, Evan Henshaw-Plath y
fundamentalmente de Noah Glass en California, siendo su lanzamiento el 15 de julio del
mismo año.
El uso de la red social Twitter es sencillo, el usuario solo debe registrarse llenando un
formulario con información para su perfil y luego ya puede comenzar a responder la pregunta
¿Qué está pasando?, planteada con el objetivo de dar a conocer lo que uno piensa o está
haciendo en ese momento. Esta modalidad produce que los usuarios se puedan comunicar y
expresar sus ideas de manera sencilla y rápida.
Hoy en día, Twitter clasifica dentro de las cinco redes sociales más populares (véase
Tabla 3.1) de Internet que se utiliza con variados propósitos, principalmente con el objetivo
de divulgar información o noticias del momento, generar discusiones sobre temas de
actualidad, promover productos, concursos, etc. Esto implica que las cuentas de usuarios
deben ser de carácter público, lo que permite no sólo conectarse con amigos, sino que también
con el mundo laboral, político, empresarial y periodístico.
Twitter cuenta con una lista de términos propios que son utilizados durante la
interacción de esta red social, que son descritos en la siguiente Tabla 3.2 con el objetivo de
comprender el funcionamiento y lenguaje de dicha red.
3. MARCO TEÓRICO 23
Término Descripción
Tweet Mensaje limitado a 140 caracteres publicado por el usuario.
Follower Usuario que se suscribe al contenido que publica otro usuario de una
cuenta concreta.
Following Usuario al que se sigue desde una cuenta concreta.
Retweet Consiste en copiar o reenviar el tweet de otro usuario.
Mensaje directo Mensaje privado que solo puede leer el usuario destinatario.
Mención Tweet enviado a una o varias personas específicas.
Timeline de un Lugar donde se visualizan todos los tweets realizados por los
usuario following.
Hashtag Cadena de palabras concatenadas para categorizar tweets.
Trending topic Temas más hablados en Twitter.
Un vez que el usuario se crea una cuenta en la red social Twitter, pasa a denominarse
“tuitero”, quien se comunica a través de mensajes denominados “tweets” o “tuits”, que
consisten en publicar un texto corto, donde el usuario da a conocer sus diferentes opiniones.
Este usuario puede seguir a todos los “tuiteros” que publiquen información de su
interés, sin la confirmación previa de éstos, los cuales se conocen como “following”. Por otro
lado, los “tuiteros” que siguen al usuario son denominados “followers”. Al momento de
entrar a Twitter el usuario puede visualizar de forma cronológica en su “timeline” todos los
tweets realizados por los usuarios a los que ha decidido seguir, o más conocidos como
following.
Los tweets se puede clasificar a partir de dos etiquetas; la primera es conocida como
“hashtag”, que corresponde a palabras precedidas por el carácter “#” con la finalidad de
categorizar el contenido del tweet. La segunda etiqueta se utiliza para mencionar o contestar
a otros “tuiteros” mediante “handles”, esto consiste en utilizar el carácter “@” seguido del
nombre de usuario que se desea hacer referencia. También existe la posibilidad de compartir
3. MARCO TEÓRICO 24
o divulgar los tweets realizados por otros usuarios con el fin de que lo observen todos los
“tuiteros” que lo siguen, lo que se conoce como “retweet”.
Debido al gran impacto y al uso cotidiano de esta red social, la Real Academia
Española ha decidido incorporar los términos: “tuitear”, “tuit” y “tuitero” a la vigésimo
tercera edición del diccionario en el año 2014.
Pero si existen usuarios verificados, es decir, marcas o personajes famosos que poseen
Twitter es quien se encarga de revisar las solicitudes de verificación que envían los
usuarios a través de un formulario que dispone la red social para decidir si otorgar la insignia
o no. El único requisito para obtenerla, es que la cuenta sea de interés público, generalmente
cuentas de usuarios que están relacionados con el ámbito de la música, actuación, moda,
gobierno, política, religión, periodismo, medios de comunicación, deporte, negocios y otras
áreas de interés [TWI2016a]. De esta misma forma, Twitter puede suspender definitivamente
cuentas de usuarios que hagan uso inadecuado de la insignia de verificación, esto es, que no
cumpla con las características estipuladas.
La información recopilada a partir de los tweets realizados por los usuarios permite
realizar análisis de los datos enfocados en cuatro puntos relevantes que responden a las
siguientes interrogantes ¿Quién?, ¿Qué?, ¿Cuándo? y ¿Dónde?
3. MARCO TEÓRICO 25
¿Quién realiza el tweet? Para dar respuesta se utilizan los datos públicos de la cuenta
de usuario de quien realizó el tweet o retweet, como es el nombre completo, nombre
de usuario, cuidad, lenguaje, descripción, etc.
¿Qué contiene el tweet? Se responde con datos relacionados con el texto del
mensaje, links, menciones, hashtag o contenido multimedia que pueda incluir el
tweet.
¿Cuándo se realiza el tweet? Se utiliza la fecha y hora en la cual se realiza la
publicación y complementarla con el huso horario en el que se encuentra el usuario.
¿Desde dónde fue publicado el tweet? El tweet entrega información sobre las
coordenadas geográficas de la ubicación desde donde fue publicado, pero no se
encuentra presente en todos los tweets, debido a que el usuario decide si desea activar
dicha opción.
Las APIs de Twitter se dividen en tres partes según sea su utilidad, de las cuales dos
pertenecen al API REST (Search y Rest) y la otra pertenece al API de Streaming, como se
describe a continuación [TWI2016b]:
API REST: Esta API proporciona información básica de Twitter como autor de un
tweet, información sobre el perfil del autor del tweet o de un usuario especifico,
actualizaciones de estado y responder ciertos tweets. La API REST identifica a los
usuarios que utilizan TwitterOAuth y las respuestas están disponibles en JSON.
API Search: Forma parte de la API REST y permite entre otras cosas buscar tweets
recientes o populares, tweets que hagan referencia a un usuario específico, o que
contengan ciertas palabras clave. La API Search de Twitter suministra los tweets con
una profundidad en el tiempo de 7 días.
3. MARCO TEÓRICO 26
API Streaming: Esta API proporciona un subset de tweets en tiempo real, donde se
establece una conexión permanente por usuario con los servidores de Twitter y
mediante una petición HTTP se recibe un flujo continuo de tweets en formato JSON.
Las limitaciones que poseen las APIs de Twitter en relación al tiempo y tamaño, es
decir, la cantidad restringida de tweets que se pueden recopilar durante un periodo de tiempo,
se muestran en la siguiente Tabla 3.3.
API Limitación temporal Limitación tamaño
Streaming Sólo en tiempo real NO
Search -7 días 1.500 últimos tweets
REST NO 3.200 últimos tweets
3.6. QVSource
Este conector pertenece a la empresa Qlik, por lo tanto la descarga se realiza desde su
página y se debe solicitar a la empresa una licencia de prueba que otorgan por un mes a los
usuarios que se registren con una cuenta de email de empresa. Se encuentra como un archivo
comprimido, no existe instalador y QVSource instala componentes adicionales en sus
sistemas, lo que genera que sea muy pequeño, ligero y trivial para ejecutar o eliminar.
Para llevar a cabo los objetivos de esta tesis, QVsource se utiliza como conector con
la fuente de datos de Twitter para realizar el proceso de extracción de datos desde la API
Search de Twitter.
3. MARCO TEÓRICO 28
Como requisito para utilizar el conector de Twitter que dispone QVSource, se debe
contar con una cuenta de usuario en esta red social para así autentificarse y luego recibir los
permisos para realizar la conexión a la API Search de Twitter, la cual permite consultar sobre
los tweets más recientes que hacen referencia a un usuario específico.
A continuación, en la Tabla 3.5 se describen todos los datos extraídos que tienen
relación con la información del usuario, quien realiza el tweet o retweet, haciendo referencia
a un usuario específico [TWI2016d].
Campo Tipo Descripción
user_id Int Representación entera del identificador único
para el usuario.
user_name String Nombre del usuario que publica un retweet
user_screen_name String Alias utilizada por el usuario
user_location String Localidad registrada por el usuario.
user_profile_image_url String URL de la imagen de perfil del usuario.
user_description String Descripción del usuario (si es que existe).
user_url String URL página adicional del usuario.
user_followers_count Int Cantidad de usuarios que lo siguen.
user_friends_count Int Cantidad de usuarios a que sigue.
user_listed_count Int Cantidad de cuentas oficiales del usuario.
user_favourites_count Int Cantidad de me gusta que realiza el usuario.
user_statuses_count Int Cantidad de tweets que ha realizado.
created_at String Fecha creación de la cuenta.
user_utc_offset String Horario UTC.
user_time_zone String Zona del horario UTC.
user_verified Boolean Usuario verificado.
user_lang String Lenguaje cuenta.
Como se puede visualizar, los datos que permite extraer QVSource a partir de la API
Search de Twitter son bastantes y contienen información esencial, que es de utilidad para
realizar diferentes análisis enfocados en los tweets o retweets que hacen mención a un usuario
específico, así como también estudiar al usuario que realiza estas publicaciones.
QVSource conecta dos mundos, el mundo interno de la empresa con el mundo externo
conformado por la información que generan los usuarios en las redes sociales, permitiendo a
las empresas mantenerse día a día informadas sobre lo que está ocurriendo.
Capítulo 4.
Propuesta análisis de información de
Twitter y su arquitectura.
4. ARQUITECTURA PROPUESTA 33
Primero tiene relación con el liderazgo, entendiendo con ello que se desea visualizar
qué tweet es el que se está hablando con más recurrencia y a quién pertenece. Para
ello es necesario contar con los mensajes emitidos y con información como la
cantidad de “retweet” y “Me gusta” que poseen los tweets que hacen referencia a
los diferentes perfiles.
Segundo, relacionado con la experiencia, este enfoque busca visualizar que tan
participativo o experto es el usuario que realiza el tweet, ya sea porque posee gran
cantidad de mensajes emitidos, alta cantidad de personas a las que les interesa su
4. ARQUITECTURA PROPUESTA 34
perfil, por la cantidad de perfiles de interés o la cantidad de “Me gusta” que realiza a
diferentes tweet. Para esto, la información que se requiere es la relacionada con el
perfil del usuario, donde los datos relevantes para este análisis corresponden a la
fecha de creación de dicha cuenta, la cantidad de tweets, cantidad de followers,
cantidad de following y cantidad de likes que posee el usuario.
La tercera característica es el origen, que utiliza la información relacionada con la
localidad del usuario, que es ingresada por él mismo al momento de crear su cuenta.
Esto restringe a obtener un análisis efectivo, ya que la localidad se presenta en
diversos formatos o incluso de manera incorrecta, así como también debido a que no
es información obligatoria, nos encontramos con usuarios sin definir su localidad.
Una vez recopilado diferentes tweets de las empresas seleccionadas, se deben extraer
los datos asociados a las características para cada perfil mencionado anteriormente, y
posterior implementación utilizando la herramienta Qlik Sense Desktop(herramienta
4. ARQUITECTURA PROPUESTA 35
como conector con la API Search de Twitter, permitiendo así obtener los datos de todos los
tweets que hacen referencia a cada usuario e información específica del usuario que realiza
dichos tweets para luego generar un archivo con dicha información.
Capa 3: Selección base de datos final. Esta capa adquiere importancia ya que en ella
es donde se comienza a utilizar el software interactivo Qlik Sense Desktop, de interés de esta
tesis para el análisis del perfil de usuario Twitter. Como primera tarea, se carga el archivo
generado en la Capa 2, luego seleccionar los atributos o datos de interés, para llevar a cabo
el modelo de análisis de la información ya propuesto en la Figura 4.1. De esta forma se
obtiene la base de datos con los elementos de análisis que se requieren.
Dispone de diferentes herramientas, según las necesidades del cliente, por ejemplo
los cuadros de mando QlikView y Qlik Cloud como cartera de aplicaciones SaaS y la
plataforma analítica visual Qlik Sense, que contiene el producto Qlik Sense Desktop, el cual
es analizado y utilizado para el desarrollo de esta tesis.
Es un software gratuito para uso personal y de negocios internos, donde solo se debe
contar con un email de empresa para solicitar su descarga. Este punto es de suma importancia
para llevar a cabo una implementación de bajo costo.
Gracias a esto, los usuarios pueden comprender a fondo los datos y tomar medidas
específicas ya que permite explorar las relaciones en los datos obtenidos desde diferentes
fuentes, que de otro modo quedarían ocultas en modelos jerárquicos o basados en consultas.
Esto permite, una exploración potente sobre la marcha de grandes conjuntos de datos a
velocidades instantáneas.
4.3.4 Características
La principal característica de la plataforma Qlik Sense Desktop es que está impulsada
por el motor QIX, que permite realizar una experiencia ultra rápida, incluso durante una
exploración totalmente libre, independiente del dispositivo o formato utilizado.
4. ARQUITECTURA PROPUESTA 39
normas de seguridad hasta el grado que desee, al tiempo que permite a los usuarios
de negocios añadir sus propios datos, analizar y compartir su trabajo con otras
personas en un modelo completamente autónomo.
Narración de datos: Con la capacidad integrada de narración de datos, se preserva
la gobernanza de datos incluso mientras se comparte información y resultados.
Guarda las historias y los datos relacionados para responder a cualquier pregunta con
total confianza.
Para cargar los datos necesarios para realizar los análisis, lo primero que se debe hacer
es crear una aplicación, donde se visualizan las opciones para añadir los datos, ya sea desde
la lectura de archivos de distintos formatos, desde bases de datos, desde Qlik DataMarket o
interviniendo en el script para modificar los datos ya cargados.
Al seleccionar la opción añadir datos, existe con la posibilidad de escoger que tipo de
archivo se desea cargar, esto es, hojas de cálculo, páginas web o delimitados (csv, txt, tab,
qvo, mem, skv, prn o log), también permite crear conexiones de bases de datos ODBC o OLE
DB, como se visualiza en la Figura 4.3 . Qlik DataMarket realiza la selección de la fuente de
datos desde fuentes externas, siendo una sola opción gratuita, que dispone información
relacionada con los tipos de cambio, indicadores de desarrollo, el tiempo en 50 ciudades de
todo el mundo y la población mundial por países, donde se encuentran datos listos para su
uso siempre que sea requerido.
Por lo tanto, según la opción que se escoja para añadir los datos, solo se debe
seleccionar y seguir los pasos para cargarlos ya sea ingresando información requerida o
buscando la ruta donde se encuentra el archivo con la fuente de datos.
En la Figura 4.4 se muestra la carga de datos a partir de un archivo con formato csv,
donde se aprecian las variables con su respectiva información. En esta parte, Qlik Sense
Desktop permite realizar una selección de los campos que serán cargados a la aplicación, para
así obtener solo información necesaria para realizar el análisis de los datos o también agregar
información, en el caso de ser requerida, sin tener que cargar el archivo con la fuente de datos
nuevamente.
4.3.5 Visualizaciones
Gráfico de Muestra la relación entre dos medidas, una en cada eje, por
dispersión ejemplo, ventas y coste. Cada punto es un valor de la dimensión.
Una tercera medida se puede utilizar y reflejar en el tamaño del
punto.
Gráfico de Muestra tendencias en el tiempo, por ejemplo, ventas por mes.
líneas Añada otra dimensión, año, a fin de comparar la tendencia a lo
largo de diversos años. Use área apilada para mostrar los totales.
Gráfico de Muestra la relación entre valores pero también entre un único valor
tarta y el total. Utilícelo con hasta 10 valores de dimensión.
Mapa Muestra datos de área y puntos. Muestra las ventas de una región y
utiliza el tamaño de punto para reflejar el valor de la medida. Añada
un mapa de fondo a los datos de punto.
Panel de Muestra valores de dimensión para permitir la selección precisa de
filtrado un conjunto de datos.
Gracias a todas las funciones que entrega el motor QIX conjunto a las opciones de
visualizaciones de los datos que entrega Qlik Sense Dektop, permiten crear aplicaciones
atractivas e interactivas, con el propósito de ayudar a la toma de decisiones de negocios,
produciendo que éstas sean más rápidas, fácil y con mayor colaboración, debido a la
posibilidad de compartir las aplicaciones con otros usuarios a través de Qlik Sense Cloud.
Se debe contar con una cuenta de registro para subir las aplicaciones desde Qlik Sense
Cloud, donde se debe cargar el archivo que contiene la app o directamente desde Qlik Sense
Dektop, haciendo clic derecho en la aplicación, luego en Subir a QlikCloud donde se debe
iniciar sesión y hacer clic en importar app para finalizar la carga de la aplicación.
De esta forma, quedan en la nube los trabajos realizados con el objetivo de tener un
respaldo de las aplicaciones, poder visualizarlas desde distintos lugares y compartirlas con
diferentes usuarios en cualquier momento, lo que conlleva a un trabajo en conjunto más
rápido y eficiente para la toma de decisiones de la empresa.
Capítulo 5.
Caso Práctico e Implementación de la
Arquitectura Propuesta.
5. ARQUITECTURA PROPUESTA 45
5.1 Caso
El caso práctico está enfocado en un análisis de las cuentas de Twitter de cuatro tipos
de organizaciones diferentes:
Bancos: Banco de Chile, Banco Estado y Banco Santander, en relación al perfil
bancario.
Retail: Falabella, Ripley y Almacenes Paris, en relación al perfil de tiendas retail.
Supermercados: Jumbo, Lider y Unimarc, en relación al perfil de supermercado.
Telefonía: Claro, Entel y Movistar en relación al perfil de telefonía.
La extracción de la fuente de datos son los tweets de cada una de las empresas en un
período de 35 días, que forman parte de la base de datos utilizada en el caso práctico. La
Figura 5.1 presenta los logos de la imagen corporativa de cada empresa en estudio.
usuario, por lo que se realiza un estudio basado en corroborar que la insignia azul cumpla
con los requisitos (revisar apartado 3.5.4. Verificación cuentas de Twitter) para seleccionar
las cuentas que son verificadas por Twitter. De esta forma, se obtiene la Tabla 5.1 con los
nombres de usuarios Twitter correspondientes a las doce empresas en estudio.
De esta forma, queda definida la fuente de datos a ser extraída junto a la selección de
la información relevante para este caso práctico, se utiliza la arquitectura planteada con el
propósito de llevar a cabo la propuesta del perfil del usuario.
Para poder tener acceso a los tweets que se encuentran en la red, se utiliza la
herramienta QVSource, que funciona como conector entre el programa Qlik Sense Desktop
y la API Search de Twitter, para este caso. Una vez solicitada la licencia, ejecutado QVSource
y realizada la conexión con la API Search explicitadas en el apartado 3.6 QVSource, se
puede proceder a realizar la extracción de los datos requeridos.
Este proceso, se lleva a cabo para cada una de las cuentas en estudio, generando así
doce archivos diferentes, en formato .csv, con la información correspondiente a cada cuenta
de usuario. Los archivos son guardados con el nombre de la cuenta de usuario
correspondiente (véase Tabla 5.1), con el propósito de facilitar la carga de éstos durante el
proceso de ETL en la siguiente capa.
5. ARQUITECTURA PROPUESTA 49
Es importante mencionar que para el proceso de ETL se crearon dos parámetros, con
la finalidad de automatizar dicho proceso, los cuales deben ser ingresados antes de ejecutar
el proceso. El primer parámetro denominado Ruta, recibe la ruta donde se encuentran
guardados los archivos y el segundo permite ingresar la fecha de extracción de los datos, el
cual se ha denominado Fecha.
Transformar el dato Creación cuenta de usuario en otros dos datos, de la forma que
se presenta en la Figura 5.6.
5. ARQUITECTURA PROPUESTA 51
De esta manera, el proceso ETL observado en la Figura 5.8 se iniciando con la lectura
de los archivos que contienen los datos extraídos desde Twitter, para luego someterlos a una
serie de transformaciones y finalmente obtener un archivo con todos los datos necesarios para
llevar a cabo el análisis del modelo del perfil del usuario.
5. ARQUITECTURA PROPUESTA 52
La selección de los datos que son de interés para el análisis del caso práctico, se
desarrolla en esta parte de la arquitectura, Capa 3 como se aprecia en la Figura 5.9, con la
finalidad de entregar la posibilidad de modificar la selección, en caso de requerir más
información para ampliar el análisis sin tener que ejecutar nuevamente el proceso de ETL.
Se crea una aplicación en Qlik Sense Desktop, en la cual se añaden los datos desde el
archivo generado anteriormente, con toda la información necesaria, para así poder realizar la
selección de los 14 datos que se muestran en la Figura 5.10.
De esta forma, se obtiene la base de datos final que se utiliza para llevar a cabo el
análisis y obtener respuestas a los indicadores de gestión.
5.5 Visualización
Una vez realiza la selección de los datos de la Figura 5.10, se lleva a cabo el proceso
de creación de las diferentes visualizaciones, que entrega Qlik Sense Desktop mencionadas
en la Tabla 4.2 con el objetivo de generar información que dé respuestas a los enfoques
pertenecientes a la propuesta de perfil del usuario. Para esto, se recopila información durante
un período de 35 días, obteniendo así datos desde el 12 de junio del 2016 al 17 de julio del
mismo año, que son utilizados para los análisis que se realiza a continuación.
5. ARQUITECTURA PROPUESTA 54
Para complementar con información y realizar un análisis más completo, este tipo
de visualización entrega la opción de enlazarse con otra, por ejemplo al hacer doble clic en
ella, se abre una nueva ventana donde se muestra una tabla con los tweets en detalle con el
objetivo de conocer el contenido de éstos para así saber de qué hablan. Gracias a la opción
de búsqueda inteligente, permite ingresar palabras y seleccionar los tweets que tengan
relación con ella, un ejemplo se presenta en la Figura 5.12.
Esta información, complementada con la tabla que entrega el contenido de los tweets
y la búsqueda inteligente, permite analizar las causas que unos perfiles sean más mencionadas
que otros, pudiendo deberse a la cantidad de contenido promocional, concursos, reclamos,
comentarios positivos o negativos, la baja de algún servicio, entre otros factores.
#FifthHarmony? ¡Entonces haz RT a este video y estarás participando por entradas dobles!”
con 1.052 retweet.
5. Cantidad de tweets generados por día. Con el propósito de conocer el día en que
se realiza la mayor cantidad de tweets, se crea un gráfico de líneas que además permite
observar cómo se comporta, en el tiempo, la cantidad de tweets generados. En la Figura 5.16,
se visualiza que el día 27 de junio del 2016 se lleva a cabo la mayor cantidad de publicaciones
con un total de 3.304 tweets. Al complementar con los demás gráficos, se recopila
información como: perfil al que pertenecen los tweets realizados ese día, el contenido de
estos, la cantidad de “Me gusta” y retweet para responder a análisis más específicos. Consta
de un panel de filtrado, con el objetivo de poder seleccionar una fecha de creación del tweet
específica, un rango u obtener solo la cantidad de tweets publicados en junio o julio.
2. Cantidad de tweets y likes realizados por el usuario. Con este indicador se analiza
información que es producida por el propio usuario que realiza los tweets, esto es, la cantidad
de tweet y likes que posee su cuenta. En este análisis se busca visualizar al usuario que posee
mayor cantidad de tweet, ya que, de esta forma se puede analizar qué tan participativo se
encuentra en la red social. En el gráfico de barras de la Figura 5.18 se observa que el usuario
que ha realizado la mayor cantidad de tweets es “BigDataTweetBot” con 975.280
publicaciones y 0 tweets que le han gustado. Ya que esta información es generada por la
acciones del usuario, se evidencia que su manera de participar en Twitter es publicando
información, debido a la gran cantidad de tweets que publica y ninguno que le gusta. Por otro
lado, se puede realizar este mismo análisis enfocado en el usuario quien realiza la mayor
cantidad de likes.
información es de gran utilidad para los análisis al ser complementada con las visualizaciones
anteriores tal como se aborda más adelante.
Figura 5.20: Cantidad de tweets por año de creación de la cuenta del usuario.
Para este dashboard, al igual que el anterior, se ha utilizado un panel de filtrado, que
permite visualizar la información, según el año en que el usuario creo su cuenta de Twitter,
y también más específicamente, por día y mes de la creación de dicha cuenta.
Es importante mencionar que al utilizar el panel de filtrado la información entregada
es acotada para ambos dashboard debido a que comparten la misma aplicación, permitiendo
así interactuar también entre ellos y realizar una búsqueda detallada para así dar respuestas
más completas a los diferentes análisis.
De esta misma forma y con los análisis realizados anteriormente, se dan respuestas a
las preguntas planteadas en la propuesta del perfil del usuario. Para este análisis, se selecciona
un usuario al azar, por ejemplo, “lollapelusa”, obteniendo que este usuario ha realizado 19
tweets haciendo mención a tres de los perfiles en estudio, los que corresponden a las cuentas
del supermercado Jumbo Chile (42,1%), Entel (26,3%), a la cuenta de la empresa telefónica
de Claro Chile y al supermercado Unimarc (10,5%), Movistar Chile y Banco Estado (5,3%).
Estos tweets fueron realizados durante las fechas 15 y 27 de junio, 3, 9, 11, 12 y 15 de julio
del 2016. Más detalladamente se visualiza cada tweets, en el caso de requerir esta
información para análisis su contenido, donde se observa que el usuario menciona al
supermercado Jumbo realizando consultas sobre un producto electrónico que ya está
fallando, recibiendo respuestas por parte del supermercado. En cuanto a los tweets realizados
que hacen referencia a Entel, se enfocan en realizar consultas sobre unos descuentos para un
museo que esta compañía otorga a sus clientes. En relación al supermercado Unimarc, el
usuario comparte contenido de propaganda y por otro lado, los tweets relacionados con Claro
corresponden a información de reclamo por su atención, de esta forma se dimensiona cómo
el usuario opina de las diferentes empresas. Este análisis se puede llevar a cabo para cualquier
usuario en específico y así dar respuesta a la pregunta planteada, ¿Cómo el tuitero se
comporta en las diferentes marcas? Generando de esta manera información en relación a
las preferencias del usuario, siendo este un análisis de utilidad para la organización
investigadora, permitiéndoles tomar decisiones estratégicas, con el objetivo de acercarse a
los usuarios para así ofrecer productos y/o promociones acordes a sus opiniones y
necesidades, como también, para capturar futuros clientes.
Para dar respuesta a la segunda interrogante, ¿Cómo afectan las opiniones en la red,
al perfil de twitter de la empresa?, se realiza un análisis exhaustivo relacionado con el
5. ARQUITECTURA PROPUESTA 64
contenido del tweet, donde se puede ver que los tweets pertenecen principalmente a
propaganda, concursos y reclamos. En el caso de estos últimos, son de suma importancia
para la empresa, debido a la gran cantidad de personas que ven esta información en la red,
donde los usuarios dan a conocer experiencias malas que han vivido y se unen para divulgar
estas anécdotas, a través de los retweet. De esta forma, se va “manchando” el nombre de la
empresa, ya que otro usuario verá los tweets y tendrá duda al momento de adquirir algún
servicio de dicha empresa.
Como se observa en la Figura 5.23, a modo de ejemplo, un usuario realiza un tweet
haciendo referencia a un supermercado, para mencionar que encontró un pedazo de vidrio en
el pan que adquirió en dicho lugar, y luego indica que fue contactado por la empresa, con el
fin de dar a conocer su experiencia y así ser vista y divulgada por todos los usuarios que lo
siguen.
Durante el estudio de la herramienta Qlik Sense Desktop, junto con las etapas
desarrolladas para llevar a cabo la implementación del caso estudio realizado en esta tesis, se
pudo detectar la existencia de una gran cantidad de beneficios que entrega, así como también
de algunas desventajas, ambas expuestas a modo de resumen en la Tabla 5.1:
Ventajas Desventajas
Software gratuito Aplicación de Windows
Interfaces sencillas Funcionamiento de modo local.
Visualizaciones de datos interactivos y Cantidad limitada de datos extraídos
personalizados
Búsqueda inteligente Limitaciones en las visualizaciones
Integración con múltiples fuentes de datos
Diseño responsivo
QlikSense Cloud
La principal ventaja que posee Qlik Sense Desktop, es que cualquier miembro de la
organización puede crear con facilidad visualizaciones flexibles e interactivas y tomar
decisiones en base a información fundada. Es una herramienta para que el usuario tenga
libertad a la hora de explotar la información, crear su propio diseño de visualización de datos
y en definitiva conseguir autonomía y autoservicio por parte del usuario.
inteligentes que se adaptan automáticamente a los parámetros que establezcan, sin necesidad
de desarrolladores, científicos de datos ni diseñadores, logrando una flexibilidad absoluta,
donde solo se debe escribir lo necesario para encontrar información relacionada y ver datos
relacionados en todo el conjunto de datos.
Un punto importante para las organizaciones, es contar con un entorno donde los
diferentes usuarios puedan acceder en el momento que deseen, desde el punto donde se
encuentren y de forma rápida, a la información, de manera que pueden opinar y colaborar en
cualquier momento, en base a conocimiento informado. Por esta razón, Qlik Sense Desktop,
es independiente de dispositivos y fácil de usar en una pantalla táctil, ya que está basado en
HTML5, permitiendo interactuar, comprender, comunicar, colaborar y compartir datos con
facilidad en cualquier dispositivo, en cualquier momento y en cualquier lugar, con
visualizaciones llamativas y listas para usar, está pensado para un entorno móvil y
táctil[QLI2014]. Finalmente está la ventaja de poder compartir las aplicaciones a través de
Qlik Sense Cloud, lo que posibilita la creación y análisis de dashboards con la colaboración
de distintos usuarios en un entorno seguro.
En relación a las desventajas detectadas, destaca que es una aplicación para ser
utilizada solo en sistemas operativos Windows, dejando de lado la compatibilidad con otros
sistemas. Otra desventaja es que Qlik Sense Desktop, posee un funcionamiento de modo
local, es decir, debe existir una conexión directa con las distintas fuentes de datos y lo que
necesita para crear la secuencia de comandos, para conectarse a la base de datos, cargar los
datos y transformarlo, a diferencia de versiones que tienen costos para cliente-servidor.
Otra limitación identificada, es la cantidad de datos que permite extraer desde Twitter
el conector de API REST con Qlik Sense, limitando por consulta, a una cantidad de 1500
tweet o un máximo de 7 días anteriores, de manera que si se necesita obtener una base de
datos muy grande, no es de utilidad esta metodología. Como última dificultad identificada,
se menciona que algunas visualizaciones, como el gráfico de barras no funcionan muy bien
cuando hay muchos valores de dimensión, debido a las limitaciones en la longitud de los ejes,
pero si las dimensiones no encajan, existe la posibilidad de moverse mediante la barra de
desplazamiento, sin embargo es posible que la visualización no sea completa. Por estas
razones, es fundamental acotar de manera correcta la base de datos con información esencial
para el análisis de un periodo determinado.
Capítulo 6.
Conclusiones y trabajos futuros.
6. CONCLUSIONES Y TRABAJOS FUTUROS 68
6.1 Conclusiones
Obtener información que proporcionan los usuarios a través de las redes sociales,
constituye un elemento de alto valor y un punto fundamental para las organizaciones, ya que
es a través de ellas donde las personas exponen reclamos, opiniones, experiencias o
necesidades que son relevantes para ellos y que constituye una información valiosa para todo
tipo de entidades que deseen permanecer conectadas con el mercado
6. CONCLUSIONES Y TRABAJOS FUTUROS 69
Para llevar a cabo este análisis de información, la red social más adecuada, es Twitter,
ya que, es una de las redes más utilizadas, con una gran cantidad de usuarios activos. Por esta
razón, la elección de esta red para desarrollar el modelo de perfil de usuario se consideró
como la más adecuada e ideal, principalmente por su característica particular de poseer
mensajes de texto limitados a 140 caracteres, y gracias a que la información entregada por
Twitter es de acceso público, al igual que las aplicaciones que permiten conectarse a la API
de esta red social para así obtener la información deseada
Por otro lado, concluye que la única limitación que posee la arquitectura, es la
cantidad de datos que permite extraer desde Twitter, debido a las características de la API
Rest, para lo cual, se realiza un análisis profundo en un cierto periodo de tiempo. De igual
forma, esto contribuye a que las visualizaciones realizadas con la herramienta QlikSense
Desktop sean más efectivas, debido a que grandes cantidad de datos, provocan confusión en
las vistas, entorpeciendo al proceso de análisis de la información.