Está en la página 1de 81

UNIVERSIDAD CATÓLICA DEL MAULE

Facultad de Ciencias de la Ingeniería Profesor Guía


Escuela de Ingeniería Civil Informática Dra. Angélica Urrutia Sepúlveda

ANÁLISIS DEL VALOR DE LA EXPERIENCIA DE


CLIENTES DE TWITTER UTILIZANDO QLIK SENSE.

BELÉN PASTORA VÁSQUEZ FONTECILLA

Tesis para optar al


Título Profesional de Ingeniero Civil Informático

Talca, Diciembre 2016


UNIVERSIDAD CATÓLICA DEL MAULE
FACULTAD DE CIENCIAS DE LA INGENIERÍA
ESCUELA DE INGENIERÍA CIVIL INFORMÁTICA

TESIS PARA OPTAR AL


TÍTULO PROFESIONAL DE INGENIERO CIVIL INFORMÁTICO

“ANÁLISIS DEL VALOR DE LA EXPERIENCIA DE CLIENTES DE TWITTER


UTILIZANDO QLIK SENSE.”

BELÉN PASTORA VÁSQUEZ FONTECILLA

COMISIÓN EXAMINADORA FIRMA

PROFESOR GUÍA
Dra. Angélica Urrutia Sepúlveda ________________________

PROFESOR COMISIÓN
Rodrigo Cofré Loyola ________________________

PROFESOR COMISIÓN
Marco Toranzo Céspedes ________________________

NOTA FINAL EXAMEN DE TÍTULO ________________________

TALCA, DICIEMBRE DE 2016.


Sumario

La presente tesis tiene como objetivo central implementar una solución a un modelo
de análisis de información relacionado con el valor de la experiencia de clientes en Twitter,
utilizando la herramienta de visualización de datos Qlik Sense Desktop. El propósito es dar a
conocer dicha herramienta y encontrar una solución de fácil utilización para los usuarios
finales, de manera que no tengan que acudir a profesionales del área para elaborar sus propios
reportes.

Para llevar a cabo la implementación de esta solución, se propone una arquitectura


que consta de cuatro capas. La primera consiste en obtener la base de datos, donde se realiza
la extracción de datos desde Twitter. En la segunda capa se llevan a cabo los procesos de
transformación y carga de datos. En la tercera, se realiza la selección de los datos necesarios
para implementar la solución, utilizando la herramienta Qlik Sense Desktop. Y en la última
capa, se implementan las visualizaciones que darán respuesta a los indicadores de gestión
correspondientes al modelo.

Para desarrollar la implementación se deben seguir detalladamente cada una de las


etapas definidas en la arquitectura propuesta, en la cual se utiliza como apoyo un estudio de
caso, que consiste en analizar el valor de la experiencia de clientes de Twitter, en relación a
doce empresas de los rubros bancario, supermercados, telefónicas y retail asociados a la
opinión del cliente sobre las marcas.

Esta investigación entrega como resultado una solución de bajo costo y que cumple
con el propósito de ser llevada a cabo por usuarios no expertos en el área de inteligencia de
negocios, que necesiten dar solución al modelo de análisis de la experiencia de clientes de
Twitter, ideal para ser aplicada en pequeñas y medianas empresas. Por otro lado, la
implementación realizada sirve como guía para replicar el resultado en el futuro.

A modo de conclusión, se identifican las ventajas y desventajas de implementar este


modelo utilizando la herramienta Qlik Sense Desktop, y se proponen trabajos futuros que
permitan indagar más a fondo sobre esta investigación y encontrar posibles soluciones frente
a las desventajas descritas.
Índice de contenidos

1. Introducción y Objetivos ............................................................................................................. 2


1.1 Introducción ........................................................................................................................ 2
1.2 Objetivos generales ............................................................................................................. 4
1.3 Objetivos Específicos ........................................................................................................... 4
1.4 Descripción del Tema .......................................................................................................... 4
1.5 Alcance del tema ................................................................................................................. 5
1.6 Hardware y Software........................................................................................................... 5
1.7 Contribución esperada ........................................................................................................ 5
1.8 Organización del documento .............................................................................................. 5
2. Estado del Arte ............................................................................................................................ 8
2.1 Carlos Guadián O.; Francisco Manuel Rangel P.; Javier Llinares S.[GUA2012] ................... 8
2.2 Meeyoung Cha;Hamed Haddadi;Fabrício Benevenuto;Krishna P. Gummadi [CHA2013]. 11
2.3 Consideraciones Finales .................................................................................................... 14
3. Marco Teórico ........................................................................................................................... 16
3.1 Business Intelligence ......................................................................................................... 16
3.2 Proceso ETL. ...................................................................................................................... 17
3.3 Spoon ................................................................................................................................ 18
3.4 Redes sociales ................................................................................................................... 20
3.5 ¿Qué es Twitter? ............................................................................................................... 22
3.5.1 Glosario de términos ..................................................................................................... 22
3.5.2 Funcionamiento de Twitter ........................................................................................... 23
3.5.3 Verificación cuentas de Twitter..................................................................................... 24
3.5.4 Información que se puede extraer de Twitter. ............................................................. 24
3.5.5 APIs de Twitter .............................................................................................................. 25
3.6. QVSource ........................................................................................................................... 26
4. Propuesta de análisis de información de Twitter y su arquitectura ......................................... 33
4.1 Propuesta perfil del usuario. ............................................................................................. 33
4.2 Propuesta de arquitectura para analizar perfil twiteer. ................................................... 35
4.3. Software: Qlik Sense Dektop ........................................................................................... 36
4.3.1 Descripción de la empresa Qlik ..................................................................................... 37
4.3.2 Qlik Sense Desktop ..................................................................................................... 37
4.3.3 Requisitos del sistema ................................................................................................... 38
4.3.4 Características ............................................................................................................... 38
4.3.5 Carga de datos. .............................................................................................................. 40
4.3.5 Visualizaciones .............................................................................................................. 41
4.3.6 Qlik Sense Cloud .......................................................................................................... 43
5. Caso Práctico e Implementación de la Arquitectura ................................................................. 45
5.1 Caso ................................................................................................................................... 45
5.2 Extracción de la fuente de datos ....................................................................................... 47
5.3 Procesos ETL ...................................................................................................................... 49
5.3.1 Extracción de los datos.................................................................................................. 50
5.3.2 Transformación de los datos ......................................................................................... 50
5.3.3 Carga de datos ............................................................................................................... 51
5.4 Selección base de datos final ............................................................................................ 52
5.5 Visualización ...................................................................................................................... 53
5.6 Ventajas y desventajas de QlikSense Desktop. ................................................................. 65
6. Conclusiones y trabajos futuros ................................................................................................ 68
6.1 Conclusiones...................................................................................................................... 68
6.2. Trabajos futuros ................................................................................................................ 70
6.2.1 Algoritmo para realizar análisis de sentimiento de los tweets ..................................... 70
6.2.2 Implementación en Qlik Sense Enterprise .................................................................. 70
Bibliografía .................................................................................................................................... 72
Índice de figuras

2.1 Ciclo de vida de los mensajes [GUA2012] ................................................................................... 9


2.2 Topología de la comunidad política española en Twitter [GUA2012] ...................................... 10
2.3 Diagrama de Venn de los 100 más influyentes por tipo de Medidas [CHA2013] .................... 13
3.1 Job y transformación del proceso ETL utilizando Spoon .......................................................... 20
3.2 Conector QVSource ................................................................................................................... 27
3.3 Conectores de QVSource. ......................................................................................................... 27
3.4 Consulta Search de Twitter ....................................................................................................... 28
4.1 Características propuestas para perfil del usuario Twitter ....................................................... 34
4.2 Propuesta de arquitectura para analizar perfil Twitter ............................................................ 35
4.3 Opciones de QlikSense Desktop para añadir datos .................................................................. 40
4.4 Selección y carga de datos con QlikSense Desktop................................................................... 41
5.1 Logos de las empresas en estudio ............................................................................................. 45
5.2 Capa 1, extracción de la fuente de datos .................................................................................. 48
5.3 Extracción de datos haciendo referencia a la cuenta Bancodechile con QVSource ................. 49
5.4 Capa 2, procesos ETL . ............................................................................................................... 49
5.5 Transformación campo creación tweet .................................................................................... 50
5.6 Transformación campo creación cuenta de usuario ................................................................. 51
5.7 Transformación campo localidad .............................................................................................. 51
5.8 Procesos ETL utilizando Spoon ................................................................................................. 52
5.9 Capa 3, selección de la base de datos ....................................................................................... 52
5.10 Catorce datos seleccionados desde tweet ................................................................................ 53
5.11 Cantidad de tweets ................................................................................................................... 54
5.12 Visualización de los tweets analizados y búsqueda avanzada .................................................. 54
5.13 Porcentaje perfiles mencionados.............................................................................................. 55
5.14 Cantidad de “Me gusta” por tweets.......................................................................................... 56
5.15 Cantidad de retweet por tweets ............................................................................................... 57
5.16 Cantidad de tweets por día ....................................................................................................... 57
5.17 Dashboard en relación al enfoque de liderazgo ....................................................................... 58
5.18 Cantidad de tweets y likes por usuario ..................................................................................... 59
5.19 Cantidad de followers y following del usuario .......................................................................... 60
5.20 Cantidad de tweets por año de creación de la cuenta del usuario ........................................... 61
5.21 Cantidad de tweets por localidad ............................................................................................. 61
5.22 Dashboard en relación al enfoque de la experiencia ................................................................ 62
5.23 Ejemplo tweets de reclamos ..................................................................................................... 64
Índice de Tablas

3.1 Cinco redes sociales más populares según el sitio Alexa .......................................................... 21
3.2 Términos utilizados por Twitter ................................................................................................ 23
3.3 Limitaciones APIs de Twitter ..................................................................................................... 26
3.4 Datos extraídos en relación al tweet ........................................................................................ 30
3.5 Datos extraídos relacionados con el usuario ............................................................................ 31
4.1 Requisitos de sistema para instalar Qlik Sense Desktop ........................................................ 38
4.2 Opciones de visualización ......................................................................................................... 42
5.1 Cuentas oficiales de usuarios del caso de estudio .................................................................... 46
5.2 Datos extraídos para analizar .................................................................................................... 47
5.2 Ventajas y desventajas de QlikSense Desktop .......................................................................... 65
Capítulo 1.
Introducción y Objetivos.
1. INTRODUCIÓN Y OBJETIVOS 2

1. Introducción y Objetivos
La finalidad del presente capítulo es presentar los objetivos generales y específicos de
esta tesis. Asimismo se describe el tema, sus alcances y la organización del documento.

1.1 Introducción

Debido al mundo globalizado, a la rapidez de los cambios y a productos cada vez más
sofisticados demandados por la población en el mundo, es primordial contar con un rápido
acceso a la información necesaria y útil para ayudar a las instancias pertinentes, en la toma de
decisiones, esto es especialmente importante en el ámbito de los negocios, en que contar con
información útil, rápida y confiable, se ha convertido en una de las claves para que una empresa
alcance sus objetivos y en definitiva el éxito deseado.

Sin embargo, los sistemas de información tradicionales suelen presentar una estructura
muy inflexible para lograr que las empresas puedan alcanzar este objetivo, como por ejemplo,
una gran rigidez a la hora de extraer datos, largos períodos de respuesta, falta de integración,
entre los más importantes. El resultado es que cualquier empresa, sin importa el tamaño o rubro,
se ve envuelta en problemas como: que cada día las empresas disponen de una mayor cantidad
de información y a la vez menos tiempo para poder analizarla, lo que no permite generar
información útil y pertinente a los fines de la empresa, producto de lo cual los sistemas de
información disponibles no contribuyen a tomar decisiones adecuadas y de manera rápida o
que los responsables de generar información directiva estén desbordados por las peticiones de
información urgente, continua y no coordinada. Para superar estas limitaciones y dar solución a
los problemas ya mencionados, nace el Business Intelligence (BI), “con el objetivo de apoyar
de forma sostenible y continuada a la organización para mejorar su competitividad, facilitando
la información necesaria para la toma de decisiones” [CAN2007].

El desarrollo vertiginoso de nuevas tecnologías y el fácil acceso a Internet, han


provocado que el uso de esta herramienta sea cada día más común y necesaria para la sociedad.
El mayor porcentaje del tráfico actual de Internet está destinado a las denominadas “redes
sociales”, cuyo éxito se debe en gran parte, a la necesidad innata del ser humano de relacionarse
y comunicarse con sus semejantes.
1. INTRODUCIÓN Y OBJETIVOS 3

Las redes sociales han cobrado un gran protagonismo, tanto en el ámbito personal como
empresarial, donde se ha comprobado que los clientes revelan, directa o indirectamente, mucha
información, permitiendo relacionarse con el resto de la sociedad, que a la vez transforman la
comunicación unidireccional en una conversación inmediata entre las empresas comerciales y
su público. Sin embargo, no todas las empresas pueden comunicarse de la mejor forma a través
de los medios sociales, ni comprenderlos completamente, de manera que es imprescindible
contar con un sistema adecuado y efectivo frente a la interactividad social, aspecto necesario
para todas las empresas que no desean quedarse atrás en mercados dinámicos, sean éstos
tradicionales, nichos o emergentes

Un estudio de Business Intelligence puede analizar la forma en que las organizaciones


pueden mejorar la interactividad de muchas empresas con todos sus clientes, ofreciendo de esta
manera una mejor atención y proporcionar la información útil y necesaria que requieren todos
los clientes. Estos estudios tienen como objetivo obtener la mayor cantidad de información
relevante y útil sobre sus clientes, potenciales clientes y competencia, en relación a los intereses
que éstos poseen, tendencias, opiniones y necesidades para así acercarse a ellos a través de las
redes sociales, como es el caso de Twitter.

Twitter es una red social en tiempo real, que mantiene informados a sus usuarios acerca
de contenido que ellos consideran relevantes según sus intereses. Se determina como red social
pero realmente pertenece a una herramienta de microblogging, es decir, es una plataforma que
permite comunicar información, así como contenido multimedia a través de 140 caracteres de
longitud. El gran aumento de usuarios que ha tenido en el último año, ha provocado que Twitter
comience a tener un objetivo similar al de las redes sociales, por tanto, se puede considerar a
Twitter ya sea como una red social o como un servicio de microblogging.

Debido a que las redes sociales son un potencial aliado de las empresas, capaces de atraer
a clientes potenciales, para ofrecerles determinado producto o para lograr que una opinión
negativa cambie a positiva, junto a las funcionalidades que posee Twitter, son las razones por
las que se decide utilizar datos extraídos de esta red social para entregar información relevante
al área de opinión para el producto en que se realizó esta investigación, y apoyar en la toma de
decisiones, debido a que la noción de influencia desempeña un papel vital en el funcionamiento
de las empresas y en cómo funciona la sociedad.
1. INTRODUCIÓN Y OBJETIVOS 4

En este contexto, la tesis se enfoca en proponer una solución a un modelo de análisis


del valor de la experiencia de los clientes y su opinión revelada en Twitter, utilizando como
medio, las plataformas web de empresas, de tipo bancarias, telefónicas, supermercados y retail.
Para abordar este tema se desarrollan las etapas fundamentales de un modelo de inteligencia de
negocios, el cual será apoyado con la herramienta de visualización de datos Qlik Sense Desktop,
con el propósito de investigar dicha herramienta, descubrir sus ventajas y desventajas, dar a
conocer su funcionamiento y las diferentes opciones de visualización de datos disponibles para
la creación de gráficas dinámicas, que dén respuesta a los indicadores de gestión. Además, ser
de utilidad como guía para llevar a cabo la implementación, por usuarios no expertos en el área
de inteligencia de negocios que deseen dar solución a este modelo de análisis, permitiendo así
a las organizaciones conocer con más detalle a sus consumidores, mantener una buena imagen
corporativa, entregando un servicio personalizado y centralizado en los clientes con mayor
influencia, dando lugar, a tomas de decisiones estratégicas para la empresa.

1.2 Objetivos generales


Implementar un modelo de análisis del valor de la experiencia de clientes de Twitter
utilizando la herramienta de visualización de datos Qlik Sense Desktop.

1.3 Objetivos Específicos


1. Seleccionar y proponer una estructura de datos adquiridos desde la red social Twitter
relacionados con páginas web empresariales.
2. Proponer un modelo de análisis de información para obtener la experiencia de clientes a
partir de opiniones generadas en Twitter.
3. Seleccionar los elementos y componentes para el análisis de información de clientes
utilizando Qlik Sense Desktop.
4. Implementar un caso en Qlik Sense Desktop para el análisis de datos de Twitter.
5. Analizar las ventajas/desventajas de implementar el objetivo 4 con Qlik Sense Desktop.

1.4 Descripción del Tema

Esta investigación se focaliza en seleccionar los componentes de la herramienta de


análisis de información automatizada para datos NoSql, de redes sociales, obtenidas de páginas
web de empresas, utilizando Qlik Sense Desktop. Para ello, trabajar un modelo de análisis del
valor de la experiencia de los clientes y su opinión evidenciada en Twitter, utilizando como
1. INTRODUCIÓN Y OBJETIVOS 5

medio, las plataformas web de empresas. Para esto, se seleccionan los componentes de la
herramienta Qlik Sense Desktop y se implementa el modelo de análisis de cliente en un caso.
Finalmente se analizan los datos obtenidos y los beneficios de esta plataforma para una empresa
que utiliza como medio de comunicación con sus clientes, la red social Twitter.

1.5 Alcance del tema


Es importante mencionar que esta tesis se focaliza en la implementación de un modelo
de análisis de información relacionado con el valor de la experiencia de clientes en Twitter,
utilizando la herramienta Qlik Sense Desktop. Por lo tanto, lo realizado en la investigación se
acota al descubrimiento de esta herramienta para abrir las puertas a futuras investigaciones en
esta área, que perfeccionen las desventajas detectadas en este trabajo.

1.6 Hardware y Software

Para llevar a cabo el desarrollo de la solución propuesta, se utiliza un equipo personal


donde se instalaron herramientas cuyas versiones y requerimientos se detallan a continuación:

 Hardware: Laptop Samsung, modelo NP300. Procesador Intel Core i5-2450M de


2.5GHz. Memoria RAM de 6 GB DDR3 1330MHz. Disco duro de 1 TB 5400rpm.
 Software: Sistema Operativo Windows 8.1 Pro 64 bits, Pentaho Data Integration,
QVSource, Qlik Sense Desktop.

1.7 Contribución esperada


Como principal contribución se espera encontrar una solución de bajo costo que cumpla
con el objetivo de implementar un modelo de analsis de información del valor de la experiencia
de clientes en Twitter usando la herramienta de visualización de datos Qlik Sense Desktop.

1.8 Organización del documento

A continuación se presenta la estructura de esta tesis, organizada en los siguientes seis


capítulos:

 Capítulo 1: Este capítulo presenta la introducción de la tesis, objetivos generales y


específicos, descripción del tema, alcance del tema, hardware y software utilizado,
contribución esperada y la organización del documento.
1. INTRODUCIÓN Y OBJETIVOS 6

 Capítulo 2: Este capítulo presenta el estado del arte, mencionando trabajos e


investigaciones realizados en relación al área tratada en esta tesis.

 Capítulo 3: Este capítulo presenta el marco teórico, donde se presentan conceptos


relevantes que permiten una mejor comprensión del desarrollo y propuestas de esta
investigación.

 Capítulo 4: Este capítulo presenta la propuesta de análisis de información y de


arquitectura, para dar solución al problema planteado presentando la herramienta
utilizada como objetivo de esta tesis.

 Capítulo 5: Este capítulo presenta el caso práctico abordado, la implementación de la


arquitectura propuesta en el capítulo anterior junto a las ventajas y desventajas de los
resultados obtenidos.

 Capítulo 6: Este capítulo presenta conclusiones obtenidas de la investigación y


trabajos propuestos a partir de ellas.
Capítulo 2.
Estado del Arte.
2. ESTADO DEL ARTE 8

2. Estado del Arte


En este capítulo se exponen algunos de los trabajos relacionados con el potencial de
la red social Twitter para lograr identificar que tan influyentes son los usuarios en las
organizaciones. El primer documento está focalizado en determinar, en base a métricas del
análisis de redes sociales, los usuarios más influyentes para la recomendación de los círculos
en los que se debe mover una determinada entidad. La segunda investigación, abarca los
patrones de influencia de unas de las redes sociales más populares, utilizando tres diferentes
medidas de influencia: “Seguidores”, “Retweets” y “Menciones”, y así analizar la forma en
que los usuarios influyentes interactúan con su audiencia.

2.1 Carlos Guadián O.; Francisco Manuel Rangel P.; Javier Llinares
S.[GUA2012]
Esta publicación denominada "Análisis de Redes de Influencia en Twitter" se enfoca
en determinar las redes de influencia y los influenciadores principales para un tema de interés
a partir del análisis de redes sociales y sus métricas, presentando como ejemplo los resultados
del análisis de "topología de la comunidad política española en Twitter". Se destaca la forma
en que los mensajes cortos de Twitter han revolucionado el modo de comunicarse de las
personas, y por lo tanto, de conformar redes de influencia en torno a los temas que más
interesan a los usuarios. Este estudio se facilita por la particular forma en que se relacionan
los usuarios en la red social Twitter ya que ésta se constituye por medio de usuarios que se
denominan seguidores y seguidos, demostrando que en esta relación un usuario sigue a los
usuarios que considera de su interés, y al mismo tiempo es seguido por usuarios que le
consideran a él también de interés. Debido a esto, estas redes se verán conformadas por
usuarios de intereses similares, ya sean políticos, económicos, ocio, etc. lo que los autores
denominan como temas o grupos semánticos primarios.

En este trabajo se enfatiza que la información de Twitter fluye de manera viral, a


partir de la creación de un mensaje y su posterior redifusión por la red de influencia de la
persona que lo emite, y de las redes de aquéllos que lo reciben y deciden reemitirlo, y así
sucesivamente hasta que el mensaje muere (véase Figura 2.1).
2. ESTADO DEL ARTE 9

Figura 2.1: Ciclo de vida de los mensajes [GUA2012].

Por otra parte, los autores destacan que en la comunicación online, la influencia se
traduce en la capacidad de hacer llegar el mensaje al mayor número posible de individuos, lo
que clásicamente en prensa o televisión, sería el número de impresiones, y que es el objetivo
principal de la política de promoción del marketing para cualquier entidad, ya sea una
empresa, partido político, administración pública, etcétera.

El objetivo principal de la publicación es determinar de manera cuantitativa, en base


a métricas del análisis de redes sociales, los usuarios más influyentes, para un determinado
tema o grupo semántico, como base para la recomendación de los círculos en los que se debe
mover una determinada entidad, si quiere hacer efectivo su mensaje. Por ello la investigación
parte realizando una separación del objetivo principal en dos problemas diferenciados que
son abordados por dos investigaciones paralelas:

 Determinación de los temas sobre los cuales los usuarios tienen más interés.

 Determinación de las redes sociales que se conforman y su análisis e interpretación.

El documento se encuentra organizado de la siguiente manera; Sección 1,


introducción al tema, Sección 2 se presenta el marco teórico sobre el cual se sustenta la
investigación, dando paso a la Sección 3 que expone la metodología para llevarla a cabo. La
Sección 4 identifica el dataset sobre el cual se trabaja. En la Sección 5 se presentan los
resultados experimentales, comentando los mismos desde un enfoque estructural. Y por
último, en la sección 6 se presentan las conclusiones y las propuestas de trabajo futuro para
mejorar la construcción de modelos de análisis de influencia, como por ejemplo la aplicación
2. ESTADO DEL ARTE 10

inversa de la investigación y así determinar los temas para los que un usuario influyente es
realmente destacado

La Figura 2.2 representa la topología analizada de la comunidad política española en


Twitter.

Figura 2.2: Topología de la comunidad política española en Twitter [GUA2012].

De esta forma y a través de los resultados de las investigaciones expuestas en el


documento, se da a conocer el potencial de Twitter para lograr identificar a los usuarios
influyentes, ya que permite, construir una red social en base a los conceptos de seguidores y
seguidos, es decir, a diferencia de otras redes sociales, es un grafo dirigido donde cada uno
elige a quien sigue pero no elige quien le sigue. Además queda al descubierto, la importancia
de los usuarios influyentes en Twitter ya que poseen la capacidad de hacer llegar sus mensajes
a una gran cantidad de individuos.
2. ESTADO DEL ARTE 11

2.2 Meeyoung Cha; Hamed Haddadi; Fabrício Benevenuto; Krishna P.


Gummadi [CHA2013].
En esta publicación titulada "Measuring User Influence in Twitter: The Million
Follower Fallacy" se presenta un análisis empírico de los patrones de influencia de unas de
las redes sociales más populares. Para esto se utiliza una gran cantidad de datos recopilados
desde Twitter, que son comparados mediante tres medidas de influencia diferentes:
Seguidores, Retweets y Menciones. Por otro lado, se investiga la dinámica de la influencia
de un individuo por tema y por tiempo. Finalmente, se caracterizan los comportamientos
precisos que generan que los usuarios corrientes adquieran una alta influencia en un corto
periodo de tiempo.

El conjunto de datos utilizados en esta investigación asciende a 2 mil millones de


seguidores generando enlaces entre 54 millones de usuarios que produjeron un total de 1.7
millones de tweets.

El estudio realiza varios hallazgos que tienen implicaciones directas en el diseño de


redes sociales y marketing viral, como por ejemplo:

 El análisis de las tres medidas de influencia proporciona una mejor comprensión de


las diferentes funciones que los usuarios poseen en las redes sociales. Esto se debe a
que los “seguidores” representan la popularidad de un usuario; los “retweets”
representan el valor contenido en cada tweets; y las “menciones” representan el valor
de cada usuario.
 El hallazgo sobre cómo la influencia varía entre los tipos de temas, puede servir como
una prueba útil para responder a la pregunta cómo la publicidad podría ser más eficaz
en Twitter, utilizando a los usuarios influyentes como propagadores de información.
Este análisis demuestra que la mayoría de los usuarios influyentes tienen un
ascendiente significativo sobre varios temas identificables.
 Los usuarios comunes pueden ganar influencia concentrándose solo en un tema y
publicando tweets creativos e intuitivos que son percibidos como valiosos por otros,
sin la necesidad de ser populares entre los usuarios comunes.
2. ESTADO DEL ARTE 12

Todos estos hallazgos proporcionan nuevas ideas para el marketing viral. El primero
de ellos en particular, indica que el análisis independiente revela poco sobre la influencia de
un usuario lo que reafirma estudios anteriores, que señalan la evidencia anecdótica que la
mayoría de los usuarios siguen a otros, simplemente por la percepción de ser "educado", ya
que siguen a quienes los están siguiendo, y muchos de ellos ni siquiera leen los tweets que
emiten los usuarios a los cuales siguen. De esta forma, este estudio demuestra empíricamente
que tener un millón de seguidores no siempre significa mucho en el mundo de Twitter. Es
por esto que los autores del documento afirman que es más influyente tener una audiencia
activa que más cantidad retweets o de menciones al propio usuario.

Por otra parte, en esta publicación, se analiza la red de Twitter como un medio de
difusión de noticias, estudiando los tipos de grados de influencia dentro de la red, centrándose
en el potencial de un individuo para llevar a otros a participar en un acto determinado,
destacando tres actividades entre usuarios de Twitter. En primer lugar, los usuarios
interactúan siguiendo las actualizaciones de las personas que publican tweets interesantes.
En segundo lugar, los usuarios pueden transmitir interesantes fragmentos de información a
sus seguidores mediante el retweet. Y finalmente, los usuarios pueden responder o comentar
los tweets de otras personas, a los que definen como mención. La mención se identifica
mediante la búsqueda del nombre de un usuario en el comienzo del contenido del tweet, como
una forma de excluir el tweet, ya que un tweet que contiene un nombre de usuario, no se
transmite a todos los seguidores, sino solo al usuario citado. En cambio un tweet que contenga
el nombre del usuario en medio de su texto, se difunde a todos los seguidores. Estas tres
actividades (véase Figura 2.3) representan los diferentes tipos de influencia de una persona
y se resumen en:

 Influencia de seguidores: el número de seguidores de un usuario indica directamente


el tamaño de la audiencia para este usuario.
 La influencia de retweet: se mide a través del número de retweets que posee el tweet
emitido, indicando la capacidad de ese usuario para generar contenido con valor.
 La influencia por menciones: se mide a través del número de menciones que posee el
usuario, indicando la capacidad de involucrar a otros usuarios en una conversación.
2. ESTADO DEL ARTE 13

La metodología utilizada en este estudio, se basa en el cálculo del valor de cada


medida de influencia y su comparación. En lugar de comparar directamente los valores, se
utilizó el orden relativo de los rangos de los usuarios. Para ello, se ordenaron los usuarios por
cada tipo de medida, de modo que el rango 1 indica el usuario más influyente y el rango
decreciente indica un usuario menos influyente.

Figura 2.3: Diagrama de Venn, los 100 más influyentes por medidas [CHA2013].

En conclusión, se puede mencionar que este estudio demostró que la mayoría de los
usuarios influyentes pueden tener una ascendencia significativa sobre diversos y variados
temas. El análisis realizado además identificó la forma en que los diferentes tipos de usuarios
influyentes interactúan con su audiencia. Las organizaciones de noticias tradicionales, por
ejemplo, generaron un alto nivel de retweets sobre diversos temas. En contraste, las
celebridades terminaron siendo mejores en inducir menciones en su audiencia. Esto se debe
a que si un usuario corriente incluye la mención de la celebridad en su tweet, este hecho le
ayuda a tener respuestas de otros usuarios, obteniendo más interés en el contenido que
publicaron. Finalmente se puede mencionar que este trabajo, descubrió que la influencia no
se obtiene de manera espontánea o accidentalmente, sino que necesariamente debe ser a
través de un esfuerzo concentrado, requiriendo mantener una gran participación personal en
Twitter, con el fin de aventajar y mantener la influencia los usuarios.
2. ESTADO DEL ARTE 14

2.3 Consideraciones Finales

Las investigaciones expuestas anteriormente en este capítulo, han puesto de


manifiesto que el concepto de influencia se ha estudiado durante mucho tiempo, en diversos
campos como sociología, comunicación, marketing y la ciencia política, debido a que la
noción de influencia desempeña un papel vital en el funcionamiento de las empresas y en
cómo funciona la sociedad.

La primera investigación revela que la información en Twitter fluye de manera viral


a partir de la redifusión, del mensaje creado, por la red de influencia de la persona que lo
emite, y de las redes de los que lo reciben y deciden reemitirlo. Es por esto, que un análisis
de red social creada a partir de los seguidores, seguidos, y de los mensajes que se reenvían
de un usuario, son análisis centrados en la influencia global de un usuario. Traduciendo, la
influencia en la capacidad de hacer llegar el mensaje al mayor número posible de individuos,
lo que clásicamente en prensa o televisión sería el número de impresiones, y que es objetivo
principal de la política de promoción del marketing de cualquier entidad.

La segunda investigación a partir de una profunda comparación de las tres medidas


de influencia, para analizar la red social Twitter, correspondientes a los “seguidores”,
“retweets” y “menciones”, evidencia que la cantidad de seguidores representa la popularidad
de un usuario, pero no está relacionado con otras nociones importantes de influencia como
la participación de la audiencia, los retweets son impulsados por el valor de contenido de un
tweet, mientras que las menciones son impulsadas por el valor del nombre del usuario.
Finalmente, se concluye que los usuarios que tienen alta cantidad de seguidores, no
necesariamente generan muchos retweets o menciones, razón por la cual, se sugiere realizar
un análisis de estas medidas en forma conjunta.
Capítulo 3.
Marco Teórico.
3. MARCO TEÓRICO 16

3. Marco Teórico
En el siguiente capítulo, se exponen y definen los conceptos utilizados para llevar a
cabo la elaboración de la presente investigación, de manera tal que se pueda comprender el
contexto teórico de esta.

3.1 Business Intelligence


Las organizaciones poseen una gran cantidad de datos relacionados con sus negocios,
por lo que es de suma importancia contar con una estructura organizada adecuadamente que
permita utilizar dichos datos para obtener información relevante. Información que permita
mejorar e innovar en procesos, consiguiendo su máximo beneficio y así catalogarse como
una organización competitiva y exitosa.

La inteligencia de negocios (Business Intelligence) se puede comprender como una


evolución de los sistemas de soporte de decisiones (DSS), su significado se conoce por
primera vez en Octubre del año 1958 donde el investigador de IBM Hans Peter Luhn, lo
definió en un artículo como “la habilidad de aprehender las relaciones de hechos
presentados de forma que guíen las acciones hacia una meta deseada” [LUH1958]. Después
de varios años, Howard Dresden, analista de Gartner, propone en 1989 que la inteligencia de
negocios corresponde a “conceptos y métodos para mejorar las decisiones de negocio
mediante el uso de sistemas de soporte basados en hechos” [CAR2010]. Desde entonces, el
concepto de Business Intelligence ha ido evolucionando, combinando diferentes
metodologías, tecnologías y términos, definiéndolo actualmente como la habilidad de
transformar los datos de una organización, en información y a su vez la información en
conocimiento, con el objetivo de optimizar el proceso de toma de decisiones en los negocios.

Para desarrollar una solución de BI completa y adecuada se debe observar,


comprender, predecir, y colaborar con el objetivo de dar respuestas a interrogantes tales
como: ¿Qué está ocurriendo?, ¿Por qué ocurre?, ¿Qué ocurriría?, ¿Qué debería hacer el
equipo? y ¿Qué camino se debe seguir?, generando beneficios que permiten a la organización
[SIN2013]:
3. MARCO TEÓRICO 17

 Manejar el crecimiento. Debido a la evolución y crecimientos que poseen las


empresas, deben estar preparadas y contar con los procesos más ágiles posibles para
enfrentarse a cambios y necesidades que requiera la organización de forma eficiente.
 Control de costos. Permite tener la capacidad de medir gastos y conocerlos a un nivel
de detalle donde se identifiquen las líneas de negocio, producto, centro de costos, etc.
Siendo este punto un detonador que impulsa a muchas empresas a considerar una
solución de inteligencia de negocios.
 Mejor comprensión de los clientes. Debido a la tonelada de datos que almacenan
las empresas en relación a sus clientes, es un reto lograr transformar dichos datos en
información y luego en conocimiento para trabajarlos en conjunto con diversas áreas
comerciales y así generar algún tipo de beneficio, siendo así la inteligencia de
negocios un elemento vital para maximizar la eficiencia de la empresa.
 Indicadores de gestión. Permiten representar medidas enfocadas en el desempeño
de la empresa, con la disposición de estructurar la estrategia organizacional en
objetivos, métricas, iniciativas y tareas dirigidas a un grupo y/o individuos en la
organización.

Estos beneficios, junto con la gran envergadura que posee la toma de decisiones
dentro de una organización, han provocado que la inteligencia de negocios sea cada día más
esencial e incluso una prioridad para las empresas, debido a las necesidades de la
organización, la evolución del mercado y a las opciones de herramientas y metodologías
disponibles para el uso de información estratégica, produciendo que la toma de decisiones se
lleve a cabo de la forma más ágil posible.

3.2 Proceso ETL.

Las soluciones generadas al emplear la inteligencia de negocios, utilizan un sistema


de información que se compone de datos extraídos desde distintas fuentes con información
relacionada con la empresa para ser así utilizados según sus necesidades.

Es fundamental para cualquier proyecto de inteligencia de negocios, emplear


herramientas y técnicas de extracción, transformación y cargas de los datos, ya que la
ejecución de este proceso consume entre el 60% y el 80% del tiempo de un proyecto de BI
3. MARCO TEÓRICO 18

[CAR2010]. Este proceso se encarga de extraer los datos desde los diferentes sistemas de
origen, luego limpiar, depurar, filtrar, manipular y preparar dichos datos para finalmente ser
cargados en un almacén de datos para su posterior análisis. Un proceso ETL se dividen en
los siguientes cuatro subprocesos [CAN2007]:
 Extracción: Este proceso se puede realizar de forma manual o bien utilizando
herramientas de ETL. Su principal objetivo corresponde a extraer sólo aquellos datos
de los sistemas transaccionales que son necesarios, por esto es importante seleccionar
las mejores fuentes de información, es decir, las de mejor calidad.
 Limpieza: Debido a que las fuentes de información contienen datos que no han sido
depurados, la limpieza de éstos es clave, por ello se debe depurar, corregir,
estandarizar, relacionar y consolidar los datos.
 Transformación: Este proceso se lleva a cabo una vez que los datos se encuentran
“limpios”, y consiste en adaptarlo de acuerdo a las reglas de negocio y estándares
establecidos, ya sea, realizar cambios de formato, sustitución de códigos, valores
derivados y agregados.
 Integración: Corresponde a la etapa en la cual se cargan los datos anteriores en el
sistema de destino, según los requerimientos de la organización este proceso puede
contener una amplia variedad de actividades.

En definitiva, este proceso tiene como objetivo principal facilitar a las organizaciones
el movimiento de datos desde múltiples fuentes, limpiarlos, transformarlos, y luego integrar
los distintos sistemas para ser utilizados según las necesidades de análisis que se requieren
para la toma de decisiones.

3.3 Spoon

Spoon, también conocido como Kettle, es el diseñador gráfico de transformaciones y


trabajos asociados con el sistema de ETL de Pentaho Data Integration, que tiene el propósito
de ayudar en los procesos de extracción, transformación y carga de datos (ETL).

La herramienta Spoon es creada con la intención de facilitar estos procesos, de manera


que no sea necesario introducirse en la implementación, de forma detallada, para conocer
cómo se llevan a cabo dichos procesos, sino que se enfoca en realizar lo que se le especifica
que haga.
3. MARCO TEÓRICO 19

Como ventajas de Spoon se rescata que se puede utilizar como una aplicación
independiente o como parte de Pentaho Suite, cada proceso es creado con una herramienta
gráfica, gracias a que está basado en dos tipos de objetos: Transformaciones (colección de
pasos en un proceso ETL) y Job (colección de transformaciones) permitiendo realizar una
implementación más clara y ordenada; otra ventaja importante es que corresponde a un
software libre y multiplataforma.

Dispone de una gran cantidad de opciones para indicar las diferentes tareas que se
requieren llevar a cabo, conocidas como “steps”. El funcionamiento se basa en crear una
secuencia de steps, indicando todos los pasos necesarios para realizar los procesos de
extracción, transformación y carga de los datos bajo una serie de requerimientos.

Spoon dispone de una amplia gama de steps y cada uno se enfoca en realizar una tarea
específica, como por ejemplo, extraer datos desde diferentes tipos de bases de datos, archivos
con variados formatos o desde direcciones FTP, realizar envió de email, crear, borrar y
descomprimir archivos, programar script, entre otras tareas. En cuanto a las transformaciones
de los datos, permite agregar constantes, columnas, cálculos, separar, cortar o juntar cadenas
de caracteres, validaciones, crear, modificar o eliminar tablas, utilizar comando CMD para
llevar a cabo tareas programables más específicas, y una amplia gama de otras posibilidades.
Una vez realizadas las transformaciones, los datos son cargados a tablas, archivos Excel,
Word, de texto, conexiones de bases de datos, etc., según sean las necesidades. Estas y otras
funciones que permiten realizar los steps, se encuentran descritas en la documentación
elaborada por Pentaho Data Integration [PEN2006].

Se visualiza en la Figura 3.1 un ejemplo de un proceso ETL creado con Spoon, donde
se dispone de un job que consta de un conjunto de steps junto a su transformación. Las
actividades que se realizan durante la ejecución de este proceso ETL corresponden a los
siguientes pasos:
1. Inicio del proceso.
2. Crear carpeta en una ruta determinada.
3. Extraer datos desde un FTP específico y luego guardarlos.
4. Realizar transformación
4.1. Leer los datos desde un archivo de texto.
3. MARCO TEÓRICO 20

4.2. Agregar una columna de datos.


4.3. Dividir string que esté separado por algún carácter en especial.
4.4. Cortar una parte del string.
4.5. Guardar los datos transformados en un archivo excel.
5. Comprimir el archivo en un zip para reducir el tamaño de este.
6. Cargar el archivo comprimido en una dirección FTP determinada.
7. Se genera un mensaje indicando que el proceso finalizó.

Figura 3.1: Job y transformación del proceso ETL utilizando Spoon.

Es importante mencionar que Spoon es aplicable para realizar automatización de todo


tipo de procesos, con el fin de lograr que sean ejecutados automáticamente o transformarlos
en procesos de uso estándar, para esto es esencial utilizar variables globales. Estas variables
corresponden a parámetros que son definidos ya sea para todo el proceso o solo para las
transformaciones, de manera general, es decir, las variables definidas utilizarán los valores
solicitados para la ejecución del proceso. De esta manera, se definen y establecen los
parámetros que son utilizados por varios steps del proceso, con el objetivo de modificar sus
valores una sola vez y no tener que hacerlo step por step, y así estandarizar el proceso para
ser utilizado en otras ocasiones con las mismas características.

En conclusión, Spoon es una herramienta bastante útil y de uso sencillo que


proporciona una potente extracción, transformación y capacidades de carga (ETL), utilizando
un innovador enfoque basado en metadatos.

3.4 Redes sociales

Debido a la necesidad que posee el ser humano de relacionarse y comunicarse, es que


Internet se ha ido poblando con redes sociales de diferentes tipos, que tienen como finalidad
crear un grupo social donde los involucrados están relacionados de acuerdo a algún criterio,
3. MARCO TEÓRICO 21

sustituir el aislamiento social debido a la facilidad que ofrecen las redes sociales para conocer
gente y así generar relaciones de amistad con personas de intereses similares a los de uno.

Existe una gran cantidad de redes sociales utilizadas en todo el mundo, como también
algunas que no han crecido internacionalmente pero que son influenciables en zonas
específicas. Las redes sociales se clasifican según el enfoque que poseen, como por ejemplo,
de interés general como Facebook, Twitter, MySpace, redes sociales de contenido visual o
para compartir fotografías, enfocadas en los estilos de vida, turismo, para móviles, videos,
reuniones, negocios, blogs, etc.

El amplio mercado y las particularidades de estas plataformas puede ser aprovechado


por las empresas para beneficiarse según sus necesidades, utilizándolas para atraer usuarios
que podrían ser futuros clientes, realizar análisis de mercado, hacer crecer sus marcas a través
de publicidad, responder inquietudes de los clientes para así lograr una relación más cercana
con ellos, etc.

En la Tabla 3.1 se dan a conocer las cinco redes sociales que poseen la mayor cantidad
de visitantes y tráfico según indica el sitio web Alexa [AMA2011], encargado de llevar un
monitoreo sobre el tráfico de los sitios de internet.

Lugar Red Social Descripción


1° Facebook La red social más exitosa, conocida y popular de internet. Posee más
de 1.700 millones de usuarios, los cuales pueden conectar personas,
descubrir y crear nuevas amistades, subir fotos, videos y compartir
vínculos de páginas externas.
2° Twitter Es la plataforma de comunicación en tiempo real más importante que
existe en la actualidad. Tiene más de 500 millones de usuarios, los
cuales publican, comparten e intercambian información a través de
comentarios breves con solo 140 caracteres.
3° Google+ Es la plataforma que está teniendo el mayor desarrollo en los últimos
tiempos, posee más de 500 millones de usuarios aproximadamente,
puede llegar a ser una de las redes más grandes y poderosas gracias al
inmenso protagonismo y poder que Google tiene en internet.
4° LinkedIn La mayor red social para profesionales orientada a los negocios.
LinkedIn cuenta con aproximadamente 200 millones de usuarios.

5° Tagged El objetivo de esta red social consiste en hacer amigos y clasificarlos


de acuerdo a los intereses propios. Cuenta con aproximadamente 100
millones de usuarios registrados.
3. MARCO TEÓRICO 22

Tabla 3.1: Cinco redes sociales más populares según el sitio Alexa.

3.5 ¿Qué es Twitter?

Twitter corresponde a una red social con la particularidad de conectar a todos los
usuarios a lo que está sucediendo en el mundo en tiempo real, ideal para informar lo más
rápido posible cualquier noticia. Está basada en un sistema microblogging, esto es, los
usuarios de esta red pueden enviar y publicar mensajes breves, específicamente de 140
caracteres, en los cuales dan a conocer sus actividades y opiniones.

Fue creado en marzo del 2006 por los ex trabajadores de Google, Evan Williams y
Biz Stone junto con la colaboración de Jack Dorsey, Evan Henshaw-Plath y
fundamentalmente de Noah Glass en California, siendo su lanzamiento el 15 de julio del
mismo año.

El uso de la red social Twitter es sencillo, el usuario solo debe registrarse llenando un
formulario con información para su perfil y luego ya puede comenzar a responder la pregunta
¿Qué está pasando?, planteada con el objetivo de dar a conocer lo que uno piensa o está
haciendo en ese momento. Esta modalidad produce que los usuarios se puedan comunicar y
expresar sus ideas de manera sencilla y rápida.

Hoy en día, Twitter clasifica dentro de las cinco redes sociales más populares (véase
Tabla 3.1) de Internet que se utiliza con variados propósitos, principalmente con el objetivo
de divulgar información o noticias del momento, generar discusiones sobre temas de
actualidad, promover productos, concursos, etc. Esto implica que las cuentas de usuarios
deben ser de carácter público, lo que permite no sólo conectarse con amigos, sino que también
con el mundo laboral, político, empresarial y periodístico.

3.5.1 Glosario de términos

Twitter cuenta con una lista de términos propios que son utilizados durante la
interacción de esta red social, que son descritos en la siguiente Tabla 3.2 con el objetivo de
comprender el funcionamiento y lenguaje de dicha red.
3. MARCO TEÓRICO 23

Término Descripción
Tweet Mensaje limitado a 140 caracteres publicado por el usuario.
Follower Usuario que se suscribe al contenido que publica otro usuario de una
cuenta concreta.
Following Usuario al que se sigue desde una cuenta concreta.
Retweet Consiste en copiar o reenviar el tweet de otro usuario.
Mensaje directo Mensaje privado que solo puede leer el usuario destinatario.
Mención Tweet enviado a una o varias personas específicas.
Timeline de un Lugar donde se visualizan todos los tweets realizados por los
usuario following.
Hashtag Cadena de palabras concatenadas para categorizar tweets.
Trending topic Temas más hablados en Twitter.

Tabla 3.2: Términos utilizados por Twitter.

3.5.2 Funcionamiento de Twitter

Un vez que el usuario se crea una cuenta en la red social Twitter, pasa a denominarse
“tuitero”, quien se comunica a través de mensajes denominados “tweets” o “tuits”, que
consisten en publicar un texto corto, donde el usuario da a conocer sus diferentes opiniones.

Este usuario puede seguir a todos los “tuiteros” que publiquen información de su
interés, sin la confirmación previa de éstos, los cuales se conocen como “following”. Por otro
lado, los “tuiteros” que siguen al usuario son denominados “followers”. Al momento de
entrar a Twitter el usuario puede visualizar de forma cronológica en su “timeline” todos los
tweets realizados por los usuarios a los que ha decidido seguir, o más conocidos como
following.

Los tweets se puede clasificar a partir de dos etiquetas; la primera es conocida como
“hashtag”, que corresponde a palabras precedidas por el carácter “#” con la finalidad de
categorizar el contenido del tweet. La segunda etiqueta se utiliza para mencionar o contestar
a otros “tuiteros” mediante “handles”, esto consiste en utilizar el carácter “@” seguido del
nombre de usuario que se desea hacer referencia. También existe la posibilidad de compartir
3. MARCO TEÓRICO 24

o divulgar los tweets realizados por otros usuarios con el fin de que lo observen todos los
“tuiteros” que lo siguen, lo que se conoce como “retweet”.

Debido al gran impacto y al uso cotidiano de esta red social, la Real Academia
Española ha decidido incorporar los términos: “tuitear”, “tuit” y “tuitero” a la vigésimo
tercera edición del diccionario en el año 2014.

3.5.3 Verificación cuentas de Twitter


Los “tuiteros” que poseen grandes cantidad de followers se conocen como
“celebrities", debido a que pueden causar un impacto muy grande en la red social, no tienen
distintivos ni acuerdos especiales en la red.

Pero si existen usuarios verificados, es decir, marcas o personajes famosos que poseen

la insignia azul de verificación para confirmar la autenticidad de las cuentas de interés


público. Esta insignia se puede observar al momento de realizar una búsqueda de usuario, como
también junto al nombre en el perfil de la cuenta del usuario verificado.

Independiente de las personalizaciones y color del perfil, la insignia siempre aparece


en el lugar mencionado y con el mismo color, de lo contrario no corresponden a cuentas
verificadas.

Twitter es quien se encarga de revisar las solicitudes de verificación que envían los
usuarios a través de un formulario que dispone la red social para decidir si otorgar la insignia
o no. El único requisito para obtenerla, es que la cuenta sea de interés público, generalmente
cuentas de usuarios que están relacionados con el ámbito de la música, actuación, moda,
gobierno, política, religión, periodismo, medios de comunicación, deporte, negocios y otras
áreas de interés [TWI2016a]. De esta misma forma, Twitter puede suspender definitivamente
cuentas de usuarios que hagan uso inadecuado de la insignia de verificación, esto es, que no
cumpla con las características estipuladas.

3.5.4 Información que se puede extraer de Twitter.

La información recopilada a partir de los tweets realizados por los usuarios permite
realizar análisis de los datos enfocados en cuatro puntos relevantes que responden a las
siguientes interrogantes ¿Quién?, ¿Qué?, ¿Cuándo? y ¿Dónde?
3. MARCO TEÓRICO 25

 ¿Quién realiza el tweet? Para dar respuesta se utilizan los datos públicos de la cuenta
de usuario de quien realizó el tweet o retweet, como es el nombre completo, nombre
de usuario, cuidad, lenguaje, descripción, etc.
 ¿Qué contiene el tweet? Se responde con datos relacionados con el texto del
mensaje, links, menciones, hashtag o contenido multimedia que pueda incluir el
tweet.
 ¿Cuándo se realiza el tweet? Se utiliza la fecha y hora en la cual se realiza la
publicación y complementarla con el huso horario en el que se encuentra el usuario.
 ¿Desde dónde fue publicado el tweet? El tweet entrega información sobre las
coordenadas geográficas de la ubicación desde donde fue publicado, pero no se
encuentra presente en todos los tweets, debido a que el usuario decide si desea activar
dicha opción.

3.5.5 APIs de Twitter


Twitter es la red social más utilizada para obtener información y realizar análisis de
diferentes ámbitos debido a que dicha información es de carácter público y gracias a la gran
variedad de posibilidades que proporciona para acceder a ésta mediante interfaces. Dispone
para cualquier usuario de Twitter o para desarrolladores una gran variedad de documentación,
herramientas y APIs con la finalidad de abrir las puertas para crear aplicaciones que
comuniquen con esta, bajo ciertas restricciones.

Las APIs de Twitter se dividen en tres partes según sea su utilidad, de las cuales dos
pertenecen al API REST (Search y Rest) y la otra pertenece al API de Streaming, como se
describe a continuación [TWI2016b]:
 API REST: Esta API proporciona información básica de Twitter como autor de un
tweet, información sobre el perfil del autor del tweet o de un usuario especifico,
actualizaciones de estado y responder ciertos tweets. La API REST identifica a los
usuarios que utilizan TwitterOAuth y las respuestas están disponibles en JSON.
 API Search: Forma parte de la API REST y permite entre otras cosas buscar tweets
recientes o populares, tweets que hagan referencia a un usuario específico, o que
contengan ciertas palabras clave. La API Search de Twitter suministra los tweets con
una profundidad en el tiempo de 7 días.
3. MARCO TEÓRICO 26

 API Streaming: Esta API proporciona un subset de tweets en tiempo real, donde se
establece una conexión permanente por usuario con los servidores de Twitter y
mediante una petición HTTP se recibe un flujo continuo de tweets en formato JSON.

Las limitaciones que poseen las APIs de Twitter en relación al tiempo y tamaño, es
decir, la cantidad restringida de tweets que se pueden recopilar durante un periodo de tiempo,
se muestran en la siguiente Tabla 3.3.
API Limitación temporal Limitación tamaño
Streaming Sólo en tiempo real NO
Search -7 días 1.500 últimos tweets
REST NO 3.200 últimos tweets

Tabla 3.3: Limitaciones APIs de Twitter.

Según las necesidades, disponibilidad y el tipo de información que se requiera


obtener, se debe seleccionar la API más adecuada para dar respuestas a la información
mencionada en el apartado anterior.

3.6. QVSource

QVSource corresponde a un conector entre los software de Business Intelligence y


visualización de datos, QlikView y Qlik Sense Desktop a una amplia gama de APIs sociales
y empresariales que están disponibles en la web y otras fuentes que son tradicionalmente más
difíciles de cargar a partir de dichas herramientas.

Este conector pertenece a la empresa Qlik, por lo tanto la descarga se realiza desde su
página y se debe solicitar a la empresa una licencia de prueba que otorgan por un mes a los
usuarios que se registren con una cuenta de email de empresa. Se encuentra como un archivo
comprimido, no existe instalador y QVSource instala componentes adicionales en sus
sistemas, lo que genera que sea muy pequeño, ligero y trivial para ejecutar o eliminar.

La ejecución de QVSource se lleva a cabo por defecto en el puerto 5555 como un


pequeño servidor web, iniciando como se muestra en la siguiente Figura 3.2.
3. MARCO TEÓRICO 27

Figura 3.2: Conector QVSource.


Este conector permite realizar conexiones a una gran cantidad de fuentes de datos
diversas, como por ejemplo, Dropbox, Google Analytics, Google Drive, Facebook, Twitter,
Linkedin y YouTube, entre otras, como se observar en la Figura 3.3. QVSource puede
descargar información de estas redes y sistemas mediante conectores especialmente
diseñados.

Figura 3.3: Conectores de QVSource.

Para llevar a cabo los objetivos de esta tesis, QVsource se utiliza como conector con
la fuente de datos de Twitter para realizar el proceso de extracción de datos desde la API
Search de Twitter.
3. MARCO TEÓRICO 28

Como requisito para utilizar el conector de Twitter que dispone QVSource, se debe
contar con una cuenta de usuario en esta red social para así autentificarse y luego recibir los
permisos para realizar la conexión a la API Search de Twitter, la cual permite consultar sobre
los tweets más recientes que hacen referencia a un usuario específico.

El conector de Twitter permite realizar consultas a información principalmente sobre


los tweets, retweets o menciones más recientes, followers, following, likes, información
sobre el usuario o su timeline, ya sea en relación al usuario que se autentificó o para un
usuario específico. Este conector dispone de diferentes opciones para realizar consultas a
dicha información de manera individual o específica con el objetivo de obtener solo los datos
que el usuario requiere, pero también entrega la posibilidad de consultar toda la información
a través de la opción “Search” haciendo referencia a un usuario específico. Por lo tanto, según
la información que requiera el usuario se debe seleccionar la consulta correspondiente,
descritas brevemente al momento de realizar la selección como se muestra en la Figura 3.4
del lado izquierdo, donde se ha seleccionado la tabla Search para ser consultada.

Figura 3.4: Consulta Search de Twitter.


3. MARCO TEÓRICO 29

Ya definida y seleccionada la opción que se requiere para realizar la consulta a la API


Search de Twitter, se procede a completar los parámetros solicitados, véase Figura 3.4 lado
derecho. En primer lugar, se debe realizar la autentificación requerida a través de una cuenta
de usuario de Twitter, una vez aceptada, introducir el nombre del usuario que se desea
analizar en el parámetro “Search Query”, de carácter obligatorio. Los demás parámetros son
opcionales, por lo que solo se ingresan si se desea acotar la cantidad de resultados entregados
por página, restringir los tweets a una lengua dada o por datos geográficos.

Una vez completa la información requerida, comienza el proceso de extracción de


datos desde Twitter que hacen referencia al usuario mencionado. Los datos obtenidos por la
consulta realizada a la tabla Search, relacionada con la información del tweet, corresponden
a los entregados en la Tabla 3.4 [TWI2016c]

Campo Tipo Descripción


Id Int Identificador único para el tweet.
created_at String Fecha y hora de cuando se creó el tweet.
Text String El texto de la actualización de estado.

Lang String Identificador de idioma correspondiente al lenguaje detectado


del tweet.
Truncated Boolean Indica si el texto fue truncado, excede los 140 caracteres de
longitud. Texto truncado terminará en puntos suspensivos
Source String Utilizado para publicar el tweet como una cadena con formato
HTML.

in_reply_to_sta Int Posibilidad de nulos. Si el tweet representado es una respuesta,


tus_id este campo contiene la representación entera de la
identificación del tweet original.

in_reply_to_us Int Posibilidad de nulos. Si el tweet representado es una respuesta,


er_id este campo contiene la representación entera del ID del autor
original del tweet.
in_reply_to_scr String Posibilidad de nulos. Si el tweet representado es una respuesta,
een_name este campo contiene el nombre de usuario del autor original del
tweet.
retweet_count Int Número de veces que el tweet ha sido retweeted.
3. MARCO TEÓRICO 30

favorite_count Int Indica aproximadamente cuántas veces el tweet ha sido


"gustado" por los usuarios.
Retweeted Boolean Indica si el tweet ha sido retweeted por el usuario que se
autentifica.
Favorited Boolean Indica si este tweet ha sido gustado por el usuario que se
autentifica.
possibly_sensiti Boolean Posibilidad de nulos. Este campo indica cuando un tweet
ve contiene un enlace.
hashtag_count Int Cantidad de hashtag que contiene el tweet.

hash_tags String Nombre de todos los hashtag que contiene el tweet.

first_hash_tag String Nombre del primer hashtag que contiene el tweet.

url_count Int Cantidad de URL que posee el tweet.

expanded_urls String Dirección de todas las URL que posee el tweet.

first_expanded String Primera URL que posee el tweet.


_url
user_mentions_ Int Cantidad de usuarios mencionados en el tweet.
count
user_mentions String Nombre de todos los usuarios mencionados.

first_user_men String Nombre del primer usuario mencionado en el tweet.


tion
media_photo_c Int Cantidad de fotos que posee el tweet.
ount
media_photo_u String Dirección URL de las fotos que contiene el tweet.
rls
first_media_ph String URL de la primera foto del tweet.
oto_url
media_count Int Cantidad de archivos multimedia que posee el tweet.

media_expande String Dirección URL de todos los archivos multimedia.


d_urls
first_media_ex String URL primer archivo multimedia del tweet.
panded_url

Tabla 3.4: Datos extraídos en relación al tweet.


3. MARCO TEÓRICO 31

A continuación, en la Tabla 3.5 se describen todos los datos extraídos que tienen
relación con la información del usuario, quien realiza el tweet o retweet, haciendo referencia
a un usuario específico [TWI2016d].
Campo Tipo Descripción
user_id Int Representación entera del identificador único
para el usuario.
user_name String Nombre del usuario que publica un retweet
user_screen_name String Alias utilizada por el usuario
user_location String Localidad registrada por el usuario.
user_profile_image_url String URL de la imagen de perfil del usuario.
user_description String Descripción del usuario (si es que existe).
user_url String URL página adicional del usuario.
user_followers_count Int Cantidad de usuarios que lo siguen.
user_friends_count Int Cantidad de usuarios a que sigue.
user_listed_count Int Cantidad de cuentas oficiales del usuario.
user_favourites_count Int Cantidad de me gusta que realiza el usuario.
user_statuses_count Int Cantidad de tweets que ha realizado.
created_at String Fecha creación de la cuenta.
user_utc_offset String Horario UTC.
user_time_zone String Zona del horario UTC.
user_verified Boolean Usuario verificado.
user_lang String Lenguaje cuenta.

Tabla 3.5: Datos extraídos relacionados con el usuario.

Como se puede visualizar, los datos que permite extraer QVSource a partir de la API
Search de Twitter son bastantes y contienen información esencial, que es de utilidad para
realizar diferentes análisis enfocados en los tweets o retweets que hacen mención a un usuario
específico, así como también estudiar al usuario que realiza estas publicaciones.

QVSource conecta dos mundos, el mundo interno de la empresa con el mundo externo
conformado por la información que generan los usuarios en las redes sociales, permitiendo a
las empresas mantenerse día a día informadas sobre lo que está ocurriendo.
Capítulo 4.
Propuesta análisis de información de
Twitter y su arquitectura.
4. ARQUITECTURA PROPUESTA 33

4. Propuesta análisis de información de Twitter y su


arquitectura
En este apartado se presenta una propuesta de perfil de usuario de redes sociales y
una arquitectura de cómo extraer y mostrar datos desde Twitter para su posterior análisis en
la herramienta Qlik Sense Desktop.

4.1 Propuesta perfil del usuario.


El vertiginoso desarrollo de la tecnología y con ello la globalización del
conocimiento, ha generado un alto interés de las redes sociales en las organizaciones, y su
presencia se ha multiplicado exponencialmente en los últimos años. Es por ello, que aquí se
propone analizar los datos extraídos de la red social Twitter, con la finalidad de obtener
diferentes elementos que permitan la gestión y el análisis relacionado con las opiniones que
los usuarios proporcionan sobre las distintas empresas que utilizan los Twitter en sus páginas
Web. Esta información es de gran utilidad para las empresas, como por ejemplo; llevar un
registro de las opiniones y comentarios que se están compartiendo en la red y así dar
respuestas directas a dudas o críticas de los clientes, o bien analizar los datos, o promocionar
productos y realizar investigaciones de mercado, entre otras opciones.

El análisis de los datos extraídos de Twitter es focalizado en perfiles bancarios,


telefónicos, retail y supermercados, seleccionando las cuentas vigentes y tras la realización
de un estudio. El interés de la información extraída de cada página se centra en la
visualización del perfil del tipo de tuitero, considerando las siguientes características:

 Primero tiene relación con el liderazgo, entendiendo con ello que se desea visualizar
qué tweet es el que se está hablando con más recurrencia y a quién pertenece. Para
ello es necesario contar con los mensajes emitidos y con información como la
cantidad de “retweet” y “Me gusta” que poseen los tweets que hacen referencia a
los diferentes perfiles.
 Segundo, relacionado con la experiencia, este enfoque busca visualizar que tan
participativo o experto es el usuario que realiza el tweet, ya sea porque posee gran
cantidad de mensajes emitidos, alta cantidad de personas a las que les interesa su
4. ARQUITECTURA PROPUESTA 34

perfil, por la cantidad de perfiles de interés o la cantidad de “Me gusta” que realiza a
diferentes tweet. Para esto, la información que se requiere es la relacionada con el
perfil del usuario, donde los datos relevantes para este análisis corresponden a la
fecha de creación de dicha cuenta, la cantidad de tweets, cantidad de followers,
cantidad de following y cantidad de likes que posee el usuario.
 La tercera característica es el origen, que utiliza la información relacionada con la
localidad del usuario, que es ingresada por él mismo al momento de crear su cuenta.
Esto restringe a obtener un análisis efectivo, ya que la localidad se presenta en
diversos formatos o incluso de manera incorrecta, así como también debido a que no
es información obligatoria, nos encontramos con usuarios sin definir su localidad.

A modo de resumen, se presenta a continuación la Figura 4.1 que muestra un


diagrama con los requerimientos mencionados y las características requeridas para llevar a
cabo la propuesta de análisis del perfil del usuario de una red social, caso Twitter.

Figura 4.1: Características propuestas para perfil del usuario Twitter.

Una vez recopilado diferentes tweets de las empresas seleccionadas, se deben extraer
los datos asociados a las características para cada perfil mencionado anteriormente, y
posterior implementación utilizando la herramienta Qlik Sense Desktop(herramienta
4. ARQUITECTURA PROPUESTA 35

seleccionada para este caso), con la finalidad de generar visualizaciones de datos


personalizadas e interactivas, dashboard, que busquen responder las siguientes interrogantes:
 ¿Cómo el tuitero se comporta en las diferentes marcas?
 ¿Cómo afectan las opiniones en la red, al perfil de Twitter de la empresa?

4.2 Propuesta de arquitectura para analizar perfil twitter.

Para la implementación y obtención de resultados del perfil del usuario, mencionada


antes, es de vital importancia la existencia de una arquitectura de software definida
adecuadamente que permita extraer y analizar datos desde Twitter. La Figura 4.2 muestra las
herramientas y procesos compuestos por cuatro capas, cada una de ellas requiere de
herramientas específicas asociada a diferentes tareas y procesos, estas son: QVSource,
Pentaho y Qlik Sense Desktop.

Figura 4.2: Propuesta de arquitectura para analizar perfil Twitter.

La descripción de cada capa es la siguiente:

Capa 1: Extracción de la fuente de datos. Es la primera capa la que realiza la


extracción de datos desde Twitter haciendo referencia a doce perfiles del mercado, utilizados
como caso de estudio en esta tesis. Para el proceso de extracción se utiliza la herramienta
QVSource, que permite conectar Qlik Sense Desktop a la gran cantidad de APIs sociales y
empresariales que se encuentran disponibles en la web. En este caso, se utiliza QVSource
4. ARQUITECTURA PROPUESTA 36

como conector con la API Search de Twitter, permitiendo así obtener los datos de todos los
tweets que hacen referencia a cada usuario e información específica del usuario que realiza
dichos tweets para luego generar un archivo con dicha información.

Capa 2: Procesos ETL. En esta segunda capa se utiliza la herramienta Spoon de


Pentaho Data Integration, para llevar a cabo los procesos de transformación y carga de los
datos. Los datos obtenidos, son transformados con el propósito que sean lo más claro y
limpios posible, para luego generar un solo archivo con los datos de los doce perfiles
seleccionados para su posterior análisis.

Capa 3: Selección base de datos final. Esta capa adquiere importancia ya que en ella
es donde se comienza a utilizar el software interactivo Qlik Sense Desktop, de interés de esta
tesis para el análisis del perfil de usuario Twitter. Como primera tarea, se carga el archivo
generado en la Capa 2, luego seleccionar los atributos o datos de interés, para llevar a cabo
el modelo de análisis de la información ya propuesto en la Figura 4.1. De esta forma se
obtiene la base de datos con los elementos de análisis que se requieren.

Capa 4: Visualización de los resultados. En esta última capa es donde se visualizan


los resultados obtenidos desde las capas anteriores de la arquitectura propuesta en la Figura
4.2. A partir del análisis de la base de datos generada y las diferentes opciones de
visualización que nos entrega Qlik Sense Desktop, se construyen dashboard dinámicos y de
fácil comprensión, con la finalidad de dar respuestas a los indicadores de gestión propuestos
de manera que sean útiles para la toma de decisiones con respecto a lo que opinan los tuiteros.

4.3. Software: Qlik Sense Desktop

En el presente capítulo se da a conocer la herramienta de visualización de datos


QlikSense Desktop utilizada para llevar a cabo los diferentes análisis pertenecientes al
modelo del perfil del usuario, la cual se destaca por ser una aplicación avanzada de
visualización de datos que capacita a cualquier persona para crear con facilidad unas
visualizaciones flexibles, interactivas, que impulsan la exploración y el descubrimiento
mediante la intuición.
4. ARQUITECTURA PROPUESTA 37

4.3.1 Descripción de la empresa Qlik

Qlik es una empresa líder en el mercado de análisis visual, enfocada en entregar


“soluciones intuitivas de la plataforma para la visualización de datos de auto-servicio,
aplicaciones analíticas guiadas, analítica integrada y la presentación de informes a cerca
de 35.000 clientes en todo el mundo” [QLI2016] con el objetivo de ayudar en la toma de
decisiones de empresas de diferentes tamaños, industrias y geografías. Utiliza la inteligencia
humana, la inteligencia colectiva de las personas en una organización para optimizar Business
Intelligence, ya que junto con sus herramientas de análisis, es tan efectivo como los que lo
utilizan.

Es por esto que se ha construido una nueva generación de soluciones de analítica


visual, para traer lo mejor de las personas que los utilizan. En pocas palabras, “el enfoque es
amplificar la inteligencia humana”, menciona Qlik.

Dispone de diferentes herramientas, según las necesidades del cliente, por ejemplo
los cuadros de mando QlikView y Qlik Cloud como cartera de aplicaciones SaaS y la
plataforma analítica visual Qlik Sense, que contiene el producto Qlik Sense Desktop, el cual
es analizado y utilizado para el desarrollo de esta tesis.

4.3.2 Qlik Sense Desktop


Qlik Sense Desktop corresponde a una aplicación avanzada de visualización de datos,
con el propósito de capacitar a los usuarios de forma que puedan colaborar, idear e innovar
a través de ella, permitiendo crear intuitivamente informes personalizados y paneles
dinámicos a partir de diferentes fuentes de datos.

Es un software gratuito para uso personal y de negocios internos, donde solo se debe
contar con un email de empresa para solicitar su descarga. Este punto es de suma importancia
para llevar a cabo una implementación de bajo costo.

La tecnología central en Qlik Sense está construida sobre el motor de indexación


asociativo QIX (QIX Associative Data Indexing engine), que corresponde a “la segunda
generación tecnológica del motor patentado de Qlik, de larga y probada trayectoria en el
mercado que revela de forma dinámica las asociaciones ocultas en los datos” [QLI2014].
4. ARQUITECTURA PROPUESTA 38

Gracias a esto, los usuarios pueden comprender a fondo los datos y tomar medidas
específicas ya que permite explorar las relaciones en los datos obtenidos desde diferentes
fuentes, que de otro modo quedarían ocultas en modelos jerárquicos o basados en consultas.
Esto permite, una exploración potente sobre la marcha de grandes conjuntos de datos a
velocidades instantáneas.

4.3.3 Requisitos del sistema


El computador donde se realiza la instalación de Qlik Sense Desktop, debe cumplir
con los requisitos de sistema presentados en la Tabla 4.1, para así poder ejecutar
correctamente el software [QLI2016]:

Sistema operativo Microsoft Windows 7 SP1 (sólo versión de 64 bits),


Microsoft Windows 8.1 (sólo versión de 64 bits)

Procesador Intel Core 2 Duo o superior recomendado


Memoria 4 GB mínimo (dependiendo del volumen de datos podría
requerirse más) Qlik Sense usa una tecnología de análisis en
memoria. Los requisitos de memoria están directamente
relacionados con la cantidad de datos que se estén analizando.
Espacio en disco 500 MB total necesario para instalar
.NET Framework 4.5.2
Seguridad Privilegios de administración local para instalar
Resolución de pantalla Ordenadores de sobremesa, portátiles y tabletas: 1024x768.
mínima Pequeñas pantallas: 320x568.

Tabla 4.1: Requisitos de sistema para instalar Qlik Sense Desktop.

Existe la posibilidad de abrir el software en un navegador Web, siendo en Windows


7 y 8.1 compatible con Internet Explorer 10 o superior, Google Chrome y Mozilla Firefox.

4.3.4 Características
La principal característica de la plataforma Qlik Sense Desktop es que está impulsada
por el motor QIX, que permite realizar una experiencia ultra rápida, incluso durante una
exploración totalmente libre, independiente del dispositivo o formato utilizado.
4. ARQUITECTURA PROPUESTA 39

A continuación, se describen las principales características que hacen que el


funcionamiento de este software sea diferente e interesante: [QLI2014]

 Procesamiento en memoria: Mejora la velocidad en memoria, comprimiendo datos


hasta un 10 % de su tamaño original.
 Almacenamiento de datos en columnas: Puede centrarse en una serie de columnas
definidas mientras se llevan a cabo los cálculos, en lugar de procesar una tabla
completa, consiguiendo analíticas con mayor rapidez.
 Agregaciones a demanda: Calcula las agregaciones y las dimensiones calculadas
sobre la marcha para un análisis más rápido.
 Indexación automática de datos: Procesa datos de múltiples fuentes, los relaciona
y automáticamente conecta las asociaciones en los datos.
 El poder de los matices en gris: En ocasiones, la información más interesante son
los datos no relacionados con el análisis que se realiza. El motor QIX
automáticamente destaca estos datos en gris para facilitar su detección.
 Búsqueda inteligente: ¿No está seguro de por dónde empezar? Acelere su
experiencia analítica realizando unas búsquedas simples e intuitivas, naturales, y
permitiendo que el motor QIX ofrezca las posibilidades de todas las fuentes de datos.
 Verdadero diseño responsivo: Permite construir una sola vez y desplegar en
cualquier dispositivo o lugar. Un diseño responsivo que se adapta sobre la marcha al
tipo de dispositivo y su método de interacción.
 APIs abiertas y estándar: Ofrece un acceso sin precedentes al motor QIX a través
de un conjunto de APIs abiertas y estándar.
 Mashups y extensiones: Los desarrolladores pueden crear aplicaciones web
sofisticadas de forma rápida y fácil y personalizar sus visualizaciones utilizando las
APIs de mashups y extensiones que ofrece la plataforma analítica de Qlik.
 Librerías gobernadas y de autoservicio: ¿Por qué reinventar la rueda? El modelo
de librería compartida permite a usuarios y analistas de negocio aprovechar modelos
de datos gobernados ya elaborados, así como visualizaciones previas e incluso hojas
analíticas completas.
 Unas reglas de seguridad adaptables basadas en políticas: La consola de gestión
de Qlik altamente configurable y las APIs de seguridad le permiten personalizar las
4. ARQUITECTURA PROPUESTA 40

normas de seguridad hasta el grado que desee, al tiempo que permite a los usuarios
de negocios añadir sus propios datos, analizar y compartir su trabajo con otras
personas en un modelo completamente autónomo.
 Narración de datos: Con la capacidad integrada de narración de datos, se preserva
la gobernanza de datos incluso mientras se comparte información y resultados.
Guarda las historias y los datos relacionados para responder a cualquier pregunta con
total confianza.

4.3.5 Carga de datos.

Para cargar los datos necesarios para realizar los análisis, lo primero que se debe hacer
es crear una aplicación, donde se visualizan las opciones para añadir los datos, ya sea desde
la lectura de archivos de distintos formatos, desde bases de datos, desde Qlik DataMarket o
interviniendo en el script para modificar los datos ya cargados.

Al seleccionar la opción añadir datos, existe con la posibilidad de escoger que tipo de
archivo se desea cargar, esto es, hojas de cálculo, páginas web o delimitados (csv, txt, tab,
qvo, mem, skv, prn o log), también permite crear conexiones de bases de datos ODBC o OLE
DB, como se visualiza en la Figura 4.3 . Qlik DataMarket realiza la selección de la fuente de
datos desde fuentes externas, siendo una sola opción gratuita, que dispone información
relacionada con los tipos de cambio, indicadores de desarrollo, el tiempo en 50 ciudades de
todo el mundo y la población mundial por países, donde se encuentran datos listos para su
uso siempre que sea requerido.

Figura 4.3: Opciones de QlikSense Desktop para añadir datos.


4. ARQUITECTURA PROPUESTA 41

Por lo tanto, según la opción que se escoja para añadir los datos, solo se debe
seleccionar y seguir los pasos para cargarlos ya sea ingresando información requerida o
buscando la ruta donde se encuentra el archivo con la fuente de datos.

En la Figura 4.4 se muestra la carga de datos a partir de un archivo con formato csv,
donde se aprecian las variables con su respectiva información. En esta parte, Qlik Sense
Desktop permite realizar una selección de los campos que serán cargados a la aplicación, para
así obtener solo información necesaria para realizar el análisis de los datos o también agregar
información, en el caso de ser requerida, sin tener que cargar el archivo con la fuente de datos
nuevamente.

Figura 4.4: Selección y carga de datos con QlikSense Desktop.

De esta forma, se preparan y cargan los datos a la aplicación, disponiendo finalmente


de la información utilizada para llevar a cabo los análisis correspondientes.

4.3.5 Visualizaciones

Qlik Sense Desktop dispone de 13 opciones de visualizaciones de los datos, como se


muestra en la tabla 4.2, que permiten generar de manera simple diferentes gráficas con el
objetivo de entregar información útil que responda las interrogantes planteadas en los
análisis.
4. ARQUITECTURA PROPUESTA 42

NOMBRE ÍCONO DESCRIPCIÓN


Gráfico Compara dos conjuntos de valores de medidas que utilicen
combinado diferentes escalas, combina barras y líneas para mostrar la relación.
Gráfico de Compara múltiples valores, con una barra por cada valor de
barras dimensión. Utiliza barras agrupadas para comparar elementos de la
misma categoría. Utiliza barras apiladas para comparar los totales
de elementos de distintas categorías.
Gráfico de Muestra datos jerárquicos en un espacio reducido. Se utiliza con
bloques valores que pueden agregarse (suma, media, contar, etc).

Gráfico de Muestra la relación entre dos medidas, una en cada eje, por
dispersión ejemplo, ventas y coste. Cada punto es un valor de la dimensión.
Una tercera medida se puede utilizar y reflejar en el tamaño del
punto.
Gráfico de Muestra tendencias en el tiempo, por ejemplo, ventas por mes.
líneas Añada otra dimensión, año, a fin de comparar la tendencia a lo
largo de diversos años. Use área apilada para mostrar los totales.
Gráfico de Muestra la relación entre valores pero también entre un único valor
tarta y el total. Utilícelo con hasta 10 valores de dimensión.

Indicador Muestra un único valor de una medida y utiliza colores y valores


de rango para ayudar a la interpretación del valor de la medida.

KPI Muestra los valores de las medidas y utiliza colores condicionales


y símbolos para ayudar a la interpretación de los valores.

Mapa Muestra datos de área y puntos. Muestra las ventas de una región y
utiliza el tamaño de punto para reflejar el valor de la medida. Añada
un mapa de fondo a los datos de punto.
Panel de Muestra valores de dimensión para permitir la selección precisa de
filtrado un conjunto de datos.

Tabla Muestra varios valores de medida por cada valor de dimensión.


Muestra los totales de cada medida. Ordena columnas y filas por
orden alfabético o numérico.
Tabla Muestra dimensiones y medidas como filas y columnas de una
pivotante tabla. Analiza datos por múltiples medidas y en múltiples
dimensiones al mismo tiempo. Pivote(reorganizar las medidas y
dimensiones) para obtener distintas vistas de los datos.
Texto e Muestra texto, imágenes, enlaces y medidas. Da formato y color al
imagen texto, imágenes de fondo y destaca valores de medidas clave.

Tabla 4.2: Opciones de visualización.


4. ARQUITECTURA PROPUESTA 43

Gracias a todas las funciones que entrega el motor QIX conjunto a las opciones de
visualizaciones de los datos que entrega Qlik Sense Dektop, permiten crear aplicaciones
atractivas e interactivas, con el propósito de ayudar a la toma de decisiones de negocios,
produciendo que éstas sean más rápidas, fácil y con mayor colaboración, debido a la
posibilidad de compartir las aplicaciones con otros usuarios a través de Qlik Sense Cloud.

4.3.6 Qlik Sense Cloud


Las aplicaciones creadas en Qlik Sense Desktop se pueden compartir mediante Qlik
Sense Cloud, permitiendo así que otros usuarios puedan explorar y realizar selecciones en las
aplicaciones en la nube pero sin seguir desarrollando en ella.

Se debe contar con una cuenta de registro para subir las aplicaciones desde Qlik Sense
Cloud, donde se debe cargar el archivo que contiene la app o directamente desde Qlik Sense
Dektop, haciendo clic derecho en la aplicación, luego en Subir a QlikCloud donde se debe
iniciar sesión y hacer clic en importar app para finalizar la carga de la aplicación.

De esta forma, quedan en la nube los trabajos realizados con el objetivo de tener un
respaldo de las aplicaciones, poder visualizarlas desde distintos lugares y compartirlas con
diferentes usuarios en cualquier momento, lo que conlleva a un trabajo en conjunto más
rápido y eficiente para la toma de decisiones de la empresa.
Capítulo 5.
Caso Práctico e Implementación de la
Arquitectura Propuesta.
5. ARQUITECTURA PROPUESTA 45

5. Caso Práctico e Implementación de la Arquitectura


En esta sección, se presenta un caso práctico, con el objetivo de implementar la
propuesta del perfil del usuario (véase Figura 4.1), utilizando la arquitectura planteada (véase
Figura 4.2). Primero se define la información que es utilizada y luego se desarrolla cada capa
de la arquitectura en forma detallada. El caso desarrollado aquí sirve como prototipo o guía
para implementar otras soluciones con características similares.

5.1 Caso

El caso práctico está enfocado en un análisis de las cuentas de Twitter de cuatro tipos
de organizaciones diferentes:
 Bancos: Banco de Chile, Banco Estado y Banco Santander, en relación al perfil
bancario.
 Retail: Falabella, Ripley y Almacenes Paris, en relación al perfil de tiendas retail.
 Supermercados: Jumbo, Lider y Unimarc, en relación al perfil de supermercado.
 Telefonía: Claro, Entel y Movistar en relación al perfil de telefonía.
La extracción de la fuente de datos son los tweets de cada una de las empresas en un
período de 35 días, que forman parte de la base de datos utilizada en el caso práctico. La
Figura 5.1 presenta los logos de la imagen corporativa de cada empresa en estudio.

Figura 5.1: Logos de las empresas en estudio.


5. ARQUITECTURA PROPUESTA 46

Como proceso de limpieza, se considera la existencia de cuentas falsas en Twitter,


esto quiere decir que utilizan nombres de empresas sin que correspondan al verdadero

usuario, por lo que se realiza un estudio basado en corroborar que la insignia azul cumpla
con los requisitos (revisar apartado 3.5.4. Verificación cuentas de Twitter) para seleccionar
las cuentas que son verificadas por Twitter. De esta forma, se obtiene la Tabla 5.1 con los
nombres de usuarios Twitter correspondientes a las doce empresas en estudio.

EMPRESA NOMBRE DE USUARIO


BANCOS
Banco de Chile @bancodechile
Banco Estado @bancoestado
Banco Santander @santanderchile
RETAIL
Falabella @falabella_chile
Ripley @ripleychile
Paris @tiendas_paris
SUPERMERCADOS
Jumbo @jumbochile
Lider @lidercl
Unimarc @unimarc
TELEFONIA
Claro @clarochile_cl
Entel @entel
Movistar @movistarchile

Tabla 5.1: Cuentas oficiales de usuarios del caso de estudio.

A partir de las cuentas ya seleccionadas, se procede a realizar la extracción de los


datos para cada una de ellas. La información obtenida corresponde a algunos de los atributos
mencionados en la Tabla 3.4 y 3.5, entendiendo que no todos los datos son de interés para el
objetivo de esta tesis, por lo tanto, se realiza una selección de los datos necesarios para llevar
a cabo la propuesta del perfil del usuario, como se visualiza en la Tabla 5.2.
5. ARQUITECTURA PROPUESTA 47

DATO EXTRAÍDO NOMBRE ASIGNADO DEFINICIÓN


Created_at Creación tweet Hora UTC de cuando se creó el
Tweet.
Text Tweet El texto de la actualización de
estado.
Retweet_count Cantidad de retweet Número de veces que el Tweet ha
sido retweeted.
Favorite_count Cantidad de “Me gusta” Posibilidad de nulos. Indica cuántas
veces el Tweet ha sido "gustado" por
los usuarios.
User_name Nombre usuario Nombre del usuario que publica o
realiza un retweet
User_screen_name Usuario Alias utilizada por el usuario
User_created_at Creación cuenta usuario Fecha creación de la cuenta.
User_location Localidad usuario Localidad de la cuenta, indica por el
usuario.
User_statuses_count Cantidad de tweets del Cantidad de tweets que realiza el
usuario usuario.
user_followers_count Cantidad de followers Cantidad de usuarios que lo siguen.
del usuario
user_friends_count Cantidad de following Cantidad de usuarios a que sigue.
del usuario
user_favourites_count Cantidad de “Me gusta” Cantidad de me gusta que realiza el
del usuario usuario a tweets.
Tabla 5.2: Datos extraídos para analizar.

De esta forma, queda definida la fuente de datos a ser extraída junto a la selección de
la información relevante para este caso práctico, se utiliza la arquitectura planteada con el
propósito de llevar a cabo la propuesta del perfil del usuario.

5.2 Extracción de la fuente de datos


La fuente de datos es la que se extrae a partir de las páginas web de las organizaciones
que se seleccionaron para el caso práctico, siguiendo la implementación de la arquitectura
propuesta, corresponde a los tweets generados por los usuarios que hacen referencia a las
cuentas de Twitter de las doce empresas seleccionadas en el estudio previo Tabla 5.1. Esta
fuente de datos es obtenida a partir de dos tareas que se realizan en la Capa 1, como se puede
ver en la Figura 5.2.
5. ARQUITECTURA PROPUESTA 48

Figura 5.2: Capa 1, extracción de la fuente de datos.

Para poder tener acceso a los tweets que se encuentran en la red, se utiliza la
herramienta QVSource, que funciona como conector entre el programa Qlik Sense Desktop
y la API Search de Twitter, para este caso. Una vez solicitada la licencia, ejecutado QVSource
y realizada la conexión con la API Search explicitadas en el apartado 3.6 QVSource, se
puede proceder a realizar la extracción de los datos requeridos.

Para esto, se necesita ingresar el nombre de usuario correspondiente a la cuenta de


Twitter de la cual se desea obtener los datos, como se muestra en la Figura 5.3, donde se
indica la cuenta @Bancodechile obteniendo así los tweets que hacen referencia a la cuenta
de Twitter que posee el Banco de Chile.

Para descargar toda la información obtenida, se debe hacer clic en el botón


“Download”, generando un archivo con formato .csv, utilizado posteriormente para realizar
diferentes transformaciones a los datos extraídos.

Este proceso, se lleva a cabo para cada una de las cuentas en estudio, generando así
doce archivos diferentes, en formato .csv, con la información correspondiente a cada cuenta
de usuario. Los archivos son guardados con el nombre de la cuenta de usuario
correspondiente (véase Tabla 5.1), con el propósito de facilitar la carga de éstos durante el
proceso de ETL en la siguiente capa.
5. ARQUITECTURA PROPUESTA 49

Figura 5.3: Extracción de datos haciendo referencia a la cuenta @Bancodechile,


utilizando QVSource Web Edition.

5.3 Procesos ETL

Cuando ya se han generado los doce archivos en la Capa 1, se procede a ejecutar la


Capa 2, que está encargada de realizar los procesos de extracción, transformación y carga de
datos, utilizando la herramienta Spoon de Pentaho Data Integration, seleccionada para este
caso, como se puede ver en la Figura .5.4

Figura 5.4: Capa 2, procesos ETL.


5. ARQUITECTURA PROPUESTA 50

Es importante mencionar que para el proceso de ETL se crearon dos parámetros, con
la finalidad de automatizar dicho proceso, los cuales deben ser ingresados antes de ejecutar
el proceso. El primer parámetro denominado Ruta, recibe la ruta donde se encuentran
guardados los archivos y el segundo permite ingresar la fecha de extracción de los datos, el
cual se ha denominado Fecha.

5.3.1 Extracción de los datos


Los datos son leídos desde cada uno de los archivos obtenido en la Capa 1. El proceso
busca automáticamente los archivos gracias a la ruta indicada por el parámetro global y a que
el nombre de los archivos, es único. De esta forma, se cargan todos los datos que forman el
archivo para luego ser utilizados en la siguiente etapa.

5.3.2 Transformación de los datos


Debido a que los datos extraídos contienen mucha información, se realiza una
selección y análisis de los datos que sirven para el objetivo de este trabajo, con la finalidad
de desarrollar limpieza o cambios que permita dejar solo información que sea relevante, para
dar respuestas a la propuesta de perfil del usuario que se busca. Las transformaciones que se
realizan en este proceso son las siguientes:

 Agregar dato Usuario mencionado.


 Transformar el dato Creación tweet de la forma que se presenta en la Figura 5.5.

Figura 5.5: Transformación campo creación tweet.

 Transformar el dato Creación cuenta de usuario en otros dos datos, de la forma que
se presenta en la Figura 5.6.
5. ARQUITECTURA PROPUESTA 51

Figura 5.6: Transformación campo creación cuenta de usuario.

 Transformar a minúscula el campo Localidad y eliminar la “,” en caso de que se


encuentre. Un ejemplo se presenta en la Figura 5.7.

Figura 5.7: Transformación campo localidad.

5.3.3 Carga de datos

Finalmente, se genera un archivo de formato .csv, que contiene toda la información


extraída de las doce cuentas de usuario de Twitter con los datos. Este archivo final es
denominado datos, junto con la fecha de extracción de los datos establecida por el parámetro
Fecha y debe ser guardado en la ruta indicada por el parámetro Ruta. Es importante que los
archivos generados tengan como nombre el siguiente formato,” datos_14-07-2016-csv”, para
que así el proceso pueda ser llevado a cabo de manera automática a través de una tarea
programada.

De esta manera, el proceso ETL observado en la Figura 5.8 se iniciando con la lectura
de los archivos que contienen los datos extraídos desde Twitter, para luego someterlos a una
serie de transformaciones y finalmente obtener un archivo con todos los datos necesarios para
llevar a cabo el análisis del modelo del perfil del usuario.
5. ARQUITECTURA PROPUESTA 52

Figura 5.8: Procesos ETL utilizando Spoon.

5.4 Selección base de datos final

La selección de los datos que son de interés para el análisis del caso práctico, se
desarrolla en esta parte de la arquitectura, Capa 3 como se aprecia en la Figura 5.9, con la
finalidad de entregar la posibilidad de modificar la selección, en caso de requerir más
información para ampliar el análisis sin tener que ejecutar nuevamente el proceso de ETL.

Figura 5.9: Capa 3, selección de la base de datos.


5. ARQUITECTURA PROPUESTA 53

Se crea una aplicación en Qlik Sense Desktop, en la cual se añaden los datos desde el
archivo generado anteriormente, con toda la información necesaria, para así poder realizar la
selección de los 14 datos que se muestran en la Figura 5.10.

Figura 5.10: Catorce datos seleccionados desde tweet.

De esta forma, se obtiene la base de datos final que se utiliza para llevar a cabo el
análisis y obtener respuestas a los indicadores de gestión.

5.5 Visualización
Una vez realiza la selección de los datos de la Figura 5.10, se lleva a cabo el proceso
de creación de las diferentes visualizaciones, que entrega Qlik Sense Desktop mencionadas
en la Tabla 4.2 con el objetivo de generar información que dé respuestas a los enfoques
pertenecientes a la propuesta de perfil del usuario. Para esto, se recopila información durante
un período de 35 días, obteniendo así datos desde el 12 de junio del 2016 al 17 de julio del
mismo año, que son utilizados para los análisis que se realiza a continuación.
5. ARQUITECTURA PROPUESTA 54

Para llevar a cabo el primer análisis enfocado en el liderazgo, se realizan diferentes


gráficas que muestras datos relevantes y dan respuestas a cada uno de los siguientes
indicadores de gestión:

1. Cantidad de tweets. Se utiliza la opción de visualización KPI, para entregar el valor


de la medida tweet, que permite mostrar la cantidad de tweets que se están analizando. Se
observa en la Figura 5.11 que la cantidad de tweets emitidos que hacen referencia a los
perfiles en estudio, corresponden a 42.340 publicaciones.

Figura 5.11: Cantidad de tweets.

Para complementar con información y realizar un análisis más completo, este tipo
de visualización entrega la opción de enlazarse con otra, por ejemplo al hacer doble clic en
ella, se abre una nueva ventana donde se muestra una tabla con los tweets en detalle con el
objetivo de conocer el contenido de éstos para así saber de qué hablan. Gracias a la opción
de búsqueda inteligente, permite ingresar palabras y seleccionar los tweets que tengan
relación con ella, un ejemplo se presenta en la Figura 5.12.

Figura 5.12: Visualización de los tweets analizados y búsqueda avanzada.


5. ARQUITECTURA PROPUESTA 55

2. Porcentaje de tweets por perfil mencionado. Se utiliza un gráfico de tarta para


generar la visualización correspondiente a la cantidad de tweets que hacen referencia a cada
perfil estudiado. La información obtenida de la Figura 5.13 indica que la cuenta de Entel
lidera, siendo la más mencionada entre todos los perfiles, con 7.500 tweets pertenecientes al
17,7%. Por otro lado, el perfil menos mencionado, corresponde a la cuenta de tiendas Paris,
con un total de 3,1% equivalente a 1.300 tweets seguido de la cuenta del banco Santander
Chile con 1.680 tweets pertenecientes al 4,0%.

Figura 5.13: Porcentaje perfiles mencionados.

Esta información, complementada con la tabla que entrega el contenido de los tweets
y la búsqueda inteligente, permite analizar las causas que unos perfiles sean más mencionadas
que otros, pudiendo deberse a la cantidad de contenido promocional, concursos, reclamos,
comentarios positivos o negativos, la baja de algún servicio, entre otros factores.

3. Cantidad de “Me gusta” por tweet. Se elabora un gráfico de barra donde se


visualizan los diferentes tweets junto a la cantidad de “Me gusta” que poseen, excluyendo a
los que no tienen, con el objetivo de obtener el tweet que es más gustado por los usuarios
para su posterior análisis según su contenido y complementarla con la información entregada
5. ARQUITECTURA PROPUESTA 56

en las visualizaciones anteriores, generando así un análisis más completo y detallado. En la


Figura 5.14, se muestra que el tweet “Muchas gracias a todos los que fueron hoy a
@tiendas_paris @Abreya_ a que @laliespos les firme sus discos!!!!! Tenemos el ❤ lleno de
amor” es el más gustado con una cantidad de 151 “Me gusta”, el cual se enfoca en dar
agradecimientos a los usuarios.

Figura 5.14: Cantidad de “Me gusta” por tweet.

4. Cantidad de retweet de los mensajes. Se genera un gráfico de barra en el cual se


visualizan los diferentes tweets junto a la cantidad de veces que éste ha sido retwitteado,
excluyendo a los que no lo fueron, con el objetivo de obtener el tweet que ha sido mayormente
divulgado por los usuarios para su posterior análisis según su contenido. Al igual que la
gráfica que indica la cantidad de “Me gusta” por tweet, ésta también es complementada con
la información entregada en las visualizaciones anteriores, produciendo un análisis más
detallado. De la Figura 5.15 se visualiza que el tweet “RT @entel: ¡Vamos Chile!
#CopaAmerica #CHIvsARG https://t.co/MP92bm1IiY” corresponde al más retwitteado con
una cantidad de 1.140 retweet, el cual entrega contenido de apoyo al país. Seguido del tweet
para participar en un concurso “RT @MovistarChile: ¿Quieres ir al concierto de
5. ARQUITECTURA PROPUESTA 57

#FifthHarmony? ¡Entonces haz RT a este video y estarás participando por entradas dobles!”
con 1.052 retweet.

Figura 5.15: Cantidad de retweet por tweets.

5. Cantidad de tweets generados por día. Con el propósito de conocer el día en que
se realiza la mayor cantidad de tweets, se crea un gráfico de líneas que además permite
observar cómo se comporta, en el tiempo, la cantidad de tweets generados. En la Figura 5.16,
se visualiza que el día 27 de junio del 2016 se lleva a cabo la mayor cantidad de publicaciones
con un total de 3.304 tweets. Al complementar con los demás gráficos, se recopila
información como: perfil al que pertenecen los tweets realizados ese día, el contenido de
estos, la cantidad de “Me gusta” y retweet para responder a análisis más específicos. Consta
de un panel de filtrado, con el objetivo de poder seleccionar una fecha de creación del tweet
específica, un rango u obtener solo la cantidad de tweets publicados en junio o julio.

Figura 5.16: Cantidad de tweets por día.


5. ARQUITECTURA PROPUESTA 58

Una vez resuelto cada indicador de gestión, se procede a realizar un dashboard


interactivo, compuesto por el conjunto de gráficas, que proporciona solución al enfoque de
liderazgo, como se ve en la Figura 5.17.

Figura 5.17: Dashboard en relación al enfoque de liderazgo.

De esta forma, se interactúa con las diferentes visualizaciones obteniendo un análisis


más minucioso, como por ejemplo, se complementa que el tweet que posee la mayor cantidad
de “Me gusta” hace mención al perfil de la cuenta de usuario de Tiendas Paris, publicado el
16 de julio del 2016 y ha sido retwitteado 161 veces. Asimismo, se puede visualizar esta
información para un tweet en específico o para el que posee la mayor cantidad de retweet
que fue publicado el 27 de junio del 2016, si se analiza debido a su contenido se observa que
el motivo de su gran divulgación es dar apoyo a la selección chilena durante un partido de
fútbol en la Copa América por parte de Entel.
Como se obtuvo anteriormente, el día 27 de junio del 2016 se lleva a cabo la mayor
cantidad de tweets publicados, añadiendo que hacen referencia mayoritariamente al perfil de
Claro Chile, con un 34,9 % perteneciente a 1.150 tweets, seguidos por Entel y Movistar Chile.
Además de las gráficas descritas anteriormente, el dashboard cuenta con dos paneles
de filtrado, que permiten realizar búsquedas enfocadas a una información específica, por
ejemplo, acotar el análisis para uno o una selección de perfiles mencionados, así como
también a una fecha específica de creación de los tweets o un tramo de esta, produciendo que
la búsqueda de información sea más rápida y selectiva.
5. ARQUITECTURA PROPUESTA 59

Para el segundo análisis, se genera un dashboard enfocado en la experiencia y


localidad, donde se realizan diferentes gráficas en las cuales se visualizan datos relevantes
que dan respuesta a los siguientes indicadores de gestión:

1. Cantidad de mensajes. Al igual que en el primer análisis, se utiliza la opción de


visualización KPI para mostrar la cantidad de tweets que se están analizando siendo la misma
para ambos análisis, es decir, la cantidad de tweets emitidos que hacen referencia a los
perfiles en estudio corresponden a 42.340 (véase Figura 5.11). En este caso, además se
visualiza la cantidad de tweets que realiza cada usuario a los diferentes perfiles, junto al
contenido de estos (véase Figura 5.12).

2. Cantidad de tweets y likes realizados por el usuario. Con este indicador se analiza
información que es producida por el propio usuario que realiza los tweets, esto es, la cantidad
de tweet y likes que posee su cuenta. En este análisis se busca visualizar al usuario que posee
mayor cantidad de tweet, ya que, de esta forma se puede analizar qué tan participativo se
encuentra en la red social. En el gráfico de barras de la Figura 5.18 se observa que el usuario
que ha realizado la mayor cantidad de tweets es “BigDataTweetBot” con 975.280
publicaciones y 0 tweets que le han gustado. Ya que esta información es generada por la
acciones del usuario, se evidencia que su manera de participar en Twitter es publicando
información, debido a la gran cantidad de tweets que publica y ninguno que le gusta. Por otro
lado, se puede realizar este mismo análisis enfocado en el usuario quien realiza la mayor
cantidad de likes.

Figura 5.18: Cantidad de tweets y likes por usuario.


5. ARQUITECTURA PROPUESTA 60

3. Cantidad de followers y following que posee el usuario. Se genera un gráfico de


barras para obtener la cantidad de followers que posee el usuario, con la finalidad de
visualizar al usuario con más seguidores, que sigue a la mayor cantidad de usuarios o
comparar entre ambos. En la Figura 5.19 se observa que el usuario con la mayor cantidad de
seguidores corresponde a “El_Universal_Mx” con 4,08 millones de followers y 11.560
following. La diferencia entre la cantidad de seguidores y following es un punto importante,
ya que, un usuario con alta cantidad de following y pocos seguidores es motivo para analizar
su popularidad, debido a que esta red social permite seguir a los usuarios que uno desee sin
su permiso.

Figura 5.19: Cantidad de followers y following del usuario.

4. Cantidad de tweets realizados según el año de creación de la cuenta del usuario.


Se da respuesta a este indicador, a partir de un gráfico de líneas donde se visualiza la cantidad
de tweets realizados por los usuarios dependiendo del año en que han creado su cuenta de
Twitter. La información obtenida de la Figura 5.20, indica que los usuarios que crearon su
cuenta en el año 2010 son los que realizan la mayor cantidad de tweets haciendo referencia
a los diferentes perfiles de este caso, con una cantidad correspondiente a 10.730 tweets. Esta
5. ARQUITECTURA PROPUESTA 61

información es de gran utilidad para los análisis al ser complementada con las visualizaciones
anteriores tal como se aborda más adelante.

Figura 5.20: Cantidad de tweets por año de creación de la cuenta del usuario.

5. Cantidad de mensajes por localidad. Se realiza un gráfico de barra que indica la


cantidad de tweets generados según la localidad del usuario, en caso que la tenga registrada.
En la Figura 5.21 se visualiza que 11.460 tweets provienen de usuarios que tienen su
localidad en blanco, ya que, no es información obligatoria al momento de crear la cuenta de
usuario de Twitter. En caso de ingresarla, no posee un formato común para todos los usuarios,
sino queda a criterio de ellos, la información que desean registrar como localidad. Por esta
razón, esta gráfica es de utilidad para complementar la información del usuario en casos
específicos.

Figura 5.21: Cantidad de tweets por localidad.


5. ARQUITECTURA PROPUESTA 62

En la Figura 5.22 se muestra el dashboard, generado a partir de las gráficas anteriores,


que da respuesta a los enfoques de experiencia y localidad indicados en la propuesta de perfil
del usuario.

Figura 5.22: Dashboard en relación al enfoque de la experiencia.

El dashboard permite complementar información entre las visualizaciones, siendo un


tema relevante la fecha de creación de la cuenta del usuario, de esta forma se analiza la
cantidad de tweets, likes, followers y following, que el usuario posee durante el tiempo que
lleva interactuando en Twitter. Por ejemplo, no es lo mismo un usuario con miles de
seguidores que creó su cuenta hace 10 años atrás, que un usuario con la misma cantidad de
seguidores incorporado a la red social hace un par de años, pues tiene mayor participación y
popularidad este último que posee una gran cantidad de usuarios a quienes le interesa su
perfil en un período más corto. Para un análisis más completo se utiliza la información que
indica la cantidad de tweets que el usuario ha realizado, visualizando de esta manera los
usuarios que tienen mayor participación en la red social en un corto plazo.
A pesar de que la mayoría de los usuarios no ingresa su localidad o lo hace de manera
incorrecta, se decide de igual manera, realizar un análisis donde se visualiza la cantidad de
tweets realizados por la localidad del usuario, para tener una mirada de esta información y
generar la posibilidad de analizar si será de utilidad según las necesidades.
5. ARQUITECTURA PROPUESTA 63

Para este dashboard, al igual que el anterior, se ha utilizado un panel de filtrado, que
permite visualizar la información, según el año en que el usuario creo su cuenta de Twitter,
y también más específicamente, por día y mes de la creación de dicha cuenta.
Es importante mencionar que al utilizar el panel de filtrado la información entregada
es acotada para ambos dashboard debido a que comparten la misma aplicación, permitiendo
así interactuar también entre ellos y realizar una búsqueda detallada para así dar respuestas
más completas a los diferentes análisis.
De esta misma forma y con los análisis realizados anteriormente, se dan respuestas a
las preguntas planteadas en la propuesta del perfil del usuario. Para este análisis, se selecciona
un usuario al azar, por ejemplo, “lollapelusa”, obteniendo que este usuario ha realizado 19
tweets haciendo mención a tres de los perfiles en estudio, los que corresponden a las cuentas
del supermercado Jumbo Chile (42,1%), Entel (26,3%), a la cuenta de la empresa telefónica
de Claro Chile y al supermercado Unimarc (10,5%), Movistar Chile y Banco Estado (5,3%).
Estos tweets fueron realizados durante las fechas 15 y 27 de junio, 3, 9, 11, 12 y 15 de julio
del 2016. Más detalladamente se visualiza cada tweets, en el caso de requerir esta
información para análisis su contenido, donde se observa que el usuario menciona al
supermercado Jumbo realizando consultas sobre un producto electrónico que ya está
fallando, recibiendo respuestas por parte del supermercado. En cuanto a los tweets realizados
que hacen referencia a Entel, se enfocan en realizar consultas sobre unos descuentos para un
museo que esta compañía otorga a sus clientes. En relación al supermercado Unimarc, el
usuario comparte contenido de propaganda y por otro lado, los tweets relacionados con Claro
corresponden a información de reclamo por su atención, de esta forma se dimensiona cómo
el usuario opina de las diferentes empresas. Este análisis se puede llevar a cabo para cualquier
usuario en específico y así dar respuesta a la pregunta planteada, ¿Cómo el tuitero se
comporta en las diferentes marcas? Generando de esta manera información en relación a
las preferencias del usuario, siendo este un análisis de utilidad para la organización
investigadora, permitiéndoles tomar decisiones estratégicas, con el objetivo de acercarse a
los usuarios para así ofrecer productos y/o promociones acordes a sus opiniones y
necesidades, como también, para capturar futuros clientes.
Para dar respuesta a la segunda interrogante, ¿Cómo afectan las opiniones en la red,
al perfil de twitter de la empresa?, se realiza un análisis exhaustivo relacionado con el
5. ARQUITECTURA PROPUESTA 64

contenido del tweet, donde se puede ver que los tweets pertenecen principalmente a
propaganda, concursos y reclamos. En el caso de estos últimos, son de suma importancia
para la empresa, debido a la gran cantidad de personas que ven esta información en la red,
donde los usuarios dan a conocer experiencias malas que han vivido y se unen para divulgar
estas anécdotas, a través de los retweet. De esta forma, se va “manchando” el nombre de la
empresa, ya que otro usuario verá los tweets y tendrá duda al momento de adquirir algún
servicio de dicha empresa.
Como se observa en la Figura 5.23, a modo de ejemplo, un usuario realiza un tweet
haciendo referencia a un supermercado, para mencionar que encontró un pedazo de vidrio en
el pan que adquirió en dicho lugar, y luego indica que fue contactado por la empresa, con el
fin de dar a conocer su experiencia y así ser vista y divulgada por todos los usuarios que lo
siguen.

Figura 5.23: Ejemplo tweets de reclamos.

Para solucionar este problema, se demuestra que algunas empresas comienzan a


responder a los usuarios que perciben descontentos o simplemente para resolver dudas que
manifiesten, principalmente si estos usuarios poseen una alta participación o popularidad en
la red social, y así dejar constancia, de manera pública, el interés y preocupación que poseen
por sus clientes, obteniendo de esta manera, mejorar la imagen corporativa de la
organización.
5. ARQUITECTURA PROPUESTA 65

5.6 Ventajas y desventajas de Qlik Sense Desktop.

Durante el estudio de la herramienta Qlik Sense Desktop, junto con las etapas
desarrolladas para llevar a cabo la implementación del caso estudio realizado en esta tesis, se
pudo detectar la existencia de una gran cantidad de beneficios que entrega, así como también
de algunas desventajas, ambas expuestas a modo de resumen en la Tabla 5.1:

Ventajas Desventajas
Software gratuito Aplicación de Windows
Interfaces sencillas Funcionamiento de modo local.
Visualizaciones de datos interactivos y Cantidad limitada de datos extraídos
personalizados
Búsqueda inteligente Limitaciones en las visualizaciones
Integración con múltiples fuentes de datos
Diseño responsivo
QlikSense Cloud

Tabla 5.1: Ventajas y desventajas de Qlik Sense Desktop.

Realizar la implementación del modelo de análisis utilizando la herramienta Qlik


Sense Desktop, otorga una serie de ventajas, como por ejemplo que corresponde a un software
gratuito, de manera que cualquier usuario puede acceder a esta herramienta completa sin
necesidad de pagar por ella y así poder instalarla fácilmente en su computador.

La principal ventaja que posee Qlik Sense Desktop, es que cualquier miembro de la
organización puede crear con facilidad visualizaciones flexibles e interactivas y tomar
decisiones en base a información fundada. Es una herramienta para que el usuario tenga
libertad a la hora de explotar la información, crear su propio diseño de visualización de datos
y en definitiva conseguir autonomía y autoservicio por parte del usuario.

En relación a la visualización de datos, utiliza interfaces sencillas que permiten crear


cuadros de mando, informes y visualizaciones de datos interactivos y personalizados,
mediante la función de arrastrar y soltar sin la necesidad de scripts, complejas consultas SQL
ni uniones, permitiendo así, que la integración de datos, para explorar múltiples fuentes,
resulte sencilla. Otra ventaja que destacar, es la exploración de datos con visualizaciones
5. ARQUITECTURA PROPUESTA 66

inteligentes que se adaptan automáticamente a los parámetros que establezcan, sin necesidad
de desarrolladores, científicos de datos ni diseñadores, logrando una flexibilidad absoluta,
donde solo se debe escribir lo necesario para encontrar información relacionada y ver datos
relacionados en todo el conjunto de datos.
Un punto importante para las organizaciones, es contar con un entorno donde los
diferentes usuarios puedan acceder en el momento que deseen, desde el punto donde se
encuentren y de forma rápida, a la información, de manera que pueden opinar y colaborar en
cualquier momento, en base a conocimiento informado. Por esta razón, Qlik Sense Desktop,
es independiente de dispositivos y fácil de usar en una pantalla táctil, ya que está basado en
HTML5, permitiendo interactuar, comprender, comunicar, colaborar y compartir datos con
facilidad en cualquier dispositivo, en cualquier momento y en cualquier lugar, con
visualizaciones llamativas y listas para usar, está pensado para un entorno móvil y
táctil[QLI2014]. Finalmente está la ventaja de poder compartir las aplicaciones a través de
Qlik Sense Cloud, lo que posibilita la creación y análisis de dashboards con la colaboración
de distintos usuarios en un entorno seguro.
En relación a las desventajas detectadas, destaca que es una aplicación para ser
utilizada solo en sistemas operativos Windows, dejando de lado la compatibilidad con otros
sistemas. Otra desventaja es que Qlik Sense Desktop, posee un funcionamiento de modo
local, es decir, debe existir una conexión directa con las distintas fuentes de datos y lo que
necesita para crear la secuencia de comandos, para conectarse a la base de datos, cargar los
datos y transformarlo, a diferencia de versiones que tienen costos para cliente-servidor.
Otra limitación identificada, es la cantidad de datos que permite extraer desde Twitter
el conector de API REST con Qlik Sense, limitando por consulta, a una cantidad de 1500
tweet o un máximo de 7 días anteriores, de manera que si se necesita obtener una base de
datos muy grande, no es de utilidad esta metodología. Como última dificultad identificada,
se menciona que algunas visualizaciones, como el gráfico de barras no funcionan muy bien
cuando hay muchos valores de dimensión, debido a las limitaciones en la longitud de los ejes,
pero si las dimensiones no encajan, existe la posibilidad de moverse mediante la barra de
desplazamiento, sin embargo es posible que la visualización no sea completa. Por estas
razones, es fundamental acotar de manera correcta la base de datos con información esencial
para el análisis de un periodo determinado.
Capítulo 6.
Conclusiones y trabajos futuros.
6. CONCLUSIONES Y TRABAJOS FUTUROS 68

6. Conclusiones y trabajos futuros


En este último capítulo se exponen las conclusiones obtenidas de la investigación
realizada, junto a los futuros trabajos que pueden surgir a partir de esta tesis.

6.1 Conclusiones

Producto de esta tesis, se obtuvo una arquitectura que permite realizar la


implementación del análisis de información, relacionado con el valor de la experiencia de
clientes en Twitter, a través del modelo de “perfil de usuario”, para lo cual se utilizó como
herramienta de visualización de datos, el programa QlikSense Desktop. Este tipo de solución
presenta una gran ventaja que es su bajo costo y, además, posee la particularidad que puede
ser utilizada, por cualquier persona que tenga la necesidad de resolver este modelo para el
desarrollo y optimización de su organización, sin la necesidad de contar necesariamente con
expertos en el área de Inteligencia de Negocios.

La solución propuesta en este trabajo, cumple con las etapas fundamentales de un


modelo de Inteligencia de Negocios, puesto que se proporciona un modelo de análisis de
información, que contempla la extracción de datos desde Twitter con el conector QVSource,
y que luego estos datos son convertidos y puestos en valor, generando información útil para
su posterior análisis, utilizando la herramienta Spoon de Pentaho Data Integration.
Posteriormente los datos son cargados, a través del software QlikSense Desktop, donde
finalmente se llevan a cabo las diferentes visualizaciones que permiten entregar respuestas
claras a las inquietudes planteadas por las empresas para tomar las mejores decisiones
basadas en información relevante.

Obtener información que proporcionan los usuarios a través de las redes sociales,
constituye un elemento de alto valor y un punto fundamental para las organizaciones, ya que
es a través de ellas donde las personas exponen reclamos, opiniones, experiencias o
necesidades que son relevantes para ellos y que constituye una información valiosa para todo
tipo de entidades que deseen permanecer conectadas con el mercado
6. CONCLUSIONES Y TRABAJOS FUTUROS 69

Para llevar a cabo este análisis de información, la red social más adecuada, es Twitter,
ya que, es una de las redes más utilizadas, con una gran cantidad de usuarios activos. Por esta
razón, la elección de esta red para desarrollar el modelo de perfil de usuario se consideró
como la más adecuada e ideal, principalmente por su característica particular de poseer
mensajes de texto limitados a 140 caracteres, y gracias a que la información entregada por
Twitter es de acceso público, al igual que las aplicaciones que permiten conectarse a la API
de esta red social para así obtener la información deseada

De esta manera, la posibilidad de acceder a datos generados por el mundo exterior a


través de las redes sociales, está al alcance de cualquier organización, procurando así una
gran y valiosa oportunidad para ellas de acercarse en forma adecuada y con información
relevante a sus clientes, ya que esta posibilidad les ha permitido conocerlos con mayor
profundidad. Esta alternativa, es hoy día crucial en el mundo globalizado y con
organizaciones y clientes cada vez más exigentes e informados. Por ello las organizaciones
se ven enfrentadas de manera permanente a desafíos, en que la toma de decisiones que sean
correctas puede hacer la diferencia entre lograr el éxito o simplemente el fracaso. En este
sentido, el acceso a información útil, relevante y confiable permite a la empresa tomar
decisiones estratégicas y orientar sus operaciones de negocio enfocándose en la gestión
comercial de sus clientes que impactará positivamente en la imagen corporativa de la empresa
y con ello, ser competitiva y consolidar su posición en el mercado.

Por todo lo expuesto, la solución propuesta en esta investigación, se enfocó en generar


una arquitectura de bajo costo, de manera que fuera accesible a todo tipo de organizaciones
y así mantener una competencia sana entre ellas, que finalmente se verá reflejada en un mejor
servicio y/o producto para la sociedad en su conjunto, preocupación principal que motivó
este trabajo.

A modo de reflexión final, cabe rescatar que realizar la implementación de la


arquitectura propuesta, utilizando la herramienta de visualización de datos QlikSense
Desktop promocionó una serie de beneficios para el análisis de los datos. Uno de ellos,
corresponde a la sencilla interfaz que dispone, que se refleja en que los usuarios puedan
manejar esta herramienta sin complicaciones. Otro punto importante que llama la atención,
es que permite crear cuadros de mando, informes y visualizaciones de datos interactivos y
6. CONCLUSIONES Y TRABAJOS FUTUROS 70

personalizados, mediante la función de arrastrar y soltar. Finalmente, para realizar un análisis


más específico, cuenta con una exploración de datos a través de visualizaciones inteligentes,
adaptándose automáticamente a los parámetros que se establecen, sin necesidad de expertos
en el tema.

Por otro lado, concluye que la única limitación que posee la arquitectura, es la
cantidad de datos que permite extraer desde Twitter, debido a las características de la API
Rest, para lo cual, se realiza un análisis profundo en un cierto periodo de tiempo. De igual
forma, esto contribuye a que las visualizaciones realizadas con la herramienta QlikSense
Desktop sean más efectivas, debido a que grandes cantidad de datos, provocan confusión en
las vistas, entorpeciendo al proceso de análisis de la información.

Finalmente, es importante mencionar que los objetivos planteados esta tesis se


lograron cumplir a cabalidad, en la medida que se obtuvo como resultado una guía cuya
finalidad es que el lector pueda implementar o replicar la solución para cualquier tipo de
empresa, garantizando una puesta en valor de la experiencia de clientes de Twitter que le
permite a su vez, adoptar estrategias correctas que irán en beneficio de toda la comunidad.

6.2. Trabajos futuros

En el transcurso de la investigación realizada se han identificado algunos temas


interesantes que pueden surgir a partir de esta. A continuación se proponen algunos trabajos
futuros que se pueden realizar.

6.2.1. Algoritmo para realizar análisis de sentimiento de los tweets


Esta investigación entrega la base para llevar a cabo cualquier análisis del valor de la
experiencia de clientes de Twitter, el cual puede ser complementado con un análisis
relacionado con el sentimiento de los mensajes para así obtener análisis más específicos.

6.2.2. Implementación en Qlik Sense Enterprise


Una de las principales desventajas encontradas, corresponde a que el funcionamiento
de Qlik Sense Desktop es solo de modo local, pero para solucionar esto existe la versión
pagada Qlik Sense Enterprise, con la cual se eliminan los problemas de limitación de datos
en las visualizaciones y permite programar envio de reportes por correo electrónico.
Bibliografía.
Bibliografía

[AMA2011] AMAZON, "Twitter.com Trafic Statics" 2011.


URL:http://www.alexa.com/ siteinfo/twitter.com

[CAN2007] JOSEP LLUÍS CANO, "Business Intelligence: Competir con


información”, 2007.

[CAR2010] JORDI CONESA CARALT, "Introducción al Business


Intelligence”, 2010.

[LUH1958] LUHN, HANS PETER. “A Business Intelligence System”. En: IBM


Journal of Research and Development Vol. 2.4, 1958.

[PEN2016] PENTAHO. “Pentaho Data Integration Steps”, 2016


URL:http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration
+Steps

[QLI2016] QLIK, “Our vision", 2016. URL: http://www.qlik.com/us/company

[QLI2014] QLIKTECH INTERNATIONAL AB, "Presentamos Qlik® Sense:


Libere su intuición”, 2014.

[QLI2016] QLIKTECH INTERNATIONAL AB, “Instalar Qlik Sense


Desktop", 2016. URL: http://help.qlik.com/es-
ES/sense/2.2/Subsystems/Hub/Content/Introduction/install-
desktop.html

[QLI2015] QLIKTECH INTERNATIONAL AB, " Conceptos de Qlik Sense”,


2015.

[QLI2014] QLIKTECH INTERNATIONAL AB, " Movilidad en Qlik Sense”,


2014.

[SIN2013] SINNEXUS. “Soluciones de Business Intelligence para su


empresa”, 2013.
[TWI2016a] TWITTER, "Preguntas frecuentes sobre las cuentas verificadas",
2016. URL: https://support.twitter.com/articles/119135

[TWI2016b] TWITTER, "Twitter Developer Documentation: REST APIs", 2016.


URL: https://dev.twitter.com/rest/public

[TWI2016c] TWITTER, "Twitter Developer Documentation: Tweets", 2016.


URL: https://dev.twitter.com/overview/api/tweets

[TWI2016d] TWITTER, "Twitter Developer Documentation: Users", 2016. URL:


https://dev.twitter.com/overview/api/users

También podría gustarte