CORDOVA SÁENZ, Carlos Abel PDF

Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
UNIVERSIDAD NACIONAL DE TRUJILLO
Facultad de Ciencias Fı́sicas y Matemáticas
Escuela Profesional de Informática
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
Metodologı́a basada en Minerı́a de Datos para la
M N
detección de usuarios Influencers en Twitter

E IE
T C
TESIS
A E
M D
PARA OBTENER EL TÍTULO PROFESIONAL DE INGENIERO

INFORMÁTICO
Y A
C
E
T
O
AUTOR: Córdova Sáenz Carlos Abel

LI
IB
ASESOR: Mg. Peralta Luján José Luis

B
TRUJILLO - PERÚ
2019
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Dedico esta tesis a:
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
Mis padres Tatiana y Carlos, y a mi hermano Enrique, por siempre haberme

T C
apoyado y confiado en mı́, brindándome todo el soporte que necesité para

A E
desarrollarme como persona y profesionalmente.

M D
Y A
C
E
T
O
LI
IB
B
Agradecimientos
Agradezco a Dios y a la vida por permitirme conocer, compartir y aprender con tantas
diversas personas a lo largo de los años.
Agradezco a mi familia por acompañarme, entenderme y apoyarme siempre que lo he
S
necesitado, por ser mi soporte frente a cualquier adversidad.
A
IC
S
Agradezco a mis profesores del programa de estudios de Informática, en especial a mi asesor
S FÍ
para la presente tesis, el profesor José Peralta Luján, por haberme mostrado lo increı́ble que es
A S
esta disciplina y haberme inculcado conocimientos muy útiles para mi desarrollo profesional.
IC A
T I
Á C
Agradezco a mis amigos Arnold, Joseph, Rolando y Manuel, porque gracias a ellos el tiempo
M N
que pasé en la universidad fue mucho más provechoso y entretenido.

E IE
T C
A E
Agradezco profundamente a todas las personas que de cualquier manera me ayudaron a

M D
concluir este trabajo de investigación, de manera particular a mi abuelo Jorge Sáenz, por
Y A
guiarme en los primeros pasos para el desarrollo de esta tesis y a mi amigo Germain Garcı́a, a
C
quien considero mi orientador a distancia, por haberme ayudado a aclarar todo tipo de dudas
E
T
siempre que lo necesité.

O
LI
IB
B
ii
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
iii
RESUMEN
El marketing viral es una de las técnicas más usadas por las empresas para incrementar su
alcance y mejorar sus ganancias. Esta técnica se realiza a través de los usuarios Influencers,
personas que debido a su capacidad de persuasión muy alta sobre sus seguidores, se encargan
de viralizar lo que se desea promocionar. No obstante, conocer qué Influencers son los ideales
para cada público objetivo no es un proceso trivial, pues el determinar a dichos usuarios está
S
sometido a un conjunto de criterios más alla de la simple popularidad de los mismos. Una
A
forma a la cuales recurren las organizaciones actualmente, es el uso de servicios online de
IC
detección de Influencers, sin embargo, dichos servicios tienen un costo elevado y se presentan
poco transparentes a los usuarios, quienes desconocen los criterios bajo los cuales éstos están
S
S FÍ
siendo determinados. En esta tesis se propone una Metodologı́a para la Detección de usua-
rios Influencers en Twitter, la cual sigue el proceso fundamental de Minerı́a de Datos, hace
A S
uso de diversas técnicas de recolección de datos (Web Scraping, API s) y utiliza un conjunto
IC A
de métricas de influencia para obtener una puntuación de influencia para cada usuario, que
T I
Á C
permita conseguir un ranking de los usuarios más influyentes para un público objetivo deter-
M N
minado. La metodologı́a que se propone, comprende un punto de partida muy básico, como es
E IE
la definición de los tópicos de búsqueda de usuarios candidatos a Influencers, permitiendo que

cualquier persona interesada pueda hacer uso de la misma, incluso acoplando nuevos criterios
T C
sobre los cuales obtener la puntuación de influencia. La metodologı́a fue ejecutada sobre el
A E
caso de estudio: Lava Jato (Odebrecht) Perú, obteniendo el ranking de Influencers basado en
M D
los datos recolectados entre los meses de enero hasta marzo de 2019.
Y A
C
Palabras clave: Minerı́a de Datos, Big Data, Influencers, Redes Sociales.

E
T
O
LI
IB
B
iv
ABSTRACT
Viral marketing is one of the techniques most used by companies to increase their reach
and improve their profits. This technique is carried out through the Influencers, people who
because of their ability to persuade very high on their followers, are in charge of viralizing
what they want to promote. However, knowing which Influencers are the ideals for each
target audience is not a trivial process, since determining those users is subject to a set of
S
criteria beyond the simple popularity of them. One way that organizations currently use is the
A
suscription to online Influencers detection services, however, these services have a high cost
IC
and are not very transparent to users, who do not know the criteria under which they are being
determined. This thesis proposes a Methodology for the Detection of Influencers on Twitter,
S
S FÍ
which follows the fundamental process of Data Mining, makes use of diverse techniques of
data collection (Web Scraping, APIs) and uses a set of influence metrics to obtain a score
A S
of influence for each user, which allows achieving a ranking of the most influential users for
IC A
a specific target audience. The proposed methodology includes a very basic starting point,
T I
Á C
such as the definition of the search topics of candidate users for being Influencers, allowing
M N
any interested person to make use of it, even coupling new criteria on which to obtain the
E IE
influence score. The methodology was executed on the case study: Lava Jato (Odebrecht)
Peru, obtaining the ranking of Influencers based on the data collected between the months of
T C
january to march 2019.

A E
M D
Palabras clave: Data Mining, Big Data, Influencers, Social Networks.

Y A
C
E
T
O
LI
IB
B
Índice de Figuras
2.1 Redes sociales más usadas en octubre de 2018 . . . . . . . . . . . . . . . . . . . 8
S
4.1 Pipeline de la Metodologı́a para Detección de Influencers en Twitter . . . . . . 33
A
4.2 Subconjunto de tweets recopilados sobre el Caso Lava Jato (Odebrecht) Perú . . 35
IC
4.3 Conjunto de usuarios candidatos a Influencers, caso Lava Jato Perú . . . . . . . 36
S
4.4 15 usuarios con mayor puntuación de influencia . . . . . . . . . . . . . . . . . . 37
S FÍ
4.5 Distribución de los usuarios candidatos en base a su puntuación de influencia . 39
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
vi
Índice de tablas
2.1 Las 3 métricas más usadas por cada uno de los servicios de puntuación de influencia 16
S
3.1 Ponderación de las métricas de influencia . . . . . . . . . . . . . . . . . . . . . . 29
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
vii
Índice general
Dedicatoria I
S
A
Agradecimientos II
IC
Resumen IV
S
S FÍ
Abstract V
A S
Índice de Figuras VI
Índice de tablas
IC A
T I VII
Á C
M N
1 Introducción 1
E IE
1.1 Justificación de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
T C
1.3 Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
A E
1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
M D
1.4.1 General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Y A
1.4.2 Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
C
1.5 Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

E
2 Materiales y Métodos 7
T
O
2.1 Marco Teórico . . . . . . . . .

. .
. . . . . . . . . . . . . . . . . . . . . . . . . 7
LI
2.1.1 Redes Sociales . . . . . . .

. .
. . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1.1 Twitter . . . . . .
. .
. . . . . . . . . . . . . . . . . . . . . . . . . 7
IB
2.1.2 Marketing Viral . . . . . .

. .
. . . . . . . . . . . . . . . . . . . . . . . . . 9
B
2.1.2.1 Influencia social e Influencers . .

. . . . . . . . . . . . . . . . . . . . 10
2.1.3 Minerı́a de Datos . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 11
2.1.3.1 Análisis de redes sociales . . . . .
. . . . . . . . . . . . . . . . . . . . 12
2.1.4 Detección de Usuarios Influencers . . . . .
. . . . . . . . . . . . . . . . . . . . 12
2.1.4.1 Métricas de Influencia en Twitter .. . . . . . . . . . . . . . . . . . . . 13
2.1.5 Técnicas de Recopilación de Datos . . . . .
. . . . . . . . . . . . . . . . . . . . 17
2.1.5.1 Integración de datos basada en API’s . . . . . . . . . . . . . . . . . . . 17
2.1.5.2 Web Scraping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Método de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
viii
2.2.1 Diseño de la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.2 Universo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Población 19
2.2.4 Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Metolodogı́a para la Detección de Influencers en Twitter 20

3.1 Exploración de candidatos a Influencers . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Definición del alcance de la búsqueda . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 Recopilación de tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
S
3.1.3 Filtrado de Tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
A
3.1.4 Descarte Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
IC
3.1.5 Obtención de los candidatos a Influencers . . . . . . . . . . . . . . . . . . . . . 27
S
3.2 Cálculo de la puntuación de influencia . . . . . . . . . . . . . . . . . . . . . . . 27
S FÍ
3.2.1 Obtención de los valores para las métricas de influencia . . . . . . . . . . . . . . . 28
3.2.2 Obtención de la puntuación de influencia . . . . . . . . . . . . . . . . . . . . . . 29
A S
3.3 Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
IC A
T I
Á C
4 Resultados y Discusión de la tesis 32
M N
4.1 Resultados Teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

E IE
4.2 Resultados Computacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

T C
5 Consideraciones Finales 43
5.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A E
M D
5.2 Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Y A
Referencias bibliográficas 45
C
E
T
O
LI
IB
B
ix
Capı́tulo 1
S
Introducción
A
IC
S
S FÍ
Las tendencias de marketing han ido evolucionando con el tiempo, estudios como los de
A S
IC A
Granovetter (1978) y Bhatt et al. (2010) han demostrado que la posibilidad de que una persona
T I
Á C
compre un producto o pague por un servicio aumenta si éste ha sido adquirido también por
M N
E IE
los amigos de dicha persona. Anderson (1998), relata que los clientes con experiencias muy
T C
positivas o muy negativas son más propensos a expresar sus opiniones y reacciones respecto
A E
M D
a lo que adquirieron.
Y A
C
Frente a estos comportamientos de los consumidores, en el mundo surgen nuevas estrategias

E
T
de marketing, siendo una de ellas la del marketing viral, que consiste básicamente en hacer
O
LI
“viral”, es decir, popular, un producto o servicio para conseguir que un gran número de
IB
personas lo conozcan. Eso hace que más personas se identifiquen y adquieran el producto o
B
servicio que se les está ofreciendo.
Para viralizar un producto, las compañı́as establecen relaciones con los llamados Influen-
cers, usuarios que poseen un alto grado de influencia o persuasión sobre los demás, para que
sean ellos quienes ofrezcan los productos o servicios y ası́ llegar de manera más rápida y
directa a un número alto de potenciales consumidores a través de las redes sociales. En este
sentido, los Influencers se dotan de dicha capacidad de persuasión y ejercen la misma a través
del uso de las redes sociales.
Facebook, Twitter, Instagram, LinkedIn, entre otras, son algunas de las redes sociales más
populares actualmente, la segunda, particularmente, cuenta con más de 330 millones de usua-
S
A
rios activos cada mes, lo cual hace posible su uso para realizar campañas de marketing viral.
IC
S
A pesar de las diversas técnicas que existen para la detección de Influencers (Ghosh et al.,
S FÍ
2012; Weng et al., 2010), es muy escasa la presencia de métodos bien detallados que permitan
A S
IC A
dicha detección con respecto a diversos tópicos, lo cual origina que las compañı́as opten por
T I
Á C
otras alternativas para identificar a estos usuarios. Dichas alternativas generalmente se basan
M N
E IE
en criterios triviales para el proceso de detección de Influencers, usando comúnmente algunas

T C
métricas establecidas por las redes sociales, como el número de seguidores, de publicaciones
A E
M D
o de usuarios seguidos. Algunos de estos criterios no son tan relevantes, por lo que tienden a
Y A
ser descartados (Kitsak et al., 2010; Romero et al., 2011).

C
E
T
Existen algunas herramientas online a las que recurren las compañı́as, tales como Follo-
O
LI
werwonk, Kloud, Kred, BuzzSumo, TweetReach, las cuales poseen criterios de detección de
IB
Influencers restringidos y privados, por lo cual se desconoce si realmente los resultados de

B
dichos servicios son confiables o no, además, el uso de estas herramientas generalmente tie-
ne un costo monetario alto. Todo esto ocasiona que las compañı́as tengan que realizar una
considerable inversión económica para viralizar sus productos, limitando ası́, la capacidad de
viralización que podrı́an conseguir eligiendo un Influencer ideal, para el producto o servicio
que están ofreciendo y para sus consumidores objetivo.
1.1. Justificación de la investigación
En la actualidad, las redes sociales son uno de los medios más importantes en los cuales
las compañı́as invierten para campañas de marketing viral, principalmente por la cantidad de
usuarios que poseen y la manera constante en que éstos interactúan, lo cual permite llegar
S
a las personas de manera masiva, agresiva y rápida. Entre los usuarios que son parte de las
A
redes sociales destacan los llamados Influencers, aquellos que debido a su popularidad poseen
IC
S
un alto grado de influencia o persuasión sobre los demás, lo cual los convierte, junto con los
S FÍ
posibles clientes, en actores principales de las campañas de marketing viral, pues son ellos
A S
IC A
quienes facilitarán la difusión y modificarán el comportamiento adquisitivo de sus seguidores.
T I
Á C
Con lo descrito, las razones que motivan el desarrollo de la presente Tesis son las siguientes:
M N
E IE
Para una compañı́a, detectar al Influencer ideal para realizar sus campañas de marketing
T C
es muy importante, pues significará una mayor posibilidad de alcanzar los objetivos que
A E
M D
ésta haya trazado.

Y A
C
Las compañı́as suelen invertir en los Influencers recomendados por entes o personas ex-
E
T
ternas, sin embargo, dichas recomendaciones se basan generalmente en la popularidad

O
LI
del “Influencer”, lo cual no necesariamente garantiza una explotación adecuada de la

IB
capacidad de viralización que podrı́a conseguir una compañı́a con los Influencers idea-
B
les. Es necesario contar con un conjunto de métricas de influencia más confiable, que
comprenda más que solo la popularidad de un usuario en redes sociales.
Los servicios online existentes para el cálculo de un score (puntuación) de influencia para
un usuario en redes sociales, además de ser costosos, actúan como una caja negra para sus
clientes, pues no detallan bajo qué criterios está siendo evaluado cada usuario de la red
social. Hace falta un método no solo menos costoso, sino también más transparente, para
que los interesados en detectar Influencers puedan conseguir los usuarios más adecuados.
Realizar la detección de Influencers usando un conjunto de criterios además de la “po-
pularidad” de un usuario, implica analizar grandes cantidades de datos que desde un
primer momento no se poseen. Dado que no es un proceso trivial o fácil de realizar, es
S
A
necesario conocer de qué maneras es posible hacer una recolección de estos datos.
IC
Aunque existe literatura sobre qué métricas considerar para determinar el grado de in-
S
S FÍ
fluencia de un usuario en una red social, destaca la ausencia de un marco de trabajo que
A S
permita desarrollar dicho proceso desde un punto muy básico.
IC A
T I
Á C
M N
E IE
1.2. Formulación del problema

T C
A E
Ante lo expuesto, en esta investigación se pretende proponer y aplicar una metodologı́a

M D
para la detección de usuarios Influencers para de esta manera responder a la pregunta:

Y A
C
E
¿Cómo detectar usuarios Influencers en Twitter?

T
O
LI
1.3. Hipótesis
IB
B
La propuesta de una metodologı́a basada en Minerı́a de Datos y su aplicación permitirá
detectar usuarios Influencers en Twitter.
1.4. Objetivos
1.4.1. General
Proponer y aplicar una metodologı́a basada en Minerı́a de Datos para la detección de
Influencers en Twitter.
S
A
1.4.2. Especı́ficos
IC
S
a) Recopilar los criterios de detección de Influencers propuestos por investigaciones reali-
S FÍ
zadas anteriormente.
A S
IC A
T I
b) Desarrollar un modelo algorı́tmico basado en los criterios recopilados para rankear a los
Á C
M N
usuarios en base a su grado de influencia.

E IE
T C
c) Definir un conjunto de pasos para obtener datos de Twitter.

A E
M D
d) Describir cómo usar el modelo algorı́tmico propuesto sobre dichos datos, considerando
Y A
su preprocesamiento.
C
E
T
e) Proponer una metodologı́a que comprenda los procesos descritos anteriormente.

O
LI
f) Aplicar la metodologı́a propuesta en un caso de estudio determinado.

IB
B
1.5. Estructura de la Tesis
La presente Tesis propone una metodologı́a para detectar Influencers en Twitter. En el
Capı́tulo 1 se describen aspectos generales del trabajo como la realidad problemática, hipóte-
sis, objetivos y métodos de investigación. En el Capı́tulo 2 se hace una recopilación bibliográfi-
ca de teorı́a y trabajos relacionados y se analizan algunas métricas de influencia estudiadas
por otros investigadores, además se describe el método utilizado en la presente investigación.
En el Capı́tulo 3 se propone y describe la Metodologı́a para la Detección de Influencers en
Twitter, sus fases y subfases, y los algoritmos que deben ser usados en la misma. En el Capı́tu-
lo 4 se plantea un caso de estudio relacionado con el caso Lava Jato (Odebrecht) en Perú, y
S
se obtienen, a través de la metodologı́a propuesta, un ranking de influencia de los usuarios
A
IC
que se expresan en dicha red social en relación a ese caso. Además, se analizan en términos
S
de su complejidad algorı́tmica, los algoritmos que son parte de la metodologı́a propuesta.
S FÍ
En el Capı́tulo 5 se describen las conclusiones y se proponen algunos trabajos futuros que
A S
IC A
pueden surgir a partir de la presente investigación. Finalmente son presentadas las referencias
T I
Á C
M N
bibliográficas que fueron usadas para poder elaborar la presente tesis.

E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
Capı́tulo 2
S
Materiales y Métodos
A
IC
S
S FÍ
2.1. Marco Teórico
A S
2.1.1. Redes Sociales
IC A
T I
Á C
M N
Boyd & Ellison (2007) definen a las redes sociales como servicios web que permiten a los
E IE
usuarios construir un perfil público o semi-público, establecer un conjunto de enlaces con otros
T C
A E
usuarios, ası́ como ver y recorrer las conexiones propias y las de los demás dentro del propio
M D
servicio web.
Y A
C
Estas caracterı́sticas que describen los autores se han mantenido hasta la actualidad, con
E
T
ligeras modificaciones de acuerdo a la red social de la cual se trate.

O
LI
La Figura 2.1.1 presenta un diagrama de barras que representa visualmente las redes
IB
sociales más usadas actualmente, entre las cuales se encuentra la red social Twitter, sobre la
B
cual se centra la presente investigación.
2.1.1.1. Twitter
Twitter es una red social que hasta enero de 2019 cuenta con alrededor de 326 millones
de usuarios activos diariamente (Salinas, 2018), con un promedio de 500 millones de tweets
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Figura 2.1: Redes sociales más usadas en octubre de 2018

Fuente: https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users
Y A
C
E
publicados diariamente (Internet Live Stats, 2019).

T
O
En Twitter, las relaciones entre usuarios son del tipo seguidor y seguido, ésto permite que
LI
IB
existan relaciones unidireccionales. Cada usuario posee un perfil que puede ser público o no,
B
lo cual garantiza que el acceso a la información y publicaciones de dicho usuario, pueda ser
restringido para ser visto por sus seguidores únicamente. Las publicaciones que un usuario
en Twitter realiza son llamados tweets, estas publicaciones pueden ser compartidas por otros
usuarios a través de la acción llamada retweet.
Esta red social permite que las personas expresen sus emociones y pensamientos sobre
eventos diversos, tal es el caso de las marcas o productos a los que ellos acceden o adquieren.
Sin embargo, las publicaciones que se realizan en este medio están limitadas a un tamaño
máximo de 280 caracteres, lo cual fuerza a que los usuarios expongan sus ideas de la manera
más sucinta posible, permitiendo que cada publicación tenga un significado en sı́ misma sin
necesariamente estar ligada a otras para tener sentido.
S
A
Todas estas caracterı́sticas hacen que Twitter sea un medio sobre el cual puedan ser rea-
IC
lizados diversos análisis con el fin de encontrar información que, con métodos triviales, no
S
S FÍ
podrı́a ser percibida.
A S
IC A
2.1.2. Marketing Viral
T I
Á C
M N
“El marketing viral describe cualquier estrategia que aliente a las personas a transmitir
E IE
T C
un mensaje de marketing a otros, creando el potencial de crecimiento exponencial en la ex-

A E
posición e influencia del mensaje.”(Wilson, 2000). Bajo esta definición, se puede afirmar que
M D
el marketing viral funciona como un virus que se transmite de persona en persona con un
Y A
C
crecimiento rápido y agresivo.

E
T
O
Con la aparición y auge de las redes sociales, el marketing viral ha ido poniéndose en prácti-
LI
ca de manera más recurrente por las diversas compañı́as en Internet. Esta forma de marketing
IB
B
ha encontrado en la tecnologı́a un medio muy viable de conseguir resultados fructı́feros, como
las campañas de marketing viral realizadas en el 2018: Amazon con su comercial “Alexa loses
her Voice”, en referencia a su producto el asistente digital Alexa o el anuncio de la marca
Doritos en el Super Bowl que tenı́a como protagonistas a los actores Peter Dinklage y Morgan
Freeman, campañas que, aunque no fueron orientadas a un público como el peruano, consi-
guieron llegar hasta nuestro mercado y aumentar la exposición a los productos, demostrando
la eficacia de las mismas.
Una versión más moderna del marketing viral, es el ahora llamado Marketing de Influen-
cers, dicha forma de marketing recurre a los llamados “Influencers” para que sean ellos los
agentes a través de los cuales el “virus” se expanda de manera más extensa.
S
A
IC
2.1.2.1. Influencia social e Influencers
S
S FÍ
“La influencia social es el efecto que las personas tienen sobre las creencias o conductas de
A S
los demás.”(Aronson, 2004)
IC A
T I
Á C
Kelman (1958) define tres variedades de influencia social: conformidad, identificación e
M N
E IE
internalización. La primera se refiere a fingir estar de acuerdo con otras personas pero en
T C
realidad ocultar las opiniones que son distintas, la segunda se refiere a las personas que
A E
son influenciadas por alguien que es querido y respetado, como las celebridades famosas, y
M D
Y A
la tercera tiene que ver con las personas que aceptan creencias o comportamientos y están
C
E
totalmente de acuerdo con los demás. Es, precisamente, la segunda variedad de influencia
T
O
social, la identificación, aquella que es explotada por las campañas de marketing viral a
LI
través de los Influencers.

IB
B
“Los Influencers de las redes sociales, representan un nuevo tipo de patrocinador indepen-
diente que define las actitudes de la audiencia a través de blogs, tweets y el uso de otras redes
sociales.”(Freberg et al., 2011).
En base a esto, se concluye que los Influencers son aquellos que, haciendo uso de la in-
fluencia social que poseen, ejecutan las campañas de marketing viral en redes sociales.
10
2.1.3. Minerı́a de Datos
“Minerı́a de Datos es el proceso para descubrir patrones interesantes y conocimiento de
grandes cantidades de datos”(Han et al., 2011).
La minerı́a de datos es un área de investigación que consiste en el desarrollo y aplicación
S
de modelos computacionales que permiten la detección de patrones en grandes conjuntos
A
IC
de datos. Esta área es parte de un proceso mayor de descubrimiento de conocimiento en
S
conjuntos de datos, el cual comprende las siguientes etapas fundamentales (Silwattananusarn
S FÍ
& Tuamsuk, 2012):
A S
IC A
T I
Selección: obtener los datos relevantes al análisis
Á C
M N
Preprocesamiento: remover ruidos e inconsistencias de los datos, además de combinar

E IE
T C
las múltiples fuentes de datos

A E
M D
Transformación: convertir los datos en la manera apropiada para realizar la minerı́a

Y A
de datos.
C
E
Minerı́a de datos: escoger o desarrollar un algoritmo que permita determinar y extraer

T
O
patrones de los datos.

LI
IB
Interpretación y evaluación: convertir los patrones en conocimiento, removiendo

B
aquellos que son redundantes o irrelevantes. Transformándolos en términos entendibles
por los seres humanos.
La minerı́a de datos es aplicada sobre diversas áreas, dentro de las cuales se encuentran
las redes sociales. Esta aplicación se realiza con el fin de analizar los datos que éstas possen.
11
2.1.3.1. Análisis de redes sociales
El análisis de redes sociales busca determinar patrones de interacción y comportamiento
de sus usuarios, a fin de tomar decisiones estratégicas.
Garcı́a-Saiz et al. (2014), describen:
S
“El análisis de redes sociales (SNA), el cual se centra en descubrir el patrón de
A
IC
interacción de las personas, ha sido una área de gran impacto en los últimos años
S
S FÍ
como consecuencia de la aparición de servicios de redes sociales, como Facebook
A S
o Twitter. Sin embargo, las técnicas de SNA no solo se concentran en las redes
IC A
sociales, sino que también se centran en otros campos, como el marketing (redes de
T I
Á C
M N
clientes y proveedores) o la seguridad pública”

E IE
T C
Una de las aplicaciones principales del Análisis de Redes Sociales, está orientada a la
A E
M D
detección de usuarios Influencers, la cual será descrita en la subsección siguiente.

Y A
C
E
2.1.4. Detección de Usuarios Influencers

T
O
La Detección de Influencers consiste en determinar qué usuarios poseen un alto grado de

LI
importancia o influencia en contextos determinados sobre el resto de usuarios de una misma

IB
B
red social. Estos contextos pueden ser temas de interés de los usuarios o la región geográfica
en que se ubican.
Aunque una solución rápida y empı́rica al problema de la detección de usuarios Influencers,
es asumir que un Influencer es aquel usuario que posee un mayor número de seguidores,
estudios como los de Mehta et al. (2012), Pal & Counts (2011), Razis & Anagnostopoulos
12
(2014) y Bigonha et al. (2010), han demostrado que dicha afirmación no es del todo correcta,
pues existen otros factores que también deben ser tomados en cuenta para determinar el grado
de influencia de un usuario.
Debido a que cada red social posee sus propias caracterı́sticas, mecánicas y objetivos, la
detección de Influencers debe ajustarse a donde vaya a ser aplicada, lo cual significa que
S
A
existen diversas métricas de influencia para cada una.
IC
S
2.1.4.1. Métricas de Influencia en Twitter
S FÍ
A S
Existen varios criterios y métricas para determinar la influencia de un usuario en Twit-
IC A
ter. Mei et al. (2015), describen las siguientes caracterı́sticas candidatas a ser métricas de
T I
Á C
M N
influencia:
E IE
T C
Proporción acciones-tweets (AT ratio)

A E
M D
La proporción que existe entre el número acciones que recibe un usuario frente al número
Y A
de tweets que escribe. Las acciones incluyen retweets y menciones que pueda recibir dicho
C
E
usuario. Esta caracterı́stica permite identificar qué usuarios generan más acciones con una
T
O
menor cantidad de tweets publicados.

LI
IB
Edad de la cuenta en Twitter

B
El número de meses desde que la cuenta fue creada. Esta métrica existe bajo la suposi-
ción de que un usuario que posee más tiempo con una cuenta creada en Twitter, tiene más
posibilidades de tener un mayor grado de influencia.
13
Proporción seguidores-amigos (FF ratio)
La proporción que existen entre el número de seguidores y el número de amigos (usuarios
seguidos) que posee el usuario. “Si el FF ratio se aproxima a 1, es más probable que el usuario
también siga a sus seguidores. Si el FF ratio se aproxima a 0 se puede considerar que dicho
usuario es un spammer o un bot.”(Mei et al., 2015)
S
A
IC
Nuevos seguidores
S
La cantidad de seguidores nuevos que posee un usuario dentro de un periodo de tiempo
S FÍ
A S
determinado. Este indicador permite identificar si dicho usuario está ganando o perdiendo
seguidores.
IC A
T I
Á C
M N
Nuevas menciones
E IE
T C
El número de menciones o respuestas que el usuario ha recibido dentro de un periodo de

A E
M D
tiempo. Se atribuye al número de menciones la capacidad de determinar el grado de ‘valor’

Y A
del usuario en la red social.

C
E
T
Nuevos retweets
O
LI
El número de retweets que el usuario recibe dentro de un periodo de tiempo. Se cree que
IB
un retweet indica que otro usuario ha sido influenciado, ya sea positiva o negativamente, por
B
quien realizó el tweet original.
Nuevos tweets
El número de tweets publicados por el usuario durante un periodo de tiempo. Se presume
que, si un usuario deja de publicar de manera constante, su influencia está en caı́da.
14
Número de seguidores
El número total de seguidores que el usuario posee. Mientras mayor sea el número de
seguidores mayor es la posibilidad de que éste sea más influyente.
Número de listas públicas
S
Las listas de Twitter permiten que un usuario agrupe a otras cuentas de la red social
A
IC
según criterios de su interés, por ejemplo, una lista de tecnologı́a que cuenta con usuarios que
S
generalmente realizan tweets sobre tecnologı́a.
S FÍ
A S
Esta métrica se refiere al Número de listas públicas de Twitter, de las cuales el usuario es
IC A
T I
Á C
parte. Ser parte de las listas de otros, indica que el usuario es conocido y que la gente muestra
M N
E IE
interés en él.
T C
Número de tweets
A E
M D
El total de tweets publicados por el usuario.

Y A
C
E
Verificado
T
O
La verificación es usada por Twitter para detectar la autenticidad de personas y marcas. En

LI
IB
términos generales, una cuenta verificada necesariamente pertenece a un usuario influyente.

B
Todas estas caracterı́sticas candidatas que se describen en Mei et al. (2015), fueron pues-
tas a prueba en su investigación, tomando un conjunto de usuarios de Twitter, los autores
recopilaron los datos referidos a las métricas candidatas y empezaron realizando un análisis
de correlación (Pearson Correlation Analysis) entre las distintas métricas para determinar
15
aquellas que poseen una alta dependencia mutua, resultando los ‘Nuevos retweets’, las ‘Nue-
vas menciones’ y la ‘Proporción acciones-tweets’, las variables más altamente correlacionadas.
Estas caracterı́sticas, exceptuando la ‘Proporción acciones-tweets’, quedaron descartadas del
análisis siguiente que realizan los autores, el cual fue un análisis de Entropı́a, donde calcularon
el peso de la entropı́a de cada métrica, según su investigación, una métrica que posea una
S
alta entropı́a a comparación de las demás, contribuye con mayor información para el conjunto
A
IC
de datos. Se detectó que la ‘Proporción acciones-tweets’ otorga casi el 30 % de la información
S
para el conjunto de datos, mientras que la ‘Edad de la cuenta en Twitter’ es la que tiene una
S FÍ
menor contribución de información con un 1.2 % y las demás métricas contribuyen todas por
A S
IC A
igual. Finalmente, los autores, tomaron cuatro servicios online para la detección de Influencers
T I
Á C
M N
(Kloud, Kred, PeerIndex y FollowerWonk) y analizaron a los usuarios escogidos inicialmente

E IE
usando dichos servicios, luego realizaron un Análisis de Correlación de Rango (Spearman’s

T C
Rank Correlation Analysis RCA) para descubrir cuáles de las métricas propuestas son más
A E
M D
importantes para conseguir los resultados que se obtienen usando dichos servicios. La Tabla
Y A
C
2.1 muestra el resultado de todo este proceso, donde se listan las tres métricas más impor-
E
tantes para cada servicio de puntuación de influencia, ordenadas en base a la relevancia que
T
O
poseen sobre los resultados.

LI
IB
Tabla 2.1: Las 3 métricas más usadas por cada uno de los servicios de puntuación de influencia
B
Kloud Kred PeerIndex FollowerWonk

#1 Nuevas menciones Nuevas menciones Número de listas Nuevos retweets
públicas
#2 Número de listas Nuevos retweets Nuevas menciones Nuevas menciones
públicas
#3 AT Ratio Número de listas Número de seguidores Número de listas
públicas públicas
Fuente: Adaptado de Mei et al. (2015), tabla VIII.
16
2.1.5. Técnicas de Recopilación de Datos
La recopilación de los datos es uno de los pasos fundamentales a la hora de realizar un
proceso de minerı́a de datos, su importancia corresponde al hecho de que, en un proceso de
este calibre, el objeto principal de análisis es el conjunto de datos, dicho conjunto deberá ser
obtenido a través de algunas técnicas.
S
A
IC
2.1.5.1. Integración de datos basada en API’s
S
Algunos sitios web en internet, proveen de servicios a los desarrolladores, para que éstos
S FÍ
A S
puedan hacer un seguimiento o análisis sobre los datos que fluyen por dichos sitios. Estos
IC A
servicios son presentados a través de una API (Application Programming Interface), la cual
T I
Á C
M N
permite que los sitios web compartan sus datos con los usuarios en general. La principal
E IE
ventaja de esta técnica es el hecho de que al ser servicios desarrollados con fines especı́ficos,
T C
la velocidad es bastante óptima. Sin embargo, existe una desventaja muy considerable, las
A E
M D
decisiones acerca de qué datos serán compartidos y el número de solicitudes al servicio que un
Y A
C
usuario puede hacer, quedan estrictamente definidas por los sitios web, ocasionando que los
E
T
análisis posibles de los datos sean limitados en cuanto a los aspectos que se podrı́an abordar
O
o la cantidad de datos que se podrı́a involucrar.

LI
IB
2.1.5.2. Web Scraping

B
En teorı́a, Web Scraping es la práctica de obtener datos a través de cualquier medio
que no sea un programa interactuando con una API (a través de un humano usando
un navegador web). Ésto es más comunmente conseguido escribiendo un programa
que consulte a un servidor web, solicite datos (usualmente en forma de HTML y otros
17
archivos que están relacionados con páginas web) y luego analice gramaticalmente
esos datos para extraer la información que se necesita. (Mitchell, 2015, p. vii)
La ventaja fundamental del Web Scraping reside en el hecho de que es posible obtener
todos los datos que existan en los archivos fuente de las páginas web, de esta forma no hay
S
una limitación en la cantidad de información que puede ser obtenida (siempre y cuando sea
A
IC
parte de dichos archivos) y tampoco existe un lı́mite de consultas que pueden ser realizadas.
S
Sin embargo, este proceso puede ser lento, la información que se busca recoger puede estar
S FÍ
inmersa entre los archivos, por lo que debe ser buscada, a diferencia de una API donde la
A S
IC A
información es entregada directamente por un servidor del sitio web sin tener que realizar una
T I
Á C
búsqueda.
M N
E IE
T C
A E
M D
2.2. Método de la investigación

Y A
C
Para cumplir con los objetivos propuestos, la investigación se desarrolló en base a las
E
siguientes etapas:
T
O
LI
a) Recopilación de artı́culos y estudios realizados sobre detección de usuarios Influencers en

IB
redes sociales, especı́ficamente en Twitter.

B
b) Análisis de los algoritmos propuestos en los artı́culos recopilados.
c) Formulación del problema principal de la investigación, justificando su importancia.
d) Diseño de la metodologı́a considerando todas las etapas de la misma.
e) Elección de un caso de análisis de datos de redes sociales en Twitter con el propósito de
18
realizar la detección de usuarios Influencers.
2.2.1. Diseño de la Investigación
El diseño de la presente investigación está basado en el enfoque cuantitativo.
Diseño de un solo grupo con una sola medición.
S
A
X→O
IC
S
Donde:
S FÍ
X: Aplicación de la metodologı́a basada en Minerı́a de Datos
A S
IC A
T I
O: Detección de usuarios Influencers en Twitter.
Á C
M N
E IE
2.2.2. Universo
T C
Usuarios de redes sociales.

A E
M D
Y A
2.2.3. Población
C
E
Usuarios de la red social Twitter.

T
O
LI
2.2.4. Muestra
IB
Usando muestreo no probabilı́stico consecutivo, fueron seleccionados los perfiles, tweets y

B
estadı́sticas básicas de los mismos, de aquellos usuarios de Twitter que estaban localizados en
Perú y que habı́an realizado algún tipo de interacción en la red social, en la cual se expresaban
sobre el caso Lava Jato (Odebrecht) entre los meses de enero hasta marzo de 2019.
19
Capı́tulo 3
S
Metolodogı́a para la Detección de
A
IC
S
Influencers en Twitter
S FÍ
A S
IC A
T I
La presente metodologı́a, basada en las etapas del proceso de Minerı́a de Datos, involucra
Á C
M N
una serie de pasos y procedimientos repetibles, con el objetivo de detectar Influencers en

E IE
T C
Twitter.
A E
M D
3.1. Exploración de candidatos a Influencers

Y A
C
E
La fase inicial de esta metodologı́a está orientada a obtener un conjunto de usuarios sobre
T
O
los cuales pueda ser calculado su grado de influencia. Este procedimiento resulta fundamental
LI
para los análisis de detección de Influencers en el contexto de que no se posea un conocimiento

IB
previo de usuarios candidatos sobre los cuales se desee calcular esta caracterı́stica. No obstante,
B
existen casos en que el encargado de realizar la detección cuente con un listado de aquellos
usuarios candidatos sobre los cuales se desee realizar el análisis, en dichos casos, esta fase
puede ser omitida.
Esta metodologı́a involucra una búsqueda previa a la detección de Influencers, basada en
20
el hecho de que muchas veces no se posee un conjunto de usuarios candidatos a ser Influen-
cers, por lo que inicialmente se debe realizar una exploración de los mismos. Para lo cual es
importante considerar ciertos aspectos de manera temprana a fin de que sean tomados en
cuenta en los pasos siguientes. Previo a la definición de estos criterios, es necesario destacar
que existen dos métodos fundamentales para obtener datos de Twitter, las API s (de Twitter
S
o terceros) y el Web Scraping (a través de librerı́as de terceros), cada uno con sus ventajas
A
IC
y desventajas. Al realizar esta fase, es crucial conocer a través de qué método se realizará
S
la obtención de datos, para definir apropiadamente el alcance de la búsqueda de usuarios
S FÍ
candidatos a Influencers.
A S
IC A
T I
Á C
Debido al hecho de que realizar esta búsqueda no es un proceso trivial, esta fase cuenta
M N
con las siguientes etapas:

E IE
T C
3.1.1. Definición del alcance de la búsqueda

A E
M D
Se deben definir ciertos criterios que servirán para realizar la búsqueda de usuarios can-
Y A
C
didatos a Influencers, el objetivo al definir estos criterios es conseguir la mayor cantidad de

E
T
tweets posibles para, luego de realizados ciertos procesos de selección de datos, determinar
O
LI
los posibles usuarios Influencers a ser analizados. Los criterios que deberán ser definidos son:
IB
Idioma, Fecha del tweet más antiguo, Fecha del tweet más reciente, Tópico de búsqueda, Zona
B
Geográfica y la forma en que será determinada la Zona Geográfica.
Idioma
El idioma del tweet, puede ser solo un idioma o un conjunto de idiomas.
21
Fecha del tweet más reciente
La fecha que debe tener el tweet más reciente, idealmente deberı́a ser al menos un dı́a antes
de la fecha en que se realizará la extracción de tweets, para garantizar la recolección de todos
los tweets realizados hasta la fecha especificada.
Fecha del tweet más antiguo
S
A
IC
Este criterio se refiere a la fecha más antigua sobre la cual debe realizar la recopilación
S
de los tweets, se recomienda que sea por lo menos tres meses antes de la fecha del tweet más
S FÍ
reciente.
A S
IC A
Tópico de búsqueda
T I
Á C
M N
Este criterio hace referencia al tópico en común sobre el cual deberán estarse refiriendo
E IE
T C
los tweets, de esta forma se orienta la búsqueda hacia usuarios que realicen tweets sobre
A E
temas en común que sean de interés de la compañı́a o el interesado en realizar la detección

M D
de Influencers. Este criterio puede ser omitido en los casos en que no se desee realizar una
Y A
C
búsqueda basada en tópicos, sino simplemente en una Zona Geográfica, no obstante, esta
E
T
metodologı́a plantea la posibilidad de usar ambos criterios juntos: Tópico de búsqueda y

O
LI
Zona Geográfica.
IB
Zona Geográfica
B
La Zona Geográfica sobre la cual se desea obtener Influencers, puede ser un paı́s, una
ciudad, etc. Es importante tener en cuenta que, mientras más grande sea la Zona Geográfica
de búsqueda, la recopilación de tweets resultará más costosa en términos de tiempo y recursos.
22
Forma de determinar la Zona Geográfica
La forma de determinar la Zona Geográfica es un criterio fundamental que debe ser decidido
lo más antes posible para poder tener una mejor idea del número de usuarios candidatos al
que se puede llegar. Esta metodologı́a plantea dos métodos posibles, el primero es usar la
posición GPS de la Zona Geográfica a cubrir y el segundo es realizar una búsqueda textual
S
A
de la Zona Geográfica en los tweets de los usuarios candidatos.
IC
S
El uso de la posición GPS, aunque puede ser considerado el método más fiable para realizar
S FÍ
la búsqueda de usuarios candidatos a Influencers, no siempre lleva a grandes resultados,
A S
IC A
pues, para poder alcanzar los tweets de usuarios basados dicha posición, éstos deben haberle
T I
Á C
permitido a Twitter que obtenga las coordenadas automáticamente usando sus dipositivos,
M N
E IE
dicho permiso es pocas veces otorgado y conlleva a depender del mismo, lo cual pueden incurrir
T C
en una pérdida de gran cantidad de datos.

A E
M D
Por otra parte, se puede incluir dentro del tópico de búsqueda definido, el nombre de
Y A
C
la Zona Geográfica sobre la cual se desea obtener los tweets, sin embargo, esto hace que la
E
T
recopilación de tweets sea un proceso más tedioso. No obstante, es más probable que un usuario
O
LI
que se encuentra en una Zona Geográfica determinada tuitee en alguna de sus publicaciones
IB
el nombre de dicha zona.

B
Una vez determinados todos estos criterios claramente, es posible continuar con la siguiente
etapa.
23
3.1.2. Recopilación de tweets
Considerando los criterios definidos anteriormente, se debe realizar una búsqueda de tweets
a través de la técnica de recopilación de datos que se haya escogido (API o Web Scraping).
En el caso de usar una API, ya sea usando la API de Twitter o alguna de terceros, los
S
criterios que se definieron en el paso anterior deberán ser considerados como parámetros de
A
IC
la consulta que será realizada:
S
Idioma
S FÍ
A S
Fecha de Inicio
IC A
T I
Á C
Fecha de Fin
M N
E IE
Consulta
T C
Zona Geográfica
A E
M D
Dependiendo de la API, el parámetro Consulta será construido en base al tópico de búsqueda y

Y A
C
podrı́a contener también el nombre de la Zona Geográfica, de acuerdo a como se haya decidido
E
T
determinar la Zona Geográfica de los tweets a recopilar. Asimismo, la Zona Geográfica puede
O
ser un parámetro en caso de que sea usada la posición GPS para poder determinarla.
LI
IB
Por otro lado, en el caso del Web Scraping, se deberá considerar como parámetro el Idioma
B
de los tweets, las fechas de inicio y de fin de la búsqueda, la Zona Geográfica en caso se
desee usar una consulta basada en la posición GPS y necesariamente también deberá pasarse
el parámetro Consulta, el cual deberá ser construido en base a los tópicos de búsqueda,
pudiendo agregarse opcionalmente, la Zona Geográfica como parte de la consulta, si es que
ası́ se decidió como forma de búsqueda.
24
Los tweets recopilados serán almacenados en archivos de fácil procesamiento, como JSON
o CSV.
3.1.3. Filtrado de Tweets
Muchos de los tweets recopilados en la etapa anterior, deberán ser descartados, pues
S
podrı́an estar incumpliendo con los criterios de búsqueda. En este paso se realiza un filtrado
A
IC
usando un algoritmo para analizar los tweets y también un descarte manual, para eliminar
S
los tweets que semánticamente no cumplan con los criterios de interés de quien realiza la
S FÍ
metodologı́a.
A S
Filtrado
IC A
T I
Á C
M N
El primer filtrado que se debe realizar al conjunto de tweets involucra definir un parámetro
E IE
llamado número mı́nimo de interacciones, que está relacionado al número mı́nimo de retweets,
T C
A E
respuestas y ”me gusta”, todos sumados, que deberı́a tener un tweet. El valor de dicho paráme-
M D
tro, funcionará como un threshold, todos los tweets que cuenten con un total de interacciones
Y A
C
menor al especificado, serán descartados del conjunto de tweets. Asimismo, serán descartados
E
T
los tweets que pertenezcan a un mismo usuario, preservando solamente uno, el que tenga un
O
LI
mayor número de interacciones. Además, los tweets serán agrupados por localidad y lugar,
IB
y ordenados descendentemente en base al número de interacciones que poseen, con el fin de

B
hacer más sencillo el descarte manual posterior. Este filtrado se encuentra descrito a través
del Algoritmo 1.
Una vez realizado este filtrado, se debe proceder con el descarte manual de los tweets
restantes.
25
Algoritmo 1 Algoritmo para filtrado de tweets

procedure filtrarTweets(tweets, threshold, f echaInicio, f echaF in) // threshold es el mı́nimo
número de interacciones
for each tweet ∈ tweets do
tweet[interacciones] ← tweet[likes] + tweet[retweets] + tweet[respuestas]
interacciones ← tweet[interacciones]
f echa ← tweet[f echa]
if interacciones < threshold or f echa > f echaF in or f echa < f echaInicio then
tweets.remover(tweet)
end if
end for
tweets.removerDuplicados(columna = usuario)
S
tweets.agrupar(columnas = localidad, lugar)
A
tweets.ordenarDescendentemente(columna = interacciones)
end procedure
IC
S
3.1.4. Descarte Manual
S FÍ
A S
El conjunto de tweets post filtrado en la mayorı́a de los casos se debe haber reducido con-
IC A
T I
siderablemente, dejando solo los tweets que cumplan los criterios especificados inicialmente.
Á C
M N
Sin embargo, aún pueden existir, dentro del conjunto, tweets que semánticamente no con-
E IE
cuerden con lo que se especificó como tópico en común que debı́an poseer o también existe la
T C
A E
posibilidad de que existan tweets cuyos usuarios son empresas o negocios que buscan mejorar
M D
su presencia en Twitter, por lo que no podrı́an considerarse necesariamente como Influencers

Y A
C
en caso de obtener una puntuación de influencia alta posteriormente. Son muchos los criterios
E
T
que pueden ser tomados para descartar tweets, por tal motivo, debido a la complejidad de
O
LI
esta tarea, debe ser realizada manualmente y no a través de un programa pues requerirı́a un
IB
análisis e implementación más elaborados para poder ser llevada a cabo.

B
El descarte manual es un proceso muy valioso, a pesar de que puede ser omitido, porque
permite reducir el tiempo que será tomado para calcular la puntuación de influencia que
posean los usuarios de los tweets restantes.
26
3.1.5. Obtención de los candidatos a Influencers
Una vez acabado el descarte manual, finalmente quedarán dentro del conjunto de tweets,
aquellos que cumplan con todos los criterios que se establecieron. Los usuarios, autores de
estos tweets, son los candidatos a Influencers, en este paso se realiza una selección de los
nombres de usuario de dichos candidatos a partir de los tweets que quedaron post filtrado y
S
A
descarte, para finalmente pasar a la siguiente fase dentro de la metodologı́a.
IC
S
Para obtener el listado de usuarios candidatos, simplemente se construirá un nuevo archivo
S FÍ
(CSV o JSON), siguiendo el procedimiento descrito en el Algoritmo 2.
A S
IC A
T I
Á C
Algoritmo 2 Algoritmo para obtener los candidatos a Influencers
M N
procedure obtenerCandidatos(tweets)
candidatos = N U LL // este archivo contendrá los nombres de usuario de los candidatos
E IE
for each tweet ∈ tweets do

candidatos.agregarLinea(tweet[usuario])
T C
end for
end procedure
A E
M D
Y A
C
Una vez obtenidos los candidatos a Influencers, se puede pasar a la fase siguiente para
E
T
calcular la puntuación de influencia de cada uno de los mismos.

O
LI
IB
3.2. Cálculo de la puntuación de influencia

B
En esta fase se busca obtener una puntuación de influencia a partir de un conjunto de
usuarios candidatos a Influencers o simplemente usuarios de los cuales se desea conocer dicha
caracterı́stica.
Para realizar este cálculo, se usan una serie de datos o métricas de influencia de cada uno
27
de los usuarios, los cuales serán utilizados dentro de una fórmula para obtener la puntuación
de influencia final. Las métricas a obtener de cada usuario son las siguientes:
Nuevas menciones
Número de listas públicas
S
Nuevos retweets
A
IC
AT Ratio
S
S FÍ
Número de seguidores
A S
IC A
Es importante destacar que estas métricas son las que, según Mei et al. (2015) son consi-
T I
Á C
deradas más relevantes por los sitios más reconocidos de puntuación de influencia en Twitter,
M N
E IE
dichas métricas también se encuentran en la Tabla 2.1.

T C
3.2.1. Obtención de los valores para las métricas de influencia

A E
M D
Este procedimiento puede realizarse tanto usando alguna API o también a través de Web
Y A
C
Scraping. Algunas de las métricas como las Nuevas menciones, Nuevos retweets y AT Ratio
E
T
deben de recogerse en un lapso de tiempo especı́fico para todos los usuarios, siendo recomen-
O
LI
dado 2 meses como mı́nimo, sin embargo, ésto puede modificarse a criterio de quien realiza
IB
este proceso, aunque es importante destacar el hecho de que mientras mayor sea este lapso,
B
más certera será la métrica, a pesar de que tomará más tiempo obtenerla.
Una vez realizado este procedimiento, se procede a la parte fundamental dentro de esta
fase, la obtención de la puntuación de influencia de cada usuario.
28
3.2.2. Obtención de la puntuación de influencia
Con todos los usuarios y sus correspondientes métricas obtenidas, se debe proceder a
realizar el cálculo para determinar la puntuación de influencia de cada uno de éstos, para lo
cual se emplea una fórmula propuesta dentro de esta metodologı́a y que será presentada más
adelante. Dentro de dicha fórmula, cada una de las métricas es ponderada de acuerdo al orden
S
A
en que aparece en la tabla 2.1.
IC
S
En Mei et al. (2015), fue obtenido un grado de autoridad para cada métrica cuando es
S FÍ
aplicada en los distintos servicios de detección de Influencers, los autores ordenaron dichas
A S
IC A
métricas de acuerdo a ese grado de autoridad. Dado que la autoridad varı́a de acuerdo a cada
T I
Á C
métrica, ésta debe ser respetada a la hora de otorgar una ponderación, en ese sentido: las
M N
E IE
métricas que aparecen en la posición 1 tienen 3 puntos de ponderación, las de la posición

T C
2 tienen 2 puntos y las de la posición 3 tienen apenas 1 punto. El factor de ponderación

A E
M D
total para una métrica es la suma de todos los puntos de ponderación que le corresponden a
Y A
dicha métrica de acuerdo a las posiciones en las que se encuentra. Finalmente, los factores de
C
E
ponderación totales son los mostrados en la tabla 3.1.

T
O
LI
Tabla 3.1: Ponderación de las métricas de influencia

IB
Métrica Ponderación
B
Nuevas Menciones 10
Número de listas públicas 7
Nuevos retweets 5
AT Ratio 1
Número de seguidores 1
Fuente: Elaboración propia.
Una vez definidos dichos coeficientes, la Ecuación 3.1 permite obtener la puntuación de
29
influencia de un usuario en Twitter.
inf luencia = (A ∗ menciones + B ∗ listas + C ∗ retweets + at ratio + seguidores) (3.1)
Donde:
S
A
A es igual a 10, el coeficiente determinado para el total de menciones.
IC
S
B es igual a 7, el coeficiente determinado para las listas públicas.
S FÍ
C es igual a 5, coeficiente determinado para el número de retweets.
A S
IC A
T I
Á C
Algo opcional, pero importante en caso lo que se desee es obtener una puntuación de
M N
E IE
influencia el rango de 0 y 100, es realizar una normalización de dicha puntuación, aplicando

T C
la fórmula que se describe en la Ecuación 3.2.

A E
M D
x − min(x)
Y A
inf luencia normalizada(x) = ∗ 100 (3.2)

max(x) − min(x)
C
E
Donde:
T
O
LI
x es la puntuación de influencia sin normalizar.

IB
max(x) es la puntuación de influencia más alta dentro del conjunto de usuarios.

B
min(x) es la puntuación de influencia más baja dentro del conjunto de usuarios.
Con la Ecuación 3.2 definida, lo que corresponde es calcular la puntuación de influencia de
cada usuario basada en sus métricas y ordenar la lista de usuarios de acuerdo a esta nueva
caracterı́stica, dicho procedimiento es descrito en el Algoritmo 3.
30
Algoritmo 3 Algoritmo para calcular la puntuación de influencia de los usuarios

procedure calcularInfluencia(usuarios)
for each usuario ∈ usuarios do
A ← 10
B←7
C←5
menciones ← usuario[menciones]
listas ← usuario[listas]
retweets ← usuario[retweets]
at ratio ← usuario[at ratio]
seguidores ← usuario[seguidores]
usuario[inf luencia] ← (A ∗ menciones + B ∗ listas + C ∗ retweets + at ratio + seguidores)/1000
S
end for
A
min ← usuarios.obtenerM enor(columna = inf luencia)
max ← usuarios.obtenerM ayor(columna = inf luencia)
IC
for each usuario ∈ usuarios do
usuario[inf luencia normalizada] ← (usuario[inf luencia] − min)/(max − min) ∗ 100
S
end for
S FÍ
usuarios.ordenarDescendentemente(columna = inf luencia)
end procedure
A S
IC A
Producto de la ejecución del Algoritmo 3, se obtiene un listado de los usuarios ordenados
T I
Á C
en base a su puntuación de influencia, es decir, el ranking de usuarios. Finalmente, solo
M N
E IE
resta mostrar visualmente dicho ranking, por lo que es realizada la fase que se describe a
T C
continuación.
A E
M D
Y A
3.3. Análisis de Resultados

C
E
T
El paso culminatorio de la Metodologı́a para la Detección de Influencers en Twitter es el

O
análisis del ranking de usuarios en base a su puntuación de influencia. Para poder analizar de
LI
IB
manera adecuada la distribución de los usuarios y sus puntuaciones en el ranking, es preciso

B
utilizar una representación gráfica, en este caso, al ser datos unidimensionales, es decir, datos
que poseen una sola variable de interés (la puntuación de influencia), el gráfico ideal es el de
barras. A través de este gráfico será posible notar la diferencia que presentan las puntuaciones
de influencia de los usuarios y de ésta manera la persona que esté ejecutando la metodologı́a
podrá escoger qué usuarios desea considerar en base a la información mostrada.
31
Capı́tulo 4
S
Resultados y Discusión de la tesis
A
IC
S
S FÍ
Caso de Estudio: Lava Jato (Odebrecht) Perú
A S
IC A
El caso Lava Jato es el caso de corrupción más grande en el Perú y uno de los más grandes
T I
Á C
M N
en América Latina; en este caso se encuentran involucrados los cuatro últimos ex presidentes
E IE
peruanos, además de ex candidatos presidenciales, congresistas, entre otros funcionarios, quie-

T C
nes son sospechosos de haber recibido sobornos por parte de la empresa brasileña Odebrecht.
A E
M D
Debido a la alta popularidad que poseen los investigados, el caso Lava Jato es uno de los
Y A
C
más difundidos en redes sociales, por esta razón la metodologı́a propuesta en este trabajo de
E
T
investigación será ejecutada para obtener el ranking de los usuarios más influyentes que se
O
encontraban interactuando en Twitter en relación a dicho caso.

LI
IB
La Figura 4.1 presenta de manera visual la secuencia de pasos que plantea la metodologı́a
B
y que serán seguidos para el presente caso de estudio.
Ejecución de la Metodologı́a
El objetivo de la aplicación de la Metodologı́a para la Detección de Influencers en Twitter,
es determinar qué usuarios poseen un alto grado de influencia sobre la población, teniendo
32
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
Figura 4.1: Pipeline de la Metodologı́a para Detección de Influencers en Twitter

Fuente: Elaboración propia
E IE
T C
como referencia al caso Lava Jato en Perú. Para lo cual, fueron recolectados tweets desde el
A E
01 de enero hasta el 01 marzo del 2019.

M D
Y A
Una de las etapas para la detección de Influencers es la obtención de la lista de usuarios

C
E
candidatos, sin embargo, no siempre se cuenta con la misma, por lo que en este caso de estudio
T
O
fue realizada una exploración para encontrar a dichos usuarios.

LI
IB
Para la recolección de los tweets, fueron escogidos tanto el Web Scraping (a través de la
B
librerı́a Twint) como el uso de la API Tweepy. Para definir el alcance de la búsqueda, se
asignaron los valores a los diversos criterios como se detalla a continuación:
Idioma: Español
Fecha del tweet más reciente: 2019-03-01
33
Fecha del tweet más antiguo: 2019-01-01
Tópico de búsqueda: “Odebrecht” o “Lava Jato”
Zona Geográfica: Perú
Forma de determinar la Zona Geográfica: Incluı́da dentro del tópico de búsqueda
S
(“Perú” o “peruano” o “peruana”)
A
IC
S
A continuación se recopilaron los tweets usando la librerı́a Twint para realizar el Web
S FÍ
Scraping, con el parámetro consulta definido de la siguiente manera:
A S
IC A
Consulta: (“Odebrecht” OR “Lava Jato) AND (“Perú” OR “peruano” OR “peruana”)
T I
Á C
M N
En total, fueron recopilados 19,944 tweets de 7,121 usuarios distintos. Este conjunto de
E IE
datos fue almacenado en un archivo de extensión CSV: ‘tweets.csv’. La Figura 4.2 presenta
T C
un vistazo general de algunos de los tweets recuperados.

A E
M D
Y A
De esta manera, desde el primer paso de la metodologı́a, se contaba con una muestra:
C
E
- Muestra: 7,121 usuarios de Twitter

T
O
Sobre la cual serı́a aplicada toda la metodologı́a basada en Minerı́a de Datos, con el fin de
LI
IB
Detectar los usuarios Influencers.

B
El siguiente paso realizado fue el filtrado automático de los tweets recopilados, para lo
cual se definió un lı́mite de 200 interaccions mı́nimas para no ser descartado del conjunto.
Se definió el valor de 200 debido a que luego de ejecutar diversas pruebas con otros valores,
éste resultó ser el valor más alto que concentraba una cantidad de tweets considerable para
realizar el descarte manual. Además debido a la magnitud y popularidad del caso Lava Jato,
34
S
A
IC
S
S FÍ
Figura 4.2: Subconjunto de tweets recopilados sobre el Caso Lava Jato (Odebrecht) Perú
A S
IC A
un tweet de algún Influencer, probablemente tendrı́a un vasto número de interacciones. Una
T I
Á C
M N
vez realizado el filtrado automático y eliminados también los tweets de usuarios duplicados,
E IE
quedaron en total de 210, es decir, un 1.05 % del conjunto original.

T C
A E
Posteriormente fue realizado el descarte manual, del cual resultaron 156 tweets, es decir, el
M D
Y A
0.78 % del conjunto original. De dicho conjunto fueron obtenidos los nombres de los usuarios,
C
resultando el conjunto de usuarios candidatos, el cual puede ser visto en la Figura 4.3.
E
T
O
Con la lista de candidatos a Influencers preparada, se realizó la obtención de los valores de

LI
las métricas de influencia de cada uno. Para esto, se recopilaron todos los tweets publicados
IB
por cada candidato y también todos aquellos en que el candidato haya sido mencionado, entre
B
las fechas 01-01-2019 y 01-03-2019. A partir de dichos tweets y sus métricas correspondientes
(número de retweets, número de likes, etc.), fueron calculadas las métricas de influencia de
cada usuario de la siguiente manera:
Las Nuevas Menciones de cada usuario fueron calculadas contando el total de tweets
35
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
Figura 4.3: Conjunto de usuarios candidatos a Influencers, caso Lava Jato Perú
M N

E IE
recopilados en los que el usuario haya sido mencionado.

T C
A E
La cantidad de retweets nuevos se calculó a través de la suma de los retweets que reci-
M D
bieron todos los tweets que realizó el usuario.

Y A
C
E
El AT Ratio fue obtenido a través de la división entre: la suma de las menciones y total
T
O
de retweets que recibió el usuario, y el total de tweets que éste publicó.

LI
El número de seguidores fue obtenido directamente del perfil del usuario en Twitter.
IB
B
El número de listas públicas a las que el usuario pertenecı́a fue obtenida usando la API
Tweepy, ya que dichas listas estaban dispersas entre diversos perfiles de usuarios, una
opción más rápida era recurrir a una API intermedia que se conecte con el servicio de
Twitter directamente para obtener estos datos.
Una vez obtenidos los valores de cada una de las métricas, fue calculada la puntuación
36
de influencia simple y normalizada de cada usuario, en base a éstas, se obtuvo el ranking
de usuarios más influyentes. En la Figura 4.4, pueden ser vistos los 15 usuarios con mayor
puntuación de influencia dentro del conjunto de usuarios candidatos, además de los valores
de las métricas obtenidas para cada uno. En dicha lista se puede identificar que, a pesar de
ser solamente 15 de los 156 usuarios candidatos, la diferencia que existe entre la puntuación
S
de influencia del usuario en el primer lugar y el del número 15 es considerable, lo cual puede
A
IC
indicar que la cantidad de usuarios con puntuación de influencia muy alta dentro de dicho
S
conjunto, es bastante pequeña.
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
Figura 4.4: 15 usuarios con mayor puntuación de influencia

T

O
LI
Finalmente, fue realizado el gráfico de barras de la Figura 4.5, donde se muestra el ranking
IB
B
de los usuarios candidatos a Influencers en base a su puntuación de influencia. En dicho
gráfico, los usuarios fueron agrupados a través del color de cada barra, en base a la posición
que poseı́an dentro de la lista ordenada de candidatos, el primer grupo contiene a los usuarios
entre los 10 primeros lugares, el segundo a aquellos que se encuentran entre el puesto 11 y 50
del conjunto y el tercer y cuarto grupo, a aquellos usuarios entre los puestos 51 al 100 y 101
37
al 156 respectivamente.
Se puede notar en la Figura 4.5 que los dos usuarios más influyentes poseen una gran
diferencia sobre los demás, también es posible identificar la estrepitosa caı́da de la puntuación
de influencia a partir del usuario número 5. Una caracterı́stica en común que poseı́an los dos
usuarios con mayor puntuación de influencia (canaln y rmapalacios), es que ambos estaban
S
A
relacionados al periodismo. canaln es el usuario en Twitter del medio televisivo peruano
IC
“Canal N”, el cual está orientado exclusivamente a la transmisión de noticias. Asimismo,
S
S FÍ
rmapalacios es el nombre de usuario de la periodista Rosa Marı́a Palacios, muy conocida en
A S
medios peruanos gracias al programa que ella conduce y que se emite por internet llamado
IC A
T I
Á C
“Sin Guión”, donde diariamente comenta durante diez minutos, las noticias más destacadas
M N
de la actualidad polı́tica del paı́s. Es importante destacar que rmapalacios, a pesar de ser una
E IE
T C
persona y no una compañı́a, cuenta con una puntación de influencia muy alta y muy cercana
A E
a la de canaln , lo cual tiene que ver con la alta interacción que mantiene esta periodista
M D
Y A
con sus seguidores en Twitter. Distinto es el caso de canaln , que, al tratarse de la cuenta
C
de un medio televisivo en Twitter, no interactúa con sus seguidores, sin embargo, sı́ realiza
E
T
publicaciones de manera constante, las cuales son usualmente retweeteadas y mencionadas por
O
LI
los mismos, lo cual permite que dicho usuario posea una puntuación de influencia tan alta.
IB
B
38
S Figura 4.5: Distribución de los usuarios candidatos en base a su puntuación de influencia

A
IC
S
S FÍ
A S
IC A
T I
Á C

M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
39
4.1. Resultados Teóricos
La metodologı́a propuesta permite detectar Influencers en Twitter a través del uso de
un diverso número de métricas. Esta manera de detectar Influencers permite demostrar de
manera fáctica, por qué un usuario de Twitter es considerado Influencer. No sucede lo mismo
S
con las encuestas o las recomendaciones voz a voz que son comúnmente publicadas en Internet,
A
ya que éstas presentan dos grandes sesgos: la dificultad que existe por parte de las personas
IC
S
para realizar un análisis objetivo, ignorando la afinidad que presentan respecto a los usuarios
S FÍ
de Twitter, además del desconocimiento que existe sobre la diferencia entre “popularidad” e
A S
IC A
“influencia”de un usuario en una red social.
T I
Á C
M N
La metodologı́a propuesta parte de un punto muy básico, para poder ser ejecutada solo
E IE
basta con conocer el tema sobre el cual se desea detectar a los usuarios más influyentes. Esto
T C
A E
permite que nuevas propuestas para la detección de Influencers puedan ser acopladas a la
M D
metodologı́a de manera sencilla.

Y A
C
E
La recolección de datos de Twitter es la tarea que más tiempo demanda durante la ejecución
T
O
de la metodologı́a propuesta. Escoger una manera de abordar este problema, ya sea con
LI
técnicas como Web Scraping o usando APIs, es muy importante, pues determinará el tiempo
IB
que éste tomará.

B
El paso de descarte manual es un proceso que requiere de un entendimiento semántico
de cada tweet pues consiste en analizar una cantidad considerable de los mismos, por lo que
termina siendo una tarea laboriosa. Debido a la importancia que tiene en la recopilación de
usuarios candidatos a Influencers y a la cantidad de variables o parámetros que son tomados
40
en cuenta por un humano a la hora de realizar este descarte, este paso, a diferencia de los
demás, no puede ser fácilmente automatizado.
Comparar la puntuación de influencia que es calculada a través de la metodologı́a propues-
ta, con las puntuaciones de influencia que presentan los servicios actuales que existen con el fin
de calificar la influencia de usuarios en Twitter, no determina la eficacia o invalidez de dicha
S
A
puntuación. Cada servicio hace uso de diversas métricas que, a su criterio, son consideradas
IC
válidas para calcular de manera correcta dicha puntuación. Con la diferencia de que, en la
S
S FÍ
presente tesis, se están describiendo las métricas bajo las cuales dicha puntuación está siendo
A S
determinada.
IC A
T I
Á C
M N
4.2. Resultados Computacionales

E IE
T C
La metodologı́a propuesta en esta investigación, presenta tres algoritmos que son usados
A E
M D
para obtener los resultados deseados, a continuación serán expuestas las complejidades de los
Y A
mismos:
C
E
T
El Algoritmo 1 calcula el total de interacciones de cada tweet, remueve tweets de usuarios

O
LI
duplicados, filtra aquellos que tienen un valor de interacción menor al especificado y los ordena
IB
descendentemente en base al total de interacciones que recibieron. Dicho algoritmo posee una
B
complejidad O(n log n), donde n es el total de tweets analizados.
El Algoritmo 2, que obtiene el nombre de cada usuario candidato, posee una complejidad
O(n), donde n es el total de tweets que quedaron post filtrado y descarte manual.
Por último, el Algoritmo 3, que calcula la puntuación de influencia de cada usuario y
41
los ordena en base a dicha puntuación, tiene complejidad O(n log n), donde n es el total de
usuarios candidatos.
También es importante destacar que se requieren algoritmos personalizados para realizar
el Web Scraping o el uso de la API para la recolección de tweets y menciones para el cálculo
de las métricas de influencia de cada usuario candidato. Dichos algoritmos, generalmente
S
A
requieren de bastante tiempo de ejecución, no tanto por su complejidad algorı́tmica, sino más
IC
bien por la constante comunicación que debe mantener con servidores de páginas web que se
S
S FÍ
encuentran en lugares remotos y que muchas veces pueden denegar las peticiones debido a
A S
una alta saturación.
IC A
T I
Á C
Con todo lo descrito anteriormente, es posible afirmar que la metodologı́a es computacio-
M N
E IE
nalmente simple, aunque puede tardar considerablemente durante su ejecución debido a la

T C
fase de recolección de tweets y menciones.

A E
M D
Y A
C
E
T
O
LI
IB
B
42
Capı́tulo 5
S
Consideraciones Finales
A
IC
S
S FÍ
5.1. Conclusiones
A S
IC A
En este trabajo de investigación se presentó una metodologı́a para detectar usuarios In-
T I
Á C
M N
fluencers en la red social Twitter. Las conclusiones en base a los objetivos propuestos son:
E IE
T C
1. Fue propuesta la Metodologı́a para la Detección de usuarios Influencers en Twitter,

A E
siguiendo 3 fases fundamentales: Exploración de candidatos a Influencers, Cálculo de

M D
Puntuación de Influencia y Análisis de Resultados.

Y A
C
E
2. Se recopilaron diversos criterios para la detección de Influencers en Twitter, siendo fi-

T
O
nalmente considerados dentro de la metodologı́a, los siguientes: “Nuevas menciones”,

LI
“Número de listas públicas”, “Nuevos retweets”, “Proporción Acciones-Tweets (AT Ra-

IB
tio)” y “Número de seguidores”.

B
3. Se desarrolló un modelo algorı́tmico basado en las métricas escogidas, para obtener una
puntuación de influencia para cada usuario. De esta manera, los usuarios candidatos
fueron ordenados en base a dicha puntuación para determinar quiénes eran los usuarios
más influyentes dentro del conjunto.
43
4. Se propusieron dos formas de obtener datos de Twitter: el Web Scraping y el uso de
API s. Dentro de la metodologı́a propuesta, se recomendó decidir cuál de las formas
usar, de manera temprana durante la ejecución de la misma, pues resulta fundamental
a la hora de recopilar la información adecuada.
5. El modelo algorı́tmico propuesto fue sintetizado en el “Algoritmo para calcular la puntua-
S
A
ción de influencia de los usuarios”. Ası́mismo, se propusieron el “Algoritmo para filtrado
IC
de tweets” y el “Descarte Manual”, como pasos para realizar un preprocesamiento de los
S
S FÍ
datos obtenidos de Twitter.
A S
6. La metodologı́a propuesta fue aplicada al caso de estudio Lava Jato (Odebrecht) Perú,
IC A
T I
Á C
obteniendo como resultado un ranking de usuarios en base a su puntuación de influencia
M N
para dicho caso.

E IE
T C
5.2. Trabajos Futuros

A E
M D
Si bien la metodologı́a en la presente investigación, responde efectivamente a la hipótesis

Y A
C
y objetivos planteados, durante el desarrollo de la presente tesis, se presentaron algunas ideas

E
T
que podrı́an complementar este trabajo, tales como:

O
LI
Diseñar un algoritmo capaz entender de manera semántica cada tweet, para que a través
IB
de un conjunto de parámetros realice el Descarte de tweets de manera automatizada.

B
Proponer metodologı́as equivalentes a la presentada, capaces de detectar Influencers en
otras redes sociales populares, como Facebook o Instagram.
Desarrollar un software que permita medir la influencia de los usuarios en redes sociales
respecto a diversos temas, usando la metodologı́a propuesta.
44
Referencias bibliográficas
S
A
Anderson, E. W. (1998). Customer satisfaction and word of mouth. Journal of Service Research, 1(1):5–17.
IC
Aronson, E. (2004). The Social Animal. McGraw-Hill/Irwin, New York, 9 edition.
S
Bhatt, R., Chaoji, V., & Parekh, R. (2010). Predicting product adoption in large-scale social networks. CIKM
S FÍ
’10 Proceedings of the 19th ACM international conference on Information and knowledge management,
83(6):1039–1048.
A S
IC A
Bigonha, C., Cardoso, T., Moro, M., Almeida, V., & Gonçalves, M. (2010). Detecting evangelists and detractors
T I
on twitter. 18th Brazilian symposium on multimedia and the web, pages 107–114.
Á C
M N
Boyd, D. M. & Ellison, N. B. (2007). Social network sites: Definition, history, and scholarship. Journal of
E IE
Computer-Mediated Communication, 13(1):210––230.

T C
Freberg, K., Graham, K., McGaughey, K., & Freberg, L. A. (2011). Who are the social media influencers? a
study of public perceptions of personality. Fuel and Energy Abstracts, 37(1):90–92.

A E
M D
Garcı́a-Saiz, D., Palazuelos, C., & Zorrilla, M. (2014). Data mining and social network analysis in the edu-
cational field: An application for non-expert users. Educational Data Mining: Applications and Trends,
Y A
C
524:411–439.
E
Ghosh, S., Sharma, N., Sharma, N., Ganguly, N., & Ganguly, N. (2012). Cognos: crowdsourcing search for
T
topic experts in microblogs. SIGIR ’12 Proceedings of the 35th international ACM SIGIR conference
O
on Research and development in information retrieval, pages 575–590.

LI
Granovetter, M. (1978). Threshold models of collective behavior. American Journal of Sociology, 83(6):1420.
IB
Han, J., Kamber, M., & Professor, J. P. (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann,
B
San Francisco [u.a.].
Internet Live Stats (2019). Twitter usage statistics. (accedido 09.04.2019).
Kelman, H. C. (1958). Compliance, identification, and internalization three processes of attitude change.
Journal of Conflict Resolution, 2(1):51–60.
Kitsak, M., Gallos, L. K., Havlin, S., Liljeros, F., Muchnik, L., Stanley, H. E., & Makse, H. A. (2010). Influence
and passivity in social media. Nature Physics, 6(11):888–893.
Mehta, R., Mehta, D., Chheda, D., Shah, C., & Chawan, P. M. (2012). Sentiment analysis and influence
45
tracking using twitter. International Journal of Advanced Research in Computer Science and Electronics
Engineering, 1(2):72–79.
Mei, Y., Zhong, Y., & Yang, J. (2015). Finding and analyzing principal features for measuring user influence
on twitter. 2015 IEEE First International Conference on Big Data Computing Service and Applications,
pages 478–486.
Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O’Reilly Media Inc.
Pal, A. & Counts, S. (2011). Identifying topical authorities in microblogs. In Proceedings of the Fourth ACM
S
International Conference on Web Search and Data Mining, volume 1 of WSDM ’11, pages 45–54, New
A
York, NY, USA. ACM.
IC
Razis, G. & Anagnostopoulos, I. (2014). Influencetracker: Rating the impact of a twitter account. IFIP
S
Advances in Information and Communication Technology, 437:184–195.
S FÍ
Romero, D. M., Galuba, W., Asur, S., & Huberman, B. A. (2011). Identification of influential spreaders in
complex networks. WWW ’11 Proceedings of the 20th international conference companion on World
A S
IC A
wide web, pages 113–114.
T I
Salinas, S. (2018). Social media active users around the world. (accedido 17.11.2018).
Á C
M N
Silwattananusarn, T. & Tuamsuk, K. (2012). Data mining and its applications for knowledge management: A
E IE
literature review from 2007 to 2012. International Journal of Data Mining and Knowledge Management
T C
Process (IJDKP), 2(5):13–24.
Weng, J., Lim, E.-P., Jiang, J., & He, Q. (2010). Twitterrank: finding topic-sensitive influential twitterers.
A E
M D
WSDM ’10 Proceedings of the third ACM international conference on Web search and data mining,
3(6):261–270.
Y A
C
Wilson, R. F. (2000). The six simple principles of viral marketing. Web Marketing Today, 70(1):232.
E
T
O
LI
IB
B
46
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

CORDOVA SÁENZ, Carlos Abel PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

CORDOVA SÁENZ, Carlos Abel PDF

Cargado por

Copyright:

Formatos disponibles

Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

UNIVERSIDAD NACIONAL DE TRUJILLO

Facultad de Ciencias Fı́sicas y Matemáticas

Escuela Profesional de Informática

detección de usuarios Influencers en Twitter

PARA OBTENER EL TÍTULO PROFESIONAL DE INGENIERO

AUTOR: Córdova Sáenz Carlos Abel

ASESOR: Mg. Peralta Luján José Luis

Dedico esta tesis a:

Mis padres Tatiana y Carlos, y a mi hermano Enrique, por siempre haberme

apoyado y confiado en mı́, brindándome todo el soporte que necesité para

desarrollarme como persona y profesionalmente.

Agradezco a mi familia por acompañarme, entenderme y apoyarme siempre que lo he

que pasé en la universidad fue mucho más provechoso y entretenido.

Agradezco profundamente a todas las personas que de cualquier manera me ayudaron a

siempre que lo necesité.

la definición de los tópicos de búsqueda de usuarios candidatos a Influencers, permitiendo que

Palabras clave: Minerı́a de Datos, Big Data, Influencers, Redes Sociales.

january to march 2019.

Palabras clave: Data Mining, Big Data, Influencers, Social Networks.

2.1 Redes sociales más usadas en octubre de 2018 . . . . . . . . . . . . . . . . . . . 8

1.1 Justificación de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.5 Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1 Marco Teórico . . . . . . . . .

2.1.1 Redes Sociales . . . . . . .

2.1.2 Marketing Viral . . . . . .

2.1.2.1 Influencia social e Influencers . .

2.2.1 Diseño de la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Metolodogı́a para la Detección de Influencers en Twitter 20

4.1 Resultados Teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2 Resultados Computacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.2 Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Frente a estos comportamientos de los consumidores, en el mundo surgen nuevas estrategias

servicio que se les está ofreciendo.

del uso de las redes sociales.

en criterios triviales para el proceso de detección de Influencers, usando comúnmente algunas

ser descartados (Kitsak et al., 2010; Romero et al., 2011).

Influencers restringidos y privados, por lo cual se desconoce si realmente los resultados de

que están ofreciendo y para sus consumidores objetivo.

1.1. Justificación de la investigación

ésta haya trazado.

ternas, sin embargo, dichas recomendaciones se basan generalmente en la popularidad

del “Influencer”, lo cual no necesariamente garantiza una explotación adecuada de la

comprenda más que solo la popularidad de un usuario en redes sociales.

Realizar la detección de Influencers usando un conjunto de criterios además de la “po-

pularidad” de un usuario, implica analizar grandes cantidades de datos que desde un

primer momento no se poseen. Dado que no es un proceso trivial o fácil de realizar, es

1.2. Formulación del problema

Ante lo expuesto, en esta investigación se pretende proponer y aplicar una metodologı́a

para la detección de usuarios Influencers para de esta manera responder a la pregunta:

¿Cómo detectar usuarios Influencers en Twitter?

La propuesta de una metodologı́a basada en Minerı́a de Datos y su aplicación permitirá

detectar usuarios Influencers en Twitter.

Proponer y aplicar una metodologı́a basada en Minerı́a de Datos para la detección de

usuarios en base a su grado de influencia.

c) Definir un conjunto de pasos para obtener datos de Twitter.

e) Proponer una metodologı́a que comprenda los procesos descritos anteriormente.

f) Aplicar la metodologı́a propuesta en un caso de estudio determinado.

1.5. Estructura de la Tesis

La presente Tesis propone una metodologı́a para detectar Influencers en Twitter. En el

sis, objetivos y métodos de investigación. En el Capı́tulo 2 se hace una recopilación bibliográfi-

ca de teorı́a y trabajos relacionados y se analizan algunas métricas de influencia estudiadas