Está en la página 1de 58

Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

UNIVERSIDAD NACIONAL DE TRUJILLO

Facultad de Ciencias Fı́sicas y Matemáticas

Escuela Profesional de Informática

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
Metodologı́a basada en Minerı́a de Datos para la
M N

detección de usuarios Influencers en Twitter


E IE
T C

TESIS
A E
M D

PARA OBTENER EL TÍTULO PROFESIONAL DE INGENIERO


INFORMÁTICO
Y A
C
E
T
O

AUTOR: Córdova Sáenz Carlos Abel


LI
IB

ASESOR: Mg. Peralta Luján José Luis


B

TRUJILLO - PERÚ

2019

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Dedico esta tesis a:

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE

Mis padres Tatiana y Carlos, y a mi hermano Enrique, por siempre haberme


T C

apoyado y confiado en mı́, brindándome todo el soporte que necesité para


A E

desarrollarme como persona y profesionalmente.


M D
Y A
C
E
T
O
LI
IB
B

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Agradecimientos

Agradezco a Dios y a la vida por permitirme conocer, compartir y aprender con tantas
diversas personas a lo largo de los años.

Agradezco a mi familia por acompañarme, entenderme y apoyarme siempre que lo he

S
necesitado, por ser mi soporte frente a cualquier adversidad.

A
IC
S
Agradezco a mis profesores del programa de estudios de Informática, en especial a mi asesor

S FÍ
para la presente tesis, el profesor José Peralta Luján, por haberme mostrado lo increı́ble que es

A S
esta disciplina y haberme inculcado conocimientos muy útiles para mi desarrollo profesional.

IC A
T I
Á C
Agradezco a mis amigos Arnold, Joseph, Rolando y Manuel, porque gracias a ellos el tiempo
M N

que pasé en la universidad fue mucho más provechoso y entretenido.


E IE
T C
A E

Agradezco profundamente a todas las personas que de cualquier manera me ayudaron a


M D

concluir este trabajo de investigación, de manera particular a mi abuelo Jorge Sáenz, por
Y A

guiarme en los primeros pasos para el desarrollo de esta tesis y a mi amigo Germain Garcı́a, a
C

quien considero mi orientador a distancia, por haberme ayudado a aclarar todo tipo de dudas
E
T

siempre que lo necesité.


O
LI
IB
B

ii

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

iii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

RESUMEN

El marketing viral es una de las técnicas más usadas por las empresas para incrementar su
alcance y mejorar sus ganancias. Esta técnica se realiza a través de los usuarios Influencers,
personas que debido a su capacidad de persuasión muy alta sobre sus seguidores, se encargan
de viralizar lo que se desea promocionar. No obstante, conocer qué Influencers son los ideales
para cada público objetivo no es un proceso trivial, pues el determinar a dichos usuarios está

S
sometido a un conjunto de criterios más alla de la simple popularidad de los mismos. Una

A
forma a la cuales recurren las organizaciones actualmente, es el uso de servicios online de

IC
detección de Influencers, sin embargo, dichos servicios tienen un costo elevado y se presentan
poco transparentes a los usuarios, quienes desconocen los criterios bajo los cuales éstos están

S
S FÍ
siendo determinados. En esta tesis se propone una Metodologı́a para la Detección de usua-
rios Influencers en Twitter, la cual sigue el proceso fundamental de Minerı́a de Datos, hace

A S
uso de diversas técnicas de recolección de datos (Web Scraping, API s) y utiliza un conjunto

IC A
de métricas de influencia para obtener una puntuación de influencia para cada usuario, que
T I
Á C
permita conseguir un ranking de los usuarios más influyentes para un público objetivo deter-
M N

minado. La metodologı́a que se propone, comprende un punto de partida muy básico, como es
E IE

la definición de los tópicos de búsqueda de usuarios candidatos a Influencers, permitiendo que


cualquier persona interesada pueda hacer uso de la misma, incluso acoplando nuevos criterios
T C

sobre los cuales obtener la puntuación de influencia. La metodologı́a fue ejecutada sobre el
A E

caso de estudio: Lava Jato (Odebrecht) Perú, obteniendo el ranking de Influencers basado en
M D

los datos recolectados entre los meses de enero hasta marzo de 2019.
Y A
C

Palabras clave: Minerı́a de Datos, Big Data, Influencers, Redes Sociales.


E
T
O
LI
IB
B

iv

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

ABSTRACT

Viral marketing is one of the techniques most used by companies to increase their reach
and improve their profits. This technique is carried out through the Influencers, people who
because of their ability to persuade very high on their followers, are in charge of viralizing
what they want to promote. However, knowing which Influencers are the ideals for each
target audience is not a trivial process, since determining those users is subject to a set of

S
criteria beyond the simple popularity of them. One way that organizations currently use is the

A
suscription to online Influencers detection services, however, these services have a high cost

IC
and are not very transparent to users, who do not know the criteria under which they are being
determined. This thesis proposes a Methodology for the Detection of Influencers on Twitter,

S
S FÍ
which follows the fundamental process of Data Mining, makes use of diverse techniques of
data collection (Web Scraping, APIs) and uses a set of influence metrics to obtain a score

A S
of influence for each user, which allows achieving a ranking of the most influential users for

IC A
a specific target audience. The proposed methodology includes a very basic starting point,
T I
Á C
such as the definition of the search topics of candidate users for being Influencers, allowing
M N

any interested person to make use of it, even coupling new criteria on which to obtain the
E IE

influence score. The methodology was executed on the case study: Lava Jato (Odebrecht)
Peru, obtaining the ranking of Influencers based on the data collected between the months of
T C

january to march 2019.


A E
M D

Palabras clave: Data Mining, Big Data, Influencers, Social Networks.


Y A
C
E
T
O
LI
IB
B

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Índice de Figuras

2.1 Redes sociales más usadas en octubre de 2018 . . . . . . . . . . . . . . . . . . . 8

S
4.1 Pipeline de la Metodologı́a para Detección de Influencers en Twitter . . . . . . 33

A
4.2 Subconjunto de tweets recopilados sobre el Caso Lava Jato (Odebrecht) Perú . . 35

IC
4.3 Conjunto de usuarios candidatos a Influencers, caso Lava Jato Perú . . . . . . . 36

S
4.4 15 usuarios con mayor puntuación de influencia . . . . . . . . . . . . . . . . . . 37

S FÍ
4.5 Distribución de los usuarios candidatos en base a su puntuación de influencia . 39

A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

vi

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Índice de tablas

2.1 Las 3 métricas más usadas por cada uno de los servicios de puntuación de influencia 16

S
3.1 Ponderación de las métricas de influencia . . . . . . . . . . . . . . . . . . . . . . 29

A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

vii

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Índice general

Dedicatoria I

S
A
Agradecimientos II

IC
Resumen IV

S
S FÍ
Abstract V

A S
Índice de Figuras VI

Índice de tablas
IC A
T I VII
Á C
M N

1 Introducción 1
E IE

1.1 Justificación de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3


1.2 Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
T C

1.3 Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
A E

1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
M D

1.4.1 General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Y A

1.4.2 Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
C

1.5 Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5


E

2 Materiales y Métodos 7
T
O

2.1 Marco Teórico . . . . . . . . .


. .
. . . . . . . . . . . . . . . . . . . . . . . . . 7
LI

2.1.1 Redes Sociales . . . . . . .


. .
. . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1.1 Twitter . . . . . .
. .
. . . . . . . . . . . . . . . . . . . . . . . . . 7
IB

2.1.2 Marketing Viral . . . . . .


. .
. . . . . . . . . . . . . . . . . . . . . . . . . 9
B

2.1.2.1 Influencia social e Influencers . .


. . . . . . . . . . . . . . . . . . . . 10
2.1.3 Minerı́a de Datos . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 11
2.1.3.1 Análisis de redes sociales . . . . .
. . . . . . . . . . . . . . . . . . . . 12
2.1.4 Detección de Usuarios Influencers . . . . .
. . . . . . . . . . . . . . . . . . . . 12
2.1.4.1 Métricas de Influencia en Twitter .. . . . . . . . . . . . . . . . . . . . 13
2.1.5 Técnicas de Recopilación de Datos . . . . .
. . . . . . . . . . . . . . . . . . . . 17
2.1.5.1 Integración de datos basada en API’s . . . . . . . . . . . . . . . . . . . 17
2.1.5.2 Web Scraping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Método de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

viii

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

2.2.1 Diseño de la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19


2.2.2 Universo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Población 19
2.2.4 Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Metolodogı́a para la Detección de Influencers en Twitter 20


3.1 Exploración de candidatos a Influencers . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Definición del alcance de la búsqueda . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 Recopilación de tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

S
3.1.3 Filtrado de Tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

A
3.1.4 Descarte Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

IC
3.1.5 Obtención de los candidatos a Influencers . . . . . . . . . . . . . . . . . . . . . 27

S
3.2 Cálculo de la puntuación de influencia . . . . . . . . . . . . . . . . . . . . . . . 27

S FÍ
3.2.1 Obtención de los valores para las métricas de influencia . . . . . . . . . . . . . . . 28
3.2.2 Obtención de la puntuación de influencia . . . . . . . . . . . . . . . . . . . . . . 29

A S
3.3 Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

IC A
T I
Á C
4 Resultados y Discusión de la tesis 32
M N

4.1 Resultados Teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40


E IE

4.2 Resultados Computacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41


T C

5 Consideraciones Finales 43
5.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A E
M D

5.2 Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44


Y A

Referencias bibliográficas 45
C
E
T
O
LI
IB
B

ix

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Capı́tulo 1

S
Introducción

A
IC
S
S FÍ
Las tendencias de marketing han ido evolucionando con el tiempo, estudios como los de

A S
IC A
Granovetter (1978) y Bhatt et al. (2010) han demostrado que la posibilidad de que una persona
T I
Á C
compre un producto o pague por un servicio aumenta si éste ha sido adquirido también por
M N
E IE

los amigos de dicha persona. Anderson (1998), relata que los clientes con experiencias muy
T C

positivas o muy negativas son más propensos a expresar sus opiniones y reacciones respecto
A E
M D

a lo que adquirieron.
Y A
C

Frente a estos comportamientos de los consumidores, en el mundo surgen nuevas estrategias


E
T

de marketing, siendo una de ellas la del marketing viral, que consiste básicamente en hacer
O
LI

“viral”, es decir, popular, un producto o servicio para conseguir que un gran número de
IB

personas lo conozcan. Eso hace que más personas se identifiquen y adquieran el producto o
B

servicio que se les está ofreciendo.

Para viralizar un producto, las compañı́as establecen relaciones con los llamados Influen-

cers, usuarios que poseen un alto grado de influencia o persuasión sobre los demás, para que

sean ellos quienes ofrezcan los productos o servicios y ası́ llegar de manera más rápida y

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

directa a un número alto de potenciales consumidores a través de las redes sociales. En este

sentido, los Influencers se dotan de dicha capacidad de persuasión y ejercen la misma a través

del uso de las redes sociales.

Facebook, Twitter, Instagram, LinkedIn, entre otras, son algunas de las redes sociales más

populares actualmente, la segunda, particularmente, cuenta con más de 330 millones de usua-

S
A
rios activos cada mes, lo cual hace posible su uso para realizar campañas de marketing viral.

IC
S
A pesar de las diversas técnicas que existen para la detección de Influencers (Ghosh et al.,

S FÍ
2012; Weng et al., 2010), es muy escasa la presencia de métodos bien detallados que permitan

A S
IC A
dicha detección con respecto a diversos tópicos, lo cual origina que las compañı́as opten por
T I
Á C
otras alternativas para identificar a estos usuarios. Dichas alternativas generalmente se basan
M N
E IE

en criterios triviales para el proceso de detección de Influencers, usando comúnmente algunas


T C

métricas establecidas por las redes sociales, como el número de seguidores, de publicaciones
A E
M D

o de usuarios seguidos. Algunos de estos criterios no son tan relevantes, por lo que tienden a
Y A

ser descartados (Kitsak et al., 2010; Romero et al., 2011).


C
E
T

Existen algunas herramientas online a las que recurren las compañı́as, tales como Follo-
O
LI

werwonk, Kloud, Kred, BuzzSumo, TweetReach, las cuales poseen criterios de detección de
IB

Influencers restringidos y privados, por lo cual se desconoce si realmente los resultados de


B

dichos servicios son confiables o no, además, el uso de estas herramientas generalmente tie-

ne un costo monetario alto. Todo esto ocasiona que las compañı́as tengan que realizar una

considerable inversión económica para viralizar sus productos, limitando ası́, la capacidad de

viralización que podrı́an conseguir eligiendo un Influencer ideal, para el producto o servicio

que están ofreciendo y para sus consumidores objetivo.

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

1.1. Justificación de la investigación

En la actualidad, las redes sociales son uno de los medios más importantes en los cuales

las compañı́as invierten para campañas de marketing viral, principalmente por la cantidad de

usuarios que poseen y la manera constante en que éstos interactúan, lo cual permite llegar

S
a las personas de manera masiva, agresiva y rápida. Entre los usuarios que son parte de las

A
redes sociales destacan los llamados Influencers, aquellos que debido a su popularidad poseen

IC
S
un alto grado de influencia o persuasión sobre los demás, lo cual los convierte, junto con los

S FÍ
posibles clientes, en actores principales de las campañas de marketing viral, pues son ellos

A S
IC A
quienes facilitarán la difusión y modificarán el comportamiento adquisitivo de sus seguidores.
T I
Á C
Con lo descrito, las razones que motivan el desarrollo de la presente Tesis son las siguientes:
M N
E IE

Para una compañı́a, detectar al Influencer ideal para realizar sus campañas de marketing
T C

es muy importante, pues significará una mayor posibilidad de alcanzar los objetivos que
A E
M D

ésta haya trazado.


Y A
C

Las compañı́as suelen invertir en los Influencers recomendados por entes o personas ex-
E
T

ternas, sin embargo, dichas recomendaciones se basan generalmente en la popularidad


O
LI

del “Influencer”, lo cual no necesariamente garantiza una explotación adecuada de la


IB

capacidad de viralización que podrı́a conseguir una compañı́a con los Influencers idea-
B

les. Es necesario contar con un conjunto de métricas de influencia más confiable, que

comprenda más que solo la popularidad de un usuario en redes sociales.

Los servicios online existentes para el cálculo de un score (puntuación) de influencia para

un usuario en redes sociales, además de ser costosos, actúan como una caja negra para sus

clientes, pues no detallan bajo qué criterios está siendo evaluado cada usuario de la red

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

social. Hace falta un método no solo menos costoso, sino también más transparente, para

que los interesados en detectar Influencers puedan conseguir los usuarios más adecuados.

Realizar la detección de Influencers usando un conjunto de criterios además de la “po-

pularidad” de un usuario, implica analizar grandes cantidades de datos que desde un

primer momento no se poseen. Dado que no es un proceso trivial o fácil de realizar, es

S
A
necesario conocer de qué maneras es posible hacer una recolección de estos datos.

IC
Aunque existe literatura sobre qué métricas considerar para determinar el grado de in-

S
S FÍ
fluencia de un usuario en una red social, destaca la ausencia de un marco de trabajo que

A S
permita desarrollar dicho proceso desde un punto muy básico.

IC A
T I
Á C
M N
E IE

1.2. Formulación del problema


T C
A E

Ante lo expuesto, en esta investigación se pretende proponer y aplicar una metodologı́a


M D

para la detección de usuarios Influencers para de esta manera responder a la pregunta:


Y A
C
E

¿Cómo detectar usuarios Influencers en Twitter?


T
O
LI

1.3. Hipótesis
IB
B

La propuesta de una metodologı́a basada en Minerı́a de Datos y su aplicación permitirá

detectar usuarios Influencers en Twitter.

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

1.4. Objetivos

1.4.1. General

Proponer y aplicar una metodologı́a basada en Minerı́a de Datos para la detección de

Influencers en Twitter.

S
A
1.4.2. Especı́ficos

IC
S
a) Recopilar los criterios de detección de Influencers propuestos por investigaciones reali-

S FÍ
zadas anteriormente.

A S
IC A
T I
b) Desarrollar un modelo algorı́tmico basado en los criterios recopilados para rankear a los
Á C
M N

usuarios en base a su grado de influencia.


E IE
T C

c) Definir un conjunto de pasos para obtener datos de Twitter.


A E
M D

d) Describir cómo usar el modelo algorı́tmico propuesto sobre dichos datos, considerando
Y A

su preprocesamiento.
C
E
T

e) Proponer una metodologı́a que comprenda los procesos descritos anteriormente.


O
LI

f) Aplicar la metodologı́a propuesta en un caso de estudio determinado.


IB
B

1.5. Estructura de la Tesis

La presente Tesis propone una metodologı́a para detectar Influencers en Twitter. En el

Capı́tulo 1 se describen aspectos generales del trabajo como la realidad problemática, hipóte-

sis, objetivos y métodos de investigación. En el Capı́tulo 2 se hace una recopilación bibliográfi-

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

ca de teorı́a y trabajos relacionados y se analizan algunas métricas de influencia estudiadas

por otros investigadores, además se describe el método utilizado en la presente investigación.

En el Capı́tulo 3 se propone y describe la Metodologı́a para la Detección de Influencers en

Twitter, sus fases y subfases, y los algoritmos que deben ser usados en la misma. En el Capı́tu-

lo 4 se plantea un caso de estudio relacionado con el caso Lava Jato (Odebrecht) en Perú, y

S
se obtienen, a través de la metodologı́a propuesta, un ranking de influencia de los usuarios

A
IC
que se expresan en dicha red social en relación a ese caso. Además, se analizan en términos

S
de su complejidad algorı́tmica, los algoritmos que son parte de la metodologı́a propuesta.

S FÍ
En el Capı́tulo 5 se describen las conclusiones y se proponen algunos trabajos futuros que

A S
IC A
pueden surgir a partir de la presente investigación. Finalmente son presentadas las referencias
T I
Á C
M N

bibliográficas que fueron usadas para poder elaborar la presente tesis.


E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Capı́tulo 2

S
Materiales y Métodos

A
IC
S
S FÍ
2.1. Marco Teórico

A S
2.1.1. Redes Sociales
IC A
T I
Á C
M N

Boyd & Ellison (2007) definen a las redes sociales como servicios web que permiten a los
E IE

usuarios construir un perfil público o semi-público, establecer un conjunto de enlaces con otros
T C
A E

usuarios, ası́ como ver y recorrer las conexiones propias y las de los demás dentro del propio
M D

servicio web.
Y A
C

Estas caracterı́sticas que describen los autores se han mantenido hasta la actualidad, con
E
T

ligeras modificaciones de acuerdo a la red social de la cual se trate.


O
LI

La Figura 2.1.1 presenta un diagrama de barras que representa visualmente las redes
IB

sociales más usadas actualmente, entre las cuales se encuentra la red social Twitter, sobre la
B

cual se centra la presente investigación.

2.1.1.1. Twitter

Twitter es una red social que hasta enero de 2019 cuenta con alrededor de 326 millones

de usuarios activos diariamente (Salinas, 2018), con un promedio de 500 millones de tweets

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D

Figura 2.1: Redes sociales más usadas en octubre de 2018


Fuente: https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users
Y A
C
E

publicados diariamente (Internet Live Stats, 2019).


T
O

En Twitter, las relaciones entre usuarios son del tipo seguidor y seguido, ésto permite que
LI
IB

existan relaciones unidireccionales. Cada usuario posee un perfil que puede ser público o no,
B

lo cual garantiza que el acceso a la información y publicaciones de dicho usuario, pueda ser

restringido para ser visto por sus seguidores únicamente. Las publicaciones que un usuario

en Twitter realiza son llamados tweets, estas publicaciones pueden ser compartidas por otros

usuarios a través de la acción llamada retweet.

Esta red social permite que las personas expresen sus emociones y pensamientos sobre

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

eventos diversos, tal es el caso de las marcas o productos a los que ellos acceden o adquieren.

Sin embargo, las publicaciones que se realizan en este medio están limitadas a un tamaño

máximo de 280 caracteres, lo cual fuerza a que los usuarios expongan sus ideas de la manera

más sucinta posible, permitiendo que cada publicación tenga un significado en sı́ misma sin

necesariamente estar ligada a otras para tener sentido.

S
A
Todas estas caracterı́sticas hacen que Twitter sea un medio sobre el cual puedan ser rea-

IC
lizados diversos análisis con el fin de encontrar información que, con métodos triviales, no

S
S FÍ
podrı́a ser percibida.

A S
IC A
2.1.2. Marketing Viral
T I
Á C
M N

“El marketing viral describe cualquier estrategia que aliente a las personas a transmitir
E IE
T C

un mensaje de marketing a otros, creando el potencial de crecimiento exponencial en la ex-


A E

posición e influencia del mensaje.”(Wilson, 2000). Bajo esta definición, se puede afirmar que
M D

el marketing viral funciona como un virus que se transmite de persona en persona con un
Y A
C

crecimiento rápido y agresivo.


E
T
O

Con la aparición y auge de las redes sociales, el marketing viral ha ido poniéndose en prácti-
LI

ca de manera más recurrente por las diversas compañı́as en Internet. Esta forma de marketing
IB
B

ha encontrado en la tecnologı́a un medio muy viable de conseguir resultados fructı́feros, como

las campañas de marketing viral realizadas en el 2018: Amazon con su comercial “Alexa loses

her Voice”, en referencia a su producto el asistente digital Alexa o el anuncio de la marca

Doritos en el Super Bowl que tenı́a como protagonistas a los actores Peter Dinklage y Morgan

Freeman, campañas que, aunque no fueron orientadas a un público como el peruano, consi-

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

guieron llegar hasta nuestro mercado y aumentar la exposición a los productos, demostrando

la eficacia de las mismas.

Una versión más moderna del marketing viral, es el ahora llamado Marketing de Influen-

cers, dicha forma de marketing recurre a los llamados “Influencers” para que sean ellos los

agentes a través de los cuales el “virus” se expanda de manera más extensa.

S
A
IC
2.1.2.1. Influencia social e Influencers

S
S FÍ
“La influencia social es el efecto que las personas tienen sobre las creencias o conductas de

A S
los demás.”(Aronson, 2004)

IC A
T I
Á C
Kelman (1958) define tres variedades de influencia social: conformidad, identificación e
M N
E IE

internalización. La primera se refiere a fingir estar de acuerdo con otras personas pero en
T C

realidad ocultar las opiniones que son distintas, la segunda se refiere a las personas que
A E

son influenciadas por alguien que es querido y respetado, como las celebridades famosas, y
M D
Y A

la tercera tiene que ver con las personas que aceptan creencias o comportamientos y están
C
E

totalmente de acuerdo con los demás. Es, precisamente, la segunda variedad de influencia
T
O

social, la identificación, aquella que es explotada por las campañas de marketing viral a
LI

través de los Influencers.


IB
B

“Los Influencers de las redes sociales, representan un nuevo tipo de patrocinador indepen-

diente que define las actitudes de la audiencia a través de blogs, tweets y el uso de otras redes

sociales.”(Freberg et al., 2011).

En base a esto, se concluye que los Influencers son aquellos que, haciendo uso de la in-

fluencia social que poseen, ejecutan las campañas de marketing viral en redes sociales.

10

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

2.1.3. Minerı́a de Datos

“Minerı́a de Datos es el proceso para descubrir patrones interesantes y conocimiento de

grandes cantidades de datos”(Han et al., 2011).

La minerı́a de datos es un área de investigación que consiste en el desarrollo y aplicación

S
de modelos computacionales que permiten la detección de patrones en grandes conjuntos

A
IC
de datos. Esta área es parte de un proceso mayor de descubrimiento de conocimiento en

S
conjuntos de datos, el cual comprende las siguientes etapas fundamentales (Silwattananusarn

S FÍ
& Tuamsuk, 2012):

A S
IC A
T I
Selección: obtener los datos relevantes al análisis
Á C
M N

Preprocesamiento: remover ruidos e inconsistencias de los datos, además de combinar


E IE
T C

las múltiples fuentes de datos


A E
M D

Transformación: convertir los datos en la manera apropiada para realizar la minerı́a


Y A

de datos.
C
E

Minerı́a de datos: escoger o desarrollar un algoritmo que permita determinar y extraer


T
O

patrones de los datos.


LI
IB

Interpretación y evaluación: convertir los patrones en conocimiento, removiendo


B

aquellos que son redundantes o irrelevantes. Transformándolos en términos entendibles

por los seres humanos.

La minerı́a de datos es aplicada sobre diversas áreas, dentro de las cuales se encuentran

las redes sociales. Esta aplicación se realiza con el fin de analizar los datos que éstas possen.

11

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

2.1.3.1. Análisis de redes sociales

El análisis de redes sociales busca determinar patrones de interacción y comportamiento

de sus usuarios, a fin de tomar decisiones estratégicas.

Garcı́a-Saiz et al. (2014), describen:

S
“El análisis de redes sociales (SNA), el cual se centra en descubrir el patrón de

A
IC
interacción de las personas, ha sido una área de gran impacto en los últimos años

S
S FÍ
como consecuencia de la aparición de servicios de redes sociales, como Facebook

A S
o Twitter. Sin embargo, las técnicas de SNA no solo se concentran en las redes

IC A
sociales, sino que también se centran en otros campos, como el marketing (redes de
T I
Á C
M N

clientes y proveedores) o la seguridad pública”


E IE
T C

Una de las aplicaciones principales del Análisis de Redes Sociales, está orientada a la
A E
M D

detección de usuarios Influencers, la cual será descrita en la subsección siguiente.


Y A
C
E

2.1.4. Detección de Usuarios Influencers


T
O

La Detección de Influencers consiste en determinar qué usuarios poseen un alto grado de


LI

importancia o influencia en contextos determinados sobre el resto de usuarios de una misma


IB
B

red social. Estos contextos pueden ser temas de interés de los usuarios o la región geográfica

en que se ubican.

Aunque una solución rápida y empı́rica al problema de la detección de usuarios Influencers,

es asumir que un Influencer es aquel usuario que posee un mayor número de seguidores,

estudios como los de Mehta et al. (2012), Pal & Counts (2011), Razis & Anagnostopoulos

12

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

(2014) y Bigonha et al. (2010), han demostrado que dicha afirmación no es del todo correcta,

pues existen otros factores que también deben ser tomados en cuenta para determinar el grado

de influencia de un usuario.

Debido a que cada red social posee sus propias caracterı́sticas, mecánicas y objetivos, la

detección de Influencers debe ajustarse a donde vaya a ser aplicada, lo cual significa que

S
A
existen diversas métricas de influencia para cada una.

IC
S
2.1.4.1. Métricas de Influencia en Twitter

S FÍ
A S
Existen varios criterios y métricas para determinar la influencia de un usuario en Twit-

IC A
ter. Mei et al. (2015), describen las siguientes caracterı́sticas candidatas a ser métricas de
T I
Á C
M N

influencia:
E IE
T C

Proporción acciones-tweets (AT ratio)


A E
M D

La proporción que existe entre el número acciones que recibe un usuario frente al número
Y A

de tweets que escribe. Las acciones incluyen retweets y menciones que pueda recibir dicho
C
E

usuario. Esta caracterı́stica permite identificar qué usuarios generan más acciones con una
T
O

menor cantidad de tweets publicados.


LI
IB

Edad de la cuenta en Twitter


B

El número de meses desde que la cuenta fue creada. Esta métrica existe bajo la suposi-

ción de que un usuario que posee más tiempo con una cuenta creada en Twitter, tiene más

posibilidades de tener un mayor grado de influencia.

13

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Proporción seguidores-amigos (FF ratio)

La proporción que existen entre el número de seguidores y el número de amigos (usuarios

seguidos) que posee el usuario. “Si el FF ratio se aproxima a 1, es más probable que el usuario

también siga a sus seguidores. Si el FF ratio se aproxima a 0 se puede considerar que dicho

usuario es un spammer o un bot.”(Mei et al., 2015)

S
A
IC
Nuevos seguidores

S
La cantidad de seguidores nuevos que posee un usuario dentro de un periodo de tiempo

S FÍ
A S
determinado. Este indicador permite identificar si dicho usuario está ganando o perdiendo

seguidores.
IC A
T I
Á C
M N

Nuevas menciones
E IE
T C

El número de menciones o respuestas que el usuario ha recibido dentro de un periodo de


A E
M D

tiempo. Se atribuye al número de menciones la capacidad de determinar el grado de ‘valor’


Y A

del usuario en la red social.


C
E
T

Nuevos retweets
O
LI

El número de retweets que el usuario recibe dentro de un periodo de tiempo. Se cree que
IB

un retweet indica que otro usuario ha sido influenciado, ya sea positiva o negativamente, por
B

quien realizó el tweet original.

Nuevos tweets

El número de tweets publicados por el usuario durante un periodo de tiempo. Se presume

que, si un usuario deja de publicar de manera constante, su influencia está en caı́da.

14

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Número de seguidores

El número total de seguidores que el usuario posee. Mientras mayor sea el número de

seguidores mayor es la posibilidad de que éste sea más influyente.

Número de listas públicas

S
Las listas de Twitter permiten que un usuario agrupe a otras cuentas de la red social

A
IC
según criterios de su interés, por ejemplo, una lista de tecnologı́a que cuenta con usuarios que

S
generalmente realizan tweets sobre tecnologı́a.

S FÍ
A S
Esta métrica se refiere al Número de listas públicas de Twitter, de las cuales el usuario es

IC A
T I
Á C
parte. Ser parte de las listas de otros, indica que el usuario es conocido y que la gente muestra
M N
E IE

interés en él.
T C

Número de tweets
A E
M D

El total de tweets publicados por el usuario.


Y A
C
E

Verificado
T
O

La verificación es usada por Twitter para detectar la autenticidad de personas y marcas. En


LI
IB

términos generales, una cuenta verificada necesariamente pertenece a un usuario influyente.


B

Todas estas caracterı́sticas candidatas que se describen en Mei et al. (2015), fueron pues-

tas a prueba en su investigación, tomando un conjunto de usuarios de Twitter, los autores

recopilaron los datos referidos a las métricas candidatas y empezaron realizando un análisis

de correlación (Pearson Correlation Analysis) entre las distintas métricas para determinar

15

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

aquellas que poseen una alta dependencia mutua, resultando los ‘Nuevos retweets’, las ‘Nue-

vas menciones’ y la ‘Proporción acciones-tweets’, las variables más altamente correlacionadas.

Estas caracterı́sticas, exceptuando la ‘Proporción acciones-tweets’, quedaron descartadas del

análisis siguiente que realizan los autores, el cual fue un análisis de Entropı́a, donde calcularon

el peso de la entropı́a de cada métrica, según su investigación, una métrica que posea una

S
alta entropı́a a comparación de las demás, contribuye con mayor información para el conjunto

A
IC
de datos. Se detectó que la ‘Proporción acciones-tweets’ otorga casi el 30 % de la información

S
para el conjunto de datos, mientras que la ‘Edad de la cuenta en Twitter’ es la que tiene una

S FÍ
menor contribución de información con un 1.2 % y las demás métricas contribuyen todas por

A S
IC A
igual. Finalmente, los autores, tomaron cuatro servicios online para la detección de Influencers
T I
Á C
M N

(Kloud, Kred, PeerIndex y FollowerWonk) y analizaron a los usuarios escogidos inicialmente


E IE

usando dichos servicios, luego realizaron un Análisis de Correlación de Rango (Spearman’s


T C

Rank Correlation Analysis RCA) para descubrir cuáles de las métricas propuestas son más
A E
M D

importantes para conseguir los resultados que se obtienen usando dichos servicios. La Tabla
Y A
C

2.1 muestra el resultado de todo este proceso, donde se listan las tres métricas más impor-
E

tantes para cada servicio de puntuación de influencia, ordenadas en base a la relevancia que
T
O

poseen sobre los resultados.


LI
IB

Tabla 2.1: Las 3 métricas más usadas por cada uno de los servicios de puntuación de influencia
B

Kloud Kred PeerIndex FollowerWonk


#1 Nuevas menciones Nuevas menciones Número de listas Nuevos retweets
públicas
#2 Número de listas Nuevos retweets Nuevas menciones Nuevas menciones
públicas
#3 AT Ratio Número de listas Número de seguidores Número de listas
públicas públicas
Fuente: Adaptado de Mei et al. (2015), tabla VIII.

16

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

2.1.5. Técnicas de Recopilación de Datos

La recopilación de los datos es uno de los pasos fundamentales a la hora de realizar un

proceso de minerı́a de datos, su importancia corresponde al hecho de que, en un proceso de

este calibre, el objeto principal de análisis es el conjunto de datos, dicho conjunto deberá ser

obtenido a través de algunas técnicas.

S
A
IC
2.1.5.1. Integración de datos basada en API’s

S
Algunos sitios web en internet, proveen de servicios a los desarrolladores, para que éstos

S FÍ
A S
puedan hacer un seguimiento o análisis sobre los datos que fluyen por dichos sitios. Estos

IC A
servicios son presentados a través de una API (Application Programming Interface), la cual
T I
Á C
M N

permite que los sitios web compartan sus datos con los usuarios en general. La principal
E IE

ventaja de esta técnica es el hecho de que al ser servicios desarrollados con fines especı́ficos,
T C

la velocidad es bastante óptima. Sin embargo, existe una desventaja muy considerable, las
A E
M D

decisiones acerca de qué datos serán compartidos y el número de solicitudes al servicio que un
Y A
C

usuario puede hacer, quedan estrictamente definidas por los sitios web, ocasionando que los
E
T

análisis posibles de los datos sean limitados en cuanto a los aspectos que se podrı́an abordar
O

o la cantidad de datos que se podrı́a involucrar.


LI
IB

2.1.5.2. Web Scraping


B

En teorı́a, Web Scraping es la práctica de obtener datos a través de cualquier medio

que no sea un programa interactuando con una API (a través de un humano usando

un navegador web). Ésto es más comunmente conseguido escribiendo un programa

que consulte a un servidor web, solicite datos (usualmente en forma de HTML y otros

17

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

archivos que están relacionados con páginas web) y luego analice gramaticalmente

esos datos para extraer la información que se necesita. (Mitchell, 2015, p. vii)

La ventaja fundamental del Web Scraping reside en el hecho de que es posible obtener

todos los datos que existan en los archivos fuente de las páginas web, de esta forma no hay

S
una limitación en la cantidad de información que puede ser obtenida (siempre y cuando sea

A
IC
parte de dichos archivos) y tampoco existe un lı́mite de consultas que pueden ser realizadas.

S
Sin embargo, este proceso puede ser lento, la información que se busca recoger puede estar

S FÍ
inmersa entre los archivos, por lo que debe ser buscada, a diferencia de una API donde la

A S
IC A
información es entregada directamente por un servidor del sitio web sin tener que realizar una
T I
Á C
búsqueda.
M N
E IE
T C
A E
M D

2.2. Método de la investigación


Y A
C

Para cumplir con los objetivos propuestos, la investigación se desarrolló en base a las
E

siguientes etapas:
T
O
LI

a) Recopilación de artı́culos y estudios realizados sobre detección de usuarios Influencers en


IB

redes sociales, especı́ficamente en Twitter.


B

b) Análisis de los algoritmos propuestos en los artı́culos recopilados.

c) Formulación del problema principal de la investigación, justificando su importancia.

d) Diseño de la metodologı́a considerando todas las etapas de la misma.

e) Elección de un caso de análisis de datos de redes sociales en Twitter con el propósito de

18

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

realizar la detección de usuarios Influencers.

2.2.1. Diseño de la Investigación

El diseño de la presente investigación está basado en el enfoque cuantitativo.

Diseño de un solo grupo con una sola medición.

S
A
X→O

IC
S
Donde:

S FÍ
X: Aplicación de la metodologı́a basada en Minerı́a de Datos

A S
IC A
T I
O: Detección de usuarios Influencers en Twitter.
Á C
M N
E IE

2.2.2. Universo
T C

Usuarios de redes sociales.


A E
M D
Y A

2.2.3. Población
C
E

Usuarios de la red social Twitter.


T
O
LI

2.2.4. Muestra
IB

Usando muestreo no probabilı́stico consecutivo, fueron seleccionados los perfiles, tweets y


B

estadı́sticas básicas de los mismos, de aquellos usuarios de Twitter que estaban localizados en

Perú y que habı́an realizado algún tipo de interacción en la red social, en la cual se expresaban

sobre el caso Lava Jato (Odebrecht) entre los meses de enero hasta marzo de 2019.

19

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Capı́tulo 3

S
Metolodogı́a para la Detección de

A
IC
S
Influencers en Twitter

S FÍ
A S
IC A
T I
La presente metodologı́a, basada en las etapas del proceso de Minerı́a de Datos, involucra
Á C
M N

una serie de pasos y procedimientos repetibles, con el objetivo de detectar Influencers en


E IE
T C

Twitter.
A E
M D

3.1. Exploración de candidatos a Influencers


Y A
C
E

La fase inicial de esta metodologı́a está orientada a obtener un conjunto de usuarios sobre
T
O

los cuales pueda ser calculado su grado de influencia. Este procedimiento resulta fundamental
LI

para los análisis de detección de Influencers en el contexto de que no se posea un conocimiento


IB

previo de usuarios candidatos sobre los cuales se desee calcular esta caracterı́stica. No obstante,
B

existen casos en que el encargado de realizar la detección cuente con un listado de aquellos

usuarios candidatos sobre los cuales se desee realizar el análisis, en dichos casos, esta fase

puede ser omitida.

Esta metodologı́a involucra una búsqueda previa a la detección de Influencers, basada en

20

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

el hecho de que muchas veces no se posee un conjunto de usuarios candidatos a ser Influen-

cers, por lo que inicialmente se debe realizar una exploración de los mismos. Para lo cual es

importante considerar ciertos aspectos de manera temprana a fin de que sean tomados en

cuenta en los pasos siguientes. Previo a la definición de estos criterios, es necesario destacar

que existen dos métodos fundamentales para obtener datos de Twitter, las API s (de Twitter

S
o terceros) y el Web Scraping (a través de librerı́as de terceros), cada uno con sus ventajas

A
IC
y desventajas. Al realizar esta fase, es crucial conocer a través de qué método se realizará

S
la obtención de datos, para definir apropiadamente el alcance de la búsqueda de usuarios

S FÍ
candidatos a Influencers.

A S
IC A
T I
Á C
Debido al hecho de que realizar esta búsqueda no es un proceso trivial, esta fase cuenta
M N

con las siguientes etapas:


E IE
T C

3.1.1. Definición del alcance de la búsqueda


A E
M D

Se deben definir ciertos criterios que servirán para realizar la búsqueda de usuarios can-
Y A
C

didatos a Influencers, el objetivo al definir estos criterios es conseguir la mayor cantidad de


E
T

tweets posibles para, luego de realizados ciertos procesos de selección de datos, determinar
O
LI

los posibles usuarios Influencers a ser analizados. Los criterios que deberán ser definidos son:
IB

Idioma, Fecha del tweet más antiguo, Fecha del tweet más reciente, Tópico de búsqueda, Zona
B

Geográfica y la forma en que será determinada la Zona Geográfica.

Idioma

El idioma del tweet, puede ser solo un idioma o un conjunto de idiomas.

21

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Fecha del tweet más reciente

La fecha que debe tener el tweet más reciente, idealmente deberı́a ser al menos un dı́a antes

de la fecha en que se realizará la extracción de tweets, para garantizar la recolección de todos

los tweets realizados hasta la fecha especificada.

Fecha del tweet más antiguo

S
A
IC
Este criterio se refiere a la fecha más antigua sobre la cual debe realizar la recopilación

S
de los tweets, se recomienda que sea por lo menos tres meses antes de la fecha del tweet más

S FÍ
reciente.

A S
IC A
Tópico de búsqueda
T I
Á C
M N

Este criterio hace referencia al tópico en común sobre el cual deberán estarse refiriendo
E IE
T C

los tweets, de esta forma se orienta la búsqueda hacia usuarios que realicen tweets sobre
A E

temas en común que sean de interés de la compañı́a o el interesado en realizar la detección


M D

de Influencers. Este criterio puede ser omitido en los casos en que no se desee realizar una
Y A
C

búsqueda basada en tópicos, sino simplemente en una Zona Geográfica, no obstante, esta
E
T

metodologı́a plantea la posibilidad de usar ambos criterios juntos: Tópico de búsqueda y


O
LI

Zona Geográfica.
IB

Zona Geográfica
B

La Zona Geográfica sobre la cual se desea obtener Influencers, puede ser un paı́s, una

ciudad, etc. Es importante tener en cuenta que, mientras más grande sea la Zona Geográfica

de búsqueda, la recopilación de tweets resultará más costosa en términos de tiempo y recursos.

22

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Forma de determinar la Zona Geográfica

La forma de determinar la Zona Geográfica es un criterio fundamental que debe ser decidido

lo más antes posible para poder tener una mejor idea del número de usuarios candidatos al

que se puede llegar. Esta metodologı́a plantea dos métodos posibles, el primero es usar la

posición GPS de la Zona Geográfica a cubrir y el segundo es realizar una búsqueda textual

S
A
de la Zona Geográfica en los tweets de los usuarios candidatos.

IC
S
El uso de la posición GPS, aunque puede ser considerado el método más fiable para realizar

S FÍ
la búsqueda de usuarios candidatos a Influencers, no siempre lleva a grandes resultados,

A S
IC A
pues, para poder alcanzar los tweets de usuarios basados dicha posición, éstos deben haberle
T I
Á C
permitido a Twitter que obtenga las coordenadas automáticamente usando sus dipositivos,
M N
E IE

dicho permiso es pocas veces otorgado y conlleva a depender del mismo, lo cual pueden incurrir
T C

en una pérdida de gran cantidad de datos.


A E
M D

Por otra parte, se puede incluir dentro del tópico de búsqueda definido, el nombre de
Y A
C

la Zona Geográfica sobre la cual se desea obtener los tweets, sin embargo, esto hace que la
E
T

recopilación de tweets sea un proceso más tedioso. No obstante, es más probable que un usuario
O
LI

que se encuentra en una Zona Geográfica determinada tuitee en alguna de sus publicaciones
IB

el nombre de dicha zona.


B

Una vez determinados todos estos criterios claramente, es posible continuar con la siguiente

etapa.

23

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

3.1.2. Recopilación de tweets

Considerando los criterios definidos anteriormente, se debe realizar una búsqueda de tweets

a través de la técnica de recopilación de datos que se haya escogido (API o Web Scraping).

En el caso de usar una API, ya sea usando la API de Twitter o alguna de terceros, los

S
criterios que se definieron en el paso anterior deberán ser considerados como parámetros de

A
IC
la consulta que será realizada:

S
Idioma

S FÍ
A S
Fecha de Inicio

IC A
T I
Á C
Fecha de Fin
M N
E IE

Consulta
T C

Zona Geográfica
A E
M D

Dependiendo de la API, el parámetro Consulta será construido en base al tópico de búsqueda y


Y A
C

podrı́a contener también el nombre de la Zona Geográfica, de acuerdo a como se haya decidido
E
T

determinar la Zona Geográfica de los tweets a recopilar. Asimismo, la Zona Geográfica puede
O

ser un parámetro en caso de que sea usada la posición GPS para poder determinarla.
LI
IB

Por otro lado, en el caso del Web Scraping, se deberá considerar como parámetro el Idioma
B

de los tweets, las fechas de inicio y de fin de la búsqueda, la Zona Geográfica en caso se

desee usar una consulta basada en la posición GPS y necesariamente también deberá pasarse

el parámetro Consulta, el cual deberá ser construido en base a los tópicos de búsqueda,

pudiendo agregarse opcionalmente, la Zona Geográfica como parte de la consulta, si es que

ası́ se decidió como forma de búsqueda.

24

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Los tweets recopilados serán almacenados en archivos de fácil procesamiento, como JSON

o CSV.

3.1.3. Filtrado de Tweets

Muchos de los tweets recopilados en la etapa anterior, deberán ser descartados, pues

S
podrı́an estar incumpliendo con los criterios de búsqueda. En este paso se realiza un filtrado

A
IC
usando un algoritmo para analizar los tweets y también un descarte manual, para eliminar

S
los tweets que semánticamente no cumplan con los criterios de interés de quien realiza la

S FÍ
metodologı́a.

A S
Filtrado
IC A
T I
Á C
M N

El primer filtrado que se debe realizar al conjunto de tweets involucra definir un parámetro
E IE

llamado número mı́nimo de interacciones, que está relacionado al número mı́nimo de retweets,
T C
A E

respuestas y ”me gusta”, todos sumados, que deberı́a tener un tweet. El valor de dicho paráme-
M D

tro, funcionará como un threshold, todos los tweets que cuenten con un total de interacciones
Y A
C

menor al especificado, serán descartados del conjunto de tweets. Asimismo, serán descartados
E
T

los tweets que pertenezcan a un mismo usuario, preservando solamente uno, el que tenga un
O
LI

mayor número de interacciones. Además, los tweets serán agrupados por localidad y lugar,
IB

y ordenados descendentemente en base al número de interacciones que poseen, con el fin de


B

hacer más sencillo el descarte manual posterior. Este filtrado se encuentra descrito a través

del Algoritmo 1.

Una vez realizado este filtrado, se debe proceder con el descarte manual de los tweets

restantes.

25

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Algoritmo 1 Algoritmo para filtrado de tweets


procedure filtrarTweets(tweets, threshold, f echaInicio, f echaF in) // threshold es el mı́nimo
número de interacciones
for each tweet ∈ tweets do
tweet[interacciones] ← tweet[likes] + tweet[retweets] + tweet[respuestas]
interacciones ← tweet[interacciones]
f echa ← tweet[f echa]
if interacciones < threshold or f echa > f echaF in or f echa < f echaInicio then
tweets.remover(tweet)
end if
end for
tweets.removerDuplicados(columna = usuario)

S
tweets.agrupar(columnas = localidad, lugar)

A
tweets.ordenarDescendentemente(columna = interacciones)
end procedure

IC
S
3.1.4. Descarte Manual

S FÍ
A S
El conjunto de tweets post filtrado en la mayorı́a de los casos se debe haber reducido con-

IC A
T I
siderablemente, dejando solo los tweets que cumplan los criterios especificados inicialmente.
Á C
M N

Sin embargo, aún pueden existir, dentro del conjunto, tweets que semánticamente no con-
E IE

cuerden con lo que se especificó como tópico en común que debı́an poseer o también existe la
T C
A E

posibilidad de que existan tweets cuyos usuarios son empresas o negocios que buscan mejorar
M D

su presencia en Twitter, por lo que no podrı́an considerarse necesariamente como Influencers


Y A
C

en caso de obtener una puntuación de influencia alta posteriormente. Son muchos los criterios
E
T

que pueden ser tomados para descartar tweets, por tal motivo, debido a la complejidad de
O
LI

esta tarea, debe ser realizada manualmente y no a través de un programa pues requerirı́a un
IB

análisis e implementación más elaborados para poder ser llevada a cabo.


B

El descarte manual es un proceso muy valioso, a pesar de que puede ser omitido, porque

permite reducir el tiempo que será tomado para calcular la puntuación de influencia que

posean los usuarios de los tweets restantes.

26

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

3.1.5. Obtención de los candidatos a Influencers

Una vez acabado el descarte manual, finalmente quedarán dentro del conjunto de tweets,

aquellos que cumplan con todos los criterios que se establecieron. Los usuarios, autores de

estos tweets, son los candidatos a Influencers, en este paso se realiza una selección de los

nombres de usuario de dichos candidatos a partir de los tweets que quedaron post filtrado y

S
A
descarte, para finalmente pasar a la siguiente fase dentro de la metodologı́a.

IC
S
Para obtener el listado de usuarios candidatos, simplemente se construirá un nuevo archivo

S FÍ
(CSV o JSON), siguiendo el procedimiento descrito en el Algoritmo 2.

A S
IC A
T I
Á C
Algoritmo 2 Algoritmo para obtener los candidatos a Influencers
M N

procedure obtenerCandidatos(tweets)
candidatos = N U LL // este archivo contendrá los nombres de usuario de los candidatos
E IE

for each tweet ∈ tweets do


candidatos.agregarLinea(tweet[usuario])
T C

end for
end procedure
A E
M D
Y A
C

Una vez obtenidos los candidatos a Influencers, se puede pasar a la fase siguiente para
E
T

calcular la puntuación de influencia de cada uno de los mismos.


O
LI
IB

3.2. Cálculo de la puntuación de influencia


B

En esta fase se busca obtener una puntuación de influencia a partir de un conjunto de

usuarios candidatos a Influencers o simplemente usuarios de los cuales se desea conocer dicha

caracterı́stica.

Para realizar este cálculo, se usan una serie de datos o métricas de influencia de cada uno

27

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

de los usuarios, los cuales serán utilizados dentro de una fórmula para obtener la puntuación

de influencia final. Las métricas a obtener de cada usuario son las siguientes:

Nuevas menciones

Número de listas públicas

S
Nuevos retweets

A
IC
AT Ratio

S
S FÍ
Número de seguidores

A S
IC A
Es importante destacar que estas métricas son las que, según Mei et al. (2015) son consi-
T I
Á C
deradas más relevantes por los sitios más reconocidos de puntuación de influencia en Twitter,
M N
E IE

dichas métricas también se encuentran en la Tabla 2.1.


T C

3.2.1. Obtención de los valores para las métricas de influencia


A E
M D

Este procedimiento puede realizarse tanto usando alguna API o también a través de Web
Y A
C

Scraping. Algunas de las métricas como las Nuevas menciones, Nuevos retweets y AT Ratio
E
T

deben de recogerse en un lapso de tiempo especı́fico para todos los usuarios, siendo recomen-
O
LI

dado 2 meses como mı́nimo, sin embargo, ésto puede modificarse a criterio de quien realiza
IB

este proceso, aunque es importante destacar el hecho de que mientras mayor sea este lapso,
B

más certera será la métrica, a pesar de que tomará más tiempo obtenerla.

Una vez realizado este procedimiento, se procede a la parte fundamental dentro de esta

fase, la obtención de la puntuación de influencia de cada usuario.

28

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

3.2.2. Obtención de la puntuación de influencia

Con todos los usuarios y sus correspondientes métricas obtenidas, se debe proceder a

realizar el cálculo para determinar la puntuación de influencia de cada uno de éstos, para lo

cual se emplea una fórmula propuesta dentro de esta metodologı́a y que será presentada más

adelante. Dentro de dicha fórmula, cada una de las métricas es ponderada de acuerdo al orden

S
A
en que aparece en la tabla 2.1.

IC
S
En Mei et al. (2015), fue obtenido un grado de autoridad para cada métrica cuando es

S FÍ
aplicada en los distintos servicios de detección de Influencers, los autores ordenaron dichas

A S
IC A
métricas de acuerdo a ese grado de autoridad. Dado que la autoridad varı́a de acuerdo a cada
T I
Á C
métrica, ésta debe ser respetada a la hora de otorgar una ponderación, en ese sentido: las
M N
E IE

métricas que aparecen en la posición 1 tienen 3 puntos de ponderación, las de la posición


T C

2 tienen 2 puntos y las de la posición 3 tienen apenas 1 punto. El factor de ponderación


A E
M D

total para una métrica es la suma de todos los puntos de ponderación que le corresponden a
Y A

dicha métrica de acuerdo a las posiciones en las que se encuentra. Finalmente, los factores de
C
E

ponderación totales son los mostrados en la tabla 3.1.


T
O
LI

Tabla 3.1: Ponderación de las métricas de influencia


IB

Métrica Ponderación
B

Nuevas Menciones 10
Número de listas públicas 7
Nuevos retweets 5
AT Ratio 1
Número de seguidores 1

Fuente: Elaboración propia.

Una vez definidos dichos coeficientes, la Ecuación 3.1 permite obtener la puntuación de

29

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

influencia de un usuario en Twitter.

inf luencia = (A ∗ menciones + B ∗ listas + C ∗ retweets + at ratio + seguidores) (3.1)

Donde:

S
A
A es igual a 10, el coeficiente determinado para el total de menciones.

IC
S
B es igual a 7, el coeficiente determinado para las listas públicas.

S FÍ
C es igual a 5, coeficiente determinado para el número de retweets.

A S
IC A
T I
Á C
Algo opcional, pero importante en caso lo que se desee es obtener una puntuación de
M N
E IE

influencia el rango de 0 y 100, es realizar una normalización de dicha puntuación, aplicando


T C

la fórmula que se describe en la Ecuación 3.2.


A E
M D

x − min(x)
Y A

inf luencia normalizada(x) = ∗ 100 (3.2)


max(x) − min(x)
C
E

Donde:
T
O
LI

x es la puntuación de influencia sin normalizar.


IB

max(x) es la puntuación de influencia más alta dentro del conjunto de usuarios.


B

min(x) es la puntuación de influencia más baja dentro del conjunto de usuarios.

Con la Ecuación 3.2 definida, lo que corresponde es calcular la puntuación de influencia de

cada usuario basada en sus métricas y ordenar la lista de usuarios de acuerdo a esta nueva

caracterı́stica, dicho procedimiento es descrito en el Algoritmo 3.

30

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Algoritmo 3 Algoritmo para calcular la puntuación de influencia de los usuarios


procedure calcularInfluencia(usuarios)
for each usuario ∈ usuarios do
A ← 10
B←7
C←5
menciones ← usuario[menciones]
listas ← usuario[listas]
retweets ← usuario[retweets]
at ratio ← usuario[at ratio]
seguidores ← usuario[seguidores]
usuario[inf luencia] ← (A ∗ menciones + B ∗ listas + C ∗ retweets + at ratio + seguidores)/1000

S
end for

A
min ← usuarios.obtenerM enor(columna = inf luencia)
max ← usuarios.obtenerM ayor(columna = inf luencia)

IC
for each usuario ∈ usuarios do
usuario[inf luencia normalizada] ← (usuario[inf luencia] − min)/(max − min) ∗ 100

S
end for

S FÍ
usuarios.ordenarDescendentemente(columna = inf luencia)
end procedure

A S
IC A
Producto de la ejecución del Algoritmo 3, se obtiene un listado de los usuarios ordenados
T I
Á C
en base a su puntuación de influencia, es decir, el ranking de usuarios. Finalmente, solo
M N
E IE

resta mostrar visualmente dicho ranking, por lo que es realizada la fase que se describe a
T C

continuación.
A E
M D
Y A

3.3. Análisis de Resultados


C
E
T

El paso culminatorio de la Metodologı́a para la Detección de Influencers en Twitter es el


O

análisis del ranking de usuarios en base a su puntuación de influencia. Para poder analizar de
LI
IB

manera adecuada la distribución de los usuarios y sus puntuaciones en el ranking, es preciso


B

utilizar una representación gráfica, en este caso, al ser datos unidimensionales, es decir, datos

que poseen una sola variable de interés (la puntuación de influencia), el gráfico ideal es el de

barras. A través de este gráfico será posible notar la diferencia que presentan las puntuaciones

de influencia de los usuarios y de ésta manera la persona que esté ejecutando la metodologı́a

podrá escoger qué usuarios desea considerar en base a la información mostrada.

31

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Capı́tulo 4

S
Resultados y Discusión de la tesis

A
IC
S
S FÍ
Caso de Estudio: Lava Jato (Odebrecht) Perú

A S
IC A
El caso Lava Jato es el caso de corrupción más grande en el Perú y uno de los más grandes
T I
Á C
M N

en América Latina; en este caso se encuentran involucrados los cuatro últimos ex presidentes
E IE

peruanos, además de ex candidatos presidenciales, congresistas, entre otros funcionarios, quie-


T C

nes son sospechosos de haber recibido sobornos por parte de la empresa brasileña Odebrecht.
A E
M D

Debido a la alta popularidad que poseen los investigados, el caso Lava Jato es uno de los
Y A
C

más difundidos en redes sociales, por esta razón la metodologı́a propuesta en este trabajo de
E
T

investigación será ejecutada para obtener el ranking de los usuarios más influyentes que se
O

encontraban interactuando en Twitter en relación a dicho caso.


LI
IB

La Figura 4.1 presenta de manera visual la secuencia de pasos que plantea la metodologı́a
B

y que serán seguidos para el presente caso de estudio.

Ejecución de la Metodologı́a

El objetivo de la aplicación de la Metodologı́a para la Detección de Influencers en Twitter,

es determinar qué usuarios poseen un alto grado de influencia sobre la población, teniendo

32

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N

Figura 4.1: Pipeline de la Metodologı́a para Detección de Influencers en Twitter


Fuente: Elaboración propia
E IE
T C

como referencia al caso Lava Jato en Perú. Para lo cual, fueron recolectados tweets desde el
A E

01 de enero hasta el 01 marzo del 2019.


M D
Y A

Una de las etapas para la detección de Influencers es la obtención de la lista de usuarios


C
E

candidatos, sin embargo, no siempre se cuenta con la misma, por lo que en este caso de estudio
T
O

fue realizada una exploración para encontrar a dichos usuarios.


LI
IB

Para la recolección de los tweets, fueron escogidos tanto el Web Scraping (a través de la
B

librerı́a Twint) como el uso de la API Tweepy. Para definir el alcance de la búsqueda, se

asignaron los valores a los diversos criterios como se detalla a continuación:

Idioma: Español

Fecha del tweet más reciente: 2019-03-01

33

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Fecha del tweet más antiguo: 2019-01-01

Tópico de búsqueda: “Odebrecht” o “Lava Jato”

Zona Geográfica: Perú

Forma de determinar la Zona Geográfica: Incluı́da dentro del tópico de búsqueda

S
(“Perú” o “peruano” o “peruana”)

A
IC
S
A continuación se recopilaron los tweets usando la librerı́a Twint para realizar el Web

S FÍ
Scraping, con el parámetro consulta definido de la siguiente manera:

A S
IC A
Consulta: (“Odebrecht” OR “Lava Jato) AND (“Perú” OR “peruano” OR “peruana”)
T I
Á C
M N

En total, fueron recopilados 19,944 tweets de 7,121 usuarios distintos. Este conjunto de
E IE

datos fue almacenado en un archivo de extensión CSV: ‘tweets.csv’. La Figura 4.2 presenta
T C

un vistazo general de algunos de los tweets recuperados.


A E
M D
Y A

De esta manera, desde el primer paso de la metodologı́a, se contaba con una muestra:
C
E

- Muestra: 7,121 usuarios de Twitter


T
O

Sobre la cual serı́a aplicada toda la metodologı́a basada en Minerı́a de Datos, con el fin de
LI
IB

Detectar los usuarios Influencers.


B

El siguiente paso realizado fue el filtrado automático de los tweets recopilados, para lo

cual se definió un lı́mite de 200 interaccions mı́nimas para no ser descartado del conjunto.

Se definió el valor de 200 debido a que luego de ejecutar diversas pruebas con otros valores,

éste resultó ser el valor más alto que concentraba una cantidad de tweets considerable para

realizar el descarte manual. Además debido a la magnitud y popularidad del caso Lava Jato,

34

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S
A
IC
S
S FÍ
Figura 4.2: Subconjunto de tweets recopilados sobre el Caso Lava Jato (Odebrecht) Perú
Fuente: Elaboración propia

A S
IC A
un tweet de algún Influencer, probablemente tendrı́a un vasto número de interacciones. Una
T I
Á C
M N

vez realizado el filtrado automático y eliminados también los tweets de usuarios duplicados,
E IE

quedaron en total de 210, es decir, un 1.05 % del conjunto original.


T C
A E

Posteriormente fue realizado el descarte manual, del cual resultaron 156 tweets, es decir, el
M D
Y A

0.78 % del conjunto original. De dicho conjunto fueron obtenidos los nombres de los usuarios,
C

resultando el conjunto de usuarios candidatos, el cual puede ser visto en la Figura 4.3.
E
T
O

Con la lista de candidatos a Influencers preparada, se realizó la obtención de los valores de


LI

las métricas de influencia de cada uno. Para esto, se recopilaron todos los tweets publicados
IB

por cada candidato y también todos aquellos en que el candidato haya sido mencionado, entre
B

las fechas 01-01-2019 y 01-03-2019. A partir de dichos tweets y sus métricas correspondientes

(número de retweets, número de likes, etc.), fueron calculadas las métricas de influencia de

cada usuario de la siguiente manera:

Las Nuevas Menciones de cada usuario fueron calculadas contando el total de tweets

35

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
Figura 4.3: Conjunto de usuarios candidatos a Influencers, caso Lava Jato Perú
M N

Fuente: Elaboración propia


E IE

recopilados en los que el usuario haya sido mencionado.


T C
A E

La cantidad de retweets nuevos se calculó a través de la suma de los retweets que reci-
M D

bieron todos los tweets que realizó el usuario.


Y A
C
E

El AT Ratio fue obtenido a través de la división entre: la suma de las menciones y total
T
O

de retweets que recibió el usuario, y el total de tweets que éste publicó.


LI

El número de seguidores fue obtenido directamente del perfil del usuario en Twitter.
IB
B

El número de listas públicas a las que el usuario pertenecı́a fue obtenida usando la API

Tweepy, ya que dichas listas estaban dispersas entre diversos perfiles de usuarios, una

opción más rápida era recurrir a una API intermedia que se conecte con el servicio de

Twitter directamente para obtener estos datos.

Una vez obtenidos los valores de cada una de las métricas, fue calculada la puntuación

36

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

de influencia simple y normalizada de cada usuario, en base a éstas, se obtuvo el ranking

de usuarios más influyentes. En la Figura 4.4, pueden ser vistos los 15 usuarios con mayor

puntuación de influencia dentro del conjunto de usuarios candidatos, además de los valores

de las métricas obtenidas para cada uno. En dicha lista se puede identificar que, a pesar de

ser solamente 15 de los 156 usuarios candidatos, la diferencia que existe entre la puntuación

S
de influencia del usuario en el primer lugar y el del número 15 es considerable, lo cual puede

A
IC
indicar que la cantidad de usuarios con puntuación de influencia muy alta dentro de dicho

S
conjunto, es bastante pequeña.

S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E

Figura 4.4: 15 usuarios con mayor puntuación de influencia


T

Fuente: Elaboración propia


O
LI

Finalmente, fue realizado el gráfico de barras de la Figura 4.5, donde se muestra el ranking
IB
B

de los usuarios candidatos a Influencers en base a su puntuación de influencia. En dicho

gráfico, los usuarios fueron agrupados a través del color de cada barra, en base a la posición

que poseı́an dentro de la lista ordenada de candidatos, el primer grupo contiene a los usuarios

entre los 10 primeros lugares, el segundo a aquellos que se encuentran entre el puesto 11 y 50

del conjunto y el tercer y cuarto grupo, a aquellos usuarios entre los puestos 51 al 100 y 101

37

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

al 156 respectivamente.

Se puede notar en la Figura 4.5 que los dos usuarios más influyentes poseen una gran

diferencia sobre los demás, también es posible identificar la estrepitosa caı́da de la puntuación

de influencia a partir del usuario número 5. Una caracterı́stica en común que poseı́an los dos

usuarios con mayor puntuación de influencia (canaln y rmapalacios), es que ambos estaban

S
A
relacionados al periodismo. canaln es el usuario en Twitter del medio televisivo peruano

IC
“Canal N”, el cual está orientado exclusivamente a la transmisión de noticias. Asimismo,

S
S FÍ
rmapalacios es el nombre de usuario de la periodista Rosa Marı́a Palacios, muy conocida en

A S
medios peruanos gracias al programa que ella conduce y que se emite por internet llamado

IC A
T I
Á C
“Sin Guión”, donde diariamente comenta durante diez minutos, las noticias más destacadas
M N

de la actualidad polı́tica del paı́s. Es importante destacar que rmapalacios, a pesar de ser una
E IE
T C

persona y no una compañı́a, cuenta con una puntación de influencia muy alta y muy cercana
A E

a la de canaln , lo cual tiene que ver con la alta interacción que mantiene esta periodista
M D
Y A

con sus seguidores en Twitter. Distinto es el caso de canaln , que, al tratarse de la cuenta
C

de un medio televisivo en Twitter, no interactúa con sus seguidores, sin embargo, sı́ realiza
E
T

publicaciones de manera constante, las cuales son usualmente retweeteadas y mencionadas por
O
LI

los mismos, lo cual permite que dicho usuario posea una puntuación de influencia tan alta.
IB
B

38

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S Figura 4.5: Distribución de los usuarios candidatos en base a su puntuación de influencia


A
IC
S
S FÍ
A S
IC A
T I
Á C

Fuente: Elaboración propia


M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

39

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

4.1. Resultados Teóricos

La metodologı́a propuesta permite detectar Influencers en Twitter a través del uso de

un diverso número de métricas. Esta manera de detectar Influencers permite demostrar de

manera fáctica, por qué un usuario de Twitter es considerado Influencer. No sucede lo mismo

S
con las encuestas o las recomendaciones voz a voz que son comúnmente publicadas en Internet,

A
ya que éstas presentan dos grandes sesgos: la dificultad que existe por parte de las personas

IC
S
para realizar un análisis objetivo, ignorando la afinidad que presentan respecto a los usuarios

S FÍ
de Twitter, además del desconocimiento que existe sobre la diferencia entre “popularidad” e

A S
IC A
“influencia”de un usuario en una red social.
T I
Á C
M N

La metodologı́a propuesta parte de un punto muy básico, para poder ser ejecutada solo
E IE

basta con conocer el tema sobre el cual se desea detectar a los usuarios más influyentes. Esto
T C
A E

permite que nuevas propuestas para la detección de Influencers puedan ser acopladas a la
M D

metodologı́a de manera sencilla.


Y A
C
E

La recolección de datos de Twitter es la tarea que más tiempo demanda durante la ejecución
T
O

de la metodologı́a propuesta. Escoger una manera de abordar este problema, ya sea con
LI

técnicas como Web Scraping o usando APIs, es muy importante, pues determinará el tiempo
IB

que éste tomará.


B

El paso de descarte manual es un proceso que requiere de un entendimiento semántico

de cada tweet pues consiste en analizar una cantidad considerable de los mismos, por lo que

termina siendo una tarea laboriosa. Debido a la importancia que tiene en la recopilación de

usuarios candidatos a Influencers y a la cantidad de variables o parámetros que son tomados

40

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

en cuenta por un humano a la hora de realizar este descarte, este paso, a diferencia de los

demás, no puede ser fácilmente automatizado.

Comparar la puntuación de influencia que es calculada a través de la metodologı́a propues-

ta, con las puntuaciones de influencia que presentan los servicios actuales que existen con el fin

de calificar la influencia de usuarios en Twitter, no determina la eficacia o invalidez de dicha

S
A
puntuación. Cada servicio hace uso de diversas métricas que, a su criterio, son consideradas

IC
válidas para calcular de manera correcta dicha puntuación. Con la diferencia de que, en la

S
S FÍ
presente tesis, se están describiendo las métricas bajo las cuales dicha puntuación está siendo

A S
determinada.

IC A
T I
Á C
M N

4.2. Resultados Computacionales


E IE
T C

La metodologı́a propuesta en esta investigación, presenta tres algoritmos que son usados
A E
M D

para obtener los resultados deseados, a continuación serán expuestas las complejidades de los
Y A

mismos:
C
E
T

El Algoritmo 1 calcula el total de interacciones de cada tweet, remueve tweets de usuarios


O
LI

duplicados, filtra aquellos que tienen un valor de interacción menor al especificado y los ordena
IB

descendentemente en base al total de interacciones que recibieron. Dicho algoritmo posee una
B

complejidad O(n log n), donde n es el total de tweets analizados.

El Algoritmo 2, que obtiene el nombre de cada usuario candidato, posee una complejidad

O(n), donde n es el total de tweets que quedaron post filtrado y descarte manual.

Por último, el Algoritmo 3, que calcula la puntuación de influencia de cada usuario y

41

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

los ordena en base a dicha puntuación, tiene complejidad O(n log n), donde n es el total de

usuarios candidatos.

También es importante destacar que se requieren algoritmos personalizados para realizar

el Web Scraping o el uso de la API para la recolección de tweets y menciones para el cálculo

de las métricas de influencia de cada usuario candidato. Dichos algoritmos, generalmente

S
A
requieren de bastante tiempo de ejecución, no tanto por su complejidad algorı́tmica, sino más

IC
bien por la constante comunicación que debe mantener con servidores de páginas web que se

S
S FÍ
encuentran en lugares remotos y que muchas veces pueden denegar las peticiones debido a

A S
una alta saturación.

IC A
T I
Á C
Con todo lo descrito anteriormente, es posible afirmar que la metodologı́a es computacio-
M N
E IE

nalmente simple, aunque puede tardar considerablemente durante su ejecución debido a la


T C

fase de recolección de tweets y menciones.


A E
M D
Y A
C
E
T
O
LI
IB
B

42

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Capı́tulo 5

S
Consideraciones Finales

A
IC
S
S FÍ
5.1. Conclusiones

A S
IC A
En este trabajo de investigación se presentó una metodologı́a para detectar usuarios In-
T I
Á C
M N

fluencers en la red social Twitter. Las conclusiones en base a los objetivos propuestos son:
E IE
T C

1. Fue propuesta la Metodologı́a para la Detección de usuarios Influencers en Twitter,


A E

siguiendo 3 fases fundamentales: Exploración de candidatos a Influencers, Cálculo de


M D

Puntuación de Influencia y Análisis de Resultados.


Y A
C
E

2. Se recopilaron diversos criterios para la detección de Influencers en Twitter, siendo fi-


T
O

nalmente considerados dentro de la metodologı́a, los siguientes: “Nuevas menciones”,


LI

“Número de listas públicas”, “Nuevos retweets”, “Proporción Acciones-Tweets (AT Ra-


IB

tio)” y “Número de seguidores”.


B

3. Se desarrolló un modelo algorı́tmico basado en las métricas escogidas, para obtener una

puntuación de influencia para cada usuario. De esta manera, los usuarios candidatos

fueron ordenados en base a dicha puntuación para determinar quiénes eran los usuarios

más influyentes dentro del conjunto.

43

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

4. Se propusieron dos formas de obtener datos de Twitter: el Web Scraping y el uso de

API s. Dentro de la metodologı́a propuesta, se recomendó decidir cuál de las formas

usar, de manera temprana durante la ejecución de la misma, pues resulta fundamental

a la hora de recopilar la información adecuada.

5. El modelo algorı́tmico propuesto fue sintetizado en el “Algoritmo para calcular la puntua-

S
A
ción de influencia de los usuarios”. Ası́mismo, se propusieron el “Algoritmo para filtrado

IC
de tweets” y el “Descarte Manual”, como pasos para realizar un preprocesamiento de los

S
S FÍ
datos obtenidos de Twitter.

A S
6. La metodologı́a propuesta fue aplicada al caso de estudio Lava Jato (Odebrecht) Perú,

IC A
T I
Á C
obteniendo como resultado un ranking de usuarios en base a su puntuación de influencia
M N

para dicho caso.


E IE
T C

5.2. Trabajos Futuros


A E
M D

Si bien la metodologı́a en la presente investigación, responde efectivamente a la hipótesis


Y A
C

y objetivos planteados, durante el desarrollo de la presente tesis, se presentaron algunas ideas


E
T

que podrı́an complementar este trabajo, tales como:


O
LI

Diseñar un algoritmo capaz entender de manera semántica cada tweet, para que a través
IB

de un conjunto de parámetros realice el Descarte de tweets de manera automatizada.


B

Proponer metodologı́as equivalentes a la presentada, capaces de detectar Influencers en

otras redes sociales populares, como Facebook o Instagram.

Desarrollar un software que permita medir la influencia de los usuarios en redes sociales

respecto a diversos temas, usando la metodologı́a propuesta.

44

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Referencias bibliográficas

S
A
Anderson, E. W. (1998). Customer satisfaction and word of mouth. Journal of Service Research, 1(1):5–17.

IC
Aronson, E. (2004). The Social Animal. McGraw-Hill/Irwin, New York, 9 edition.

S
Bhatt, R., Chaoji, V., & Parekh, R. (2010). Predicting product adoption in large-scale social networks. CIKM

S FÍ
’10 Proceedings of the 19th ACM international conference on Information and knowledge management,

83(6):1039–1048.

A S
IC A
Bigonha, C., Cardoso, T., Moro, M., Almeida, V., & Gonçalves, M. (2010). Detecting evangelists and detractors
T I
on twitter. 18th Brazilian symposium on multimedia and the web, pages 107–114.
Á C
M N

Boyd, D. M. & Ellison, N. B. (2007). Social network sites: Definition, history, and scholarship. Journal of
E IE

Computer-Mediated Communication, 13(1):210––230.


T C

Freberg, K., Graham, K., McGaughey, K., & Freberg, L. A. (2011). Who are the social media influencers? a

study of public perceptions of personality. Fuel and Energy Abstracts, 37(1):90–92.


A E
M D

Garcı́a-Saiz, D., Palazuelos, C., & Zorrilla, M. (2014). Data mining and social network analysis in the edu-

cational field: An application for non-expert users. Educational Data Mining: Applications and Trends,
Y A
C

524:411–439.
E

Ghosh, S., Sharma, N., Sharma, N., Ganguly, N., & Ganguly, N. (2012). Cognos: crowdsourcing search for
T

topic experts in microblogs. SIGIR ’12 Proceedings of the 35th international ACM SIGIR conference
O

on Research and development in information retrieval, pages 575–590.


LI

Granovetter, M. (1978). Threshold models of collective behavior. American Journal of Sociology, 83(6):1420.
IB

Han, J., Kamber, M., & Professor, J. P. (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann,
B

San Francisco [u.a.].

Internet Live Stats (2019). Twitter usage statistics. (accedido 09.04.2019).

Kelman, H. C. (1958). Compliance, identification, and internalization three processes of attitude change.

Journal of Conflict Resolution, 2(1):51–60.

Kitsak, M., Gallos, L. K., Havlin, S., Liljeros, F., Muchnik, L., Stanley, H. E., & Makse, H. A. (2010). Influence

and passivity in social media. Nature Physics, 6(11):888–893.

Mehta, R., Mehta, D., Chheda, D., Shah, C., & Chawan, P. M. (2012). Sentiment analysis and influence

45

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

tracking using twitter. International Journal of Advanced Research in Computer Science and Electronics

Engineering, 1(2):72–79.

Mei, Y., Zhong, Y., & Yang, J. (2015). Finding and analyzing principal features for measuring user influence

on twitter. 2015 IEEE First International Conference on Big Data Computing Service and Applications,

pages 478–486.

Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O’Reilly Media Inc.

Pal, A. & Counts, S. (2011). Identifying topical authorities in microblogs. In Proceedings of the Fourth ACM

S
International Conference on Web Search and Data Mining, volume 1 of WSDM ’11, pages 45–54, New

A
York, NY, USA. ACM.

IC
Razis, G. & Anagnostopoulos, I. (2014). Influencetracker: Rating the impact of a twitter account. IFIP

S
Advances in Information and Communication Technology, 437:184–195.

S FÍ
Romero, D. M., Galuba, W., Asur, S., & Huberman, B. A. (2011). Identification of influential spreaders in

complex networks. WWW ’11 Proceedings of the 20th international conference companion on World

A S
IC A
wide web, pages 113–114.
T I
Salinas, S. (2018). Social media active users around the world. (accedido 17.11.2018).
Á C
M N

Silwattananusarn, T. & Tuamsuk, K. (2012). Data mining and its applications for knowledge management: A
E IE

literature review from 2007 to 2012. International Journal of Data Mining and Knowledge Management
T C

Process (IJDKP), 2(5):13–24.

Weng, J., Lim, E.-P., Jiang, J., & He, Q. (2010). Twitterrank: finding topic-sensitive influential twitterers.
A E
M D

WSDM ’10 Proceedings of the third ACM international conference on Web search and data mining,

3(6):261–270.
Y A
C

Wilson, R. F. (2000). The six simple principles of viral marketing. Web Marketing Today, 70(1):232.
E
T
O
LI
IB
B

46

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/

También podría gustarte