Documentos de Académico
Documentos de Profesional
Documentos de Cultura
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
Metodologı́a basada en Minerı́a de Datos para la
M N
TESIS
A E
M D
TRUJILLO - PERÚ
2019
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Agradecimientos
Agradezco a Dios y a la vida por permitirme conocer, compartir y aprender con tantas
diversas personas a lo largo de los años.
S
necesitado, por ser mi soporte frente a cualquier adversidad.
A
IC
S
Agradezco a mis profesores del programa de estudios de Informática, en especial a mi asesor
S FÍ
para la presente tesis, el profesor José Peralta Luján, por haberme mostrado lo increı́ble que es
A S
esta disciplina y haberme inculcado conocimientos muy útiles para mi desarrollo profesional.
IC A
T I
Á C
Agradezco a mis amigos Arnold, Joseph, Rolando y Manuel, porque gracias a ellos el tiempo
M N
concluir este trabajo de investigación, de manera particular a mi abuelo Jorge Sáenz, por
Y A
guiarme en los primeros pasos para el desarrollo de esta tesis y a mi amigo Germain Garcı́a, a
C
quien considero mi orientador a distancia, por haberme ayudado a aclarar todo tipo de dudas
E
T
ii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
iii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
RESUMEN
El marketing viral es una de las técnicas más usadas por las empresas para incrementar su
alcance y mejorar sus ganancias. Esta técnica se realiza a través de los usuarios Influencers,
personas que debido a su capacidad de persuasión muy alta sobre sus seguidores, se encargan
de viralizar lo que se desea promocionar. No obstante, conocer qué Influencers son los ideales
para cada público objetivo no es un proceso trivial, pues el determinar a dichos usuarios está
S
sometido a un conjunto de criterios más alla de la simple popularidad de los mismos. Una
A
forma a la cuales recurren las organizaciones actualmente, es el uso de servicios online de
IC
detección de Influencers, sin embargo, dichos servicios tienen un costo elevado y se presentan
poco transparentes a los usuarios, quienes desconocen los criterios bajo los cuales éstos están
S
S FÍ
siendo determinados. En esta tesis se propone una Metodologı́a para la Detección de usua-
rios Influencers en Twitter, la cual sigue el proceso fundamental de Minerı́a de Datos, hace
A S
uso de diversas técnicas de recolección de datos (Web Scraping, API s) y utiliza un conjunto
IC A
de métricas de influencia para obtener una puntuación de influencia para cada usuario, que
T I
Á C
permita conseguir un ranking de los usuarios más influyentes para un público objetivo deter-
M N
minado. La metodologı́a que se propone, comprende un punto de partida muy básico, como es
E IE
sobre los cuales obtener la puntuación de influencia. La metodologı́a fue ejecutada sobre el
A E
caso de estudio: Lava Jato (Odebrecht) Perú, obteniendo el ranking de Influencers basado en
M D
los datos recolectados entre los meses de enero hasta marzo de 2019.
Y A
C
iv
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
ABSTRACT
Viral marketing is one of the techniques most used by companies to increase their reach
and improve their profits. This technique is carried out through the Influencers, people who
because of their ability to persuade very high on their followers, are in charge of viralizing
what they want to promote. However, knowing which Influencers are the ideals for each
target audience is not a trivial process, since determining those users is subject to a set of
S
criteria beyond the simple popularity of them. One way that organizations currently use is the
A
suscription to online Influencers detection services, however, these services have a high cost
IC
and are not very transparent to users, who do not know the criteria under which they are being
determined. This thesis proposes a Methodology for the Detection of Influencers on Twitter,
S
S FÍ
which follows the fundamental process of Data Mining, makes use of diverse techniques of
data collection (Web Scraping, APIs) and uses a set of influence metrics to obtain a score
A S
of influence for each user, which allows achieving a ranking of the most influential users for
IC A
a specific target audience. The proposed methodology includes a very basic starting point,
T I
Á C
such as the definition of the search topics of candidate users for being Influencers, allowing
M N
any interested person to make use of it, even coupling new criteria on which to obtain the
E IE
influence score. The methodology was executed on the case study: Lava Jato (Odebrecht)
Peru, obtaining the ranking of Influencers based on the data collected between the months of
T C
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Índice de Figuras
S
4.1 Pipeline de la Metodologı́a para Detección de Influencers en Twitter . . . . . . 33
A
4.2 Subconjunto de tweets recopilados sobre el Caso Lava Jato (Odebrecht) Perú . . 35
IC
4.3 Conjunto de usuarios candidatos a Influencers, caso Lava Jato Perú . . . . . . . 36
S
4.4 15 usuarios con mayor puntuación de influencia . . . . . . . . . . . . . . . . . . 37
S FÍ
4.5 Distribución de los usuarios candidatos en base a su puntuación de influencia . 39
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
vi
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Índice de tablas
2.1 Las 3 métricas más usadas por cada uno de los servicios de puntuación de influencia 16
S
3.1 Ponderación de las métricas de influencia . . . . . . . . . . . . . . . . . . . . . . 29
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
vii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Índice general
Dedicatoria I
S
A
Agradecimientos II
IC
Resumen IV
S
S FÍ
Abstract V
A S
Índice de Figuras VI
Índice de tablas
IC A
T I VII
Á C
M N
1 Introducción 1
E IE
1.3 Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
A E
1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
M D
1.4.1 General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Y A
1.4.2 Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
C
2 Materiales y Métodos 7
T
O
viii
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
3.1.3 Filtrado de Tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
A
3.1.4 Descarte Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
IC
3.1.5 Obtención de los candidatos a Influencers . . . . . . . . . . . . . . . . . . . . . 27
S
3.2 Cálculo de la puntuación de influencia . . . . . . . . . . . . . . . . . . . . . . . 27
S FÍ
3.2.1 Obtención de los valores para las métricas de influencia . . . . . . . . . . . . . . . 28
3.2.2 Obtención de la puntuación de influencia . . . . . . . . . . . . . . . . . . . . . . 29
A S
3.3 Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
IC A
T I
Á C
4 Resultados y Discusión de la tesis 32
M N
5 Consideraciones Finales 43
5.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A E
M D
Referencias bibliográficas 45
C
E
T
O
LI
IB
B
ix
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Capı́tulo 1
S
Introducción
A
IC
S
S FÍ
Las tendencias de marketing han ido evolucionando con el tiempo, estudios como los de
A S
IC A
Granovetter (1978) y Bhatt et al. (2010) han demostrado que la posibilidad de que una persona
T I
Á C
compre un producto o pague por un servicio aumenta si éste ha sido adquirido también por
M N
E IE
los amigos de dicha persona. Anderson (1998), relata que los clientes con experiencias muy
T C
positivas o muy negativas son más propensos a expresar sus opiniones y reacciones respecto
A E
M D
a lo que adquirieron.
Y A
C
de marketing, siendo una de ellas la del marketing viral, que consiste básicamente en hacer
O
LI
“viral”, es decir, popular, un producto o servicio para conseguir que un gran número de
IB
personas lo conozcan. Eso hace que más personas se identifiquen y adquieran el producto o
B
Para viralizar un producto, las compañı́as establecen relaciones con los llamados Influen-
cers, usuarios que poseen un alto grado de influencia o persuasión sobre los demás, para que
sean ellos quienes ofrezcan los productos o servicios y ası́ llegar de manera más rápida y
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
directa a un número alto de potenciales consumidores a través de las redes sociales. En este
sentido, los Influencers se dotan de dicha capacidad de persuasión y ejercen la misma a través
Facebook, Twitter, Instagram, LinkedIn, entre otras, son algunas de las redes sociales más
populares actualmente, la segunda, particularmente, cuenta con más de 330 millones de usua-
S
A
rios activos cada mes, lo cual hace posible su uso para realizar campañas de marketing viral.
IC
S
A pesar de las diversas técnicas que existen para la detección de Influencers (Ghosh et al.,
S FÍ
2012; Weng et al., 2010), es muy escasa la presencia de métodos bien detallados que permitan
A S
IC A
dicha detección con respecto a diversos tópicos, lo cual origina que las compañı́as opten por
T I
Á C
otras alternativas para identificar a estos usuarios. Dichas alternativas generalmente se basan
M N
E IE
métricas establecidas por las redes sociales, como el número de seguidores, de publicaciones
A E
M D
o de usuarios seguidos. Algunos de estos criterios no son tan relevantes, por lo que tienden a
Y A
Existen algunas herramientas online a las que recurren las compañı́as, tales como Follo-
O
LI
werwonk, Kloud, Kred, BuzzSumo, TweetReach, las cuales poseen criterios de detección de
IB
dichos servicios son confiables o no, además, el uso de estas herramientas generalmente tie-
ne un costo monetario alto. Todo esto ocasiona que las compañı́as tengan que realizar una
considerable inversión económica para viralizar sus productos, limitando ası́, la capacidad de
viralización que podrı́an conseguir eligiendo un Influencer ideal, para el producto o servicio
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
En la actualidad, las redes sociales son uno de los medios más importantes en los cuales
las compañı́as invierten para campañas de marketing viral, principalmente por la cantidad de
usuarios que poseen y la manera constante en que éstos interactúan, lo cual permite llegar
S
a las personas de manera masiva, agresiva y rápida. Entre los usuarios que son parte de las
A
redes sociales destacan los llamados Influencers, aquellos que debido a su popularidad poseen
IC
S
un alto grado de influencia o persuasión sobre los demás, lo cual los convierte, junto con los
S FÍ
posibles clientes, en actores principales de las campañas de marketing viral, pues son ellos
A S
IC A
quienes facilitarán la difusión y modificarán el comportamiento adquisitivo de sus seguidores.
T I
Á C
Con lo descrito, las razones que motivan el desarrollo de la presente Tesis son las siguientes:
M N
E IE
Para una compañı́a, detectar al Influencer ideal para realizar sus campañas de marketing
T C
es muy importante, pues significará una mayor posibilidad de alcanzar los objetivos que
A E
M D
Las compañı́as suelen invertir en los Influencers recomendados por entes o personas ex-
E
T
capacidad de viralización que podrı́a conseguir una compañı́a con los Influencers idea-
B
les. Es necesario contar con un conjunto de métricas de influencia más confiable, que
Los servicios online existentes para el cálculo de un score (puntuación) de influencia para
un usuario en redes sociales, además de ser costosos, actúan como una caja negra para sus
clientes, pues no detallan bajo qué criterios está siendo evaluado cada usuario de la red
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
social. Hace falta un método no solo menos costoso, sino también más transparente, para
que los interesados en detectar Influencers puedan conseguir los usuarios más adecuados.
S
A
necesario conocer de qué maneras es posible hacer una recolección de estos datos.
IC
Aunque existe literatura sobre qué métricas considerar para determinar el grado de in-
S
S FÍ
fluencia de un usuario en una red social, destaca la ausencia de un marco de trabajo que
A S
permita desarrollar dicho proceso desde un punto muy básico.
IC A
T I
Á C
M N
E IE
1.3. Hipótesis
IB
B
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
1.4. Objetivos
1.4.1. General
Influencers en Twitter.
S
A
1.4.2. Especı́ficos
IC
S
a) Recopilar los criterios de detección de Influencers propuestos por investigaciones reali-
S FÍ
zadas anteriormente.
A S
IC A
T I
b) Desarrollar un modelo algorı́tmico basado en los criterios recopilados para rankear a los
Á C
M N
d) Describir cómo usar el modelo algorı́tmico propuesto sobre dichos datos, considerando
Y A
su preprocesamiento.
C
E
T
Capı́tulo 1 se describen aspectos generales del trabajo como la realidad problemática, hipóte-
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Twitter, sus fases y subfases, y los algoritmos que deben ser usados en la misma. En el Capı́tu-
lo 4 se plantea un caso de estudio relacionado con el caso Lava Jato (Odebrecht) en Perú, y
S
se obtienen, a través de la metodologı́a propuesta, un ranking de influencia de los usuarios
A
IC
que se expresan en dicha red social en relación a ese caso. Además, se analizan en términos
S
de su complejidad algorı́tmica, los algoritmos que son parte de la metodologı́a propuesta.
S FÍ
En el Capı́tulo 5 se describen las conclusiones y se proponen algunos trabajos futuros que
A S
IC A
pueden surgir a partir de la presente investigación. Finalmente son presentadas las referencias
T I
Á C
M N
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Capı́tulo 2
S
Materiales y Métodos
A
IC
S
S FÍ
2.1. Marco Teórico
A S
2.1.1. Redes Sociales
IC A
T I
Á C
M N
Boyd & Ellison (2007) definen a las redes sociales como servicios web que permiten a los
E IE
usuarios construir un perfil público o semi-público, establecer un conjunto de enlaces con otros
T C
A E
usuarios, ası́ como ver y recorrer las conexiones propias y las de los demás dentro del propio
M D
servicio web.
Y A
C
Estas caracterı́sticas que describen los autores se han mantenido hasta la actualidad, con
E
T
La Figura 2.1.1 presenta un diagrama de barras que representa visualmente las redes
IB
sociales más usadas actualmente, entre las cuales se encuentra la red social Twitter, sobre la
B
2.1.1.1. Twitter
Twitter es una red social que hasta enero de 2019 cuenta con alrededor de 326 millones
de usuarios activos diariamente (Salinas, 2018), con un promedio de 500 millones de tweets
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
En Twitter, las relaciones entre usuarios son del tipo seguidor y seguido, ésto permite que
LI
IB
existan relaciones unidireccionales. Cada usuario posee un perfil que puede ser público o no,
B
lo cual garantiza que el acceso a la información y publicaciones de dicho usuario, pueda ser
restringido para ser visto por sus seguidores únicamente. Las publicaciones que un usuario
en Twitter realiza son llamados tweets, estas publicaciones pueden ser compartidas por otros
Esta red social permite que las personas expresen sus emociones y pensamientos sobre
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
eventos diversos, tal es el caso de las marcas o productos a los que ellos acceden o adquieren.
Sin embargo, las publicaciones que se realizan en este medio están limitadas a un tamaño
máximo de 280 caracteres, lo cual fuerza a que los usuarios expongan sus ideas de la manera
más sucinta posible, permitiendo que cada publicación tenga un significado en sı́ misma sin
S
A
Todas estas caracterı́sticas hacen que Twitter sea un medio sobre el cual puedan ser rea-
IC
lizados diversos análisis con el fin de encontrar información que, con métodos triviales, no
S
S FÍ
podrı́a ser percibida.
A S
IC A
2.1.2. Marketing Viral
T I
Á C
M N
“El marketing viral describe cualquier estrategia que aliente a las personas a transmitir
E IE
T C
posición e influencia del mensaje.”(Wilson, 2000). Bajo esta definición, se puede afirmar que
M D
el marketing viral funciona como un virus que se transmite de persona en persona con un
Y A
C
Con la aparición y auge de las redes sociales, el marketing viral ha ido poniéndose en prácti-
LI
ca de manera más recurrente por las diversas compañı́as en Internet. Esta forma de marketing
IB
B
las campañas de marketing viral realizadas en el 2018: Amazon con su comercial “Alexa loses
Doritos en el Super Bowl que tenı́a como protagonistas a los actores Peter Dinklage y Morgan
Freeman, campañas que, aunque no fueron orientadas a un público como el peruano, consi-
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
guieron llegar hasta nuestro mercado y aumentar la exposición a los productos, demostrando
Una versión más moderna del marketing viral, es el ahora llamado Marketing de Influen-
cers, dicha forma de marketing recurre a los llamados “Influencers” para que sean ellos los
S
A
IC
2.1.2.1. Influencia social e Influencers
S
S FÍ
“La influencia social es el efecto que las personas tienen sobre las creencias o conductas de
A S
los demás.”(Aronson, 2004)
IC A
T I
Á C
Kelman (1958) define tres variedades de influencia social: conformidad, identificación e
M N
E IE
internalización. La primera se refiere a fingir estar de acuerdo con otras personas pero en
T C
realidad ocultar las opiniones que son distintas, la segunda se refiere a las personas que
A E
son influenciadas por alguien que es querido y respetado, como las celebridades famosas, y
M D
Y A
la tercera tiene que ver con las personas que aceptan creencias o comportamientos y están
C
E
totalmente de acuerdo con los demás. Es, precisamente, la segunda variedad de influencia
T
O
social, la identificación, aquella que es explotada por las campañas de marketing viral a
LI
“Los Influencers de las redes sociales, representan un nuevo tipo de patrocinador indepen-
diente que define las actitudes de la audiencia a través de blogs, tweets y el uso de otras redes
En base a esto, se concluye que los Influencers son aquellos que, haciendo uso de la in-
fluencia social que poseen, ejecutan las campañas de marketing viral en redes sociales.
10
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
de modelos computacionales que permiten la detección de patrones en grandes conjuntos
A
IC
de datos. Esta área es parte de un proceso mayor de descubrimiento de conocimiento en
S
conjuntos de datos, el cual comprende las siguientes etapas fundamentales (Silwattananusarn
S FÍ
& Tuamsuk, 2012):
A S
IC A
T I
Selección: obtener los datos relevantes al análisis
Á C
M N
de datos.
C
E
La minerı́a de datos es aplicada sobre diversas áreas, dentro de las cuales se encuentran
las redes sociales. Esta aplicación se realiza con el fin de analizar los datos que éstas possen.
11
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
“El análisis de redes sociales (SNA), el cual se centra en descubrir el patrón de
A
IC
interacción de las personas, ha sido una área de gran impacto en los últimos años
S
S FÍ
como consecuencia de la aparición de servicios de redes sociales, como Facebook
A S
o Twitter. Sin embargo, las técnicas de SNA no solo se concentran en las redes
IC A
sociales, sino que también se centran en otros campos, como el marketing (redes de
T I
Á C
M N
Una de las aplicaciones principales del Análisis de Redes Sociales, está orientada a la
A E
M D
red social. Estos contextos pueden ser temas de interés de los usuarios o la región geográfica
en que se ubican.
es asumir que un Influencer es aquel usuario que posee un mayor número de seguidores,
estudios como los de Mehta et al. (2012), Pal & Counts (2011), Razis & Anagnostopoulos
12
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
(2014) y Bigonha et al. (2010), han demostrado que dicha afirmación no es del todo correcta,
pues existen otros factores que también deben ser tomados en cuenta para determinar el grado
de influencia de un usuario.
Debido a que cada red social posee sus propias caracterı́sticas, mecánicas y objetivos, la
detección de Influencers debe ajustarse a donde vaya a ser aplicada, lo cual significa que
S
A
existen diversas métricas de influencia para cada una.
IC
S
2.1.4.1. Métricas de Influencia en Twitter
S FÍ
A S
Existen varios criterios y métricas para determinar la influencia de un usuario en Twit-
IC A
ter. Mei et al. (2015), describen las siguientes caracterı́sticas candidatas a ser métricas de
T I
Á C
M N
influencia:
E IE
T C
La proporción que existe entre el número acciones que recibe un usuario frente al número
Y A
de tweets que escribe. Las acciones incluyen retweets y menciones que pueda recibir dicho
C
E
usuario. Esta caracterı́stica permite identificar qué usuarios generan más acciones con una
T
O
El número de meses desde que la cuenta fue creada. Esta métrica existe bajo la suposi-
ción de que un usuario que posee más tiempo con una cuenta creada en Twitter, tiene más
13
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
seguidos) que posee el usuario. “Si el FF ratio se aproxima a 1, es más probable que el usuario
también siga a sus seguidores. Si el FF ratio se aproxima a 0 se puede considerar que dicho
S
A
IC
Nuevos seguidores
S
La cantidad de seguidores nuevos que posee un usuario dentro de un periodo de tiempo
S FÍ
A S
determinado. Este indicador permite identificar si dicho usuario está ganando o perdiendo
seguidores.
IC A
T I
Á C
M N
Nuevas menciones
E IE
T C
Nuevos retweets
O
LI
El número de retweets que el usuario recibe dentro de un periodo de tiempo. Se cree que
IB
un retweet indica que otro usuario ha sido influenciado, ya sea positiva o negativamente, por
B
Nuevos tweets
14
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Número de seguidores
El número total de seguidores que el usuario posee. Mientras mayor sea el número de
S
Las listas de Twitter permiten que un usuario agrupe a otras cuentas de la red social
A
IC
según criterios de su interés, por ejemplo, una lista de tecnologı́a que cuenta con usuarios que
S
generalmente realizan tweets sobre tecnologı́a.
S FÍ
A S
Esta métrica se refiere al Número de listas públicas de Twitter, de las cuales el usuario es
IC A
T I
Á C
parte. Ser parte de las listas de otros, indica que el usuario es conocido y que la gente muestra
M N
E IE
interés en él.
T C
Número de tweets
A E
M D
Verificado
T
O
Todas estas caracterı́sticas candidatas que se describen en Mei et al. (2015), fueron pues-
recopilaron los datos referidos a las métricas candidatas y empezaron realizando un análisis
de correlación (Pearson Correlation Analysis) entre las distintas métricas para determinar
15
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
aquellas que poseen una alta dependencia mutua, resultando los ‘Nuevos retweets’, las ‘Nue-
análisis siguiente que realizan los autores, el cual fue un análisis de Entropı́a, donde calcularon
el peso de la entropı́a de cada métrica, según su investigación, una métrica que posea una
S
alta entropı́a a comparación de las demás, contribuye con mayor información para el conjunto
A
IC
de datos. Se detectó que la ‘Proporción acciones-tweets’ otorga casi el 30 % de la información
S
para el conjunto de datos, mientras que la ‘Edad de la cuenta en Twitter’ es la que tiene una
S FÍ
menor contribución de información con un 1.2 % y las demás métricas contribuyen todas por
A S
IC A
igual. Finalmente, los autores, tomaron cuatro servicios online para la detección de Influencers
T I
Á C
M N
Rank Correlation Analysis RCA) para descubrir cuáles de las métricas propuestas son más
A E
M D
importantes para conseguir los resultados que se obtienen usando dichos servicios. La Tabla
Y A
C
2.1 muestra el resultado de todo este proceso, donde se listan las tres métricas más impor-
E
tantes para cada servicio de puntuación de influencia, ordenadas en base a la relevancia que
T
O
Tabla 2.1: Las 3 métricas más usadas por cada uno de los servicios de puntuación de influencia
B
16
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
este calibre, el objeto principal de análisis es el conjunto de datos, dicho conjunto deberá ser
S
A
IC
2.1.5.1. Integración de datos basada en API’s
S
Algunos sitios web en internet, proveen de servicios a los desarrolladores, para que éstos
S FÍ
A S
puedan hacer un seguimiento o análisis sobre los datos que fluyen por dichos sitios. Estos
IC A
servicios son presentados a través de una API (Application Programming Interface), la cual
T I
Á C
M N
permite que los sitios web compartan sus datos con los usuarios en general. La principal
E IE
ventaja de esta técnica es el hecho de que al ser servicios desarrollados con fines especı́ficos,
T C
la velocidad es bastante óptima. Sin embargo, existe una desventaja muy considerable, las
A E
M D
decisiones acerca de qué datos serán compartidos y el número de solicitudes al servicio que un
Y A
C
usuario puede hacer, quedan estrictamente definidas por los sitios web, ocasionando que los
E
T
análisis posibles de los datos sean limitados en cuanto a los aspectos que se podrı́an abordar
O
que no sea un programa interactuando con una API (a través de un humano usando
que consulte a un servidor web, solicite datos (usualmente en forma de HTML y otros
17
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
archivos que están relacionados con páginas web) y luego analice gramaticalmente
esos datos para extraer la información que se necesita. (Mitchell, 2015, p. vii)
La ventaja fundamental del Web Scraping reside en el hecho de que es posible obtener
todos los datos que existan en los archivos fuente de las páginas web, de esta forma no hay
S
una limitación en la cantidad de información que puede ser obtenida (siempre y cuando sea
A
IC
parte de dichos archivos) y tampoco existe un lı́mite de consultas que pueden ser realizadas.
S
Sin embargo, este proceso puede ser lento, la información que se busca recoger puede estar
S FÍ
inmersa entre los archivos, por lo que debe ser buscada, a diferencia de una API donde la
A S
IC A
información es entregada directamente por un servidor del sitio web sin tener que realizar una
T I
Á C
búsqueda.
M N
E IE
T C
A E
M D
Para cumplir con los objetivos propuestos, la investigación se desarrolló en base a las
E
siguientes etapas:
T
O
LI
18
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
X→O
IC
S
Donde:
S FÍ
X: Aplicación de la metodologı́a basada en Minerı́a de Datos
A S
IC A
T I
O: Detección de usuarios Influencers en Twitter.
Á C
M N
E IE
2.2.2. Universo
T C
2.2.3. Población
C
E
2.2.4. Muestra
IB
estadı́sticas básicas de los mismos, de aquellos usuarios de Twitter que estaban localizados en
Perú y que habı́an realizado algún tipo de interacción en la red social, en la cual se expresaban
sobre el caso Lava Jato (Odebrecht) entre los meses de enero hasta marzo de 2019.
19
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Capı́tulo 3
S
Metolodogı́a para la Detección de
A
IC
S
Influencers en Twitter
S FÍ
A S
IC A
T I
La presente metodologı́a, basada en las etapas del proceso de Minerı́a de Datos, involucra
Á C
M N
Twitter.
A E
M D
La fase inicial de esta metodologı́a está orientada a obtener un conjunto de usuarios sobre
T
O
los cuales pueda ser calculado su grado de influencia. Este procedimiento resulta fundamental
LI
previo de usuarios candidatos sobre los cuales se desee calcular esta caracterı́stica. No obstante,
B
existen casos en que el encargado de realizar la detección cuente con un listado de aquellos
usuarios candidatos sobre los cuales se desee realizar el análisis, en dichos casos, esta fase
20
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
el hecho de que muchas veces no se posee un conjunto de usuarios candidatos a ser Influen-
cers, por lo que inicialmente se debe realizar una exploración de los mismos. Para lo cual es
importante considerar ciertos aspectos de manera temprana a fin de que sean tomados en
cuenta en los pasos siguientes. Previo a la definición de estos criterios, es necesario destacar
que existen dos métodos fundamentales para obtener datos de Twitter, las API s (de Twitter
S
o terceros) y el Web Scraping (a través de librerı́as de terceros), cada uno con sus ventajas
A
IC
y desventajas. Al realizar esta fase, es crucial conocer a través de qué método se realizará
S
la obtención de datos, para definir apropiadamente el alcance de la búsqueda de usuarios
S FÍ
candidatos a Influencers.
A S
IC A
T I
Á C
Debido al hecho de que realizar esta búsqueda no es un proceso trivial, esta fase cuenta
M N
Se deben definir ciertos criterios que servirán para realizar la búsqueda de usuarios can-
Y A
C
tweets posibles para, luego de realizados ciertos procesos de selección de datos, determinar
O
LI
los posibles usuarios Influencers a ser analizados. Los criterios que deberán ser definidos son:
IB
Idioma, Fecha del tweet más antiguo, Fecha del tweet más reciente, Tópico de búsqueda, Zona
B
Idioma
21
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
La fecha que debe tener el tweet más reciente, idealmente deberı́a ser al menos un dı́a antes
S
A
IC
Este criterio se refiere a la fecha más antigua sobre la cual debe realizar la recopilación
S
de los tweets, se recomienda que sea por lo menos tres meses antes de la fecha del tweet más
S FÍ
reciente.
A S
IC A
Tópico de búsqueda
T I
Á C
M N
Este criterio hace referencia al tópico en común sobre el cual deberán estarse refiriendo
E IE
T C
los tweets, de esta forma se orienta la búsqueda hacia usuarios que realicen tweets sobre
A E
de Influencers. Este criterio puede ser omitido en los casos en que no se desee realizar una
Y A
C
búsqueda basada en tópicos, sino simplemente en una Zona Geográfica, no obstante, esta
E
T
Zona Geográfica.
IB
Zona Geográfica
B
La Zona Geográfica sobre la cual se desea obtener Influencers, puede ser un paı́s, una
ciudad, etc. Es importante tener en cuenta que, mientras más grande sea la Zona Geográfica
22
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
La forma de determinar la Zona Geográfica es un criterio fundamental que debe ser decidido
lo más antes posible para poder tener una mejor idea del número de usuarios candidatos al
que se puede llegar. Esta metodologı́a plantea dos métodos posibles, el primero es usar la
posición GPS de la Zona Geográfica a cubrir y el segundo es realizar una búsqueda textual
S
A
de la Zona Geográfica en los tweets de los usuarios candidatos.
IC
S
El uso de la posición GPS, aunque puede ser considerado el método más fiable para realizar
S FÍ
la búsqueda de usuarios candidatos a Influencers, no siempre lleva a grandes resultados,
A S
IC A
pues, para poder alcanzar los tweets de usuarios basados dicha posición, éstos deben haberle
T I
Á C
permitido a Twitter que obtenga las coordenadas automáticamente usando sus dipositivos,
M N
E IE
dicho permiso es pocas veces otorgado y conlleva a depender del mismo, lo cual pueden incurrir
T C
Por otra parte, se puede incluir dentro del tópico de búsqueda definido, el nombre de
Y A
C
la Zona Geográfica sobre la cual se desea obtener los tweets, sin embargo, esto hace que la
E
T
recopilación de tweets sea un proceso más tedioso. No obstante, es más probable que un usuario
O
LI
que se encuentra en una Zona Geográfica determinada tuitee en alguna de sus publicaciones
IB
Una vez determinados todos estos criterios claramente, es posible continuar con la siguiente
etapa.
23
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Considerando los criterios definidos anteriormente, se debe realizar una búsqueda de tweets
a través de la técnica de recopilación de datos que se haya escogido (API o Web Scraping).
En el caso de usar una API, ya sea usando la API de Twitter o alguna de terceros, los
S
criterios que se definieron en el paso anterior deberán ser considerados como parámetros de
A
IC
la consulta que será realizada:
S
Idioma
S FÍ
A S
Fecha de Inicio
IC A
T I
Á C
Fecha de Fin
M N
E IE
Consulta
T C
Zona Geográfica
A E
M D
podrı́a contener también el nombre de la Zona Geográfica, de acuerdo a como se haya decidido
E
T
determinar la Zona Geográfica de los tweets a recopilar. Asimismo, la Zona Geográfica puede
O
ser un parámetro en caso de que sea usada la posición GPS para poder determinarla.
LI
IB
Por otro lado, en el caso del Web Scraping, se deberá considerar como parámetro el Idioma
B
de los tweets, las fechas de inicio y de fin de la búsqueda, la Zona Geográfica en caso se
desee usar una consulta basada en la posición GPS y necesariamente también deberá pasarse
el parámetro Consulta, el cual deberá ser construido en base a los tópicos de búsqueda,
24
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Los tweets recopilados serán almacenados en archivos de fácil procesamiento, como JSON
o CSV.
Muchos de los tweets recopilados en la etapa anterior, deberán ser descartados, pues
S
podrı́an estar incumpliendo con los criterios de búsqueda. En este paso se realiza un filtrado
A
IC
usando un algoritmo para analizar los tweets y también un descarte manual, para eliminar
S
los tweets que semánticamente no cumplan con los criterios de interés de quien realiza la
S FÍ
metodologı́a.
A S
Filtrado
IC A
T I
Á C
M N
El primer filtrado que se debe realizar al conjunto de tweets involucra definir un parámetro
E IE
llamado número mı́nimo de interacciones, que está relacionado al número mı́nimo de retweets,
T C
A E
respuestas y ”me gusta”, todos sumados, que deberı́a tener un tweet. El valor de dicho paráme-
M D
tro, funcionará como un threshold, todos los tweets que cuenten con un total de interacciones
Y A
C
menor al especificado, serán descartados del conjunto de tweets. Asimismo, serán descartados
E
T
los tweets que pertenezcan a un mismo usuario, preservando solamente uno, el que tenga un
O
LI
mayor número de interacciones. Además, los tweets serán agrupados por localidad y lugar,
IB
hacer más sencillo el descarte manual posterior. Este filtrado se encuentra descrito a través
del Algoritmo 1.
Una vez realizado este filtrado, se debe proceder con el descarte manual de los tweets
restantes.
25
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
tweets.agrupar(columnas = localidad, lugar)
A
tweets.ordenarDescendentemente(columna = interacciones)
end procedure
IC
S
3.1.4. Descarte Manual
S FÍ
A S
El conjunto de tweets post filtrado en la mayorı́a de los casos se debe haber reducido con-
IC A
T I
siderablemente, dejando solo los tweets que cumplan los criterios especificados inicialmente.
Á C
M N
Sin embargo, aún pueden existir, dentro del conjunto, tweets que semánticamente no con-
E IE
cuerden con lo que se especificó como tópico en común que debı́an poseer o también existe la
T C
A E
posibilidad de que existan tweets cuyos usuarios son empresas o negocios que buscan mejorar
M D
en caso de obtener una puntuación de influencia alta posteriormente. Son muchos los criterios
E
T
que pueden ser tomados para descartar tweets, por tal motivo, debido a la complejidad de
O
LI
esta tarea, debe ser realizada manualmente y no a través de un programa pues requerirı́a un
IB
El descarte manual es un proceso muy valioso, a pesar de que puede ser omitido, porque
permite reducir el tiempo que será tomado para calcular la puntuación de influencia que
26
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Una vez acabado el descarte manual, finalmente quedarán dentro del conjunto de tweets,
aquellos que cumplan con todos los criterios que se establecieron. Los usuarios, autores de
estos tweets, son los candidatos a Influencers, en este paso se realiza una selección de los
nombres de usuario de dichos candidatos a partir de los tweets que quedaron post filtrado y
S
A
descarte, para finalmente pasar a la siguiente fase dentro de la metodologı́a.
IC
S
Para obtener el listado de usuarios candidatos, simplemente se construirá un nuevo archivo
S FÍ
(CSV o JSON), siguiendo el procedimiento descrito en el Algoritmo 2.
A S
IC A
T I
Á C
Algoritmo 2 Algoritmo para obtener los candidatos a Influencers
M N
procedure obtenerCandidatos(tweets)
candidatos = N U LL // este archivo contendrá los nombres de usuario de los candidatos
E IE
end for
end procedure
A E
M D
Y A
C
Una vez obtenidos los candidatos a Influencers, se puede pasar a la fase siguiente para
E
T
usuarios candidatos a Influencers o simplemente usuarios de los cuales se desea conocer dicha
caracterı́stica.
Para realizar este cálculo, se usan una serie de datos o métricas de influencia de cada uno
27
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
de los usuarios, los cuales serán utilizados dentro de una fórmula para obtener la puntuación
de influencia final. Las métricas a obtener de cada usuario son las siguientes:
Nuevas menciones
S
Nuevos retweets
A
IC
AT Ratio
S
S FÍ
Número de seguidores
A S
IC A
Es importante destacar que estas métricas son las que, según Mei et al. (2015) son consi-
T I
Á C
deradas más relevantes por los sitios más reconocidos de puntuación de influencia en Twitter,
M N
E IE
Este procedimiento puede realizarse tanto usando alguna API o también a través de Web
Y A
C
Scraping. Algunas de las métricas como las Nuevas menciones, Nuevos retweets y AT Ratio
E
T
deben de recogerse en un lapso de tiempo especı́fico para todos los usuarios, siendo recomen-
O
LI
dado 2 meses como mı́nimo, sin embargo, ésto puede modificarse a criterio de quien realiza
IB
este proceso, aunque es importante destacar el hecho de que mientras mayor sea este lapso,
B
más certera será la métrica, a pesar de que tomará más tiempo obtenerla.
Una vez realizado este procedimiento, se procede a la parte fundamental dentro de esta
28
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Con todos los usuarios y sus correspondientes métricas obtenidas, se debe proceder a
realizar el cálculo para determinar la puntuación de influencia de cada uno de éstos, para lo
cual se emplea una fórmula propuesta dentro de esta metodologı́a y que será presentada más
adelante. Dentro de dicha fórmula, cada una de las métricas es ponderada de acuerdo al orden
S
A
en que aparece en la tabla 2.1.
IC
S
En Mei et al. (2015), fue obtenido un grado de autoridad para cada métrica cuando es
S FÍ
aplicada en los distintos servicios de detección de Influencers, los autores ordenaron dichas
A S
IC A
métricas de acuerdo a ese grado de autoridad. Dado que la autoridad varı́a de acuerdo a cada
T I
Á C
métrica, ésta debe ser respetada a la hora de otorgar una ponderación, en ese sentido: las
M N
E IE
total para una métrica es la suma de todos los puntos de ponderación que le corresponden a
Y A
dicha métrica de acuerdo a las posiciones en las que se encuentra. Finalmente, los factores de
C
E
Métrica Ponderación
B
Nuevas Menciones 10
Número de listas públicas 7
Nuevos retweets 5
AT Ratio 1
Número de seguidores 1
Una vez definidos dichos coeficientes, la Ecuación 3.1 permite obtener la puntuación de
29
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Donde:
S
A
A es igual a 10, el coeficiente determinado para el total de menciones.
IC
S
B es igual a 7, el coeficiente determinado para las listas públicas.
S FÍ
C es igual a 5, coeficiente determinado para el número de retweets.
A S
IC A
T I
Á C
Algo opcional, pero importante en caso lo que se desee es obtener una puntuación de
M N
E IE
x − min(x)
Y A
Donde:
T
O
LI
cada usuario basada en sus métricas y ordenar la lista de usuarios de acuerdo a esta nueva
30
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
end for
A
min ← usuarios.obtenerM enor(columna = inf luencia)
max ← usuarios.obtenerM ayor(columna = inf luencia)
IC
for each usuario ∈ usuarios do
usuario[inf luencia normalizada] ← (usuario[inf luencia] − min)/(max − min) ∗ 100
S
end for
S FÍ
usuarios.ordenarDescendentemente(columna = inf luencia)
end procedure
A S
IC A
Producto de la ejecución del Algoritmo 3, se obtiene un listado de los usuarios ordenados
T I
Á C
en base a su puntuación de influencia, es decir, el ranking de usuarios. Finalmente, solo
M N
E IE
resta mostrar visualmente dicho ranking, por lo que es realizada la fase que se describe a
T C
continuación.
A E
M D
Y A
análisis del ranking de usuarios en base a su puntuación de influencia. Para poder analizar de
LI
IB
utilizar una representación gráfica, en este caso, al ser datos unidimensionales, es decir, datos
que poseen una sola variable de interés (la puntuación de influencia), el gráfico ideal es el de
barras. A través de este gráfico será posible notar la diferencia que presentan las puntuaciones
de influencia de los usuarios y de ésta manera la persona que esté ejecutando la metodologı́a
31
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Capı́tulo 4
S
Resultados y Discusión de la tesis
A
IC
S
S FÍ
Caso de Estudio: Lava Jato (Odebrecht) Perú
A S
IC A
El caso Lava Jato es el caso de corrupción más grande en el Perú y uno de los más grandes
T I
Á C
M N
en América Latina; en este caso se encuentran involucrados los cuatro últimos ex presidentes
E IE
nes son sospechosos de haber recibido sobornos por parte de la empresa brasileña Odebrecht.
A E
M D
Debido a la alta popularidad que poseen los investigados, el caso Lava Jato es uno de los
Y A
C
más difundidos en redes sociales, por esta razón la metodologı́a propuesta en este trabajo de
E
T
investigación será ejecutada para obtener el ranking de los usuarios más influyentes que se
O
La Figura 4.1 presenta de manera visual la secuencia de pasos que plantea la metodologı́a
B
Ejecución de la Metodologı́a
es determinar qué usuarios poseen un alto grado de influencia sobre la población, teniendo
32
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
como referencia al caso Lava Jato en Perú. Para lo cual, fueron recolectados tweets desde el
A E
candidatos, sin embargo, no siempre se cuenta con la misma, por lo que en este caso de estudio
T
O
Para la recolección de los tweets, fueron escogidos tanto el Web Scraping (a través de la
B
librerı́a Twint) como el uso de la API Tweepy. Para definir el alcance de la búsqueda, se
Idioma: Español
33
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
(“Perú” o “peruano” o “peruana”)
A
IC
S
A continuación se recopilaron los tweets usando la librerı́a Twint para realizar el Web
S FÍ
Scraping, con el parámetro consulta definido de la siguiente manera:
A S
IC A
Consulta: (“Odebrecht” OR “Lava Jato) AND (“Perú” OR “peruano” OR “peruana”)
T I
Á C
M N
En total, fueron recopilados 19,944 tweets de 7,121 usuarios distintos. Este conjunto de
E IE
datos fue almacenado en un archivo de extensión CSV: ‘tweets.csv’. La Figura 4.2 presenta
T C
De esta manera, desde el primer paso de la metodologı́a, se contaba con una muestra:
C
E
Sobre la cual serı́a aplicada toda la metodologı́a basada en Minerı́a de Datos, con el fin de
LI
IB
El siguiente paso realizado fue el filtrado automático de los tweets recopilados, para lo
cual se definió un lı́mite de 200 interaccions mı́nimas para no ser descartado del conjunto.
Se definió el valor de 200 debido a que luego de ejecutar diversas pruebas con otros valores,
éste resultó ser el valor más alto que concentraba una cantidad de tweets considerable para
realizar el descarte manual. Además debido a la magnitud y popularidad del caso Lava Jato,
34
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
Figura 4.2: Subconjunto de tweets recopilados sobre el Caso Lava Jato (Odebrecht) Perú
Fuente: Elaboración propia
A S
IC A
un tweet de algún Influencer, probablemente tendrı́a un vasto número de interacciones. Una
T I
Á C
M N
vez realizado el filtrado automático y eliminados también los tweets de usuarios duplicados,
E IE
Posteriormente fue realizado el descarte manual, del cual resultaron 156 tweets, es decir, el
M D
Y A
0.78 % del conjunto original. De dicho conjunto fueron obtenidos los nombres de los usuarios,
C
resultando el conjunto de usuarios candidatos, el cual puede ser visto en la Figura 4.3.
E
T
O
las métricas de influencia de cada uno. Para esto, se recopilaron todos los tweets publicados
IB
por cada candidato y también todos aquellos en que el candidato haya sido mencionado, entre
B
las fechas 01-01-2019 y 01-03-2019. A partir de dichos tweets y sus métricas correspondientes
(número de retweets, número de likes, etc.), fueron calculadas las métricas de influencia de
Las Nuevas Menciones de cada usuario fueron calculadas contando el total de tweets
35
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
Figura 4.3: Conjunto de usuarios candidatos a Influencers, caso Lava Jato Perú
M N
La cantidad de retweets nuevos se calculó a través de la suma de los retweets que reci-
M D
El AT Ratio fue obtenido a través de la división entre: la suma de las menciones y total
T
O
El número de seguidores fue obtenido directamente del perfil del usuario en Twitter.
IB
B
El número de listas públicas a las que el usuario pertenecı́a fue obtenida usando la API
Tweepy, ya que dichas listas estaban dispersas entre diversos perfiles de usuarios, una
opción más rápida era recurrir a una API intermedia que se conecte con el servicio de
Una vez obtenidos los valores de cada una de las métricas, fue calculada la puntuación
36
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
de usuarios más influyentes. En la Figura 4.4, pueden ser vistos los 15 usuarios con mayor
puntuación de influencia dentro del conjunto de usuarios candidatos, además de los valores
de las métricas obtenidas para cada uno. En dicha lista se puede identificar que, a pesar de
ser solamente 15 de los 156 usuarios candidatos, la diferencia que existe entre la puntuación
S
de influencia del usuario en el primer lugar y el del número 15 es considerable, lo cual puede
A
IC
indicar que la cantidad de usuarios con puntuación de influencia muy alta dentro de dicho
S
conjunto, es bastante pequeña.
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
Finalmente, fue realizado el gráfico de barras de la Figura 4.5, donde se muestra el ranking
IB
B
gráfico, los usuarios fueron agrupados a través del color de cada barra, en base a la posición
que poseı́an dentro de la lista ordenada de candidatos, el primer grupo contiene a los usuarios
entre los 10 primeros lugares, el segundo a aquellos que se encuentran entre el puesto 11 y 50
del conjunto y el tercer y cuarto grupo, a aquellos usuarios entre los puestos 51 al 100 y 101
37
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
al 156 respectivamente.
Se puede notar en la Figura 4.5 que los dos usuarios más influyentes poseen una gran
diferencia sobre los demás, también es posible identificar la estrepitosa caı́da de la puntuación
de influencia a partir del usuario número 5. Una caracterı́stica en común que poseı́an los dos
usuarios con mayor puntuación de influencia (canaln y rmapalacios), es que ambos estaban
S
A
relacionados al periodismo. canaln es el usuario en Twitter del medio televisivo peruano
IC
“Canal N”, el cual está orientado exclusivamente a la transmisión de noticias. Asimismo,
S
S FÍ
rmapalacios es el nombre de usuario de la periodista Rosa Marı́a Palacios, muy conocida en
A S
medios peruanos gracias al programa que ella conduce y que se emite por internet llamado
IC A
T I
Á C
“Sin Guión”, donde diariamente comenta durante diez minutos, las noticias más destacadas
M N
de la actualidad polı́tica del paı́s. Es importante destacar que rmapalacios, a pesar de ser una
E IE
T C
persona y no una compañı́a, cuenta con una puntación de influencia muy alta y muy cercana
A E
a la de canaln , lo cual tiene que ver con la alta interacción que mantiene esta periodista
M D
Y A
con sus seguidores en Twitter. Distinto es el caso de canaln , que, al tratarse de la cuenta
C
de un medio televisivo en Twitter, no interactúa con sus seguidores, sin embargo, sı́ realiza
E
T
publicaciones de manera constante, las cuales son usualmente retweeteadas y mencionadas por
O
LI
los mismos, lo cual permite que dicho usuario posea una puntuación de influencia tan alta.
IB
B
38
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
39
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
manera fáctica, por qué un usuario de Twitter es considerado Influencer. No sucede lo mismo
S
con las encuestas o las recomendaciones voz a voz que son comúnmente publicadas en Internet,
A
ya que éstas presentan dos grandes sesgos: la dificultad que existe por parte de las personas
IC
S
para realizar un análisis objetivo, ignorando la afinidad que presentan respecto a los usuarios
S FÍ
de Twitter, además del desconocimiento que existe sobre la diferencia entre “popularidad” e
A S
IC A
“influencia”de un usuario en una red social.
T I
Á C
M N
La metodologı́a propuesta parte de un punto muy básico, para poder ser ejecutada solo
E IE
basta con conocer el tema sobre el cual se desea detectar a los usuarios más influyentes. Esto
T C
A E
permite que nuevas propuestas para la detección de Influencers puedan ser acopladas a la
M D
La recolección de datos de Twitter es la tarea que más tiempo demanda durante la ejecución
T
O
de la metodologı́a propuesta. Escoger una manera de abordar este problema, ya sea con
LI
técnicas como Web Scraping o usando APIs, es muy importante, pues determinará el tiempo
IB
de cada tweet pues consiste en analizar una cantidad considerable de los mismos, por lo que
termina siendo una tarea laboriosa. Debido a la importancia que tiene en la recopilación de
40
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
en cuenta por un humano a la hora de realizar este descarte, este paso, a diferencia de los
ta, con las puntuaciones de influencia que presentan los servicios actuales que existen con el fin
S
A
puntuación. Cada servicio hace uso de diversas métricas que, a su criterio, son consideradas
IC
válidas para calcular de manera correcta dicha puntuación. Con la diferencia de que, en la
S
S FÍ
presente tesis, se están describiendo las métricas bajo las cuales dicha puntuación está siendo
A S
determinada.
IC A
T I
Á C
M N
La metodologı́a propuesta en esta investigación, presenta tres algoritmos que son usados
A E
M D
para obtener los resultados deseados, a continuación serán expuestas las complejidades de los
Y A
mismos:
C
E
T
duplicados, filtra aquellos que tienen un valor de interacción menor al especificado y los ordena
IB
descendentemente en base al total de interacciones que recibieron. Dicho algoritmo posee una
B
El Algoritmo 2, que obtiene el nombre de cada usuario candidato, posee una complejidad
O(n), donde n es el total de tweets que quedaron post filtrado y descarte manual.
41
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
los ordena en base a dicha puntuación, tiene complejidad O(n log n), donde n es el total de
usuarios candidatos.
el Web Scraping o el uso de la API para la recolección de tweets y menciones para el cálculo
S
A
requieren de bastante tiempo de ejecución, no tanto por su complejidad algorı́tmica, sino más
IC
bien por la constante comunicación que debe mantener con servidores de páginas web que se
S
S FÍ
encuentran en lugares remotos y que muchas veces pueden denegar las peticiones debido a
A S
una alta saturación.
IC A
T I
Á C
Con todo lo descrito anteriormente, es posible afirmar que la metodologı́a es computacio-
M N
E IE
42
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Capı́tulo 5
S
Consideraciones Finales
A
IC
S
S FÍ
5.1. Conclusiones
A S
IC A
En este trabajo de investigación se presentó una metodologı́a para detectar usuarios In-
T I
Á C
M N
fluencers en la red social Twitter. Las conclusiones en base a los objetivos propuestos son:
E IE
T C
3. Se desarrolló un modelo algorı́tmico basado en las métricas escogidas, para obtener una
puntuación de influencia para cada usuario. De esta manera, los usuarios candidatos
fueron ordenados en base a dicha puntuación para determinar quiénes eran los usuarios
43
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
ción de influencia de los usuarios”. Ası́mismo, se propusieron el “Algoritmo para filtrado
IC
de tweets” y el “Descarte Manual”, como pasos para realizar un preprocesamiento de los
S
S FÍ
datos obtenidos de Twitter.
A S
6. La metodologı́a propuesta fue aplicada al caso de estudio Lava Jato (Odebrecht) Perú,
IC A
T I
Á C
obteniendo como resultado un ranking de usuarios en base a su puntuación de influencia
M N
Diseñar un algoritmo capaz entender de manera semántica cada tweet, para que a través
IB
Desarrollar un software que permita medir la influencia de los usuarios en redes sociales
44
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
Referencias bibliográficas
S
A
Anderson, E. W. (1998). Customer satisfaction and word of mouth. Journal of Service Research, 1(1):5–17.
IC
Aronson, E. (2004). The Social Animal. McGraw-Hill/Irwin, New York, 9 edition.
S
Bhatt, R., Chaoji, V., & Parekh, R. (2010). Predicting product adoption in large-scale social networks. CIKM
S FÍ
’10 Proceedings of the 19th ACM international conference on Information and knowledge management,
83(6):1039–1048.
A S
IC A
Bigonha, C., Cardoso, T., Moro, M., Almeida, V., & Gonçalves, M. (2010). Detecting evangelists and detractors
T I
on twitter. 18th Brazilian symposium on multimedia and the web, pages 107–114.
Á C
M N
Boyd, D. M. & Ellison, N. B. (2007). Social network sites: Definition, history, and scholarship. Journal of
E IE
Freberg, K., Graham, K., McGaughey, K., & Freberg, L. A. (2011). Who are the social media influencers? a
Garcı́a-Saiz, D., Palazuelos, C., & Zorrilla, M. (2014). Data mining and social network analysis in the edu-
cational field: An application for non-expert users. Educational Data Mining: Applications and Trends,
Y A
C
524:411–439.
E
Ghosh, S., Sharma, N., Sharma, N., Ganguly, N., & Ganguly, N. (2012). Cognos: crowdsourcing search for
T
topic experts in microblogs. SIGIR ’12 Proceedings of the 35th international ACM SIGIR conference
O
Granovetter, M. (1978). Threshold models of collective behavior. American Journal of Sociology, 83(6):1420.
IB
Han, J., Kamber, M., & Professor, J. P. (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann,
B
Kelman, H. C. (1958). Compliance, identification, and internalization three processes of attitude change.
Kitsak, M., Gallos, L. K., Havlin, S., Liljeros, F., Muchnik, L., Stanley, H. E., & Makse, H. A. (2010). Influence
Mehta, R., Mehta, D., Chheda, D., Shah, C., & Chawan, P. M. (2012). Sentiment analysis and influence
45
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
tracking using twitter. International Journal of Advanced Research in Computer Science and Electronics
Engineering, 1(2):72–79.
Mei, Y., Zhong, Y., & Yang, J. (2015). Finding and analyzing principal features for measuring user influence
on twitter. 2015 IEEE First International Conference on Big Data Computing Service and Applications,
pages 478–486.
Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O’Reilly Media Inc.
Pal, A. & Counts, S. (2011). Identifying topical authorities in microblogs. In Proceedings of the Fourth ACM
S
International Conference on Web Search and Data Mining, volume 1 of WSDM ’11, pages 45–54, New
A
York, NY, USA. ACM.
IC
Razis, G. & Anagnostopoulos, I. (2014). Influencetracker: Rating the impact of a twitter account. IFIP
S
Advances in Information and Communication Technology, 437:184–195.
S FÍ
Romero, D. M., Galuba, W., Asur, S., & Huberman, B. A. (2011). Identification of influential spreaders in
complex networks. WWW ’11 Proceedings of the 20th international conference companion on World
A S
IC A
wide web, pages 113–114.
T I
Salinas, S. (2018). Social media active users around the world. (accedido 17.11.2018).
Á C
M N
Silwattananusarn, T. & Tuamsuk, K. (2012). Data mining and its applications for knowledge management: A
E IE
literature review from 2007 to 2012. International Journal of Data Mining and Knowledge Management
T C
Weng, J., Lim, E.-P., Jiang, J., & He, Q. (2010). Twitterrank: finding topic-sensitive influential twitterers.
A E
M D
WSDM ’10 Proceedings of the third ACM international conference on Web search and data mining,
3(6):261–270.
Y A
C
Wilson, R. F. (2000). The six simple principles of viral marketing. Web Marketing Today, 70(1):232.
E
T
O
LI
IB
B
46
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/
Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT
S
A
IC
S
S FÍ
A S
IC A
T I
Á C
M N
E IE
T C
A E
M D
Y A
C
E
T
O
LI
IB
B
Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.
Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/