Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clasificaci N de Perfiles de Usuarios en Chile Que Propagan Fake News PDF
Clasificaci N de Perfiles de Usuarios en Chile Que Propagan Fake News PDF
fake news
Giannina Costa∗
March 6, 2020
Abstract
En la actualidad las personas para informase diariamente sobre los acontecimientos na-
cionales o internacionales utilizan cada vez menos los medios tradicionales como son los per-
iódicos, la gran masa de la sociedad se informa en tiempo real sobre algún acontecimiento a
través de las redes sociales en línea, destacando entre las más populares Facebook y Twitter.
Actualmente la responsabilidad de informar a la ciudadanía no solo recae en sitios especializa-
dos de noticias,sino que cada uno de los usuarios de las redes sociales pueden convertirse en
algún instante de tiempo en un generador de noticias. La inmediatez con el que se comparten
diversos hechos, junto a la posibilidad de que cualquier cibernauta pueda generar noticias,
abre un desafío relevante sobre la veracidad de las noticias. Día a día surge el cuestionamiento
para los usuarios de las redes sociales de si lo que se esta leyendo es veraz o es una fakes news.
La comunidad investigativa a tomado con gran seriedad esta problemática realizando diversos
tipo de investigación centrados en la creación algoritmos predictivos y diversas herramientas
que centran sus esfuerzos en la identificación de las fakes news que se propagan a diario en las
redes sociales, pero aún se encuentra en pañales investigaciones que intenten responden a cuales
son las características, motivaciones, intereses,rango etario, nivel educacional y económico de
los usuarios que propagan las fake news. Este estudio pretende realizar una categorización
de los distintos grupos de usuario que propagan fakes news en Chile, excluyendo del análisis
organizaciones terroristas o políticas las cuales mediante el uso de bot difunden información
falsa utilizando para esta finalidad el uso de cuentas falsas.
El estudio se enfoca lograr categorizar cuales son los diferentes perfiles de usuario detrás
de la propagación de fakes news en chile utilizando como red social en línea Twitter.
1 Introducción
En la actualidad las personas pasan más de 6 horas 40 minutos conectados a internet [1], tiempo que
distribuyen para realizar diversos tipos de actividades entre las que se destacan el esparcimiento,
estudio y uso de las redes sociales. Dado este escenario no causa extrañeza que los cibernautas
deseen informarse de la actualidad nacional e internacional a través de internet. Siendo las redes
sociales el lugar preferido para lograr este fin, dada la colaboración de todos los usuarios y in-
mediatez de compartir algún acontecimiento que sucediendo minuto a minuto. Esto a dado paso
a que las redes sociales en línea (OSN) se hayan convertido en el lugar ideal para influenciar a los
usuarios sobre alguna temática en particular, promover propaganda extremista y sembrar discordia
y desconcierto sobre acontecimientos que ocurren a diario en el mundo [2], para conseguir estos
propósitos se intenta emular una noticia real alterando la realidad, incorporando subjetividad a
los acontecimientos y en algunas ocasiones inventando un acontecimiento no ocurrido. La accesi-
bilidad a internet y la penetración de las OSN en los usuarios han contribuido en gran medida a
modificar la forma de crear las noticias, esto debido a que las OSN permiten crear,leer y compartir
noticias de forma dinámica e inmediata, cosa que los medios tradicionales de noticias no permiten.
Otro punto que debe ser destacado es que las OSN han permitido que usuarios puedan generar
sus propias noticias, comentando o compartiendo imágenes de su participación en diversos eventos
relevantes dentro del acontecer nacional o internacional, este cambio de paradigma ha dado origen
al periodismo ciudadano. El nacimiento del periodismo ciudadano abre nuevos desafíos que deben
∗ Typeset names in 8 pt Roman. Use the footnote to indicate the present or permanent address of the author.
1
abordar, dentro de los principales desafíos a afrontar se encuentra la veracidad de la información
que se publica en las OSN, la comunidad investigativa a realizado grandes esfuerzos en dos áreas
de interés que son la detección de noticias falsas, logrando crear diversos algoritmos de clasificación
de noticias falsas y la identificación de distintos perfiles de actores que participan en la creación y
difusión de noticias falsas. [7] Logra clasificar a diferentes tipos de actores que propagan noticias
falsas entre los que destacan organizaciones terroristas, políticas y de gobierno entre otros, pero
poca investigación existe de los perfiles de actores individuales que realizan esta acción, [2] real-
iza la clasificación de usuarios mediante un algoritmo de aprendizaje supervisado en extremistas
o no extremistas basados en los tweets que ellos publican.Pero se requiere una clasificación más
detallada que permita conocer los distintos tipos de perfiles de usuario que propagan información
falsa. Para dar respuesta a esta problemática se recolectará data de la red social twitter, con-
siderando solo usuarios que se encuentre localizados en Chile entre en los meses de Diciembre 2019
y Enero 2020. El estallido social en Chile del 18 de Octubre 2019 ha ocasionado que los chilenos
que utilizan las redes sociales se hayan visto bombardeados de información mucha de esta falsa lo
que ha contribuido aún de mayor forma a la creación de un clima incertidumbre y desinformación.
La data recopilada de dichos meses se trabajará realizando las siguientes acciones, la primera ac-
ción a realizar consiste en la clasificación de las noticias recopiladas en verdaderas o falsas,para
realizar la clasificación diversos algoritmos serán estudiados y probados seleccionando el algoritmo
que entrega los mejores resultados de clasificación de noticias reales y falsas. Con la nueva data
generada al aplicar el mejor algoritmo de clasificación, se seleccionará solo la data con noticias
falsas.La nueva data será sometida a diversos algoritmos de clusterización que permita agrupar los
diferentes actores que participan en la generación y propagación de noticias falsas. Finalmente se
realiza un análisis acabado de cada uno de los clustering generados y determinará el perfil de los
usuarios que se encuentran insertos en cada uno de ellos.
2 Marco Teórico
2.1 Objetivo General
¿Es posible determinar diferentes perfiles de usuario a la creación y/o propagación de noticias
falsas (fakes news) en Chile?
2
intención de influir en los usuarios en cambiar la visión de algún acontecimiento u hecho, la razón
de su creación en la mayoría de los casos obedece a razones es económicas, políticas o sociales.
3
poderoso. Este tipo de noticias carecen de fuentes fidedignas y confía en que los lectores realicen
un acto de fe al dar por cierto este tipo de noticias. Dado lo anterior resulta relevante que este
tipo de noticias cuente con un relato coherente y bien presentado.
Engaños: Este tipo de noticias son verdades a medias, dado que hace referencia a algún
hecho o acontecimiento real, pero el desarrollo de esta noticia hace uso de datos inexactos,falsos o
subjetivos.
Sesgado: Este tipo de noticias carecen de objetividad al relatar un hecho o acontecimiento
determinado, noticias parciales o unilaterales, sesgados con la intención de favorecer a una per-
sona,partido,situación´ o evento
Rumores: Noticias cuya veracidad no ha sido confirmada o resulta ambigua. Este tipo de
noticias se ha propagado ampliamente en las redes sociales.
Clickbait: Noticias que utilizan titulares o miniaturas como cebo para captar la atención del
lector en la web, dichos titulares o contenidos de miniatura son engañosos. Este tipo de noticias
no resulta ser problemático dado que si un usuario lee el contenido puede percatarse sin problemas
que se trata de un engaño.
4
“Verdaderos creyentes” y Teóricos de la conspiración´n : Este tipo de actores propagan
falsa información pues están convencidos de que están compartiendo una verdad y quieren que esta
verdad sea sabida por el resto de la audiencia. Este tipo de actores resultan ser verdaderos creyentes
de la noticia que están compartiendo.
Las personas que se benefician de la información´n falsa: Actores que obtienen algún
tipo beneficio personal al propagar la información falsa. El perfil de estos actores es amplio pues
puede ser personajes públicos, de la farándula o personas comunes.
trolls : Este tipo de actores propagan falsa información solo con la intención de causar un
malestar al resto de los usuarios.
5
presentan los mismos intereses, para esto no se requiere tener una relación de seguidor/seguido.
A diferencia de otros sitios de redes sociales, Twitter tiene una base de usuarios muy diversa.
Hoy en día Twitter es considerado como la voz o el habla de una persona. Los tweets se consideran
declaraciones y son parte del boletín de noticias, etc.
Nos permite leer los mensajes cortos basados en 140 caracteres (o menos) conocidos como tweets
sin registro, pero después de iniciar sesión podemos leer y crear tweets sin inconveniente. Twitter
también es conocido SMS de internet.
La una de razones por la twitter es considerada la voz de las personas es por que las cuentas
verificadas. Verificar cuenta es una característica de Twitter que permite a las celebridades o
figuras públicas mostrarle al mundo a través de una cuenta real, aunque a veces puede ocurrir que
la verificación de la cuenta es solo para mantener el control de esta pero no son los dueños de las
cuentas quienes las administran día a día.
Al igual que que la mayoría de los OSN cuando nos registramos en Twitter, debemos crear
nuestro perfil,la data requerida par la creación de los perfiles resulta ser bastante limitada, lo
mismo ocurre al crear un tweets donde la información que puede obtenerse es limitada si se utiliza
la API gratuita de tweets, en caso de requerir más información respecto al Twitter creados se
debe utilizar un proceso de pago. Proceso que fue realizado para este estudio. Una de los grandes
beneficios de Twitter es permite suscribirse o "seguir" a cualquier otro usuario de Twitter. El
feedback para cada uno de los usuarios es que se encuentra personalizado para mostrar los tweets
más relevantes de todas las personas a las que el usuario sigue. Existen otros OSN que presentan
características similares como es el caso de Sina Weibo versión china de Twitter que cuenta con
alrededor de 500 millones de usuarios.
Al ser twitter una OSN que presenta una relación no bidireccional con entre los usuarios resulta
ser terreno fértil para la propagación de y difusión de noticias falsas.
4 Métodos
Mediante el uso de la API de twitter se extrajo tweets entre los meses de diciembre y enero de
2020 solo en chile, con las palabras claves referentes a la contingencia del estallido social de chile
que aun sigue acaparando la atención mediática y ciudadana del país. La extracción fue realizando
utilizando lenguaje python. Posterior a la extracción de la data se realiza un proceso de limpieza
de los datos en donde son eliminados registros que no cuentan con información de datos relevantes
para procesos posteriores como son latitud, longitud, ubicación,etc. Una vez con la data limpia
se procede a utilizar los diveresos algoritmos de clasificación determinando su grado de precisión,
recall, curva roc entre otros. Una vez seleccionado el mejor algoritmo se procede a agregar data
nueva que permita clasificar el tweets con verdadero o falso. Con un dataset lo suficientemente
poderoso se procede realizar un filtro en donde se almacén solamente los tweets cuya etiqueta sea
falsa. Con el nuevo dataset que solo considera tweets falso se procede a realizar una nueva revisión y
limpieza de datos donde se descartan todos los registros que no consideran todas las características
a analizar para esto se utiliza la herramienta weka. Con el nuevo dataset limpio se procederá
aplicar algoritmos de agrupamiento (clustering), para determinar cual de estos algoritmos entrega
mejores resultados. Una vez obtenidos las agrupaciones de usuarios se procederá a realizar un
análisis exhaustivo de la data que permita identificar características similares y correlacionadas
que permita definir los distintos perfiles de usuarios que participan en la creación y difusión de
falsas noticias.
5 Resultados y Discusión
Se esta trabajando en la obtención de resultados y evidencia, que permitan validar o refutar la
pregunta de investigación que fue formulada.
6 Conclusiones
Se destacaran los resultados obtenidos y se establecerán posibles futuras lineas de investigación en
esta área.
6
References
[1] Digital 2019: Global Internet Use Accelerates - We Are Social. (2019). Retrieved 17 December
2019, from https://wearesocial.com/blog/2019/01/digital-2019-global-internet-use-accelerates
[2] Zahra, K., Azam, F., Butt, W., Ilyas, F. (2018). A Framework for User Characteriza-
tion based on Tweets Using Machine Learning Algorithms. Proceedings Of The 2018 VII
International Conference On Network, Communication And Computing - ICNCC 2018. doi:
10.1145/3301326.3301373
[3] Zannettou, S., Sirivianos, M., Blackburn, J., Kourtellis, N. (2019). The Web of False Informa-
tion. Journal Of Data And Information Quality, 11(3), 1-37. doi: 10.1145/3309699.
[4] Richardson, B. (2007). The process of writing news. Boston: Pearson.
[5] ASALE, R. (2020). noticia | Diccionario de la lengua española. Retrieved 2 January 2020, from
https://dle.rae.es/?w=noticia
[6] Tandoc, E., Lim, Z., Ling, R. (2017). Defining “Fake News”. Digital Journalism, 6(2), 137-153.
doi: 10.1080/21670811.2017.1360143
[7] Zannettou, S., Sirivianos, M., Blackburn, J., Kourtellis, N. (2019). The Web of False Informa-
tion. Journal Of Data And Information Quality, 11(3), 1-37. doi: 10.1145/3309699
[8] Chauhan, S., Nutan Kumar Panda. (2015). Hacking Web Intelligence. Elsevier Science.
[9] Sahoo, S. R., Gupta, B. (2019). Hybrid approach for detection of ma-
licious profiles in twitter. Computers Electrical Engineering, 76, 65–81.
https://doi.org/10.1016/j.compeleceng.2019.03.003
[10] Pratama, P. G., Rakhmawati, N. A. (2019b). Social Bot Detection on 2019 Indone-
sia President Candidate’s Supporter’s Tweets. Procedia Computer Science, 161, 813–820.
https://doi.org/10.1016/j.procs.2019.11.187