Está en la página 1de 5

Traducido del inglés al español - www.onlinedoctranslator.

com

Actas de la Conferencia Internacional sobre Computación Inteligente y Sistemas de Control (ICICCS 2020) IEEE
Xplore Número de pieza: CFP20K74-ART; ISBN: 978-1-7281-4876-2

Clasificación de comentarios tóxicos en línea usando


Algoritmos de aprendizaje automático

Raúl dura kajla


Departamento de Informática e Ingeniería Departamento de Informática e Ingeniería
Universidad Tecnológica de Delhi Universidad Tecnológica de Delhi
Delhi, India Delhi, India
rahul@dtu.ac.in ásperocns@gmail.com

Jatin Hooda Gajanand Saini


Departamento de Informática e Ingeniería Departamento de Informática e Ingeniería
Universidad Tecnológica de Delhi Universidad Tecnológica de Delhi
Delhi, India Delhi, India
jatindce210@gmail.com saini14gaja@gmail.com

Resumen— Los comentarios tóxicos son comentarios en línea fue arrestado por insultar a la policía de Indonesia en Facebook. Por lo
irrespetuosos, abusivos o irrazonables que generalmente hacen tanto, existe una situación alarmante y es la necesidad del momento
que otros usuarios abandonen una discusión. El peligro de la detectar dicho contenido antes de que se publique porque estos
intimidación y el acoso en línea afecta el libre flujo de contenidos negativos están creando Internet un lugar inseguro y
pensamientos al restringir las opiniones disidentes de las personas. afectando negativamente a las personas.
Los sitios luchan por promover discusiones de manera efectiva, lo
que lleva a muchas comunidades a limitar o cerrar los comentarios Supongamos que hay un comentario en las redes sociales
de los usuarios por completo. Este documento examinará “¿Tonterías? Bésate, friki. Lo que dije es cierto”, se puede identificar
sistemáticamente el alcance del acoso en línea y clasificará el fácilmente que las palabras como Tonterías y Beso son negativas y por
contenido en etiquetas para examinar la toxicidad de la manera lo tanto este comentario es tóxico. Pero para extraer técnicamente la
más correcta posible. Aquí, utilizaremos seis algoritmos de toxicidad, este comentario debe pasar por un procedimiento particular
aprendizaje automático y los aplicaremos a nuestros datos para y luego se le aplicará una técnica de clasificación para verificar la
resolver el problema de la clasificación de texto e identificar el precisión del resultado obtenido.
mejor algoritmo de aprendizaje automático en función de nuestras
métricas de evaluación para la clasificación de comentarios tóxicos. Se utilizarán diferentes algoritmos de aprendizaje automático en la
clasificación de comentarios tóxicos en el conjunto de datos de Kaggle.com.
Palabras clave: aprendizaje automático, clasificación de comentarios tóxicos, Este documento incluye seis técnicas de aprendizaje automático, es decir,
clasificación de texto, precisión regresión logística, bosque aleatorio, clasificador SVM, bayes ingenuo, árbol
de decisión y clasificación KNN para resolver el problema de la clasificación
yo yoNTRODUCCIÓN de texto. Por lo tanto, aplicaremos los seis algoritmos de aprendizaje
El desarrollo exponencial de la informática y la tecnología automático en el conjunto de datos dado y calcularemos y compararemos su
nos brinda una de las mayores innovaciones del "Internet" del precisión, pérdida de registro y pérdida de hamming.
siglo XXI, donde una persona puede comunicarse con otra en
todo el mundo con la ayuda de un simple teléfono inteligente e
El resto del documento está organizado de la siguiente manera: la
Internet.
Sección II incluye el trabajo relacionado, la Sección III trata sobre la
En los días iniciales de Internet, las personas solían comunicarse entre sí metodología propuesta, y la Sección IV y la Sección V contienen el resultado y
solo por correo electrónico y estaba lleno de correos electrónicos no la conclusión, respectivamente.
deseados. En aquellos días, era una gran tarea clasificar los correos
electrónicos como positivos o negativos, es decir, spam o no: spam. A II. RTRABAJO EMOCIONADO
medida que pasa el tiempo, la comunicación y el flujo de datos a través de Una gran cantidad de datos se publica diariamente a través de los sitios
Internet cambiaron drásticamente, especialmente después de la aparición de de redes sociales. Esta gran cantidad de datos está afectando
los sitios de redes sociales. Con el avance de las redes sociales, se vuelve significativamente la calidad de vida humana, pero desafortunadamente
muy importante clasificar el contenido en términos positivos y negativos, debido a la presencia de toxicidad que existe en Internet, está afectando
para prevenir cualquier forma de daño a la sociedad y controlar el negativamente la vida de los humanos [2]. Debido a esta negatividad, hay
comportamiento antisocial de las personas. una falta de debate saludable en los sitios de redes sociales, ya que los
comentarios tóxicos restringen a las personas para expresarse y tener
En los últimos tiempos, ha habido muchos casos en los que las
opiniones disidentes [3]. Por lo tanto, es la necesidad del momento detectar
autoridades arrestan a personas debido a sus contenidos dañinos y
y restringir el comportamiento antisocial en los foros de discusión en línea
tóxicos en las redes sociales[1]. Por ejemplo, un hombre de 28 años fue
[4]. Aunque, hubo esfuerzos en el pasado para aumentar la seguridad en
arrestado en Bengala por publicar un comentario abusivo contra
línea mediante la moderación del sitio a través del crowd-sourcing.
Mamata Banerjee en Facebook y un hombre de Indonesia

978-1-7281-4876-2/20/$31.00 ©2020 IEEE 1119

Uso con licencia autorizado limitado a: Universidad de Exeter. Descargado el 1 de julio de 2020 a las 10:51:29 UTC de IEEE Xplore. Se aplican restricciones.
Actas de la Conferencia Internacional sobre Computación Inteligente y Sistemas de Control (ICICCS 2020) IEEE
Xplore Número de pieza: CFP20K74-ART; ISBN: 978-1-7281-4876-2

esquemas y comentarios denunciantes, en la mayoría de los casos estas técnicas bosque aleatorio, clasificador SVM, naive Bayes, árbol de decisión y
no logran detectar la toxicidad [5]. Por lo tanto, tenemos que encontrar una clasificación KNN.
técnica potencial que pueda detectar la toxicidad en línea del contenido del
Como el comentario pertenece al grupo tóxico o no
usuario de manera efectiva [6].
pertenecerá a él, usaremos la regresión logística porque se
Como la computadora funciona con datos binarios y en el mundo real, usará para calcular la probabilidad de que un comentario
tenemos datos en otras formas, es decir, imágenes o texto. Por lo tanto, tenemos sea tóxico o no. Dado que podemos clasificar los
que convertir los datos del mundo real en forma binaria para su correcto comentarios en categorías amplias de tóxicos y no tóxicos y
procesamiento a través de la computadora. En este documento, utilizaremos estos más en 6 etiquetas en caso de comentarios tóxicos,
datos convertidos y aplicaremos técnicas de aprendizaje automático para clasificar utilizaremos el clasificador SVM, ya que clasifica de forma
los comentarios en línea [7]. La clasificación de texto se puede aplicar fácilmente en distintiva los valores de los datos y también puede utilizar la
un conjunto de datos dado y un conjunto de etiquetas aplicando los datos en una metodología de árbol de decisión y bosque aleatorio. , ya
función, que asignará un valor a cada valor de datos del conjunto de datos [8]. que en ambas metodologías utilizaremos el concepto de
árbol de decisión y luego se hará la clasificación final de los
comentarios tóxicos en línea en base a la mejor solución
En este contexto, Wulczyn et al. [9] La investigación introdujo una
mediante votación en el árbol de decisión. Dado que en
técnica que incorpora el crowdsourcing y el aprendizaje automático
nuestros datos, los comentarios son independientes entre
para evaluar ataques personales a escala. Recientemente, Google y
sí y dos comentarios distintos no tienen relación entre ellos,
Jigsaw introdujeron un proyecto llamado perspectiva [10] para detectar
utilizaremos la clasificación Naïve Bayes en nuestros datos.
la toxicidad, las amenazas y el contenido ofensivo en línea con la ayuda
de algoritmos de aprendizaje automático. En otro enfoque, se utilizaron
redes neuronales convolucionales (CNN) en la clasificación de texto C. Limpieza de datos y visualización exploratoria de datos limpios
sobre contenido en línea [11], sin ningún conocimiento del lenguaje
sintáctico o semántico [12]. En el enfoque utilizado por Y. Chen et al.
El siguiente paso en nuestra metodología es limpiar los datos y extraer
[13], introdujo una combinación de un analizador y una función léxica
características importantes de ellos. Tomamos nuestro conjunto de datos
para detectar el lenguaje tóxico en los comentarios de YouTube para
directamente del sitio web de Kaggle y está allí en forma de archivos CSV. En
proteger a los adolescentes. En el enfoque utilizado por Sulke et al. [14],
primer lugar, lo limpiamos utilizando el procedimiento adecuado y luego
Los comentarios en línea se clasifican con la ayuda de algoritmos de
vamos a realizar una visualización exploratoria para extraer características
aprendizaje automático. Asi que, Ya se ha hecho mucho trabajo para
importantes.
detectar y clasificar los comentarios tóxicos en línea. En nuestro trabajo
de investigación, aprenderemos del trabajo ya publicado y utilizaremos Remover
comas,
algoritmos de aprendizaje automático para detectar y clasificar Sencillo
Llevar a cabo Aplicar
Limpio
puntos finales, Derivación y Contar
comentarios tóxicos en línea con mayor precisión [15]. Texto puntuaciones lematización vectorizador Datos
y pare
palabras

tercero PAGSROPUESTOMETROETODOLOGIA
Fig. 1: Pasos de preprocesamiento para la limpieza de datos.
A. Tipo de clasificación
El proceso seguido en la limpieza de datos se muestra en la fig.
En este documento, tenemos que clasificar los datos en seis categorías. 1. Tomaremos datos sin procesar del sitio web de Kaggle en forma de texto
es decir, amenaza, insulto, tóxico, tóxico severo, obsceno u odio de identidad sin formato y aplicaremos nuestras técnicas para limpiar los datos.
y podemos poner un valor de datos en cero, uno o más de una categoría. Inicialmente, eliminaremos las comas, los puntos y los signos de puntuación.
Antes de comenzar cualquier procesamiento de nuestros datos, nuestra Después de esto, eliminaremos las palabras vacías. Después de esto,
primera tarea será identificar si nuestra clasificación es de naturaleza realizaremos la derivación y la lematización para obtener la raíz de la palabra
multiclase o multietiqueta. y, al final, aplicaremos el vectorizador de conteo para obtener los datos

En la clasificación de etiquetas múltiples, un valor de datos puede pertenecer limpios.


a más de una categoría, por ejemplo, un boceto dado de un jardín puede contener Después de extraer y analizar los datos limpios, sabemos que
un árbol, un monumento, un sendero para caminar o una combinación de estos y, tenemos un total de 95981 muestras de comentarios y datos
por lo tanto, el boceto puede pertenecer a cero, uno o más. de una categoría. etiquetados, que se pueden cargar desde el archivo train.csv.

Para obtener una mejor imagen de nuestros datos limpios, optaremos por
Mientras que en la clasificación multiclase, un valor de datos puede una visualización exploratoria.
pertenecer a una sola categoría, por ejemplo, un automóvil determinado puede
pertenecer a Honda, Hyundai, Tata Motors o a ninguna de las empresas anteriores
y, por lo tanto, pertenece a 1 categoría o a ninguna de ellas.

En nuestro conjunto de datos, dado que nuestro valor de datos puede


pertenecer a cero, una o más de una categoría, tenemos que resolver un problema
de clasificación de etiquetas múltiples.

B. Metodologías de aprendizaje automático


Para clasificar los comentarios tóxicos en línea, utilizaremos seis
metodologías de aprendizaje automático, es decir, regresión logística, Fig. 2: Primera visualización de datos limpios

978-1-7281-4876-2/20/$31.00 ©2020 IEEE 1120

Uso con licencia autorizado limitado a: Universidad de Exeter. Descargado el 1 de julio de 2020 a las 10:51:29 UTC de IEEE Xplore. Se aplican restricciones.
Actas de la Conferencia Internacional sobre Computación Inteligente y Sistemas de Control (ICICCS 2020) IEEE
Xplore Número de pieza: CFP20K74-ART; ISBN: 978-1-7281-4876-2

De la Fig. 2, podemos concluir que en nuestro conjunto de datos Las ecuaciones para calcular la pérdida de Hamming y la pérdida logarítmica para
hay comentarios de diferentes longitudes desde 200 hasta 1200 y el nuestros datos se muestran en la Ecuación 1 y la Ecuación 2, respectivamente.
número de comentarios disminuye a medida que aumenta la longitud
de los comentarios. También podemos observar que hay comentarios Pérdida Hamming= ∑ ∑ (1)
máximos de 0 a 200 longitudes. Dado que, a medida que avanzamos
hacia comentarios de mayor longitud, el número total de comentarios Aquí, es exclusivo-o, NL es el número de etiquetas, es
se multiplica, por lo que debemos establecer un límite de longitud para el valor predicho y comentar es el valor real para el i-ésimo
obtener el mejor resultado. sobre el valor de la etiqueta lth.

Log-Pérdida=- ∑ ∑ (2)
Aquí, N es el número de muestras, M es el número de
etiquetas, es un indicador binario de la clasificación correcta y
es la probabilidad del modelo.

E. Aplicación de algoritmos
Ahora, dado que estamos listos con datos limpios y métricas de
evaluación adecuadas, debemos seleccionar un modelo de aprendizaje
automático que brinde el resultado más óptimo. Entonces, aplicaremos

Fig. 3: Segunda visualización de datos limpios nuestros algoritmos de aprendizaje automático a nuestros datos ya
procesados y calcularemos y compararemos sus resultados. Usaremos el
En la figura 3, podemos observar que es la versión actualizada de la sklearn. metrics y sklearn.linear_model para extraer características
figura 2. Aquí, mostramos todos los comentarios en un rango de importantes de los datos de comentarios disponibles.
longitud definido con la cantidad de comentarios que caen bajo
diferentes etiquetas, es decir, obsceno, tóxico, amenaza, etc. Desde IV. RESULTADO& AANÁLISIS
aquí podemos concluir que el número máximo de comentarios es de Después de aplicar las 6 técnicas de aprendizaje automático sobre el
menos de 200 largos y a medida que aumenta el largo de los conjunto de datos limpio de Kaggle, obtendremos el resultado requerido de
comentarios, el número de comentarios disminuye. cada técnica de aprendizaje automático en forma de Hamming: pérdida,
precisión y pérdida de registro. Como tenemos que seleccionar el mejor
Después de pasar por la visualización exploratoria, podemos
modelo de aprendizaje automático, tenemos que analizar y comparar
concluir que pondremos el umbral en 400 longitudes y
adecuadamente estos resultados.
seleccionaremos los comentarios de 4 a 400 longitudes.
La pérdida de Hamming, la precisión y la pérdida de registro para cada algoritmo de
D. Finalización de las métricas de evaluación
aprendizaje automático se presentan en la tabla 1.
Las métricas de evaluación se utilizan para calcular la calidad de los
algoritmos de aprendizaje automático. Por lo tanto, antes de aplicar Tabla 1: Pérdida de Hamming, precisión y pérdida de registro para la máquina
cualquier algoritmo de aprendizaje automático en nuestros datos modelos de aprendizaje

procesados, debemos seleccionar las métricas de evaluación adecuadas para


nuestro conjunto de datos para calcular y comparar todas las técnicas. Para
la clasificación de etiquetas múltiples, hay dos tipos principales de métricas:
Modelo hamming Precisión Pérdida de registro

- Métricas basadas en ejemplos: aquí calcularemos el valor de cada pérdida

valor de datos y luego promediaremos el resultado en todo el Logístico 2.432451957 89.466840 2.1435876
conjunto de datos. Ejemplo de pérdida de Hamming, precisión, etc.
Regresión 809565 05201561 92292937
bayesiana ingenua 3.764629388 86.592977 2.3524402
- Métrica basada en etiquetas: aquí calcularemos el valor de 816645 893368 426558524
cada etiqueta de nuestra clasificación y luego Decisión 3.028464094 86.684005 2.2582552
promediaremos todos los valores sin tener en cuenta Árbol 783991 20156047 11101094
ninguna relación entre las etiquetas. Ejemplo de precisión Aleatorio 5.436353128 85.652362 0.5844382
promedio, un error, etc. Bosque 16067 37537928 317269664

Estamos tomando datos del sitio web de Kaggle y la mayoría de esos datos no KNN 3.839040601 87.121803 1.6592639
son tóxicos. Por lo tanto, la precisión como métrica no nos dará el resultado real,
Clasificación 0692093 20762896 816189594
ya que el 90 % de nuestros datos no son tóxicos y si seleccionamos un algoritmo
norte
simple que predice la naturaleza no tóxica de todos los datos, también dará como
MVS 2.764651043 88.697077 2.2914469
resultado una precisión del 90 %. Por lo tanto, será una mejor opción seleccionar la
clasificador 1735623 82814157 953676764
métrica que calculará la pérdida. Entonces, para nuestros algoritmos de
aprendizaje automático, seleccionaremos Log-Loss y Hamming Loss como
métricas para comparar los resultados de diferentes modelos. Las siguientes cifras compararán las pérdidas producidas por cada
algoritmo de aprendizaje automático. Dado que es deseable una pérdida
menor, el mejor modelo producirá la pérdida mínima.

978-1-7281-4876-2/20/$31.00 ©2020 IEEE 1121

Uso con licencia autorizado limitado a: Universidad de Exeter. Descargado el 1 de julio de 2020 a las 10:51:29 UTC de IEEE Xplore. Se aplican restricciones.
Actas de la Conferencia Internacional sobre Computación Inteligente y Sistemas de Control (ICICCS 2020) IEEE
Xplore Número de pieza: CFP20K74-ART; ISBN: 978-1-7281-4876-2

VCONCLUSIÓN
Hemos discutido seis técnicas de aprendizaje automático, es decir, regresión
logística, Naive Bayes, árbol de decisión, bosque aleatorio, clasificación KNN y
clasificador SVM, y hemos comparado su pérdida de hamming, precisión y pérdida
de registro en este documento. Ahora, después de un análisis adecuado, podemos
decir que en términos de pérdida hamming, la regresión logística funciona mejor
porque en ese caso, nuestra pérdida hamming es mínima, mientras que en
términos de precisión, la regresión logística funciona mejor porque la precisión es
mejor en ese modelo en comparación con otros y términos de pérdida de
registros, el bosque aleatorio funciona mejor debido a la menor pérdida de
registros posible en ese modelo.

Por lo tanto, nuestra selección de modelo final se basará en la


combinación de pérdida de hamming y precisión. Dado que obtuvimos la
máxima precisión, es decir, 89,46 % y la menor pérdida de hamming posible,
Fig. 4: Comparación gráfica de la pérdida de Hamming para modelos de aprendizaje automático
es decir, 2,43 % en el caso del modelo de regresión logística.
Seleccionaremos el modelo de regresión logística como nuestra técnica final
Después de analizar la figura 4, podemos concluir que el mejor
de aprendizaje automático, ya que funciona mejor para nuestros datos.
modelo sería la regresión logística ya que tuvo una pérdida de
hamming de solo 2.43 %. VI. FTRABAJO FUTURO
En futuras investigaciones, se pueden usar otros modelos de
aprendizaje automático para calcular la precisión, la pérdida de hamming y
la pérdida de registro para obtener mejores resultados. También podemos
explorar algunos algoritmos de aprendizaje profundo como LSTM (red
neuronal recurrente de memoria a largo plazo a corto plazo), perceptrón
multicapa y GRU. Así, podemos explorar muchas otras técnicas que nos
ayudarán a mejorar el resultado obtenido.

RFERENCIAS
[1] HM Saleem, KP Dillon, S. Benesch y D. Ruths, "A Web of Hate:
Tackling Hateful Speech in Online Social Spaces", 2017, [en línea] .
Disponible: ht tp://arxiv.org/abs/1709.10159.
[2] M. Duggan, “Acoso en línea 2017”, PewRes., págs. 1–85, 2017, doi:
202.419.4372.
Fig. 5: Comparación gráfica de pérdida de registro para modelos de aprendizaje automático
[3] MA Walker, P. Anand, JEF Tree, R. Abbot t y J. King, “Un corpus para la
Después de analizar la figura 5, podemos concluir que el mejor
investigación sobre la deliberación y el debate”, Proc. 8º Int. Conf.
modelo sería Random Forest Regression ya que tuvo un log - loss Idioma recurso Eval. Lr. 2012, págs. 812–817, 2012.
de solo 0.58 %. [4] J. Cheng, C. Danescu-Niculescu-Mizil y J. Leskovec, "Comportamiento
antisocial en comunidades de discusión en línea", Proc. 9º Int. Conf.
La siguiente figura comparará la precisión producida por cada
Web Soc. Medios, ICWSM 2015, págs. 61–70, 2015.
algoritmo de aprendizaje automático. Dado que es deseable una alta
[5] B. Mathewet al., "No odiarás: contrarrestar el discurso de odio en línea",
precisión, el mejor modelo producirá la máxima precisión.
Proc. 13 Int. Conf. Web Soc. Medios, ICWSM 2019, no. Agosto, págs.
369–380, 2019.
[6] C. Nobata, J. Tet reault, A. Thomas, Y. Mehdad e Y. Chang, “Detección de
lenguaje abusivo en el contenido del usuario en línea”, 25th Int.
Conferencia de la World Wide Web. WWW 2016, págs. 145–153, 2016,
doi: 10.1145/2872427.2883062.
[7] EK Ikonomakis, S. Kotsiantis y V. Tampakas, "Clasificación de textos mediante
técnicas de aprendizaje automático", no. agosto de 2005.
[8] MR Murty, JV. Murthy y P. Reddy PVGD, “Clasificación de documentos de texto
basada en máquinas de vectores de soporte de mínimos cuadrados con
descomposición de valores singulares”, int. J. Cómputo. aplicación, vol. 27,
núm. 7, págs. 21–26, 2011, doi: 10.5120/3312-4540.
[9] E. Wulczyn, N. Thain y L. Dixon, "Ex machina: Ataques personales vistos a
escala", 26th Int. Conferencia Mundial de la Web. WWW 2017, págs. 1391–
1399, 2017, doi: 10.1145/3038912.3052591.
[10] H. Hosseini, S. Kannan, B. Zhang y R. Poovendran, "Engañar a la API de
perspectiva de Google creada para detectar comentarios tóxicos", 2017, [en
línea]. Disponible: ht tp://arxiv.org/abs/1702.08138.
Fig. 6: Comparación gráfica de la precisión de los modelos de aprendizaje automático [11] Y. Kim, "Redes neuronales convolucionales para la clasificación de oraciones",
EMNLP 2014 - 2014 Conf. Imperio Métodos Nat. Idioma Proceso. proc. Conf.,
Luego de analizar la figura 6, podemos concluir que el mejor págs. 1746–1751, 2014, doi: 10.3115/v1/d14-1181.
modelo sería la Regresión Logística ya que tuvo una precisión del [12] R. Johnson y T . Zhang, "Uso efectivo del orden de las palabras para la categorización
89.46 %. de texto con redes neuronales convolucionales", NAACLHLT 2015

978-1-7281-4876-2/20/$31.00 ©2020 IEEE 1122

Uso con licencia autorizado limitado a: Universidad de Exeter. Descargado el 1 de julio de 2020 a las 10:51:29 UTC de IEEE Xplore. Se aplican restricciones.
Actas de la Conferencia Internacional sobre Computación Inteligente y Sistemas de Control (ICICCS 2020) IEEE
Xplore Número de pieza: CFP20K74-ART; ISBN: 978-1-7281-4876-2

- Conf. 2015 am del norte Capítulo Asoc. computar lingüista Tararear. [14] AL Sulke y AS Varude, "Clasificación de comentarios perniciosos en línea
Idioma Tecnología proc. Conf., n. 2011, págs. 103–112, 2015, doi: mediante el aprendizaje automático", no. octubre de 2019.
10.3115/v1/n15-1011. [15] N. Chakrabarty, "Un enfoque de aprendizaje automático para comentar la
[13] Y. Chen y S. Zhu, “Detecting Offensive Language in Social clasificación de toxicidad", Adv. Intel. sist. Computación, vol. 999, págs. 183–193,
Media to ProtectAdolescents,” [En línea]. Disponible: ht tp:// 2020, doi: 10.1007/978-981-13-9042-5_16.
www.cse.psu.edu/~sxz16/papers/SocialCom2012.pdf.

978-1-7281-4876-2/20/$31.00 ©2020 IEEE 1123

Uso con licencia autorizado limitado a: Universidad de Exeter. Descargado el 1 de julio de 2020 a las 10:51:29 UTC de IEEE Xplore. Se aplican restricciones.

También podría gustarte