Salinas v1

UNIVERSIDAD ESAN
FACULTAD DE INGENIERÍA
Propuesta de modelo para la detección de información falsa del

COVID-19 mediante técnicas de Machine Learning y Natural Language
Processing
Presentado por:
Salinas Bolaños Yair Andrey
Asesor: Wilfredo Mamani Ticona

Ciclo: 2022-I 1
AGENDA
01 Realidad Problemática
02 Objetivos de la Investigación
03 Marco Teórico
04 Desarrollo de la Metodología
05 Desarrollo de la Solución
06 Resultados
07 Conclusiones
2
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Situación Actual Problemas
Enterarse de la No determinar la Redes sociales como

información en veracidad de esa único medio de
redes sociales información información
Confianza en el
contenido de las
redes
Incapacidad para
reconocer
información falsa
Genera miedo, Compartir la

rechazo y muerte información
3
Realidad
Problemática
Situación Actual Solución propuesta
Enterarse de la Lograr determinar la Utilizar técnicas de

información en veracidad de esa Machine Learning y
redes sociales información Natural Language
Processing
Modelo de
clasificación de
información falsa
del COVID-19
Personas más Compartir la

informadas información
4
Realidad
Problemática
Objetivo General
Desarrollar un modelo para la detección de información falsa del COVID-19 aplicando técnicas de Machine
Learning y Natural Language Processing.
Objetivos Específicos
Crear un dataset de información verdadera y falsa del COVID-19 en el contexto peruano.
Desarrollar el preprocesamiento para cada documento del dataset.
Utilizar técnicas de Natural Language Processing que permitan obtener vectores característicos de cada
documento.
Utilizar técnicas de clasificación de Machine Learning para construir un modelo de clasificación robusto de
información falsa del COVID-19.
Utilizar métricas para evaluar el desempeño del modelo de clasificación de información falsa del COVID-19.
5
Realidad
Problemática
Machine Learning
“Se ocupa de la cuestión de cómo

construir programas informáticos
que mejoren automáticamente
con la experiencia."
Mitchell, 1997
6
Realidad
Problemática
Natural Language
Processing
"Es el uso de las computadoras

para comprender el lenguaje
humano (natural) como el inglés,
el francés o el japonés."
Covington, 2013
7
Realidad
Problemática
Información Falsa
Combinación de tres nociones

importantes: misinformation,
disinformation y malinformation.
Creada y distribuida con la intención
de hacer daño u otros fines.
Wardle y Derakhshan, 2017
8
Realidad
Problemática
3. Extracción de
1. Creación del dataset 2. Preprocesamiento
características
a.- Eliminación de links

100 BoW Tf-idf
b.- Eliminación de hashtags 200
c.- Eliminación de menciones 300 Word2Vec fastText
d.- Eliminación de emojis
e.- Tokenización
Tweets y replies Páginas web f.- Eliminación de caracteres
Publicaciones especiales
y comentarios g.- Eliminación de puntuación
h.- Eliminación de números
i.- Pasar a minúsculas
j.- Eliminación de stop words
4. Construcción del
modelo
5. Evaluación del
modelo
Accuracy F1-Score
Recall Precision
2022 publicaciones y
comentarios validados 9
Realidad
Problemática
Fase 1: Creación del dataset
Actividad 1 Identificar fuentes de datos
Fuentes seleccionadas de las cuales se extraerá información

Entregable del COVID-19.
Actividad 2 Desarrollar los algoritmos de scraping
Archivo csv de posts, comentarios, tweets, noticias del Minsa,

Entregable noticias de Verificador LR y noticias de Ojo Público.
Actividad 3 Homogeneizar los datasets
Entregable Dataset relacionado al COVID-19.
10
Realidad
Problemática
Actividad 4 Etiquetar manualmente los registros
Entregable Dataset etiquetado.
Actividad 5 Validar el etiquetado con personal del MINSA
Entregable Dataset validado.
11
Realidad
Problemática
Fase 2: Preprocesamiento
Actividad 1 Eliminar los links, hashtags, menciones y emojis.
Entregable Registros sin links, hashtags, menciones ni emojis.
Actividad 2 Limpiar el contenido
Entregable Corpus de palabras preprocesadas.
12
Realidad
Problemática
Fase 3: Extracción de características
Actividad 1 Realizar extracción de características con BoW
Entregable Tres vectorizadores con la técnica BoW.
Actividad 2 Realizar extracción de características con Tf-Idf
Entregable Tres vectorizadores con la técnica Tf-Idf.
Actividad 3 Realizar extracción de características con Word2Vec
Entregable Tres modelos Word2Vec entrenados.
Actividad 4 Realizar extracción de características con fastText
Entregable Tres modelos fastText entrenados.

13
Realidad
Problemática
Fase 4: Construcción del modelo
Actividad 1 Codificar la clase
Entregable Dataset numérico.
Actividad 2 Particionar el dataset
Entregable Dataset particionado en 80% y 20%.
Actividad 3 Aplicar técnicas de Machine Learning
Entregable Resultados de métricas de cada modelo.
14
Realidad
Problemática
Fase 5: Evaluación del modelo
Actividad 1 Comparar todos los modelos según las métricas
Entregable Mejor modelo de clasificación.
15
Realidad
Problemática
Entregable
Fuentes seleccionadas de las cuales se
Actividad 1 extraerá información del COVID-19.
16
Realidad
Problemática
Entregable
Archivo csv de posts, comentarios, tweets,
Actividad 2 noticias del Minsa, Verificador LR y Ojo Público.
facebook-scraper
17
Realidad
Problemática
Entregable Entregable
Actividad 3 Dataset relacionado al COVID-19. Actividad 4 Dataset etiquetado.
80515x4 2022x4 18
Realidad
Problemática
Fase 2: Preprocesamiento
Registros sin links, hashtags, menciones
Actividad 1 ni emojis. Actividad 2 Corpus de palabras preprocesadas.
Caracteres especiales
lower() Minusculización
Tokenización y stop words
regex emoji (replace_emoji)
BoW y Tf-Idf w2v y fastText
19
Realidad
Problemática
Actividad 1 Tres vectorizadores con la técnica BoW. Actividad 2 Tres vectorizadores con la técnica Tf-Idf.
Parámetro Parámetros
max_features max_features ngram_range
cv_1 100 tf_idf_1 100 1,2
Vectorizadores cv_2 200 Vectorizadores tf_idf_2 200 1,2
cv_3 300 tf_idf_3 300 1,2
20
Realidad
Problemática
Entregable Parámetros
size window min_count sg
w2v_1 100 5 5 0
Actividad 3 Tres modelos Word2Vec entrenados.
Vectorizadores w2v_2 200 5 5 0
w2v_3 300 1,2 5 1
11631x1
21
Realidad
Problemática
Entregable Parámetros
size window min_count sg min_n max_n
fastText_1 100 4 5 0 2 5
Actividad 4 Tres modelos fastText entrenados.
Vectorizadores fastText_2 200 4 3 0 2 4
fastText_3 300 4 4 0 2 6
11631x1
22
Realidad
Problemática
Actividad 1 Dataset numérico. Actividad 2 Dataset particionado en 80% y 20%.
1: Verdadero
(LabelEncoder) (train_test_split )
0: Falso
X Y
Train 1617x12 1617x1
Test 405x12 405x1
23
Realidad
Problemática

Entregable
Actividad 3 Resultados de métricas de cada KNN
modelo.
Parámetros Métricas
n_neighbors weights metric Accuracy Precision Recall F1-score
cv_1 7 distance minkowski
cv_1 0.80 0.77 0.88 0.83
cv_2 0.80 0.76 0.90 0.82
cv_3 0.78 0.74 0.91 0.81
tf_idf_1 5 distance minkowski
tf_idf_1 0.83 0.83 0.87 0.85
tf_idf_2 0.83 0.82 0.87 0.84
KNN

tf_idf_3 0.86 0.85 0.90 0.87
w2v_1 3 distance minkowski
w2v_1 0.69 0.70 0.73 0.71
w2v_2 3 distance minkowski
w2v_2 0.74 0.72 0.81 0.76
w2v_3 3 distance manhattan
w2v_3 0.69 0.67 0.79 0.73
fastText_1 3 distance manhattan
fastText_1 0.71 0.78 0.63 0.70
fastText_2 5 distance minkowski
fastText_2 0.72 0.75 0.70 0.72
fastText_3 29 distance minkowski
fastText_3 0.70 0.80 0.58 0.67
24
Realidad
Problemática

Entregable
Actividad 3 Resultados de métricas de cada DT
modelo.
criterion max_dept min_samples_leaf min_samples_split max_features Accuracy Precision Recall F1-score
cv_1 gini 9 10 2 None
cv_1 0.76 0.74 0.85 0.79
cv_2 0.76 0.74 0.85 0.79
cv_3 0.76 0.74 0.85 0.79
tf_idf_1 entropy 9 16 2 tf_idf_1
None 0.76 0.75 0.83 0.78
Decision Tree
tf_idf_2 gini 8 6 2 tf_idf_2

None 0.76 0.74 0.84 0.79
tf_idf_3 gini 9 11 2 tf_idf_3
None 0.77 0.76 0.81 0.79
w2v_1 gini 8 8 2 w2v_1
None 0.60 0.63 0.60 0.62
w2v_2 entropy 9 13 2 w2v_2
auto 0.63 0.67 0.59 0.63
w2v_3 gini 5 6 2 w2v_3
None 0.66 0.74 0.56 0.64
fastText_1 entropy 9 17 2 fastText_1
None 0.69 0.70 0.71 0.71
fastText_2 gini 8 19 2 fastText_2
auto 0.70 0.71 0.73 0.72
fastText_3 entropy 8 9 2 fastText_3
None 0.62 0.63 0.70 0.66
25
Realidad
Problemática

Entregable
Actividad 3 Resultados de métricas de cada NB
modelo.
alpha Accuracy Precision Recall F1-score
cv_1 0.1
cv_1 0.82 0.86 0.80 0.83
cv_2 0.1
cv_2 0.84 0.87 0.82 0.84
cv_3 0.01
cv_3 0.85 0.88 0.83 0.85
tf_idf_1 0.00001
tf_idf_1 0.81 0.82 0.83 0.82
Naive Bayes
tf_idf_2 0.1
tf_idf_2 0.83 0.84 0.84 0.84
tf_idf_3 0.1
tf_idf_3 0.86 0.87 0.87 0.87
w2v_1 0.1
w2v_1 0.68 0.85 0.49 0.62
w2v_2 w2v_2
1 0.68 0.88 0.47 0.61
w2v_3 0.1
w2v_3 0.66 0.88 0.43 0.57
fastText_1 fastText_1
1 0.73 0.80 0.65 0.72
1 0.72 0.81 0.61 0.70
0.1 0.70 0.81 0.58 0.67
26
Realidad
Problemática

Entregable
Actividad 3 Resultados de métricas de cada SVM
modelo.
C gamma kernel Accuracy Precision Recall F1-score
cv_1 1 0.1 rbf
cv_1 0.84 0.83 0.88 0.85
cv_2 0.5 1 linear
cv_2 0.82 0.80 0.86 0.83
cv_3 0.5 1 linear
cv_3 0.85 0.85 0.86 0.86
tf_idf_1 1 1 rbf
tf_idf_1 0.86 0.88 0.84 0.86
tf_idf_2 0.5 1 rbf
tf_idf_2 0.86 0.88 0.86 0.87
SVM
tf_idf_3 0.5 1 rbf

tf_idf_3 0.87 0.88 0.87 0.88
w2v_1 1 1 rbf
w2v_1 0.73 0.68 0.91 0.78
w2v_2 10 0.1 rbf
w2v_2 0.80 0.83 0.78 0.80
w2v_3 10 0.1 rbf
w2v_3 0.79 0.91 0.68 0.78
fastText_1 1 1 rbf
fastText_1 0.62 0.58 1 0.74
fastText_2 10 0.1 rbf
fastText_2 0.84 0.82 0.89 0.85
fastText_3 10 0.1 rbf
fastText_3 0.84 0.92 0.77 0.84
27
Realidad
Problemática

Entregable
Actividad 3 Resultados de métricas de cada LR
modelo.
solver penalty C Accuracy Precision Recall F1-score
cv_1 saga l2 100
cv_1 0.84 0.84 0.86 0.85
cv_2 sag l2 100
cv_2 0.83 0.83 0.85 0.84
cv_3 sag l2 10
cv_3 0.86 0.86 0.88 0.86
tf_idf_1 newton-cg l2 10
tf_idf_1 0.85 0.87 0.84 0.86
tf_idf_2 0.85 0.86 0.85 0.85
SVM
tf_idf_3 0.86 0.88 0.87 0.87
w2v_1 newton-cg none 0.001
w2v_1 0.69 0.72 0.67 0.69
w2v_2 lbfgs none 0.001
w2v_2 0.74 0.77 0.72 0.74
w2v_3 lbfgs none 0.001
w2v_3 0.77 0.81 0.74 0.77
fastText_1 lbfgs none 0.001
fastText_1 0.76 0.78 0.74 0.76
fastText_2 0.82 0.85 0.80 0.82
fastText_3 0.80 0.83 0.78 0.80
28
Realidad
Problemática

Entregable
Actividad 3 Resultados de métricas de cada MLP
modelo.
Vectorizer Layers/Neurons Activation Epochs Optimizer Accuracy

cv_1 3: 10, 10, 1 sigmoid, sigmoid, softmax 100 adam 0.84
cv_2 2: 100, 1 sigmoid, softmax 100 adam 0.82
cv_3 2: 10, 1 relu, softmax 100 adam 0.85
tf_idf_1 3: 50, 50, 1 sigmoid, sigmoid, softmax 100 adam 0.84
tf_idf_2 3: 10, 10, 1 relu, relu, softmax 100 adam 0.83
tf_idf_3 2: 100, 1 tanh, sigmoid, softmax 100 adam 0.84
MLP
w2v_1 3: 100, 100, 1 relu, relu, softmax 100 adam 0.69

w2v_2 3: 50, 50, 1 relu, relu, softmax 100 adam 0.74
w2v_3 3: 50, 50, 1 tanh, tanh, softmax 100 adam 0.76
fastText_1 3: 300, 30, 1 tanh, tanh, softmax 100 adam 0.74
29
Realidad
Problemática
Modelo Parámetros Accuracy Precision Recall F1-score

n_neighbors: 25
KNN (tf_idf_3) weights: distance 86.17% 84.65% 90.19% 87.33%
metric: minkowski
criterion: gini
Árbol de max_depth: 9
decisión max_features: None 76.53% 75.98% 81.31% 78.56%
(tf_idf_3) min_samples_leaf: 11
min_samples_split: 2
Naive Bayes
alpha: 0.1 86.17% 86.92% 86.92% 86.92%
(tf_idf_3)
C: 0.5
SVM
gamma: 1 87.41% 88.63% 87.38% 88.00%
(tf_idf_3)
kernel: rbf
Regresión C: 10,
Logística penalty: l2 86.67% 87.74 86.92% 87.32%
(tf_idf_3) solver: newton-cg
MLP 1° capa: 10 neuronas (relu)

(cv_3) 2° capa: 1 neurona (softmax) 85.19% 86.32% 85.51% 85.92%
30
Realidad
Problemática
CONCLUSIONES
Se logró desarrollar un modelo para la detección de información falsa del COVID-19 mediante la combinación
de técnicas de Machine Learning y Natural Language Processing.
Se logró crear un dataset de 2022 registros de información verdadera y falsa del COVID-19 en el contexto
peruano.
Se desarrolló el preprocesamiento adecuado para cada documento del dataset.
Se encontró la mejor combinación de técnicas de Natural Language Processing para la vectorización de

características con Tf-Idf de tamaño 300 y rango de n-gamas de 1 a 2.
Se encontró la mejor combinación de técnicas de Machine Learning con SVM (C (0.5), gamma (1) y kernel
(rbf)) que permitió construir un clasificación robusto de información falsa del COVID-19.
Se obtuvo un buen desempeño del modelo de clasificación de información falsa del COVID-19 con 87.41%
de Accuracy, 88.63% de Precision, 87.39% de Recall y 88% de F1-score.
31
32

Salinas v1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Salinas v1

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD ESAN

Propuesta de modelo para la detección de información falsa del

Asesor: Wilfredo Mamani Ticona

Situación Actual Problemas

Enterarse de la No determinar la Redes sociales como

Genera miedo, Compartir la

Situación Actual Solución propuesta

Enterarse de la Lograr determinar la Utilizar técnicas de

Personas más Compartir la

Crear un dataset de información verdadera y falsa del COVID-19 en el contexto peruano.

Desarrollar el preprocesamiento para cada documento del dataset.

“Se ocupa de la cuestión de cómo

"Es el uso de las computadoras

Combinación de tres nociones

a.- Eliminación de links

Fase 1: Creación del dataset

Actividad 1 Identificar fuentes de datos

Fuentes seleccionadas de las cuales se extraerá información

Actividad 2 Desarrollar los algoritmos de scraping

Archivo csv de posts, comentarios, tweets, noticias del Minsa,

Actividad 3 Homogeneizar los datasets

Entregable Dataset relacionado al COVID-19.

Fase 1: Creación del dataset

Actividad 4 Etiquetar manualmente los registros

Entregable Dataset etiquetado.

Actividad 5 Validar el etiquetado con personal del MINSA

Entregable Dataset validado.

Actividad 1 Eliminar los links, hashtags, menciones y emojis.

Entregable Registros sin links, hashtags, menciones ni emojis.

Actividad 2 Limpiar el contenido

Entregable Corpus de palabras preprocesadas.

Fase 3: Extracción de características

Actividad 1 Realizar extracción de características con BoW

Entregable Tres vectorizadores con la técnica BoW.

Actividad 2 Realizar extracción de características con Tf-Idf

Entregable Tres vectorizadores con la técnica Tf-Idf.

Actividad 3 Realizar extracción de características con Word2Vec

Entregable Tres modelos Word2Vec entrenados.

Actividad 4 Realizar extracción de características con fastText

Entregable Tres modelos fastText entrenados.

Fase 4: Construcción del modelo

Actividad 1 Codificar la clase

Entregable Dataset numérico.

Actividad 2 Particionar el dataset

Entregable Dataset particionado en 80% y 20%.

Actividad 3 Aplicar técnicas de Machine Learning

Entregable Resultados de métricas de cada modelo.

Fase 5: Evaluación del modelo

Actividad 1 Comparar todos los modelos según las métricas

Entregable Mejor modelo de clasificación.

Fase 1: Creación del dataset

Fase 1: Creación del dataset

Fase 1: Creación del dataset

Actividad 3 Dataset relacionado al COVID-19. Actividad 4 Dataset etiquetado.

Fase 3: Extracción de características

Fase 3: Extracción de características

Fase 3: Extracción de características

Fase 4: Construcción del modelo

Actividad 1 Dataset numérico. Actividad 2 Dataset particionado en 80% y 20%.

Train 1617x12 1617x1

Test 405x12 405x1

Fase 4: Construcción del modelo