Está en la página 1de 32

UNIVERSIDAD ESAN

FACULTAD DE INGENIERÍA

Propuesta de modelo para la detección de información falsa del


COVID-19 mediante técnicas de Machine Learning y Natural Language
Processing

Presentado por:
Salinas Bolaños Yair Andrey

Asesor: Wilfredo Mamani Ticona


Ciclo: 2022-I 1
AGENDA

01 Realidad Problemática

02 Objetivos de la Investigación

03 Marco Teórico

04 Desarrollo de la Metodología

05 Desarrollo de la Solución

06 Resultados

07 Conclusiones
2
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Situación Actual Problemas

Enterarse de la No determinar la Redes sociales como


información en veracidad de esa único medio de
redes sociales información información

Confianza en el
contenido de las
redes

Incapacidad para
reconocer
información falsa

Genera miedo, Compartir la


rechazo y muerte información
3
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Situación Actual Solución propuesta

Enterarse de la Lograr determinar la Utilizar técnicas de


información en veracidad de esa Machine Learning y
redes sociales información Natural Language
Processing

Modelo de
clasificación de
información falsa
del COVID-19

Personas más Compartir la


informadas información
4
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Objetivo General

Desarrollar un modelo para la detección de información falsa del COVID-19 aplicando técnicas de Machine
Learning y Natural Language Processing.

Objetivos Específicos

Crear un dataset de información verdadera y falsa del COVID-19 en el contexto peruano.

Desarrollar el preprocesamiento para cada documento del dataset.

Utilizar técnicas de Natural Language Processing que permitan obtener vectores característicos de cada
documento.

Utilizar técnicas de clasificación de Machine Learning para construir un modelo de clasificación robusto de
información falsa del COVID-19.

Utilizar métricas para evaluar el desempeño del modelo de clasificación de información falsa del COVID-19.

5
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Machine Learning

“Se ocupa de la cuestión de cómo


construir programas informáticos
que mejoren automáticamente
con la experiencia."

Mitchell, 1997

6
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Natural Language
Processing

"Es el uso de las computadoras


para comprender el lenguaje
humano (natural) como el inglés,
el francés o el japonés."

Covington, 2013

7
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Información Falsa

Combinación de tres nociones


importantes: misinformation,
disinformation y malinformation.
Creada y distribuida con la intención
de hacer daño u otros fines.
Wardle y Derakhshan, 2017

8
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

3. Extracción de
1. Creación del dataset 2. Preprocesamiento
características

a.- Eliminación de links


100 BoW Tf-idf
b.- Eliminación de hashtags 200
c.- Eliminación de menciones 300 Word2Vec fastText
d.- Eliminación de emojis
e.- Tokenización
Tweets y replies Páginas web f.- Eliminación de caracteres
Publicaciones especiales
y comentarios g.- Eliminación de puntuación
h.- Eliminación de números
i.- Pasar a minúsculas
j.- Eliminación de stop words

4. Construcción del
modelo
5. Evaluación del
modelo
Accuracy F1-Score
Recall Precision

2022 publicaciones y
comentarios validados 9
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 1: Creación del dataset

Actividad 1 Identificar fuentes de datos

Fuentes seleccionadas de las cuales se extraerá información


Entregable del COVID-19.

Actividad 2 Desarrollar los algoritmos de scraping

Archivo csv de posts, comentarios, tweets, noticias del Minsa,


Entregable noticias de Verificador LR y noticias de Ojo Público.

Actividad 3 Homogeneizar los datasets

Entregable Dataset relacionado al COVID-19.

10
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 1: Creación del dataset

Actividad 4 Etiquetar manualmente los registros

Entregable Dataset etiquetado.

Actividad 5 Validar el etiquetado con personal del MINSA

Entregable Dataset validado.

11
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 2: Preprocesamiento

Actividad 1 Eliminar los links, hashtags, menciones y emojis.

Entregable Registros sin links, hashtags, menciones ni emojis.

Actividad 2 Limpiar el contenido

Entregable Corpus de palabras preprocesadas.

12
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 3: Extracción de características

Actividad 1 Realizar extracción de características con BoW

Entregable Tres vectorizadores con la técnica BoW.

Actividad 2 Realizar extracción de características con Tf-Idf

Entregable Tres vectorizadores con la técnica Tf-Idf.

Actividad 3 Realizar extracción de características con Word2Vec

Entregable Tres modelos Word2Vec entrenados.

Actividad 4 Realizar extracción de características con fastText

Entregable Tres modelos fastText entrenados.


13
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo

Actividad 1 Codificar la clase

Entregable Dataset numérico.

Actividad 2 Particionar el dataset

Entregable Dataset particionado en 80% y 20%.

Actividad 3 Aplicar técnicas de Machine Learning

Entregable Resultados de métricas de cada modelo.

14
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 5: Evaluación del modelo

Actividad 1 Comparar todos los modelos según las métricas

Entregable Mejor modelo de clasificación.

15
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 1: Creación del dataset

Entregable
Fuentes seleccionadas de las cuales se
Actividad 1 extraerá información del COVID-19.

16
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 1: Creación del dataset

Entregable
Archivo csv de posts, comentarios, tweets,
Actividad 2 noticias del Minsa, Verificador LR y Ojo Público.

facebook-scraper
17
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 1: Creación del dataset

Entregable Entregable

Actividad 3 Dataset relacionado al COVID-19. Actividad 4 Dataset etiquetado.

80515x4 2022x4 18
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 2: Preprocesamiento

Entregable Entregable
Registros sin links, hashtags, menciones
Actividad 1 ni emojis. Actividad 2 Corpus de palabras preprocesadas.

Caracteres especiales
lower() Minusculización
Tokenización y stop words
regex emoji (replace_emoji)
BoW y Tf-Idf w2v y fastText

19
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 3: Extracción de características

Entregable Entregable

Actividad 1 Tres vectorizadores con la técnica BoW. Actividad 2 Tres vectorizadores con la técnica Tf-Idf.

Parámetro Parámetros
max_features max_features ngram_range
cv_1 100 tf_idf_1 100 1,2
Vectorizadores cv_2 200 Vectorizadores tf_idf_2 200 1,2
cv_3 300 tf_idf_3 300 1,2

20
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 3: Extracción de características

Entregable Parámetros
size window min_count sg
w2v_1 100 5 5 0
Actividad 3 Tres modelos Word2Vec entrenados.
Vectorizadores w2v_2 200 5 5 0
w2v_3 300 1,2 5 1

11631x1

21
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 3: Extracción de características

Entregable Parámetros
size window min_count sg min_n max_n
fastText_1 100 4 5 0 2 5
Actividad 4 Tres modelos fastText entrenados.
Vectorizadores fastText_2 200 4 3 0 2 4
fastText_3 300 4 4 0 2 6

11631x1

22
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo

Entregable Entregable

Actividad 1 Dataset numérico. Actividad 2 Dataset particionado en 80% y 20%.

1: Verdadero
(LabelEncoder) (train_test_split )
0: Falso

X Y

Train 1617x12 1617x1

Test 405x12 405x1

23
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo


Entregable
Actividad 3 Resultados de métricas de cada KNN
modelo.

Parámetros Métricas
n_neighbors weights metric Accuracy Precision Recall F1-score
cv_1 7 distance minkowski
cv_1 0.80 0.77 0.88 0.83
cv_2 3 distance minkowski
cv_2 0.80 0.76 0.90 0.82
cv_3 3 distance minkowski
cv_3 0.78 0.74 0.91 0.81
tf_idf_1 5 distance minkowski
tf_idf_1 0.83 0.83 0.87 0.85
tf_idf_2 11 distance minkowski
tf_idf_2 0.83 0.82 0.87 0.84
KNN

tf_idf_3 25 distance minkowski


tf_idf_3 0.86 0.85 0.90 0.87
w2v_1 3 distance minkowski
w2v_1 0.69 0.70 0.73 0.71
w2v_2 3 distance minkowski
w2v_2 0.74 0.72 0.81 0.76
w2v_3 3 distance manhattan
w2v_3 0.69 0.67 0.79 0.73
fastText_1 3 distance manhattan
fastText_1 0.71 0.78 0.63 0.70
fastText_2 5 distance minkowski
fastText_2 0.72 0.75 0.70 0.72
fastText_3 29 distance minkowski
fastText_3 0.70 0.80 0.58 0.67
24
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo


Entregable
Actividad 3 Resultados de métricas de cada DT
modelo.

Parámetros Métricas
criterion max_dept min_samples_leaf min_samples_split max_features Accuracy Precision Recall F1-score
cv_1 gini 9 10 2 None
cv_1 0.76 0.74 0.85 0.79
cv_2 gini 9 10 2 None
cv_2 0.76 0.74 0.85 0.79
cv_3 gini 9 10 2 None
cv_3 0.76 0.74 0.85 0.79
tf_idf_1 entropy 9 16 2 tf_idf_1
None 0.76 0.75 0.83 0.78
Decision Tree

tf_idf_2 gini 8 6 2 tf_idf_2


None 0.76 0.74 0.84 0.79
tf_idf_3 gini 9 11 2 tf_idf_3
None 0.77 0.76 0.81 0.79
w2v_1 gini 8 8 2 w2v_1
None 0.60 0.63 0.60 0.62
w2v_2 entropy 9 13 2 w2v_2
auto 0.63 0.67 0.59 0.63
w2v_3 gini 5 6 2 w2v_3
None 0.66 0.74 0.56 0.64
fastText_1 entropy 9 17 2 fastText_1
None 0.69 0.70 0.71 0.71
fastText_2 gini 8 19 2 fastText_2
auto 0.70 0.71 0.73 0.72
fastText_3 entropy 8 9 2 fastText_3
None 0.62 0.63 0.70 0.66
25
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo


Entregable
Actividad 3 Resultados de métricas de cada NB
modelo.

Parámetros Métricas
alpha Accuracy Precision Recall F1-score
cv_1 0.1
cv_1 0.82 0.86 0.80 0.83
cv_2 0.1
cv_2 0.84 0.87 0.82 0.84
cv_3 0.01
cv_3 0.85 0.88 0.83 0.85
tf_idf_1 0.00001
tf_idf_1 0.81 0.82 0.83 0.82
Naive Bayes

tf_idf_2 0.1
tf_idf_2 0.83 0.84 0.84 0.84
tf_idf_3 0.1
tf_idf_3 0.86 0.87 0.87 0.87
w2v_1 0.1
w2v_1 0.68 0.85 0.49 0.62
w2v_2 w2v_2
1 0.68 0.88 0.47 0.61
w2v_3 0.1
w2v_3 0.66 0.88 0.43 0.57
fastText_1 fastText_1
1 0.73 0.80 0.65 0.72
fastText_2 fastText_2
1 0.72 0.81 0.61 0.70
fastText_3 fastText_3
0.1 0.70 0.81 0.58 0.67
26
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo


Entregable
Actividad 3 Resultados de métricas de cada SVM
modelo.

Parámetros Métricas
C gamma kernel Accuracy Precision Recall F1-score
cv_1 1 0.1 rbf
cv_1 0.84 0.83 0.88 0.85
cv_2 0.5 1 linear
cv_2 0.82 0.80 0.86 0.83
cv_3 0.5 1 linear
cv_3 0.85 0.85 0.86 0.86
tf_idf_1 1 1 rbf
tf_idf_1 0.86 0.88 0.84 0.86
tf_idf_2 0.5 1 rbf
tf_idf_2 0.86 0.88 0.86 0.87
SVM

tf_idf_3 0.5 1 rbf


tf_idf_3 0.87 0.88 0.87 0.88
w2v_1 1 1 rbf
w2v_1 0.73 0.68 0.91 0.78
w2v_2 10 0.1 rbf
w2v_2 0.80 0.83 0.78 0.80
w2v_3 10 0.1 rbf
w2v_3 0.79 0.91 0.68 0.78
fastText_1 1 1 rbf
fastText_1 0.62 0.58 1 0.74
fastText_2 10 0.1 rbf
fastText_2 0.84 0.82 0.89 0.85
fastText_3 10 0.1 rbf
fastText_3 0.84 0.92 0.77 0.84
27
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo


Entregable
Actividad 3 Resultados de métricas de cada LR
modelo.

Parámetros Métricas
solver penalty C Accuracy Precision Recall F1-score
cv_1 saga l2 100
cv_1 0.84 0.84 0.86 0.85
cv_2 sag l2 100
cv_2 0.83 0.83 0.85 0.84
cv_3 sag l2 10
cv_3 0.86 0.86 0.88 0.86
tf_idf_1 newton-cg l2 10
tf_idf_1 0.85 0.87 0.84 0.86
tf_idf_2 newton-cg l2 1
tf_idf_2 0.85 0.86 0.85 0.85
SVM

tf_idf_3 newton-cg l2 10
tf_idf_3 0.86 0.88 0.87 0.87
w2v_1 newton-cg none 0.001
w2v_1 0.69 0.72 0.67 0.69
w2v_2 lbfgs none 0.001
w2v_2 0.74 0.77 0.72 0.74
w2v_3 lbfgs none 0.001
w2v_3 0.77 0.81 0.74 0.77
fastText_1 lbfgs none 0.001
fastText_1 0.76 0.78 0.74 0.76
fastText_2 lbfgs none 0.001
fastText_2 0.82 0.85 0.80 0.82
fastText_3 lbfgs none 0.001
fastText_3 0.80 0.83 0.78 0.80
28
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Fase 4: Construcción del modelo


Entregable
Actividad 3 Resultados de métricas de cada MLP
modelo.

Vectorizer Layers/Neurons Activation Epochs Optimizer Accuracy


cv_1 3: 10, 10, 1 sigmoid, sigmoid, softmax 100 adam 0.84
cv_2 2: 100, 1 sigmoid, softmax 100 adam 0.82
cv_3 2: 10, 1 relu, softmax 100 adam 0.85
tf_idf_1 3: 50, 50, 1 sigmoid, sigmoid, softmax 100 adam 0.84
tf_idf_2 3: 10, 10, 1 relu, relu, softmax 100 adam 0.83
tf_idf_3 2: 100, 1 tanh, sigmoid, softmax 100 adam 0.84
MLP

w2v_1 3: 100, 100, 1 relu, relu, softmax 100 adam 0.69


w2v_2 3: 50, 50, 1 relu, relu, softmax 100 adam 0.74
w2v_3 3: 50, 50, 1 tanh, tanh, softmax 100 adam 0.76
fastText_1 3: 300, 30, 1 tanh, tanh, softmax 100 adam 0.74
fastText_2 3: 300, 30, 1 tanh, tanh, softmax 100 adam 0.79
fastText_3 3: 300, 30, 1 tanh, tanh, softmax 100 adam 0.74

29
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

Modelo Parámetros Accuracy Precision Recall F1-score


n_neighbors: 25
KNN (tf_idf_3) weights: distance 86.17% 84.65% 90.19% 87.33%
metric: minkowski

criterion: gini
Árbol de max_depth: 9
decisión max_features: None 76.53% 75.98% 81.31% 78.56%
(tf_idf_3) min_samples_leaf: 11
min_samples_split: 2

Naive Bayes
alpha: 0.1 86.17% 86.92% 86.92% 86.92%
(tf_idf_3)

C: 0.5
SVM
gamma: 1 87.41% 88.63% 87.38% 88.00%
(tf_idf_3)
kernel: rbf

Regresión C: 10,
Logística penalty: l2 86.67% 87.74 86.92% 87.32%
(tf_idf_3) solver: newton-cg

MLP 1° capa: 10 neuronas (relu)


(cv_3) 2° capa: 1 neurona (softmax) 85.19% 86.32% 85.51% 85.92%

30
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución

CONCLUSIONES

Se logró desarrollar un modelo para la detección de información falsa del COVID-19 mediante la combinación
de técnicas de Machine Learning y Natural Language Processing.

Se logró crear un dataset de 2022 registros de información verdadera y falsa del COVID-19 en el contexto
peruano.

Se desarrolló el preprocesamiento adecuado para cada documento del dataset.

Se encontró la mejor combinación de técnicas de Natural Language Processing para la vectorización de


características con Tf-Idf de tamaño 300 y rango de n-gamas de 1 a 2.

Se encontró la mejor combinación de técnicas de Machine Learning con SVM (C (0.5), gamma (1) y kernel
(rbf)) que permitió construir un clasificación robusto de información falsa del COVID-19.

Se obtuvo un buen desempeño del modelo de clasificación de información falsa del COVID-19 con 87.41%
de Accuracy, 88.63% de Precision, 87.39% de Recall y 88% de F1-score.
31
32

También podría gustarte