Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Salinas v1
Salinas v1
FACULTAD DE INGENIERÍA
Presentado por:
Salinas Bolaños Yair Andrey
01 Realidad Problemática
02 Objetivos de la Investigación
03 Marco Teórico
04 Desarrollo de la Metodología
05 Desarrollo de la Solución
06 Resultados
07 Conclusiones
2
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Confianza en el
contenido de las
redes
Incapacidad para
reconocer
información falsa
Modelo de
clasificación de
información falsa
del COVID-19
Objetivo General
Desarrollar un modelo para la detección de información falsa del COVID-19 aplicando técnicas de Machine
Learning y Natural Language Processing.
Objetivos Específicos
Utilizar técnicas de Natural Language Processing que permitan obtener vectores característicos de cada
documento.
Utilizar técnicas de clasificación de Machine Learning para construir un modelo de clasificación robusto de
información falsa del COVID-19.
Utilizar métricas para evaluar el desempeño del modelo de clasificación de información falsa del COVID-19.
5
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Machine Learning
Mitchell, 1997
6
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Natural Language
Processing
Covington, 2013
7
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Información Falsa
8
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
3. Extracción de
1. Creación del dataset 2. Preprocesamiento
características
4. Construcción del
modelo
5. Evaluación del
modelo
Accuracy F1-Score
Recall Precision
2022 publicaciones y
comentarios validados 9
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
10
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
11
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Fase 2: Preprocesamiento
12
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
14
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
15
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Entregable
Fuentes seleccionadas de las cuales se
Actividad 1 extraerá información del COVID-19.
16
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Entregable
Archivo csv de posts, comentarios, tweets,
Actividad 2 noticias del Minsa, Verificador LR y Ojo Público.
facebook-scraper
17
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Entregable Entregable
80515x4 2022x4 18
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Fase 2: Preprocesamiento
Entregable Entregable
Registros sin links, hashtags, menciones
Actividad 1 ni emojis. Actividad 2 Corpus de palabras preprocesadas.
Caracteres especiales
lower() Minusculización
Tokenización y stop words
regex emoji (replace_emoji)
BoW y Tf-Idf w2v y fastText
19
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Entregable Entregable
Actividad 1 Tres vectorizadores con la técnica BoW. Actividad 2 Tres vectorizadores con la técnica Tf-Idf.
Parámetro Parámetros
max_features max_features ngram_range
cv_1 100 tf_idf_1 100 1,2
Vectorizadores cv_2 200 Vectorizadores tf_idf_2 200 1,2
cv_3 300 tf_idf_3 300 1,2
20
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Entregable Parámetros
size window min_count sg
w2v_1 100 5 5 0
Actividad 3 Tres modelos Word2Vec entrenados.
Vectorizadores w2v_2 200 5 5 0
w2v_3 300 1,2 5 1
11631x1
21
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Entregable Parámetros
size window min_count sg min_n max_n
fastText_1 100 4 5 0 2 5
Actividad 4 Tres modelos fastText entrenados.
Vectorizadores fastText_2 200 4 3 0 2 4
fastText_3 300 4 4 0 2 6
11631x1
22
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Entregable Entregable
1: Verdadero
(LabelEncoder) (train_test_split )
0: Falso
X Y
23
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Parámetros Métricas
n_neighbors weights metric Accuracy Precision Recall F1-score
cv_1 7 distance minkowski
cv_1 0.80 0.77 0.88 0.83
cv_2 3 distance minkowski
cv_2 0.80 0.76 0.90 0.82
cv_3 3 distance minkowski
cv_3 0.78 0.74 0.91 0.81
tf_idf_1 5 distance minkowski
tf_idf_1 0.83 0.83 0.87 0.85
tf_idf_2 11 distance minkowski
tf_idf_2 0.83 0.82 0.87 0.84
KNN
Parámetros Métricas
criterion max_dept min_samples_leaf min_samples_split max_features Accuracy Precision Recall F1-score
cv_1 gini 9 10 2 None
cv_1 0.76 0.74 0.85 0.79
cv_2 gini 9 10 2 None
cv_2 0.76 0.74 0.85 0.79
cv_3 gini 9 10 2 None
cv_3 0.76 0.74 0.85 0.79
tf_idf_1 entropy 9 16 2 tf_idf_1
None 0.76 0.75 0.83 0.78
Decision Tree
Parámetros Métricas
alpha Accuracy Precision Recall F1-score
cv_1 0.1
cv_1 0.82 0.86 0.80 0.83
cv_2 0.1
cv_2 0.84 0.87 0.82 0.84
cv_3 0.01
cv_3 0.85 0.88 0.83 0.85
tf_idf_1 0.00001
tf_idf_1 0.81 0.82 0.83 0.82
Naive Bayes
tf_idf_2 0.1
tf_idf_2 0.83 0.84 0.84 0.84
tf_idf_3 0.1
tf_idf_3 0.86 0.87 0.87 0.87
w2v_1 0.1
w2v_1 0.68 0.85 0.49 0.62
w2v_2 w2v_2
1 0.68 0.88 0.47 0.61
w2v_3 0.1
w2v_3 0.66 0.88 0.43 0.57
fastText_1 fastText_1
1 0.73 0.80 0.65 0.72
fastText_2 fastText_2
1 0.72 0.81 0.61 0.70
fastText_3 fastText_3
0.1 0.70 0.81 0.58 0.67
26
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
Parámetros Métricas
C gamma kernel Accuracy Precision Recall F1-score
cv_1 1 0.1 rbf
cv_1 0.84 0.83 0.88 0.85
cv_2 0.5 1 linear
cv_2 0.82 0.80 0.86 0.83
cv_3 0.5 1 linear
cv_3 0.85 0.85 0.86 0.86
tf_idf_1 1 1 rbf
tf_idf_1 0.86 0.88 0.84 0.86
tf_idf_2 0.5 1 rbf
tf_idf_2 0.86 0.88 0.86 0.87
SVM
Parámetros Métricas
solver penalty C Accuracy Precision Recall F1-score
cv_1 saga l2 100
cv_1 0.84 0.84 0.86 0.85
cv_2 sag l2 100
cv_2 0.83 0.83 0.85 0.84
cv_3 sag l2 10
cv_3 0.86 0.86 0.88 0.86
tf_idf_1 newton-cg l2 10
tf_idf_1 0.85 0.87 0.84 0.86
tf_idf_2 newton-cg l2 1
tf_idf_2 0.85 0.86 0.85 0.85
SVM
tf_idf_3 newton-cg l2 10
tf_idf_3 0.86 0.88 0.87 0.87
w2v_1 newton-cg none 0.001
w2v_1 0.69 0.72 0.67 0.69
w2v_2 lbfgs none 0.001
w2v_2 0.74 0.77 0.72 0.74
w2v_3 lbfgs none 0.001
w2v_3 0.77 0.81 0.74 0.77
fastText_1 lbfgs none 0.001
fastText_1 0.76 0.78 0.74 0.76
fastText_2 lbfgs none 0.001
fastText_2 0.82 0.85 0.80 0.82
fastText_3 lbfgs none 0.001
fastText_3 0.80 0.83 0.78 0.80
28
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
29
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
criterion: gini
Árbol de max_depth: 9
decisión max_features: None 76.53% 75.98% 81.31% 78.56%
(tf_idf_3) min_samples_leaf: 11
min_samples_split: 2
Naive Bayes
alpha: 0.1 86.17% 86.92% 86.92% 86.92%
(tf_idf_3)
C: 0.5
SVM
gamma: 1 87.41% 88.63% 87.38% 88.00%
(tf_idf_3)
kernel: rbf
Regresión C: 10,
Logística penalty: l2 86.67% 87.74 86.92% 87.32%
(tf_idf_3) solver: newton-cg
30
Objetivos Desarrollo Desarrollo
Realidad
de la Marco Teórico de la de la Resultados Conclusiones
Problemática
Investigación Metodología Solución
CONCLUSIONES
Se logró desarrollar un modelo para la detección de información falsa del COVID-19 mediante la combinación
de técnicas de Machine Learning y Natural Language Processing.
Se logró crear un dataset de 2022 registros de información verdadera y falsa del COVID-19 en el contexto
peruano.
Se encontró la mejor combinación de técnicas de Machine Learning con SVM (C (0.5), gamma (1) y kernel
(rbf)) que permitió construir un clasificación robusto de información falsa del COVID-19.
Se obtuvo un buen desempeño del modelo de clasificación de información falsa del COVID-19 con 87.41%
de Accuracy, 88.63% de Precision, 87.39% de Recall y 88% de F1-score.
31
32