Está en la página 1de 62

UNIVERSIDAD MAYOR DE SAN ANDRÉS

FACULTAD DE CIENCIAS PURAS Y NATURALES

CARRERA DE MATEMÁTICA

UNIDAD DE POSGRADO

MAESTRÍA EN MODELAJE MATEMÁTICO PRIMERA VERSIÓN

MÉTODO MULTIVARIADO APLICADO AL ANÁLISIS DE TEXTOS DE PERIÓDICOS

TRABAJO DE GRADO PARA LA OBTENCIÓN DEL TITULO DE MAESTRÍA

Autor: Rudy Wilfredo Mayta Callisaya


Tutor: MSc. Ivan Adalid Márquez Callisaya

La Paz, marzo del 2022


TRABAJO DE GRADO

MÉTODO MULTIVARIADO APLICADO AL ANÁLISIS DE TEXTOS DE PERIÓDICOS

TRABAJO DE GRADO PARA LA OBTENCIÓN DEL TÍTULO DE MAESTRÍA

Autor: Rudy Wilfredo Mayta Callisaya

TRABAJO DE GRADO PRESENTADO CON EL OBJETIVO DE OBTENER EL TITULO DE MAESTRIA


EN MODELAJE MATEMÁTICO EN EL MARCO DEL PROGRAMA MAESTRÍA EN MODELAJE
MATEMÁTICO PRIMERA VERSIÓN

Tutor: MSc. Ivan Adalid Márquez Callisaya

La Paz, marzo del 2022

i
Índice general

1. Aspectos Generales 1
1.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Antecedentes: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Justificación de la Investigación: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4. Planteamiento del Problema: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.1. Identificación del Problema: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.2. Formulación del Problema: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Objetivo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5.1. Objetivo General: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5.2. Objetivo Específico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.6. Alcance de la Investigación: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Marco Teórico 5
2.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Páginas Web y recursos informáticos para la recolección de información: . . . . . . . . . . . . . . . . 5
2.2.1. HTML: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2. CSS: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3. JavaScript: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.4. PHP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.5. MySQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.6. Servidores Locales: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.7. Xampp: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.8. Web Scraping: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Minería de Textos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

ii
TRABAJO DE GRADO

2.3.1. Asociación entre documento y palabras: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10


2.3.2. La prueba χ2 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.3. Tasas de asociación entre documentos y palabras: . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.4. Espacios de perfiles de Filas y Columnas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.5. Inercia de una nube: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.6. Ejes factoriales: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.7. Fórmulas de transición: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.8. Contribución de documentos y palabras a la inercia del eje: . . . . . . . . . . . . . . . . . . . 15
2.3.9. Calidad de representación de un punto: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Agrupación de datos textuales: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1. Medidas de disimilitud entre documentos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. Medición de la calidad de la partición: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2.1. Grupos de documentos en el espacio factorial: . . . . . . . . . . . . . . . . . . . . . 17
2.4.3. Medidas de disimilitud entre grupos de documentos . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3.1. El método de enlace único: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3.2. El método de enlace completo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3.3. Método de Ward: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.4. Agrupación jerárquica aglomerativa: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.4.1. Algoritmo de construcción de árbol jerárquico: . . . . . . . . . . . . . . . . . . . . . 19
2.4.4.2. Seleccionar la partición final: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.5. Un procedimiento para combinar CA y agrupamiento: . . . . . . . . . . . . . . . . . . . . . . 20

3. Metodología de la Investigación 22
3.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2. Diseño del Modelo para el almacenamiento de Datos: . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3. Recopilación de datos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1. La base de datos descargado de los periodicos: . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2. Toma de la muestra aleatoria por medio del comando sample para la noticia de un día
determinado: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Selección y limpieza de datos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1. Antes de la Cuarentena (AC): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.2. Despues de la Cuarentena (DC): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5. Aplicacion de las técnicas de Mineria de Textos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6. Interpretacion y evaluacion de modelos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4. Conclusión y Recomendaciones 43
4.1. Conclusión: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2. Propuestas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3. Recomendación: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

iii
TRABAJO DE GRADO

4.4. Bibliografía: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5. Anexo A: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.1. Código del raspado de titulares del periódico digital El Diario: . . . . . . . . . . . . . . . . . 45
4.5.2. Código del modelo para el plano de máxima inercia y Agrupación de datos: . . . . . . . . . . 47
4.6. Anexo B: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6.1. Cálculo de los Componentes Principales: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6.2. Proceso de extracción de factores: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.6.3. Porcentajes de variablilidad: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

iv
Índice de figuras

2.2.1.El periódico El Diario aplicando el código HTML . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6


2.2.2.La aplicación HTML de El Diario mostrando la maquetación de CSS . . . . . . . . . . . . . . . . . . 6
2.2.3.Inclusión del JavaScript en el mismo documento XHTML . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.4.Inclusión de JavaScript en un Archivo Externo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.5.Registro realizado con PHP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2.1.Código en PHP para el inicio del raspado de El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . 23


3.2.2.Ventana principal para inicio del raspado de El diario . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.3.Código del raspado de los titulares de El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.4.Código del raspado del cuerpo de El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.5.Raspado de las noticias El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.6.Código para la notificación del raspado correcto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.7.Notificación del raspado correcto de El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.8.Notificaión que las operaciones se realizaron de forma correcta . . . . . . . . . . . . . . . . . . . . . . 25
3.2.9.Código que crea la Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.10. Base de datos de El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.11. Inserta información a la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.12. Pantalla principal del servidos local en la tabla El Diario . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.1.Base de datos El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2.Noticia (Titular) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.3.Comando sample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4.1.La cateria El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.2.El Diario según los ambitos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.3.La Prensa según los ambitos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

v
TRABAJO DE GRADO

3.4.4.La Razón según los ambitos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32


3.4.5.El Diario según los ambitos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.6.La Prensa según los ambitos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.7.La Razón según los ambitos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.8.Base de datos para el analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.1.Cuerpo de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.2.Sumario por perido y periodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.3. 20 palabras más frecuentes en salud y política . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5.4.Rango de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5.5.Índice de palabras más frecuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.6.Valores de χ2 y p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.7.Valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.8.Asociación entre los valores propios y los ejes factoriales . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.9.Representación de filas (documentos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.10. Representación de columnas (palabras) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.11. Representación de documentos y palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.12. Elipse de confianza de los documentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5.13. Elipse de confianza de las palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5.14. Plano de maxima inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.5.15. Dendograma de documentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.5.1.Página principal de HTML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45


4.5.2.Raspado de los titulares digitales de El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5.3.Base de datos El Diario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.4.Código del modelo primera parte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.5.Código del modelo segunda parte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.5.6.Código del modelo tercera parte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

vi
TRABAJO DE GRADO

Dedicatoria
A mi familia y amigos.
Agradecimiento
Agradezco a mi familia por su constante apoyo, a los docentes de la Carrera de Matemática, Informática, Estadistica
en especial a mi tutor y a mis compañeros por sus recomendaciones. También a los docentes de los cursos Taller I
y Taller II por sus respectivas recomendaciones.
Resumen
La producción de información textual en la red exige aplicar nuevas formas para resumir los grandes volúmenes
de información que se generan diariamente. Este trabajo presenta métodos multivariados de conglomerados y de
correspondencias aplicados a textos de titulares de periódicos, exponiendo un criterio formal sofisticado para el
análisis estadístico de datos textuales y métodos de análisis gráfico.
Asimismo, expone el procedimiento de recopilación automática de textos de titulares de periódicos El Diario, Prensa
y La Razón desde julio del 2019 a julio del 2020 para constitutir una base de datos estruturada considerando tres
categorías temáticas: salud, política y economía; y dos periodos temporales: Antes de la cuarentena (AC) a partir
de julio del 2019 al 15 de marzo del 2020 y después de la cuarentena (DC) del 16 de marzo a julio del 2020.
Determinando así el plano de máxima inercia en el cual se llega a gráficar los textos y las palabras para complementar
su análisis correspondiente.
Abstract
The production of textual information on the web requires the application of new ways to summarize the large
volumes of information that are generated daily. This paper presents multivariate clustering and correspondence
methods applied to newspaper headline texts, exposing a sophisticated formal approach for statistical analysis of
textual data and graphical analysis methods.
Likewise, it exposes the automatic collection procedure of texts from newspaper headlines El Diario, Prensa and
La Razón from July 2019 to July 2020 to constitute a structured database considering three thematic categories:
health, politics and economy; and two temporary periods: Before quarantine (AC) from July 2019 to March 15,
2020 and after quarantine (DC) from March 16 to July 2020.
Thus determining the plane of maximum inertia in which the texts and words are graphed to complement their
corresponding analysis.

vii
CAPÍTULO 1

Aspectos Generales

1.1. Introducción:
Hoy en día existe demasiada información digital en la web, las Redes Sociales, las Bibliotecas digitales, etc. Y esta
información digital va en aumento. Esta tendencia se va dando también por el aumento en las comunicaciones
digitalizadas.
En el presente trabajo se realizará el raspado de los titulares de los periódicos digitales como ser: El Diario, La
Prensa y La Razón y esta información se lo almacenara en una base de datos que se ubica en un servidor local
“localhost” que se encuentra en la unidad C/Xamp/htdosc, el raspado de los titulares digitales se lo realizara
por medio de un lenguaje de programación elaborado en PHP en el cual se utilizan las URLs “https://www.la-
razon.com/”, “https://www.eldiario.net/portal/”, “http://www.laprensa.com.bo/”. Se abordara esta información
almacenada en la base de datos para ver qué relación existe entre los titulares de los periódicos digitales por medio
de las herramientas de minería de textos.
Se usa una pequeña tabla léxica construida a partir de los titulares de los periódicos digitales, para establecer los
principios de análisis de correspondencia considerando tres categorías: periodo, periódico y p_per.
En esta primera parte, un umbral muy alto en la frecuencia de palabras se elige con el fin de ayudarnos a comprender
el análisis de correspondencia, de esta forma se determina una tabla con documentos AC_diario, AC_prensa,
AC_razon, DC_diario, DC_prensa y DC_razon que corresponde a las filas y las palabras más frecuentes en el
cuerpo, cada elemento de la tabla corresponde a la frecuencia con que el documento usa la palabra de cada columna
gracias a esta estructura se llega a visualizar la proximidad entre documentos y palabras.
Los métodos de agrupamiento de documentos es dividirlos en grupos denominados cluster, no elegidos a priori, para
que los archivos léxicos de los documentos sean similares dentro del mismo cluster, y difieren significativamente
de un cluster a otro. Esta agrupación debe tener en cuenta todos los vocabularios retenidos, es decir, requiere un
enfoque multidimensional para la construcción de conglomerados.

1
TRABAJO DE GRADO

1.2. Antecedentes:
Los grandes volúmenes de información que se encuentran cada día en las páginas web permiten cuestionarnos el cómo
poder realizar un estudio en algún ámbito con esta información. Pero el avance de la tecnología y las herramientas
que han ido apareciendo en estos tiempos nos permiten hoy en día abordar este campo de la información digital
para su respectivo estudio.
La minería de textos es una de las herramientas que nos apoya para el estudio de la masiva información digitales que
se puede encontrar en el internet. La minería de textos utilizada en las Ciencias de la Información explora nuevos
métodos que nos permite la decodificación y el análisis del lenguaje natural y esta cualidad de la minería de texto
es la razón que fundamenta la propuesta de esta herramienta como perspectiva metodológica para la realización de
resúmenes documentales.
Hacer un resumen automático a partir de la extracción de palabras clave o frases significativas del texto produce
como resultado un resumen, con ligeras dificultades desde el punto de vista lingüístico (sinonimia, polisemia, anáfora,
etc.). Tradicionalmente, su producción se ha basado en métodos estadísticos y técnicas de probabilidades, las cuales
tienden a aportar un nivel de entendimiento de los conceptos y términos. La capacidad de entender el lenguaje
humano está en terreno de la lingüística. Sus principales dificultades estriban en las técnicas léxico-sintácticas
de selección, en las actividades lógico-semánticas de interpretación y en las tareas pragmático-documentales de
producción. Una de las soluciones de este problema son los sistemas expertos de inteligencia artificial, porque con
solo analizar las dificultades que presentan se hace evidente que los sistemas actuales en general aún no están
preparados para el reto que implica la producción de resúmenes automáticos de alta calidad.
Los documentos se estudian y comparan mediante el análisis de correspondencia, partiendo del conjunto de palabras,
sus repeticiones y distribuciones, sin hipótesis previas. Como resultado, las similitudes entre documentos y entre
palabras y como las asociaciones entre documentos y palabras, se pueden visualizar. Palabras que discriminan entre
documentos se pueden extraer, lo que lleva a la identificación de temas importantes. Además, los documentos a
favor de estos temas se pueden encontrar y mostrar. Agrupar los documentos léxicamente homogéneos por medio
de procesamiento automático.

1.3. Justificación de la Investigación:


La masiva información digital que se encuentran en textos disponibles en versión digital de los periodicos y esta
información se encuentra también en cantidades muy amplias considerando el cuerpo de cada noticia, pero los
titulares de los periódicos digitales nos dan a comprender lo que el cuerpo de la noticia nos trata de informar.
Debido a esto tome la decisión de enfocarme solo en los titulares de los periódicos digitales para ver si existia
alguna relación entre estos titulares.

2
TRABAJO DE GRADO

1.4. Planteamiento del Problema:

1.4.1. Identificación del Problema:


Diariamente se genera información a través de los medios de comunicación masiva en temáticas de economía, salud
y política, en particular en los medios escritos como los periódicos que producen amplia cantidad de información
que limita a los lectores a solo leer los titulares de periódicos llegando a omitir el contenido de la noticia, formando
un sesgo informativo para los lectores y restringiendo a los analistas de información el poder procesar textos de
manera rigurosa.

1.4.2. Formulación del Problema:


¿Qué relación subyacente existe en los textos de titulares de periódicos digitales en ámbitos de economía, política
y salud?

1.5. Objetivo:

1.5.1. Objetivo General:


Observar el comportamiento en los ámbitos económicos, políticos y salud por medio de los periódicos digitales en
el plano de máxima inercia

1.5.2. Objetivo Específico


1. Realizar la recolección de información aplicando la técnica informática del raspado web de titulares de noticias
de periódicos digitales (El Diario, La Razón y La Prensa)
2. Categorizar la información recolectada de titulares de noticia en ámbitos económicos, políticos y de salud
3. Detallar métodos multivariados para la conformación de la matriz de frecuencia
4. Determinar el plano de máxima inercia bajo la matriz de frecuencias.

1.6. Alcance de la Investigación:


La masiva información que se encuentra en los periódicos digitales de El Diario, La Prensa y La Razón nos informa
sobre ciertos ámbitos de nuestro interés en especial la parte de los titulares nos lleva a informar de forma similar que
el cuerpo de la noticia razón por el cual se realizara el raspado de estos titulares por medio de un programa elaborado
en PHP en el cual se llegara a utilizar las URLs “https://www.la-razon.com/”, “https://www.eldiario.net/portal/”,
“http://www.laprensa.com.bo/” y se los almacena en la base de datos que se ubica en un servidor local “localhost”
ubicada en la unidad C/Xamp/htdosc.
Los titulares digitales que se encuentran en la base de datos se lo categorizaran en los ámbitos de la economía,
política y salud extrayéndolos en una hoja de Excel el cual será cargado al programa R, en el cual se realizar un

3
TRABAJO DE GRADO

programa enfocado en los conceptos del análisis de correspondencia de datos textuales y la agrupación de datos
textuales para el estudio de la información de los titulares desde julio 2019 al 15 de marzo del 2020 y del 16 de
marzo del 2020 a julio del 2020. El plano de máxima inercia que se determino nos brinda una visualización gráfica
de la relación que existe entre los documentos digitales y las diferentes palabras que se determinaron para el trabajo
y su interpretación.

4
CAPÍTULO 2

Marco Teórico

2.1. Introducción:
Los titulares digitales de los periodicos La Razon, El Diario y La Prensa se los almasena en la base de datos que
se ubica en un servidor local “localhost” que se encuentra en la unidad C/Xamp/htdosc, el raspado de los titulares
digitales se lo realiza por medio de un lenguaje de programación elaborado en PHP en el cual se utilizan las URLs
“https://www.la-razon.com/”, “https://www.eldiario.net/portal/”, “http://www.laprensa.com.bo/”.
Esta base de datos se la carga al programa R se las categoriza y se determina la matriz de frecuencias en el cual
se aplica el análisis de correspondencia de datos textuales por el cual se determina la relación que existe entre los
documentos digitales y las palabras por medio de la inercia total de una nube de documentos digitales o nube de
palabras en plano de máxima inercia en donde se visualizan los documentos digitales y las palabras para dar las
interpretaciones respectivas y también visualizar en un dendograma los respectivos clúster.

2.2. Páginas Web y recursos informáticos para la recolección de infor-


mación:

2.2.1. HTML:
HTML es el lenguaje de programación predominante para la elaboración de páginas web. Es usado para describir
la estructura y el contenido en forma de textos digitales, así como para complementar el texto digital con objetos
tales como imágenes, etc. HTML se escribe en forma de “etiqueta”, rodeadas por corchetes angulares (<,>). HTML
también puede describir, hasta un cierto punto, la apariencia de un documento, y puede incluir un script como por
ejemplo JavaScript y CSS, el cual puede afectar el comportamiento de navegadores web y otros procesadores de
HTML
Desde su creación HTML ha llegado a pasado de ser un lenguaje utilizado exclusivamente para crear documentos

5
TRABAJO DE GRADO

electrónicos a ser un lenguaje utilizado para las aplicaciones electrónicas como buscadores, tiendas online, banca
electrónica, etc.

Figura 2.2.1: El periódico El Diario aplicando el código HTML

2.2.2. CSS:
El CSS es un lenguaje de estilo de hojas web que permite al programador y a los usuarios adjuntar estilos como,
por ejemplo, fuentes, espaciado y estilo de letras, etc. A documentos estructurados como por ejemplo HTML y
aplicaciones en XML.

Figura 2.2.2: La aplicación HTML de El Diario mostrando la maquetación de CSS

6
TRABAJO DE GRADO

2.2.3. JavaScript:
JavaScript es el lenguaje de programación que debe usarse para añadir características interactivas a un sitio web
como, por ejemplo, juegos, eventos que ocurren cuando los botones son presionados o los datos son introducidos en
los formularios, efectos de estilo dinámicos, animación, y mucho más. JavaScript mediante un mismo documento
XHTML, como por ejemplo

Figura 2.2.3: Inclusión del JavaScript en el mismo documento XHTML

también JavaScript se puede incorporar mediante un archivo externo, como por ejemplo

7
TRABAJO DE GRADO

Figura 2.2.4: Inclusión de JavaScript en un Archivo Externo

2.2.4. PHP:
PHP es un lenguaje de programación de estilo clásico, con esto se quiere decir que es un lenguaje de programación
con variables, sentencias condicionales, bucles, funciones, etc. No es un lenguaje de marcas como podría ser HTML
y XML. Es más cercano a JavaScript o a C. Pero a diferencia de Java o JavaScript que se ejecutan en el navegador,
PHP se ejecuta en el servidor, por eso nos permite acceder a los recursos que tenga el servidor como por ejemplo
podría ser una base de datos. El programa PHP es ejecutado en el servidor y el resultado enviado al navegador. El
resultado es normalmente una página HTML.
Veamos un ejemplo del contenido de una página web PHP, que habremos de almacenar en un archivo que termina
con la extensión .PHP y que contiene texto:

2.2.5. MySQL:
MySQL es un software de código abierto para la gestión de base de datos que ayuda a los usuarios a almacenar,
organizar y obtener datos. Es un programa muy poderoso con muchísimas características y flexibilidad.

2.2.6. Servidores Locales:


La traducción literal del término sería “huésped local”, aunque es más correcto definirlo como servidor o dispositivo
local. Como su propio nombre indica, un servidor local está localizado en el propio equipo o host. Como ejemplo,
si ejecutamos un programa en nuestro ordenador, éste es el localhost. Por el contrario, si accedemos a un servidor
externo, ya no es un localhost. El localhost siempre refiere al servidor local de la máquina en la que estamos
trabajando.

8
TRABAJO DE GRADO

Figura 2.2.5: Registro realizado con PHP

Cuando realizamos una petición a un localhost, este equipo “habla” consigo mismo: envía y recibe comunicaciones
de red desde sí misma y hacia sí misma a través de un dispositivo de red virtual. ¿Cómo lo consigue? Mediante
una IP, especial e invariable, que permite acceder a ese equipo sin necesidad de conexión a través de internet.
Por tanto, el localhost permite emular conexiones de red cuando no hay ninguna red activa o disponible. De ahí
su utilidad cuando trabajamos con archivos offline, necesitamos crear entornos de prueba, verificar la capacidad de
procesamiento de un determinado equipo o generar copias de seguridad de un sitio web.

2.2.7. Xampp:
XAMPP es un servidor local independiente de plataforma, software libre, que consiste principalmente en la base de
datos MySQL, el servidor Web Apache y los intérpretes para lenguajes de script PHP. El programa está liberado
bajo la licencia GNU y actúa como un servidor Web libre, fácil de usar y capaz de interpretar páginas dinámicas.

2.2.8. Web Scraping:


Se trata de la captura automatizada de información que se encuentra disponible en la web para ser vista, leída,
analizada y si se quiere, utilizada por los lectores digitales.

2.3. Minería de Textos:


Las palabras que forman un texto digital, aunque aparentemente en sí mismas no aportan demasiada información,
sí que pueden proporcionar un primer análisis del cuerpo de texto de tal forma que se determinen ciertos factores
no semánticos del mismo, por ejemplo, gracias a su conteo y análisis conseguiremos determinar el tamaño de la

9
TRABAJO DE GRADO

colección, las principales funciones sintácticas de dichas palabras y la riqueza léxica del texto digital (la proporción
existente entre el número de palabras distintas y el total de palabras del cuerpo) Lo que si hay que tener en cuenta
es que las palabras son independientes del contexto, por lo que servirán para una representación más general de
los documentos a costo de perder información semántica.
Las palabras vacías son aquellas que aparecen frecuentemente en el texto digital pero que no aportan significado
relevante, por ejemplo los artículos, preposiciones y conjunciones.
Los términos son palabras cuya semántica ayuda a recordar los temas principales del documento, es decir identifica
la temática del texto digital o del cuerpo del documento digital. Distintos términos tienen distinta relevancia en
una colección de documentos, dicha relevancia se consigue asociando un peso numérico a cada término índice del
documento digital. Normalmente, suelen ser nombres o grupos de nombres, Existe un tipo de bolsa de palabras
basada exclusivamente en este tipo de palabras, con lo que se consigue reducir, considerablemente, el dominio de
los elementos.
Un concepto es un elemento del pensamiento, expresado en general por un término, así el concepto será una
representación mental de un objeto basándose en la selección de aquellas propiedades relevantes que definan una
clase de objetos que serán las que diferencien una clase de objetos de otra.
Se denominará frase a la secuencia de palabras, con cierto nexo sintáctico, que aparecen en un texto digital. Y se
lo representa como Fi =< (x1 ) (x2 ) · · · (xn ) > donde el símbolo xk , para k = 1, 2, ..., n siendo n el total de palabras
de una frase. Cada xk será una secuencia de caracteres que se distingue dentro de la frase por ir delimitada por
caracteres en blanco.
Un párrafo, es un conjunto de frases que concluyen en un punto y aparte. Conceptualmente un párrafo contiene
el desarrollo de una idea central o un conjunto de ellas enlazadas entre sí, expresada mediante una o más frases
que presenten coherencia en el discurso.
Representaremos un párrafo como una colección de frases que aparecen de forma secuencial en el texto digital, es
decir, como P = {F1 , ..., Fp } siendo p el número de frases que lo componen.
La bolsa de palabras es un tipo de representación de documentos que procede de la recuperación de información
clásica.
Un documento Di es cada uno de los textos digital que forman la colección L (cuerpo), que estará formada por
palabras, conceptos y frases, todos ellos representan una idea fundamental.
Las formas intermedias basadas en documentos nos permitirán deducir patrones, tendencias y relaciones de interés
en un cuerpo específico. La forma intermedia basada en documentos digitales se puede transformar en una basada
en conceptos, extrayendo información relevante de acuerdo con los objetos de interés de un cuerpo especifico.

2.3.1. Asociación entre documento y palabras:


1.- Por Comparación:
En el Análisis de Correspondencia ( denotada por AC) se comparan los documentos digitales mediante la distribu-
ción de las palabras, que se denomina el perfil de fila o perfil léxico.
Estos perfiles léxicos se calculan a partir de una tabla léxica, ya sea en frecuencia Y (tabla de recuento sin procesar)
o en forma de frecuencia relativa F (que resulta de dividiendo cada fila por su total). El perfil de fila i viene dado

10
TRABAJO DE GRADO

yij fij
por: yi. = fi. donde yij determina la frecuencia con la que una palabra aparece en el documento digital e yi.
es el total de las frecuencias que aparecen en el documento digital o fila para j = 1, 2, ..., J. También se puede
y.j
determinar el perfil de fila promedio N = f.j donde N es la frecuencia total con la que aparecen las palabras en
todo el documento digital para j = 1, 2, ..., J, gracias a esta relación podemos comparar los perfiles léxicos de los
documentos con el promedio, analizando de esta forma las categorías que usan ciertas palabras más o menos que
el promedio.
Del mismo modo, las palabras se pueden comparar utilizando sus perfiles de columna, por medio de la tabla de
frecuencias Y (o tabla de frecuencias relativas F ), dividiendo cada columna por su total. Por ejemplo la columna
yij fij
j viene dada por: y.j = f.j donde y.j es la frecuencia con la que una palabra aparece en todo el cuerpo para
yi.
i = 1, 2, ..., I. También se puede determinar el perfil promedio de la columna bajo la relación N = fi. para
i = 1, 2, ..., I, para poder comparar el perfil de una palabra con el promedio, identificando así palabras usadas más
o menos que el promedio en un documento.
2.- Independencia de documentos y palabras:
Otro enfoque para estudiar las asociaciones entre documentos digitales y palabras, equivalente al anterior, se puede
desarrollar en términos de desviación de la independencia. Aquí, la situación de referencia es la ausencia de relaciones
entre documentos digitales y palabras, en el sentido de que los primeros seleccionan los segundos al azar.
Comencemos con la tabla léxica en forma de frecuencia relativa F . Existe independencia entre los documentos
digitales de fila y las palabras de columna si, para cualquier fila i y columna j, se cumple la siguiente ecuación:

fij = fi. f.j

En este caso, también se pueden probar las siguientes ecuaciones:


fij
Para cada fila fi. = f.j
fij
Para cada columna f.j = fi.

La retención de estas fórmulas significaría que todos los perfiles léxicos son iguales a uno al otro e igual al perfil de
fila promedio. Del mismo modo, todos los perfiles de columna sería igual el uno al otro e igual al perfil de columna
promedio. Esto muestra claramente que ambos enfoques, ya sea el desarrollado aquí (partida de la independencia
entre documentos y palabras) o la anterior (comparación de documento y palabras), son equivalentes. Sin embargo,
cada punto de vista nos ayuda a centrarnos en aspectos diferentes y complementarios.
Bajo la hipótesis de independencia, es decir, suponiendo que fij = fi. f.j se cumple para cualquier i y j, las
frecuencias relativas esperadas están dadas por fi. × f.j , y los recuentos esperados son N × fi. × f.j . Se toma la
tabla de estos recuentos esperados como el modelo para comparar la tabla de conteos observados Y , este modelo
es denominado el modelo de independencia.

2.3.2. La prueba χ2 :
En el caso de un cuerpo digital, el modelo de independencia nunca se satisface totalmente, y necesitamos evaluar
el nivel de desviación que se ha producido.
Los χ2 estadística resume las diferencias entre conteos, observados y esperados como sigue:

11
TRABAJO DE GRADO

X (N fij − N fi. × f.j )2 X (fij − fi. × f.j )


χ2 = =N
i,j
N fi. × f.j i,j
fi. × f.j

Así se tiene:

χ2 = 0, si los documentos digitales son iguales (los documentos digitales tiene el mismo contenido verbal).

χ2 , es pequeño, entonces los documentos digitales están cerca de ser iguales.

χ2 , es grande, entonces los documentos digitales están lejos de ser iguales.

2.3.3. Tasas de asociación entre documentos y palabras:


La relación del documento digital observado con respecto al documento digital esperado para un determinado punto
de fila (documento digital i) y punto de columna (palabra j) mide la asociación entre este documento digital y esta
palabra. Esta relación ij se denomina tasa de asociación entre el documento digital i y la palabra j, y se define:

N × fij fij
τij = =
N × fi. × f.j fi. × f.j
Si τij es mayor que 1, el documento digital y la palabra se atraen entre sí

Si τij es menor que 1, el documento digital y la palabra se repelen entre sí

2.3.4. Espacios de perfiles de Filas y Columnas:


Los conjuntos de documentos digitales de fila y palabras de columna se tienen en cuenta a través de sus perfiles.
El análisis de correspondencia busca una representación geométrica de la similitudes y diferencias entre perfiles.
La nube de documentos NI se encuentra en un espacio J−dimensional denominado espacio documento cuyos ejes
ortogonales corresponden a palabras. Cada documento i está representado por un punto cuyas coordenadas son los
fij
elementos de su perfil para j = 1, ..., J. Además, al documento i se le atribuye un peso fi. , correspondiente a
fi. ,
J
P yij
la proporción que representan sus ocurrencias con respecto al total: fi. = N . El centro de gravedad (CoG) de
j=1
esta nube, denotado por GI , tiene por perfil el documento digital promedio perfil f.j , para j = 1, ..., J.
Del mismo modo, la palabra nube NJ se encuentra en un espacio I−dimensional denominado espacio de palabras
cuyos ejes ortogonales corresponden a documentos. Cada palabra es representado por un punto cuyas coordenadas
fij
son los elementos de su perfil para i = 1, ..., I. Además, a la palabra j se le atribuye un peso f.j , correspondiente
f.j
I
P yij
a la proporción que representan sus ocurrencias con respecto al total: f.j = N . El CoG de esta nube, denotado
i=1
GJ , tiene por perfil la palabra promedio del perfil fi. para i = 1, ..., I.
Por lo tanto, tenemos dos nubes de puntos de perfiles en dos espacios diferentes, con pesos atribuidos a los puntos.
Los respectivos CoG corresponden a los márgenes de la tabla de frecuencia relativa F . Ambos espacios ahora
necesitan estar dotado de distancias para inducir proximidades entre filas o columnas.
J  2
fij fi0 j
Distancia al cuadrado entre filas d2 (i, i0 ) = 1
P
f.j fi. − fi0 .
j=1

12
TRABAJO DE GRADO

I  2
fij fij 0
Distancia al cuadrado entre columnas d2 (j, j 0 ) = 1
P
fi. f.j − f.j 0 .
i=1

A estas distancias se las conocen como χ2 distancias.

2.3.5. Inercia de una nube:


La inercia de una nube es la suma de la inercia de cada uno de sus puntos, donde la inercia de un punto se define
como el producto de su peso y la distancia al cuadrado al CoG de la nube. La inercia total, que para un conjunto
dado de pesos aumenta a medida que aumentan las distancias, es una medida de la dispersión de una nube. Si
todos los perfiles son iguales entre sí, todos los puntos se fusionan con el CoG.
Cuando los ejes de referencia son ortogonales, como es el caso de ambos NI y NJ , la inercia de una nube es
simplemente la suma de las inercias de todos los ejes. En un eje dado, la inercia de un punto con respecto al CoG
es igual al producto entre su peso y su valor de coordenadas al cuadrado en ese eje. La inercia de la nube NI con
respecto a su CoG, GI , es igual a:

I J 2 X I X J 2
χ2

X X 1 fij (fij − fi. × f.j )
I (NI ) = fi. − f.j = = = Φ2
i=1 j=1
f .j fi. i=1 j=1
fi. × f.j N

La contribución de cada documento i a la inercia total de la nube NI es por lo tanto, proporcional a su contribución
a la estadística χ2 .
Del mismo modo, la inercia de NJ con respecto a su CoG, GJ , es igual a:

J I 2 X I X J 2
χ2

X X 1 fij (fij − fi. × f.j )
I (NJ ) = f.j − fi. = = = Φ2
j=1 i=1
f i. f .j i=1 j=1
fi. × f.j N

La contribución de cada palabra j a la inercia total de la nube NJ es proporcional a su contribución a la estadística


χ2 .
La inercia de ambas nubes tiene el mismo valor, denotado por Φ2 , igual a la χ2 valor dividido por N , el gran total
de la tabla léxica.
Mientras que la prueba χ2 evalúa la independencia entre los documentos y las palabras, la inercia Φ2 , independiente
del total N del léxico de la tabla, mide la fuerza de la relación entre ellos, que pueden varíar mucho en los datos
textuales, dependiendo de la naturaleza específica de los documentos.

2.3.6. Ejes factoriales:


Las filas (documentos digitales) y las columnas (palabras) están representadas por sus perfiles. Ambas nubes de
los perfiles de fila y columna se centran, ya que el interés está en la dispersión de las nubes alrededor de sus CoG.
En cada espacio, la secuencia de ejes ortogonales de máxima inercia) (también llamados ejes factoriales), pasando
a través del CoG, luego se calcula.
En el espacio de filas, los ejes factoriales se denotan por us . El primer eje u1 maximiza la inercia de la nube
proyectada. Cada eje subsiguiente us , ortogonal a los (s − 1) anteriores, maximiza la inercia residual proyectada.
Análogamente, en el espacio de la columna, los ejes factoriales se denotan por vs . El primer eje v1 maximiza la

13
TRABAJO DE GRADO

inercia de la nube proyectada. Cada subsecuente eje vs , ortogonal a los (s − 1) anteriores, maximiza sucesivamente
la inercia residual proyectada.
Se ha establecido que calcular los ejes factoriales es equivalente a una cierta diagonalización matricial, con los
vectores de dirección de la unidad correspondientes a los vectores propios de esta matriz. El primer eje factorial
corresponde a el vector propio asociado con el valor propio más grande, denotado λ1 . La inercia a lo largo de
este eje es igual a λ1 . El segundo eje corresponde al vector propio asociado con el segundo valor propio, λ2 , y así
sucesivamente. Hay tantos ejes factoriales como valores propios distintos de cero. Del mismo modo, la dirección
de la unidad vectores vs correspondientes a los ejes de máxima inercia de la nube de columna, los perfiles son los
vectores propios de la transposición de la matriz anterior que tiene los mismos valores propios distintos de cero.
Esto implica que el perfil de columna y el perfil de fila de nubes, proyectados en ejes del mismo rango s, tienen la
misma inercia, igual a λs . Ambas nubes se centran en espacios con el mismo número de dimensiones y tienen el
mismo número de ejes factoriales con inercia distinta de cero, que como máximo es igual a S = min (I − 1, J − 1).
De hecho, las filas y columnas provienen de la misma tabla y, por lo tanto, corresponden a dos lados de los mismos
datos. Las dos nubes están fuertemente relacionadas, y esta relación se manifiesta de varias maneras, aquí en
términos de los dos nubes que tienen la misma inercia, y más tarde en términos de las fórmulas de transición entre
las coordenadas de fila y columna. Estas conexiones se denominan relaciones de dualidad.
En cualquier espacio, buscando el plano de máxima inercia, o en su lugar el primer eje de inercia máxima seguido del
segundo, conduce a la misma solución. Más generalmente, el hiperplano s-dimensional de máxima inercia contiene
el correspondiente (s − 1) -dimensional uno, y así sucesivamente hasta el plano y luego el eje de máxima inercia.
Es decir, los subespacios de inercia máxima, conocidos como subespacios factoriales, están anidados.
En análisis de correspondencia, los valores propios son no negativos y menores o iguales que 1. Un valor propio
igual a 1 corresponde a una asociación perfecta entre un subconjunto de filas y un subconjunto de columnas.
Esto ocurre cuando un subconjunto de documentos digitales utiliza exclusivamente ciertas palabras que nunca
se usan en los otros documentos. En tales casos, al reordenar filas y columnas de la tabla léxica, Aparecen dos
subtablas disjuntas. Se pueden observar valores propios de S 0 < S iguales a 1 en el caso de (S 0 + 1) subconjuntos
de documentos asociados exclusivamente con (S 0 + 1) subconjuntos de palabras. Al reordenar las filas y columnas
de la tabla léxica, (S 0 + 1) aparecerían subtablas disjuntas.
La inercia total de la nube NI (respectivamete NJ ) es la suma de las inercias a lo largo de cada eje, es decir, la
suma de los valores propios. La inercia asociada con un plano factorial es igual a la suma de los dos valores propios
asociados con su dos ejes. En consecuencia, el porcentaje de inercia que se explica por un determinado eje es igual
a la relación de su valor propio con respecto a la suma de todos los valores propios.
Dada una tabla léxica (I × J), el valor máximo de Φ2 es igual a min(I − 1; J − 1). Este máximo se alcanza cuando
los valores propios distintos de cero son todos iguales a 1. V de Cramer relaciona el valor observado de la inercia
(denotado por Φ2 ) a su valor máximo teórico a través de la siguiente relación:

 12
Φ2

V =
min {(I − 1) , (J − 1)}
Esta estadística varía entre 0 (independencia entre documentos digitales y palabra) y 1 (asociación máxima entre
documentos digitales y palabra). Suponiendo que la cantidad de documentos digitales es menor que la cantidad de

14
TRABAJO DE GRADO

palabras (I < J), este máximo se alcanza cuando cada documento utiliza su propio conjunto de palabras, ninguna
de las cuales se encuentra en los otros documentos. V de Cramer nos permite comparar la inercia de tablas de
diferentes tamaños.

2.3.7. Fórmulas de transición:


En el eje s, los factores en las filas y columnas, Fs y Gs , están conectados por las llamadas fórmulas de transición,
expresadas de la siguiente manera:

J
1 X fij
Fs (i) = √ Gs (j)
λs j=1 fi.
y

I
1 X fij
Gs (j) = √ Fs (i)
λs i=1 f.j
Fs (i) denota el valor de coordenadas de la fila i en el eje s, Gs (j) la coordenada valor de la columna j en el eje s,
λs el valor propio asociado con el eje s, fi. el peso para la fila i, f.j el peso para la columna j, y fij la proporción
de ocurrencias correspondientes al documento i y la palabra j.
Por lo tanto, en el eje s, el punto de fila i está, hasta una constante, en el CoG de la columna j, y viceversa. Los
pesos están dados por los componentes del punto de fila i (resp. punto de columna j)

2.3.8. Contribución de documentos y palabras a la inercia del eje:


La inercia total se puede descomponer, documento por documento o palabra por palabra. Los documentos y las
palabras de mayor contribución proporcionan información relevante sobre la estructura del documento y las nubes
de palabras.
La contribución del documento i a la inercia λs del eje s es igual a la inercia de su proyección sobre este eje
con respecto al CoG. Por lo tanto es calculado como el valor de coordenadas al cuadrado Fs2 (i) de su proyección,
multiplicada por su peso fi. . Generalmente, esta contribución, indicada ctrs (i), se da como porcentaje de la inercia
total del eje:

fi. × Fs2 (i)


ctrs (i) = 100 ×
λs
La suma de las contribuciones de todos los documentos a la inercia de un eje es por lo tanto igual al 100 % de la
inercia del eje, es decir,

I
X
ctrs (i) = 100
i=1

Del mismo modo, la contribución de la palabra j a la inercia del eje s viene dada por:

f.j × G2s (j)


ctrs (j) = 100 ×
λs

15
TRABAJO DE GRADO

J
X
ctrs (j) = 100
j=1

2.3.9. Calidad de representación de un punto:


Como dijimos anteriormente, el porcentaje de inercia (total) asociada con un determinado eje es una medida de la
calidad de representación general de la nube según lo proyectado en ese eje. Para evaluar la calidad de representación
de un punto (fila o columna) en el eje s, se puede aplicar el mismo principio: la relación de la inercia del punto i
que se proyecté en el eje s con respecto a su inercia en el espacio completo, qlts (i), se calcula como:

inercia del punto i proyectado en el eje s fi. Fs2 (i) Fs2 (i)
qlts (i) = = =
inercia total en el punto i fi. d2 (i, GI ) d2 (i, GI )
La calidad de representación de un punto de fila también se conoce como la relativa contribución o cos2 . La suma de
las cualidades de representación de un punto en el eje s (s = 1, ..., S 0 ) mide la calidad de representación del punto
en el subespacio S 0 -dimensional asociado. Si S 0 = S, entonces el punto es perfectamente representada porque:

S
X
qlts (i) = 1
s=1

De manera similar, la calidad de representación del punto de columna j en el eje s es calculado como:

inercia del pinto j proyectado en el eje s f.j G2s (j) G2 (j)


qlts (j) = = 2
= 2 s
inercia total en el punto j f.j d (j, GJ ) d (j, GJ )
y

S
X
qlts (j) = 1
s=1

La calidad de representación de un punto de fila o columna en el eje s se denota cos2 en la salida del análsis
de correspondencia ya que también es igual al coseno cuadrado entre vector que conecta el punto al CoG, y su
proyección en el eje s.

2.4. Agrupación de datos textuales:


El punto de agrupar un conjunto de documentos es dividirlos en grupos denominados cluster, no elegidos a priori,
para que los archivos léxicos de los documentos sean similares dentro del mismo cluster, y difieren significativamente
de un cluster a otro. Esta agrupación debe tener en cuenta todo el vocabularios retenidos, es decir, requiere
un enfoque multidimensional para la construcción de conglomerados. Por lo general, se utilizan cuatro enfoques
principales:

16
TRABAJO DE GRADO

Agrupación jerárquica divisiva: Dividimos todo el conjunto de documentos en dos grupos, de modo que
cada uno sea tan homogéneo como diferente del otro como sea posible en términos de vocabulario. Entonces,
cada uno se divide nuevamente en dos, de acuerdo con el mismo principio. En general, el proceso se detiene
cuando la división es lo suficientemente homogéneos con respecto al criterio elegido. Este método conduce
a una sucesión de particiones anidadas, generalmente representado en forma de árbol jerárquico, también
conocido como dendrograma.

Agrupación jerárquica aglomerativa (AHC): Los dos documentos más cercanos entre sí desde un punto
de vista léxico se agrupan para formar un nuevo documento. Iterativamente, buscamos los dos documentos
más cercanos. y agruparlos, hasta que solo nos quede un documento. Aquí de nuevo, nosotros obtener una
sucesión de particiones anidadas que se pueden representar como árbol jerárquico.

Agrupación jerárquica aglomerativa con restricciones de contiguidad: El procedimiento es similar


a la que se sigue en la agrupación jerárquica aglomerativa pero, aquí, solo se pueden agregar documentos
contiguos. En nuestro contexto, La contiguidad suele ser en términos de cronología. La sucesión obtenida de
las particiones anidadas pueden representarse nuevamente como un árbol jerárquico que tiene en cuenta la
estructura jerárquica subyacente del cuerpo.

2.4.1. Medidas de disimilitud entre documentos:


Cualquiera que sea el método de agrupamiento, una medida de disimilitud entre estadísticas (aquí, documentos)
necesitan ser definidas. Esta disimilitud puede o no puede ser una medida de distancia en el sentido matemático.
Además, cualquier agrupación jerárquica requiere un método de agregación. Las opciones son importantes porque
afectan los resultados. Por otra parte, el uso de agrupamiento y métodos factoriales obliga a elegir medidas de
disimilitud entre documentos utilizados por cada uno para ser coherentes entre sí. Recordar que en el análisis de
correspondencia se proyecta documentos ubicados inicialmente en un espacio vectorial dotado de un χ2 distancia a
un espacio vectorial dotado de la clásica distancia euclidiana. Si se conservan todos los ejes, se calcula la distancia
euclidiana entre dos documentos usando sus coordenadas factoriales que es igual a la distancia χ2 en el espacio
inicial.
Aunque los métodos de agrupamiento son flexibles y puede trabajar con una gama de distancias o medidas de
disimilitud, aqui solo consideramos el caso donde se colocan los puntos del documento en un espacio euclidiano
proveniente de un análisis factorial anterior. Los documentos I son así referenciados por sus coordenadas en los ejes
factoriales retenidos S, denotados Fs (i) para s = 1, ..., S e i = 1, ..., I, que conduce al uso de la distancia euclidiana
clásica entre documentos.

2.4.2. Medición de la calidad de la partición:

2.4.2.1. Grupos de documentos en el espacio factorial:

Después de la agrupación, la nube de documentos NI se divide en Q cluster etiquetados por q, para q = 1, ..., Q,
con miembros Iq respectivamente cada uno. Documentos en cluster q están etiquetados por iq , para iq = 1, ..., Iq

17
TRABAJO DE GRADO

y q = 1, ..., Q. El factor en la fila de documentos, Fs (iq ) para s = 1, ..., S, los coloca en los ejes del análisis de
correspondencia. Se los atribuyen los pesos fiq también provenientes del análisis de correspondencia o, en algunos
casos, múltiples análisis factorial para tablas de contingencia.
En el espacio factorial, cada uno de los cluster está representado por su centro de gravedad (CoG) Cq para
q = 1, ..., Q, y se le atribuye el peso fq para q = 1, ..., Q igual a la suma de los pesos de los documentos que contiene.
Las Cq coordenadas factoriales de Fs (Cq ), para s = 1, ..., S son los medias ponderados de las coordenadas. Fs (iq ),
para iq = 1, ..., Iq de los documentos del grupo correspondiente. El documento, la nube y el conjunto de CoG de
clúster se centran en el CoG global.
Queremos particionar el conjunto de documentos para que dentro de cada clúster, en los documentos usen palabras
similar, y de un grupo a otro, las palabras tienen que ser relativamente diferente. El algoritmo de agrupación tiene
que funcionar con el conjunto de palabras retenidas, a menudo se logra tanto la homogeneidad dentro del clúster
como una buena separación entre los clústeres. Este objetivo sugiere que evaluemos la calidad de la partición por
medio de un criterio, usando la inercia dentro del clúster y entre clústeres.
La inercia total de la nube de documentos NI puede desglosarse en inercia dentro del grupo y entre grupos según el
teorema de Huygens de descomposición por inercia. Como los ejes del espacio factorial son ortogonales, las inercias
se pueden calcular como sumas de las inercias de cada eje. Como el documento y las nubes están centradas al CoG,
la inercia se puede descomponer como:

Iq S
Q X Q X
S Iq S
Q X
X X X X X 2
fiq Fs2 (iq ) = 2
fq Fs (Cq ) + fiq (Fs (iq ) − Fs (Cq ))
q=1 i=1 s=1 q=1 s=1 q=1 i=1 s=1

Inercia total = inercia entre cluster + inercia dentro del cluster.


Para un número de Q cluster, cuanto menor es la inercia dentro del cluster, es mejor la calidad de partición. Esto
se debe a una pequeña inercia dentro del cluster, significa que los documentos con perfiles léxicos similares se han
colocado en el mismos cluster. Como la inercia total es constante, cuanto más pequeño es el clúster interno de la
inercia, cuanto mayor es la inercia entre cluster. Por lo tanto, para que Q, minimice la inercia dentro del cluster es
equivalente a maximizar el cluster de inercia intermedio . Esto lleva a la siguiente relación como medida de calidad
de partición:

inercia entre cluster


inercia total
Esta relación toma valores entre 0 (todos los CoG de grupo son iguales e iguales al CoG general) y 1 (si la inercia
entre cluster es igual a la inercia total, es decir, todos los documentos en cada grupo tienen las mismas coordenadas
factoriales y, por lo tanto, los mismos perfiles léxicos). Esta relación corresponde al porcentaje de la variabilidad
total representada.

18
TRABAJO DE GRADO

2.4.3. Medidas de disimilitud entre grupos de documentos

2.4.3.1. El método de enlace único:

En el método de enlace único, la diferencia entre los cluster q y q 0 es igual a la distancia más pequeña entre un
documento en q y un documento en q 0 . Este criterio puede conducir a cluster de baja densidad y dispersión como
es susceptible a un "encadenamiento".

2.4.3.2. El método de enlace completo:

En el método de enlace completo, también conocido como el diámetro, la disimilitud entre los grupos q y q 0 es igual
a la mayor distancia entre un documento en q y un documento en q 0 . Esto conduce a grupos concentrados (de bajo
diámetro)

2.4.3.3. Método de Ward:

Nos centramos aquí en la agrupación asociada con un método factorial como el análisis de correspondencia. En
este caso, preferimos tener en cuenta la inercia.
La disimilitud entre dos cluster se mide por la disminución de la inercia entre grupos que su agregación produce.
Este criterio (o método), llamado método de Ward o método de varianza mínima, se determina del siguiente modo.
Suponga que los grupos q y q 0 , con los CoGs Cq y Cq0 , se atribuyen pesos fq y fq0 , correspondientes a las sumas
respectivas de los pesos de los puntos que pertenecen a cada grupo. Y denotemos por d2 (Cq , Cq0 ) a la distancia
Euclidiana al cuadrado entre sus CoGs. Si los dos grupos están agregados, la inercia entre racimos disminuye en:

fq · fq 0 2
δ (q, q 0 ) =
d (Cq , Cq0 )
fq + fq0
El método de Ward a menudo se usa en agrupamiento jerárquico sin restricciones ya que tiende a conducir a
grupos homogéneos y bién separados. Sin embargo, la optimización local utilizada para crear cada nuevo nodo no
necesariamente conduce a la partición óptima para un número dado de clústeres.

2.4.4. Agrupación jerárquica aglomerativa:


La agrupación jerárquica aglomerativa (AHC) comienza con los elementos para clúster, aquí documentos, como
nodos terminales.

2.4.4.1. Algoritmo de construcción de árbol jerárquico:

En la inicialización, tenemos tantos clústeres como documentos. Cada uno de ellos, también conocidos como nodo
terminal, están formados por un documento y se llaman un singleton luego:

1. Construya la matriz de disimilitud entre los nodos terminales I. Inicialmente, la entrada correspondiente a
una fila y columna dada es igual a la distancia euclidiana entre la terminal correspondiente nodos. Por lo
tanto, es suficiente solo con la diagonal superior o inferior de la matriz; por convención, estaremos en la parte
inferior.

19
TRABAJO DE GRADO

2. Los dos nodos más cercanos entre sí, ya sean terminales o no, son agregado en un nuevo nodo, numerado
entre I + 1 (primer no-terminal nodo) y 2I − 1 (último nodo no-terminal). Indexamos cada nodo creado por
el algoritmo con el valor de la agregación entre sus dos subnodos. El árbol resultante se conoce como un árbol
de índice jerárquico o una jerarquía indexada.

3. Después de cada fusión de dos nodos, la matriz de disimilitud debe ser actualizado. Las filas y columnas
correspondientes al agregado de los documentos se eliminan y se agregan una nueva fila y columna, corres-
pondiente al nodo recién formado. Antes de iterar, las entradas correspondiente a esta fila y columna se
actualizan calculando las diferencias entre este nuevo nodo y todos los demás restantes nodos

4. Si bien todavía tenemos más de un clúster, regrese al Paso 2. Cuando todos los documentos se han agregado
juntos como el nodo raíz, es decir, el nodo (2I − 1), el árbol está completo.

Por construcción, este es un árbol binario, lo que significa que cada no-terminal el nodo reúne dos subnodos. Los
nodos formados están, por lo tanto, anidados, a la derecha hasta el más grande, que contiene todos los documentos.

2.4.4.2. Seleccionar la partición final:

Podemos cortar un árbol jerárquico dibujando una línea horizontal sobre él. Cada uno de la línea define una
partición y la dibuja a diferentes alturas corresponde a diferentes particiones. De hecho, una partición dada estará
anidada en cada partición hecha más arriba en el árbol. Un árbol jerárquico corresponde así a una secuencia de
particiones anidadas, desde la más extrema (cada terminal el elemento corresponde a un clúster de un documento)
al menos (hay uno grupo que contiene todos los documentos).

2.4.5. Un procedimiento para combinar CA y agrupamiento:


El uso conjunto de CA y AHC puede conducir a resultados mutuamente enriquecidos. El punto de partida es una
matriz de palabras (columna) e de documentos (filas). El documento nube por un lado, y la palabra nube por el
otro, sentarse en espacios dotado de 2 distancias. Luego se realizan los siguientes pasos:

1. El CA transporta estas dos nubes a espacios dotados con la distancia euclidiana, revelando así similitudes
entre documentos, y similitudes entre palabras. Además, el conjunto de distancias entre palabras tiene en
cuenta la estructura de vocabulario en el cuerpo. Superponer las dos representaciones ayuda a visualizar
enlaces entre palabras y documentos.

2. Se puede realizar una agrupación de los documentos en este espacio euclidiano, utilizando sus valores de
coordenadas en los ejes factoriales considerados interpretables

3. Los grupos de documentos se pueden describir utilizando toda la información disponible, incluyendo pala-
bras sub y sobre representadas en cada grupo, documentos característicos y todas las variables contextuales
utilizadas como variables suplementarias en la CA

4. A continuación, los CoG se colocan en los ejes factoriales.

20
TRABAJO DE GRADO

5. Entonces, el árbol jerárquico también se representa en el plano.

De esta forma, los contrastes que aparecen en los ejes factoriales pueden estar relacionados con la estructura
jerárquica del cuerpo, y la partición obtenida es más significativo cuando los grupos se muestran en los planos
factoriales.

21
CAPÍTULO 3

Metodología de la Investigación

3.1. Introducción:
Actualmente estamos viviendo en una era en donde la tecnología y el Internet nos ha permitido generar y recopilar
grandes volúmenes de información. Se generan las informaciones en redes sociales, en el cine, hospitales, etc. Para
las empresas u organizaciones los datos son materia prima para poder encontrar patrones que favorezcan a su
mejoramiento.
Un modelo es la representación que intenta explicar algún patrón en los datos, es importante mencionar que
hablar de modelo como fórmula mágica no significa que existe una muestra para cualquier problemática, sino todo
lo contrario, pues existen muchos métodos o algoritmos que podrían satisfacer las necesidades dependiendo de los
objetivos del estudio y de los datos que se quieran analizar. Es por esta razón que un requisito para poder adentrarse
en esta área es tener conocimiento de conceptos de Estadística.
Como mencionamos antes, KDD es un proceso metodológico y además secuencial que se sigue para encontrar
conocimiento en un conjunto de datos en bruto. Estos pasos son: 1) abstracción del escenario, 2) Diseño del Modelo
para el almacenamiento de Datos, 3) Recopilación de datos, 4) Selección y limpieza de datos, 5) Aplicación de las
técnicas de Minería de Textos, 6) Interpretación y evaluación de modelos.

3.2. Diseño del Modelo para el almacenamiento de Datos:


En Bolivia existen diferentes medios de comunicación como ser: La radio, la televisión, los periódicos y las redes
sociales. Debido al avance de la tecnología una parte de la sociedad boliviana a optando por informarse mediante las
redes digitales y para que las diferentes empresas que informan por medio físico como ser: El Diario, La Razón
y La Prensa han optado por digitalizar la información que brindaban a la sociedad por medio físico.
Hoy en dia si una persona quiere informarse sobre algún tema en especifico solo tiene que tener acceso al internet
y consultar una página correspondiente a las empresas del Diario, La Razón u otros.

22
TRABAJO DE GRADO

En este proyecto se utilizaran la información digitales que corresponden a los diferentes tipos de periódicos.
Por medio de la programación informática la información digital se lo puede llegar a extrae , pero como el titular
de una información brinda la información central del cuerpo de las noticias solo es conveniente extraer el titular de
cada noticia.
Para extraer estos titulares de los periódicos digitales se ha elaborado un sistema denominado web scraping.
El sistema web scraping se ha llegado a desarrollar en el caso del Diario de la siguiente forma:
1. A Través de la búsqueda del URL de los periódico digital: Esta búsqueda se realiza por medio de una
línea de código en HTML más PHP, la siguiente dirección localhost/siscraping/eldiario/ingresarfecha.php
nos ilustra el archivo donde se encuentra la siguiente linea de códigos

Figura 3.2.1: Código en PHP para el inicio del raspado de El Diario

que corresponde al periodico El Diario. Y el diseño de el raspado del periodico El Diariol en fecha 2020-12-06 se
observa de la siguiente forma.

Figura 3.2.2: Ventana principal para inicio del raspado de El diario

2. El raspado del periódico digital: Una vez ingresado al periódico digital almacenamos en una variable para
hacer el raspado de todos los titulares.

Figura 3.2.3: Código del raspado de los titulares de El Diario

23
TRABAJO DE GRADO

Figura 3.2.4: Código del raspado del cuerpo de El Diario

por ejemplo, despues de realizarse el raspado de las noticias en fecha 2020-06-12, se ilustran de la siguiente ventana
mostrando que el respado se a realizado de forma correcta.

Figura 3.2.5: Raspado de las noticias El Diario

3. Notificación del raspado correcto: Al momento de realizar el raspado el sistema envia una notificación al
usuario para indicar que el raspado se realizo de forma correcta y enviando este raspado a la vez a la base de datos.

Figura 3.2.6: Código para la notificación del raspado correcto

la siguiente imagen muestra todas las operaciones que se an realizado de forma correcta, es decir se realizo correc-
tamente el raspado, el guardado en la base de datos, la ilustración el la pantalla principal y la notificación.

24
TRABAJO DE GRADO

Figura 3.2.7: Notificación del raspado correcto de El Diario

4. Brindar la información de los titular de las noticias en fecha indicada: El sistema notifica en la pantalla
principal que las noticias se guardaron correctamente.

Figura 3.2.8: Notificaión que las operaciones se realizaron de forma correcta

5. Almacenamiento de los titulares del periódico digital en una base de datos: La siguiente linea de
codigo crea una tabla en la base de datos denominado eldiariocontenido

25
TRABAJO DE GRADO

Figura 3.2.9: Código que crea la Base de Datos

la imagen representa la tabla del código anterior en forma grafica.

Figura 3.2.10: Base de datos de El Diario

la siguiente linea de códigos almacena toda la información del raspado en nuestra base de datos del periodico El
Diario.

Figura 3.2.11: Inserta información a la base de datos

al realizar la inspección dentro del servidor local se observa que en la tabla eldiariocontenido se a almacenado toda
la información de forma correcta en nuestra base de datos, que se ilustra a continuación

Figura 3.2.12: Pantalla principal del servidos local en la tabla El Diario

26
TRABAJO DE GRADO

de esta forma se logra realizar el raspado o scraping de los titulares y contenidos del periodico digital El Diario
para el almacenamiento en una base de datos. De forma similar se prosede a raspar los titulares y contenidos de
los periodicas digitales la Prensa y La Razón, para su almacenamiento en la base de datos.

3.3. Recopilación de datos:

3.3.1. La base de datos descargado de los periodicos:


Despues de realizar el raspado y el almacenamiento de los titulares en la base de datos se extrae esta información
estructurada de la siguiente forma

Figura 3.3.1: Base de datos El Diario

y los titulares de las noticias se describen en la columna de noticias y a continuacion se observa la noticia de la
figura 3.2.1 en marcada

27
TRABAJO DE GRADO

Figura 3.3.2: Noticia (Titular)

de forma similar se realiza la extracción de de los periodicos: La Prensa y La Razón

3.3.2. Toma de la muestra aleatoria por medio del comando sample para la noticia
de un día determinado:
Al realizar el raspado de las noticias por día en algunos casos se obtienen uno, dos, etc. O ningún titulares
relacionados con el ambito de la salud, politico o económico. Para que el modelo trabaje de forma correcta se
ejecuta el comando sample para elegir sólo un titular relacionado con el ambito de la salud, politico o economico.

Figura 3.3.3: Comando sample

28
TRABAJO DE GRADO

3.4. Selección y limpieza de datos:

3.4.1. Antes de la Cuarentena (AC):


a) Cantidad de titulares según los periodo desde julio del 2019 al 15 de marzo del 2020.

Periodico Cantidad
El diario AC 1787 noticias
Prensa AC 5741 noticias
La Razon AC 3844 noticias

b) Cantidad de titulares según los periodo desde julio del 2019 al 15 de marzo del 2020 en los ambitos de la
salud, politica y economico.

Periodico Cantidad
El diario AC 544 noticias
Prensa AC 1665 noticias
La Razon AC 1402 noticias

c) Cantidad de titulares extraida con la muestra aleatorio sample por día según los periodo desde julio del
2019 al 15 de marzo del 2020

Periodico Cantidad
El diario AC 301 noticias seleccionados por categoria
Prensa AC 425 noticias seleccionados por categoria
La Razon AC 264 noticias seleccionados por categoria

29
TRABAJO DE GRADO

Figura 3.4.1: La cateria El Diario

d) Noticias según el ambito de estudio del periodico El Diario por dia desde julio del 2019 al 15 de marzo del
2020
Categoria Cantidad
salud 54 noticias
politica 145 noticias
economia 102 noticias

e) Noticias según el ambito de estudio del periodico la Prensa por dia desde julio del 2019 al 15 de marzo del
2020
Categoria Cantidad
salud 119 noticias
politica 159 noticias
economia 147 noticias

f ) Noticias según el ambito de estudio del periodico La Razón por dia desde julio del 2019 al 15 de marzo del
2020
Categoria Cantidad
salud 79 noticias
politica 100 noticias
economia 85 noticias

g) El total de noticias según los periodicos desde julio del 2019 al 15 de marzo del 2020 en los ambitos de
salud, politico y economico por dia:

30
TRABAJO DE GRADO

Periodico Cantidad
El Diario 158 noticias
Prensa 162 noticias
La Razon 101 noticias

Figura 3.4.2: El Diario según los ambitos de estudio

Figura 3.4.3: La Prensa según los ambitos de estudio

31
TRABAJO DE GRADO

Figura 3.4.4: La Razón según los ambitos de estudio

3.4.2. Despues de la Cuarentena (DC):


a) Cantidad de titulares según los periodo desde el 16 de marzo del 2020 a julio del 2020.

Periodico Cantidad
El diario DC 3347 noticias
Prensa DC 2958 noticias
La Razon DC 3730noticias
b) Cantidad de titulares según los periodo desde el 16 de marzo del 2020 a julio del 2020 en los ambitos de la
salud, politica y economico.

Periodico Cantidad
El diario DC 1127 noticias
Prensa DC 1469 noticias
La Razon DC 1783 noticias
c) Cantidad de titulares extraida con la muestra aleatorio sample por día según los periodo desde el 16 de
marzo del 2020 a julio del 2020

Periodico Cantidad
El diario DC 273 noticias seleccionados por categoria
Prensa DC 304 noticias seleccionados por categoria
La Razon DC 364 noticias seleccionados por categoria
d) Noticias según el ambito de estudio del periodico El Diario por dia desde el 16 de marzo del 2020 a julio
del 2020
Categoria Cantidad
salud 114 noticias
politica 63 noticias
economia 96 noticias

32
TRABAJO DE GRADO

e) Noticias según el ambito de estudio del periodico la Prensa por dia desde el 16 de marzo del 2020 a julio
del 20200

Categoria Cantidad
salud 104 noticias
politica 99 noticias
economia 101 noticias

f ) Noticias según el ambito de estudio del periodico La Razón por dia desde el 16 de marzo del 2020 a julio
del 2020

Categoria Cantidad
salud 134 noticias
politica 112 noticias
economia 118 noticias

g) El total de noticias según los periodicos desde el 16 de marzo del 2020 a julio del 2020 en los ambitos de
salud, politico y economico por dia:

Periodico Cantidad
El Diario 114 noticias
Prensa 104 noticias
La Razon 139 noticias

Figura 3.4.5: El Diario según los ambitos de estudio

33
TRABAJO DE GRADO

Figura 3.4.6: La Prensa según los ambitos de estudio

Figura 3.4.7: La Razón según los ambitos de estudio

De esta forma a continuación se observa una parte de la base de datos para trabajar la matriz de analisis de
correspondencia cuyas dimensiones son de 778 filas por 5 columnas

34
TRABAJO DE GRADO

Figura 3.4.8: Base de datos para el analisis

3.5. Aplicacion de las técnicas de Mineria de Textos:


La cuarentena en nuestro país a iniciado el 16 de marzo del 2020, mediante este dato se puede dividir la base de
datos a análizar de la figura 3.2.11 en dos grupos uno antes del 16 de marzo del 2020 (AC) y el otro desde el 16 de
marzo del 2020 (DC)

Figura 3.5.1: Cuerpo de estudio

de esta base de datos divididos en dos grupos (AC y DC) se puede realizar el siguiente conteo de palabras según
las categorias periodo, periodico y p_per (periodo_periodico)

Figura 3.5.2: Sumario por perido y periodico

35
TRABAJO DE GRADO

Las 20 palabras más frecuentes AC y DC en los ambitos de salud y política según los documentos AC_diario,
AC_prensa, AC_razon, DC_diario, DC_prensa y DC_razon correspondientes a la categoria p_per son:

Figura 3.5.3: 20 palabras más frecuentes en salud y política

En una escala logarítmica se puede observar las frecuencias f y el número de palabras repetidas al menos f veces
en el cuerpo

Figura 3.5.4: Rango de frecuencias

Se realiza el conteo de las palabras más frecuentes en la categoría p_per en el ámbito de la salud, política y
económico omitiendo las palabras de, en, la, el, a, etc. De esta forma se obtiene el siguiente resultado

36
TRABAJO DE GRADO

Figura 3.5.5: Índice de palabras más frecuentes

A continuación se observan los valor númericos de la prueba χ2 y de p el cual nos indica que se tiene que rechazar
la hipótesis de independencia entre documentos y palabras

Figura 3.5.6: Valores de χ2 y p-valor

De esta forma la inercia de los ejes factoriales se llega a determina mediante el calculo de los valores propios de
la matriz formado por palabras y documentos (AC_diario, AC_prensa, AC_razon, DC_diario, DC_prensa y
DC_razon)

Figura 3.5.7: Valores propios

en la figura 3.2.18 se observa la inercia total de las nubes NI y NJ como también la V de Cramer. Estos valores
númerica nos indican que la asociación entre documentos y palabras esta en un 38 % el cual es relativamente bueno,
pero esto no prohibe la existencia de ciertos ejes factoriales que descubriran interesantes estructuras en los datos.
A continuación se observa como los valores propios se asocian con los ejes factoriales

37
TRABAJO DE GRADO

Figura 3.5.8: Asociación entre los valores propios y los ejes factoriales

la figura 3.2.19 indica que el plano adecuado para realizar el análisis entre los documentos y las palabras está
formado por las dim1 y dim2 con un 56,5 % de inercia, así a continuación se tiene la representación gráfica de los
documentos en el plano de máxima inercia

Figura 3.5.9: Representación de filas (documentos)

el cual indica que en el primer eje factorial las noticias (titulares) AD y DC se van contrastando según las categorias,
es decir las informaciones que vierten los periódicos AC y DC son casi paralelos según la coyuntura social de Bolivia,
y el segundo eje factorial indica que la información vertida por los periodicos a sufrido un cambio leve en su difusión

38
TRABAJO DE GRADO

de sus informaciones con respecto a la salud, política y economía.

Figura 3.5.10: Representación de columnas (palabras)

La figura 3.2.21 nos indica que los ducumentos o peridicos utilizan de forma similar las diferentes palabras observadas
en la figura 3.2.16, también se observemos que las palabras dialogo y producción estan aislada del centro de gravedad
esto indica que no se a hablado en Bolivia mucho de la producción y tampoco del dialogo. A continuación se tiene
una representación entre documentos y palabras.

Figura 3.5.11: Representación de documentos y palabras

Los graficos a continuación

39
TRABAJO DE GRADO

Figura 3.5.12: Elipse de confianza de los documentos

Figura 3.5.13: Elipse de confianza de las palabras

en estos graficos se puede observar que según los titulares de los periodicos en el actual gobierno de Añez se esta
trabajando bastante en la parte gubernamental sin descuidar la parte de la salud. También se puede observar que
el señor Evo Morales se a preacupado muy poco de la salud a diferencia de este gobierno.
Mediante el plano de maxima inersia se puede análisar el dendograma de los documentos

40
TRABAJO DE GRADO

Figura 3.5.14: Plano de maxima inercia

Figura 3.5.15: Dendograma de documentos

en este dendograma se observa que los periodicos La Razón y la Prensa AC y DC estan utilizando paladras similares
en la difusión de noticias que brindan a la población Boliviana.

41
TRABAJO DE GRADO

3.6. Interpretacion y evaluacion de modelos:


Por medio de los titulares de los periodicos digitales El Diario, Prensa y La Razón, mediante el modelo que se
trabaja se han obtenido diferentes resultados pero lo más relevante es la forma textual homogenea de difusión de
la información digital que se realiza a la población boliviana y el otro aspecto relevante es la observación grafica
del plano de máxima inercia en donde se observan las elipses de confiabilidad, el cual nos informa por medio del
análisis de los titulares de los periodicos digitales que el gobierno de Evo Morales Ayma no a priorizado la parte
de la salud como en el gobierno de Jeanine Añez Chávez, en la parte política ambos gobiernos no tienen buenas
relaciones, pero si ambos gobiernos han trabajado de forma gradual en el ámbito de la economía.

42
CAPÍTULO 4

Conclusión y Recomendaciones

4.1. Conclusión:
Hoy en día la comunicación en forma digital a crecido de forma acelerada debido al problema social que vivimos, la
recopilación de la información en forma digital ayuda bastante, en algunos casos a la toma de decisiones, por esta
razón decidí recopilar información de tipo online, pero como este campo es muy amplio decidí trabajar en el ámbito
de la difusión de la información por medio de los periódicos digitales extraendo los titulares de los periódicos por
medio de la URL para almacenarlo en una base de datos, y estructurarlos de la siguiente forma

Periódico Fecha Noticia Categoría

en una hoja Excel, para posteriormente cargar esta información al programa R en donde se realiza la categorización
de periodo, periódico y p_per y aplicar el modelo planteado en el marco teórico par el primer grupo denominado
antes de la cuarentena (AC) que trabaja con los titulares desde el mes de julio del 2019 al 15 de marzo del 2020 y
el segundo denominado después de la cuarentena (DC) que trabaja con los titulares desde el 16 de marzo del 2020
a julio del 2020 mediante esta estructura se realiza el conteo de las palabras más frecuentes que se encuentran en
cada uno de los titulares digitales, pero como es habitual las palabras que frecuentan bastante en una oración son:
el, la, los, un, etc. Se realiza otra vez el conteo de las palabras más frecuentes pero esta vez sin tomar en cuenta
las palabras del tipo el, la, los, etc.
De esta forma se obtienen el número de palabras más frecuentes en los ámbitos de la salud, político y económico,
con los cuales se llega a formar una matriz cuyas filas están constituidas por los documentos y cuyas columnas están
constituidos por las palabras y esta matriz se transforma a una matriz de frecuencias el cual nos permite obtener
dos matrices denominadas matriz de perfil de fila y matriz de perfil de columnas y cada una de estas matrices se
plasma en un espacio de dimensión finita.
Por medio de la prueba χ2 se llega a determinar la inercia de cada uno de estos espacios denominados espacios de
nubes resulta que el espacio de nubes de fila y el espacio de nubes de columna tiene la misma inercia, permitiéndonos

43
TRABAJO DE GRADO

así por medio de una relación pasar de un espacio de filas a uno de columnas y viceversa gracias a esta relación
se pude determinar el plano de máxima inercia en el cual se llega a plasmar de forma gráfica los documentos y
también las palabras para realizar el análisis respectivo.
También se llegar a realizar el grafico de las elipses de confiabilidad en el plano de máxima inercia y este grafico nos
permite realizar un análisis con respecto a los titulares de los periódicos digitales La Razón, El Diario, La Prensa,
en torno a los ámbitos de la economía, política y salud.

4.2. Propuestas:
Bajo la idea del raspado de las noticias digitales, seria favorable realizar esta operación de tal manera que se puede
obtener los titulares de los periódicos digitales de mayor renombre de los diferentes países de Sudamérica para
almacenarlos en una base de datos del cual se pueda extraer esta información bajo alguna estructura que nos
permita primero realizar el análisis de cada país sobre un ámbito determinado y relacionarlos con nuestro país en el
mismo ámbito, gracias a esta información se podría tomar decisiones para mejorar o mantener el ámbito estudiado.

4.3. Recomendación:
El raspado de las noticias que se realizan depende de las URL de los periódicos digitales, pero por seguridad de la
información las diferentes empresas tienden a actualizar sus programas que cubren este campo, pero hay periódicos
digitales que trabajan en esta parte de forma que su actualización en términos de seguridad sea a largo plazo y
sería muy bueno contar con esta información para tomar decisiones y poder trabajar con un grupo de periódicos
digitales los cual no traigan problemas en el raspado de la información digital.
Esto nos permitiría ampliar muestro campo de trabajo a más periódicos de Bolivia, para poder aplicar el modelo
planteado en el marco teórico de tal forma que la cantidad de categorías sea más amplia, y esto nos permitirá
obtener más resultados y así realizar una interpretación más certera en un ámbito adecuado para el beneficio de
nuestro país.

4.4. Bibliografía:
[1] Charu C. Aggarwal. (2015). Data Mining. New York USA: Springer .
[2] Massimiliano Bonamente . (2017). Statistics and Analysis of Scientific Data. 2017: Springer .
[3] Hair-Anderson-Tatham-Black. Anális Multivariable. Quinta edición
[4] Bécue-Bertaut M. (2019). Textual Data Science with R. Florida: Chapman \& Hall/CRC Press, Boca Raton,.
[5] Bécue-Bertaut M. (2008). Multiple factor analysis and clustering of a mixture of quantitative, categorical and
frequency data. Computational Statistics and Data Analysis. Pagès J: 52, 3255–3268.
[6] R Journal. Rcmdr Plugin.temis, a graphical integrated text mining solution in R. 5, 188–196.
[8]Francisco Charte Ojeda. Análisis exploratorio y visualización de datos con R
[9] Mónica Bécue-Bertaut. (2018). Textual Data Science With R. Teylor & Francis Group: CRC Press.

44
TRABAJO DE GRADO

[10] Paginas web


1. https://uniwebsidad.com/
2. http://downloads.mysql.com/docs/refman-5.0-es.a4.pdf
3. https://www.aprenderaprogramar.com/index.php option=com_content&view=category&id=70&Itemid=193
4. https://www.parsehub.com/blog/web-scraper-tutorial/

4.5. Anexo A:

4.5.1. Código del raspado de titulares del periódico digital El Diario:

Figura 4.5.1: Página principal de HTML

45
TRABAJO DE GRADO

Figura 4.5.2: Raspado de los titulares digitales de El Diario

46
TRABAJO DE GRADO

Figura 4.5.3: Base de datos El Diario

4.5.2. Código del modelo para el plano de máxima inercia y Agrupación de datos:

Figura 4.5.4: Código del modelo primera parte

47
TRABAJO DE GRADO

Figura 4.5.5: Código del modelo segunda parte

48
TRABAJO DE GRADO

Figura 4.5.6: Código del modelo tercera parte

4.6. Anexo B:

4.6.1. Cálculo de los Componentes Principales:


Se considera las variables (x1 , x2 , ..., xp ) sobre un grupo de objetos o individuos y se trata de calcular, a par-
tir de ellas un nuevo conjunto de variables y1 , y2 , ..., yp incorreladas entre sí, cuyas varianzas vayan decreciendo
progresivamente.
Cada y1 (donde j = 1, 2, ..., p) es una combinación lineal de las x1 , x2 , ..., xp originales, es decir:

49
TRABAJO DE GRADO

yj = aj1 x1 + aj2 x2 + · · · + ajp xp


0
= Aj X
 
x1
..
0
 
siendo Aj = (a1j , a2j , ..., apj ) un vector constante y X =  .
 
 . 
xp
para maximizar la varianza la forma simple podría ser aumentar los coeficientes aij . Por ello, para mantener la
0
ortogonalidad de la transformación se impone que el módulo del vector Aj = (a1j , a2j , ..., ajp ) sea 1, es decir

p
0 X
Aj Aj = a2kj = 1
k=1

el primer componente principal se calcula eligiendo a1 de modo que y1 tenga la mayor varianza posible, sujeta a
0
la restricción de que A1 A1 = 1, el segundo componente principal se calcula obteniendo a2 de modo que y2 esté
incorrelada con y1 .
Del mismo modo se eligen y1 , y2 , ..., yp incorrelados entre sí, de manera que las variables aleatorias obtenidas vayan
teniendo cada vez menor varianza.

4.6.2. Proceso de extracción de factores:


0
Queremos elegir a1 de modo que se maximice la varianza de y1 sujeta a la restricción A1 A1 = 1, es decir

 0  0 X
V ar (y1 ) = V ar A1 X = A1 A1

el método habitual para maximizar una función de varias variables sujeta a restricciones es el método de los
multiplicadores de Lagrange.
0 P 0
El problema consiste en maximizar la función A1 A1 sujeta a la restricción A1 A1 = 1.
Se puede observar que la incógnita es precisamente A1 (el vector desconocido que nos da la combinación lineal
0 P
 0 
óptima). Así, se construye la función de Lagrange L tal que L (A1 ) = A1 A1 − λ A1 A1 − 1 y se busca el
máximo, y esto se logra derivando e igualando a 0

∂L
P P
∂A1 =2 A1 − 2λIA1 = 0 entonces ( −λI) A1 = 0

así se obtiene un sistema de ecuaciones lineales. Por el teorema de Roché-Frobenius, para que nuestro sistema tenga
P
una solución diferente de 0 la matriz ( −λI) tiene que ser singular, esto implica que el determinante debe ser
igual a cero

X
−λI = 0


P P
y de este modo, λ es un autovalor de (matriz de covarianzas de orden p) y si además es definida positiva,
entonces se tendrá p autovalores distintos, λ1 , λ2 , ..., λp tal que, por ejemplo, λ1 > λ2 > ... > λp .
así

50
TRABAJO DE GRADO

P
( −λI) A1 = 0
P
A1 − λIA1 = 0
P
A1 = λIA1

entonces
 0 
V ar (y1 ) = V ar A1 X
0 P
= A1 A1
0
= A1 λIA1
0
= λA1 A1
= λ (1)
= λ

Luego, para maximizar la varianza de y1 se tiene que tomar el mayor autovalor, digamos λ1 , y el correspondiente
autovector A1 . En realidad A1 es un vector que nos da la combinación de las variables originales que tiene mayor
0
varianza, esto es si A1 = (a11 , a12 , ..., a1p ), entonces

0
y1 = A1 X = a11 x1 + a12 x2 + · · · + a1p xp
0
El segundo componente principal, digamos y2 = A2 X, se obtiene mediante un argumento similar. Además, se quiere
que y2 esté incorrelado con el anterior componente y1 , es decir, Cov (y2 , y1 ) = 0, por lo tanto
 0 0

Cov (y2 , y1 ) = Cov A2 X, A1 X
0 0
= A2 E[(X − µ) (X − µ) ]A1
0 P
= A2 A1
0 P
es decir A2 A1 = 0.
P 0 P
pero A1 = λA1 y como A2 A1 = 0, entonces

0 X 0 0
A2 A1 = A2 λA1 = λA2 A1 = 0
0
esto implica que A2 A1 = 0, es decir, que los vectores sean ortogonales.
P
De este modo, se tendrá que que maximizar la varianza de y2 , es decir, A2 A2 , sujeta a las siguientes restricciones
0
A2 A2 = 1
0
A2 A1 = 0

así se toma la función:

0 X  0  0
L (A2 ) = A2 A2 − λ A2 A2 − 1 − δA2 A1

y derivando

∂L(A2 ) P
∂A2 =2 A2 − 2λIA2 − δA1 = 0

51
TRABAJO DE GRADO

0
si multiplicamos por A1 esta relación se tendrá

0 X
2A1 A2 − δ = 0

pero
0 0
A1 A2 = A2 A1 = 0
0
A1 A1 = 1

luego

0 X 0 X
δ = 2A1 A2 = 2A2 A1 = 0
∂L(A2 )
y como Cov (y2 , y1 ) = 0 entonces ∂A2 queda

∂L(A2 ) P
∂A2 = 2 A2 − 2λA2 − δA1
P
= 2 A2 − 2λA2
P
= ( −λI) A2
P
de donde ( −λI) A2 = 0.
P
Usando el mismo razonamiento anterior, elegimos λ como el segundo mayor autovalor de la matriz con su
autovector asociado A2 .
El razonamientos anteriores se pueden extender, de modo que a la j−ésimo componente le correspondería el j−ésimo
autovalor.
Entonces todos los componentes de Y (en total p) se pueden expresar como el producto de una matriz formada
por los autovectores y multiplicado por el vector X que contiene las variables originales x1 , x2 , ..., xp

Y = AX

es decir
     
y1 a11 a12 ··· a1p x1
     
 y2   a21 a22 ··· a2p   x2 
Y = , A =  . , X =  . 
     
..  .. .. ..  .. 

 .
  . . 
  
yp ap1 ap2 ··· app xp
con

V ar (y1 ) = λ1
V ar (y2 ) = λ2
···
V ar (yp ) = λp

así la matriz de covarianzas será

52
TRABAJO DE GRADO

 
λ1 0 ··· 0
 
 0 λ2 ··· 0 
Λ=
 
.. 
 0
 0 . 0 
0 0 ··· λp
ya que y1 , y2 , ..., yp se han construido como variables incorreladas.
Se tiene así

0 0 X
Λ = V ar (Y ) = A V ar (X) A = A A

o bien

X 0
= AΛA
0
y como A es una matriz ortogonal (pues Ai Ai = 1 para todas sus columnas)

4.6.3. Porcentajes de variablilidad:


Vimos antes que cada autovalor correspondía a la varianza del componente yi que se definía por medio del autovector
Ai , es decir V ar (yi ) = λi .
Si sumamos todos los autovalores, tendremos la varianza total de los componentes, es decir

p
X Xp
V ar (yi ) = λi = traza (Λ)
i=1 i=1

ya que la matriz Λ es diagonalizable.


Pero, por las propiedades del operador traza,

 0X  X
traza (Λ) = traza A A = traza

poro com A ortogonal

X Xp
traza (Λ) = traza = V ar (xi )
i=1

Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas de las componentes son
iguales. Esto permite hablar del porcentaje de varianza total que recoge un componente principal:

λi λi
p = p
P P
λi V ar (xi )
i=1 i=1

(si multiplicamos por 100 tendremos el %).


Así, también se podrá expresar el porcentaje de variabilidad recogido por los primeros m componentes:

53
TRABAJO DE GRADO

m
P
λi
i=1
p
P
V ar (xi )
i=1

donde m < p.
En la práctica, si se tienen p variables solo nos quedaremos con un número menor de componentes que tenga un
Pp
porcentaje amplio de la variabilidad total V ar (xi ). En general solo se suele tomar tres componentes principales,
i=1
para poder representarlos en forma gráficas.

54

También podría gustarte