Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CARRERA DE MATEMÁTICA
UNIDAD DE POSGRADO
i
Índice general
1. Aspectos Generales 1
1.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Antecedentes: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Justificación de la Investigación: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4. Planteamiento del Problema: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.1. Identificación del Problema: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.2. Formulación del Problema: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Objetivo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5.1. Objetivo General: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5.2. Objetivo Específico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.6. Alcance de la Investigación: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Marco Teórico 5
2.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Páginas Web y recursos informáticos para la recolección de información: . . . . . . . . . . . . . . . . 5
2.2.1. HTML: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2. CSS: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3. JavaScript: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.4. PHP: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.5. MySQL: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.6. Servidores Locales: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.7. Xampp: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.8. Web Scraping: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Minería de Textos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
ii
TRABAJO DE GRADO
3. Metodología de la Investigación 22
3.1. Introducción: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2. Diseño del Modelo para el almacenamiento de Datos: . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3. Recopilación de datos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1. La base de datos descargado de los periodicos: . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2. Toma de la muestra aleatoria por medio del comando sample para la noticia de un día
determinado: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Selección y limpieza de datos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1. Antes de la Cuarentena (AC): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.2. Despues de la Cuarentena (DC): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5. Aplicacion de las técnicas de Mineria de Textos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6. Interpretacion y evaluacion de modelos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4. Conclusión y Recomendaciones 43
4.1. Conclusión: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2. Propuestas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3. Recomendación: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
iii
TRABAJO DE GRADO
4.4. Bibliografía: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5. Anexo A: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.1. Código del raspado de titulares del periódico digital El Diario: . . . . . . . . . . . . . . . . . 45
4.5.2. Código del modelo para el plano de máxima inercia y Agrupación de datos: . . . . . . . . . . 47
4.6. Anexo B: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6.1. Cálculo de los Componentes Principales: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6.2. Proceso de extracción de factores: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.6.3. Porcentajes de variablilidad: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
iv
Índice de figuras
v
TRABAJO DE GRADO
vi
TRABAJO DE GRADO
Dedicatoria
A mi familia y amigos.
Agradecimiento
Agradezco a mi familia por su constante apoyo, a los docentes de la Carrera de Matemática, Informática, Estadistica
en especial a mi tutor y a mis compañeros por sus recomendaciones. También a los docentes de los cursos Taller I
y Taller II por sus respectivas recomendaciones.
Resumen
La producción de información textual en la red exige aplicar nuevas formas para resumir los grandes volúmenes
de información que se generan diariamente. Este trabajo presenta métodos multivariados de conglomerados y de
correspondencias aplicados a textos de titulares de periódicos, exponiendo un criterio formal sofisticado para el
análisis estadístico de datos textuales y métodos de análisis gráfico.
Asimismo, expone el procedimiento de recopilación automática de textos de titulares de periódicos El Diario, Prensa
y La Razón desde julio del 2019 a julio del 2020 para constitutir una base de datos estruturada considerando tres
categorías temáticas: salud, política y economía; y dos periodos temporales: Antes de la cuarentena (AC) a partir
de julio del 2019 al 15 de marzo del 2020 y después de la cuarentena (DC) del 16 de marzo a julio del 2020.
Determinando así el plano de máxima inercia en el cual se llega a gráficar los textos y las palabras para complementar
su análisis correspondiente.
Abstract
The production of textual information on the web requires the application of new ways to summarize the large
volumes of information that are generated daily. This paper presents multivariate clustering and correspondence
methods applied to newspaper headline texts, exposing a sophisticated formal approach for statistical analysis of
textual data and graphical analysis methods.
Likewise, it exposes the automatic collection procedure of texts from newspaper headlines El Diario, Prensa and
La Razón from July 2019 to July 2020 to constitute a structured database considering three thematic categories:
health, politics and economy; and two temporary periods: Before quarantine (AC) from July 2019 to March 15,
2020 and after quarantine (DC) from March 16 to July 2020.
Thus determining the plane of maximum inertia in which the texts and words are graphed to complement their
corresponding analysis.
vii
CAPÍTULO 1
Aspectos Generales
1.1. Introducción:
Hoy en día existe demasiada información digital en la web, las Redes Sociales, las Bibliotecas digitales, etc. Y esta
información digital va en aumento. Esta tendencia se va dando también por el aumento en las comunicaciones
digitalizadas.
En el presente trabajo se realizará el raspado de los titulares de los periódicos digitales como ser: El Diario, La
Prensa y La Razón y esta información se lo almacenara en una base de datos que se ubica en un servidor local
“localhost” que se encuentra en la unidad C/Xamp/htdosc, el raspado de los titulares digitales se lo realizara
por medio de un lenguaje de programación elaborado en PHP en el cual se utilizan las URLs “https://www.la-
razon.com/”, “https://www.eldiario.net/portal/”, “http://www.laprensa.com.bo/”. Se abordara esta información
almacenada en la base de datos para ver qué relación existe entre los titulares de los periódicos digitales por medio
de las herramientas de minería de textos.
Se usa una pequeña tabla léxica construida a partir de los titulares de los periódicos digitales, para establecer los
principios de análisis de correspondencia considerando tres categorías: periodo, periódico y p_per.
En esta primera parte, un umbral muy alto en la frecuencia de palabras se elige con el fin de ayudarnos a comprender
el análisis de correspondencia, de esta forma se determina una tabla con documentos AC_diario, AC_prensa,
AC_razon, DC_diario, DC_prensa y DC_razon que corresponde a las filas y las palabras más frecuentes en el
cuerpo, cada elemento de la tabla corresponde a la frecuencia con que el documento usa la palabra de cada columna
gracias a esta estructura se llega a visualizar la proximidad entre documentos y palabras.
Los métodos de agrupamiento de documentos es dividirlos en grupos denominados cluster, no elegidos a priori, para
que los archivos léxicos de los documentos sean similares dentro del mismo cluster, y difieren significativamente
de un cluster a otro. Esta agrupación debe tener en cuenta todos los vocabularios retenidos, es decir, requiere un
enfoque multidimensional para la construcción de conglomerados.
1
TRABAJO DE GRADO
1.2. Antecedentes:
Los grandes volúmenes de información que se encuentran cada día en las páginas web permiten cuestionarnos el cómo
poder realizar un estudio en algún ámbito con esta información. Pero el avance de la tecnología y las herramientas
que han ido apareciendo en estos tiempos nos permiten hoy en día abordar este campo de la información digital
para su respectivo estudio.
La minería de textos es una de las herramientas que nos apoya para el estudio de la masiva información digitales que
se puede encontrar en el internet. La minería de textos utilizada en las Ciencias de la Información explora nuevos
métodos que nos permite la decodificación y el análisis del lenguaje natural y esta cualidad de la minería de texto
es la razón que fundamenta la propuesta de esta herramienta como perspectiva metodológica para la realización de
resúmenes documentales.
Hacer un resumen automático a partir de la extracción de palabras clave o frases significativas del texto produce
como resultado un resumen, con ligeras dificultades desde el punto de vista lingüístico (sinonimia, polisemia, anáfora,
etc.). Tradicionalmente, su producción se ha basado en métodos estadísticos y técnicas de probabilidades, las cuales
tienden a aportar un nivel de entendimiento de los conceptos y términos. La capacidad de entender el lenguaje
humano está en terreno de la lingüística. Sus principales dificultades estriban en las técnicas léxico-sintácticas
de selección, en las actividades lógico-semánticas de interpretación y en las tareas pragmático-documentales de
producción. Una de las soluciones de este problema son los sistemas expertos de inteligencia artificial, porque con
solo analizar las dificultades que presentan se hace evidente que los sistemas actuales en general aún no están
preparados para el reto que implica la producción de resúmenes automáticos de alta calidad.
Los documentos se estudian y comparan mediante el análisis de correspondencia, partiendo del conjunto de palabras,
sus repeticiones y distribuciones, sin hipótesis previas. Como resultado, las similitudes entre documentos y entre
palabras y como las asociaciones entre documentos y palabras, se pueden visualizar. Palabras que discriminan entre
documentos se pueden extraer, lo que lleva a la identificación de temas importantes. Además, los documentos a
favor de estos temas se pueden encontrar y mostrar. Agrupar los documentos léxicamente homogéneos por medio
de procesamiento automático.
2
TRABAJO DE GRADO
1.5. Objetivo:
3
TRABAJO DE GRADO
programa enfocado en los conceptos del análisis de correspondencia de datos textuales y la agrupación de datos
textuales para el estudio de la información de los titulares desde julio 2019 al 15 de marzo del 2020 y del 16 de
marzo del 2020 a julio del 2020. El plano de máxima inercia que se determino nos brinda una visualización gráfica
de la relación que existe entre los documentos digitales y las diferentes palabras que se determinaron para el trabajo
y su interpretación.
4
CAPÍTULO 2
Marco Teórico
2.1. Introducción:
Los titulares digitales de los periodicos La Razon, El Diario y La Prensa se los almasena en la base de datos que
se ubica en un servidor local “localhost” que se encuentra en la unidad C/Xamp/htdosc, el raspado de los titulares
digitales se lo realiza por medio de un lenguaje de programación elaborado en PHP en el cual se utilizan las URLs
“https://www.la-razon.com/”, “https://www.eldiario.net/portal/”, “http://www.laprensa.com.bo/”.
Esta base de datos se la carga al programa R se las categoriza y se determina la matriz de frecuencias en el cual
se aplica el análisis de correspondencia de datos textuales por el cual se determina la relación que existe entre los
documentos digitales y las palabras por medio de la inercia total de una nube de documentos digitales o nube de
palabras en plano de máxima inercia en donde se visualizan los documentos digitales y las palabras para dar las
interpretaciones respectivas y también visualizar en un dendograma los respectivos clúster.
2.2.1. HTML:
HTML es el lenguaje de programación predominante para la elaboración de páginas web. Es usado para describir
la estructura y el contenido en forma de textos digitales, así como para complementar el texto digital con objetos
tales como imágenes, etc. HTML se escribe en forma de “etiqueta”, rodeadas por corchetes angulares (<,>). HTML
también puede describir, hasta un cierto punto, la apariencia de un documento, y puede incluir un script como por
ejemplo JavaScript y CSS, el cual puede afectar el comportamiento de navegadores web y otros procesadores de
HTML
Desde su creación HTML ha llegado a pasado de ser un lenguaje utilizado exclusivamente para crear documentos
5
TRABAJO DE GRADO
electrónicos a ser un lenguaje utilizado para las aplicaciones electrónicas como buscadores, tiendas online, banca
electrónica, etc.
2.2.2. CSS:
El CSS es un lenguaje de estilo de hojas web que permite al programador y a los usuarios adjuntar estilos como,
por ejemplo, fuentes, espaciado y estilo de letras, etc. A documentos estructurados como por ejemplo HTML y
aplicaciones en XML.
6
TRABAJO DE GRADO
2.2.3. JavaScript:
JavaScript es el lenguaje de programación que debe usarse para añadir características interactivas a un sitio web
como, por ejemplo, juegos, eventos que ocurren cuando los botones son presionados o los datos son introducidos en
los formularios, efectos de estilo dinámicos, animación, y mucho más. JavaScript mediante un mismo documento
XHTML, como por ejemplo
también JavaScript se puede incorporar mediante un archivo externo, como por ejemplo
7
TRABAJO DE GRADO
2.2.4. PHP:
PHP es un lenguaje de programación de estilo clásico, con esto se quiere decir que es un lenguaje de programación
con variables, sentencias condicionales, bucles, funciones, etc. No es un lenguaje de marcas como podría ser HTML
y XML. Es más cercano a JavaScript o a C. Pero a diferencia de Java o JavaScript que se ejecutan en el navegador,
PHP se ejecuta en el servidor, por eso nos permite acceder a los recursos que tenga el servidor como por ejemplo
podría ser una base de datos. El programa PHP es ejecutado en el servidor y el resultado enviado al navegador. El
resultado es normalmente una página HTML.
Veamos un ejemplo del contenido de una página web PHP, que habremos de almacenar en un archivo que termina
con la extensión .PHP y que contiene texto:
2.2.5. MySQL:
MySQL es un software de código abierto para la gestión de base de datos que ayuda a los usuarios a almacenar,
organizar y obtener datos. Es un programa muy poderoso con muchísimas características y flexibilidad.
8
TRABAJO DE GRADO
Cuando realizamos una petición a un localhost, este equipo “habla” consigo mismo: envía y recibe comunicaciones
de red desde sí misma y hacia sí misma a través de un dispositivo de red virtual. ¿Cómo lo consigue? Mediante
una IP, especial e invariable, que permite acceder a ese equipo sin necesidad de conexión a través de internet.
Por tanto, el localhost permite emular conexiones de red cuando no hay ninguna red activa o disponible. De ahí
su utilidad cuando trabajamos con archivos offline, necesitamos crear entornos de prueba, verificar la capacidad de
procesamiento de un determinado equipo o generar copias de seguridad de un sitio web.
2.2.7. Xampp:
XAMPP es un servidor local independiente de plataforma, software libre, que consiste principalmente en la base de
datos MySQL, el servidor Web Apache y los intérpretes para lenguajes de script PHP. El programa está liberado
bajo la licencia GNU y actúa como un servidor Web libre, fácil de usar y capaz de interpretar páginas dinámicas.
9
TRABAJO DE GRADO
colección, las principales funciones sintácticas de dichas palabras y la riqueza léxica del texto digital (la proporción
existente entre el número de palabras distintas y el total de palabras del cuerpo) Lo que si hay que tener en cuenta
es que las palabras son independientes del contexto, por lo que servirán para una representación más general de
los documentos a costo de perder información semántica.
Las palabras vacías son aquellas que aparecen frecuentemente en el texto digital pero que no aportan significado
relevante, por ejemplo los artículos, preposiciones y conjunciones.
Los términos son palabras cuya semántica ayuda a recordar los temas principales del documento, es decir identifica
la temática del texto digital o del cuerpo del documento digital. Distintos términos tienen distinta relevancia en
una colección de documentos, dicha relevancia se consigue asociando un peso numérico a cada término índice del
documento digital. Normalmente, suelen ser nombres o grupos de nombres, Existe un tipo de bolsa de palabras
basada exclusivamente en este tipo de palabras, con lo que se consigue reducir, considerablemente, el dominio de
los elementos.
Un concepto es un elemento del pensamiento, expresado en general por un término, así el concepto será una
representación mental de un objeto basándose en la selección de aquellas propiedades relevantes que definan una
clase de objetos que serán las que diferencien una clase de objetos de otra.
Se denominará frase a la secuencia de palabras, con cierto nexo sintáctico, que aparecen en un texto digital. Y se
lo representa como Fi =< (x1 ) (x2 ) · · · (xn ) > donde el símbolo xk , para k = 1, 2, ..., n siendo n el total de palabras
de una frase. Cada xk será una secuencia de caracteres que se distingue dentro de la frase por ir delimitada por
caracteres en blanco.
Un párrafo, es un conjunto de frases que concluyen en un punto y aparte. Conceptualmente un párrafo contiene
el desarrollo de una idea central o un conjunto de ellas enlazadas entre sí, expresada mediante una o más frases
que presenten coherencia en el discurso.
Representaremos un párrafo como una colección de frases que aparecen de forma secuencial en el texto digital, es
decir, como P = {F1 , ..., Fp } siendo p el número de frases que lo componen.
La bolsa de palabras es un tipo de representación de documentos que procede de la recuperación de información
clásica.
Un documento Di es cada uno de los textos digital que forman la colección L (cuerpo), que estará formada por
palabras, conceptos y frases, todos ellos representan una idea fundamental.
Las formas intermedias basadas en documentos nos permitirán deducir patrones, tendencias y relaciones de interés
en un cuerpo específico. La forma intermedia basada en documentos digitales se puede transformar en una basada
en conceptos, extrayendo información relevante de acuerdo con los objetos de interés de un cuerpo especifico.
10
TRABAJO DE GRADO
yij fij
por: yi. = fi. donde yij determina la frecuencia con la que una palabra aparece en el documento digital e yi.
es el total de las frecuencias que aparecen en el documento digital o fila para j = 1, 2, ..., J. También se puede
y.j
determinar el perfil de fila promedio N = f.j donde N es la frecuencia total con la que aparecen las palabras en
todo el documento digital para j = 1, 2, ..., J, gracias a esta relación podemos comparar los perfiles léxicos de los
documentos con el promedio, analizando de esta forma las categorías que usan ciertas palabras más o menos que
el promedio.
Del mismo modo, las palabras se pueden comparar utilizando sus perfiles de columna, por medio de la tabla de
frecuencias Y (o tabla de frecuencias relativas F ), dividiendo cada columna por su total. Por ejemplo la columna
yij fij
j viene dada por: y.j = f.j donde y.j es la frecuencia con la que una palabra aparece en todo el cuerpo para
yi.
i = 1, 2, ..., I. También se puede determinar el perfil promedio de la columna bajo la relación N = fi. para
i = 1, 2, ..., I, para poder comparar el perfil de una palabra con el promedio, identificando así palabras usadas más
o menos que el promedio en un documento.
2.- Independencia de documentos y palabras:
Otro enfoque para estudiar las asociaciones entre documentos digitales y palabras, equivalente al anterior, se puede
desarrollar en términos de desviación de la independencia. Aquí, la situación de referencia es la ausencia de relaciones
entre documentos digitales y palabras, en el sentido de que los primeros seleccionan los segundos al azar.
Comencemos con la tabla léxica en forma de frecuencia relativa F . Existe independencia entre los documentos
digitales de fila y las palabras de columna si, para cualquier fila i y columna j, se cumple la siguiente ecuación:
La retención de estas fórmulas significaría que todos los perfiles léxicos son iguales a uno al otro e igual al perfil de
fila promedio. Del mismo modo, todos los perfiles de columna sería igual el uno al otro e igual al perfil de columna
promedio. Esto muestra claramente que ambos enfoques, ya sea el desarrollado aquí (partida de la independencia
entre documentos y palabras) o la anterior (comparación de documento y palabras), son equivalentes. Sin embargo,
cada punto de vista nos ayuda a centrarnos en aspectos diferentes y complementarios.
Bajo la hipótesis de independencia, es decir, suponiendo que fij = fi. f.j se cumple para cualquier i y j, las
frecuencias relativas esperadas están dadas por fi. × f.j , y los recuentos esperados son N × fi. × f.j . Se toma la
tabla de estos recuentos esperados como el modelo para comparar la tabla de conteos observados Y , este modelo
es denominado el modelo de independencia.
2.3.2. La prueba χ2 :
En el caso de un cuerpo digital, el modelo de independencia nunca se satisface totalmente, y necesitamos evaluar
el nivel de desviación que se ha producido.
Los χ2 estadística resume las diferencias entre conteos, observados y esperados como sigue:
11
TRABAJO DE GRADO
Así se tiene:
χ2 = 0, si los documentos digitales son iguales (los documentos digitales tiene el mismo contenido verbal).
N × fij fij
τij = =
N × fi. × f.j fi. × f.j
Si τij es mayor que 1, el documento digital y la palabra se atraen entre sí
12
TRABAJO DE GRADO
I 2
fij fij 0
Distancia al cuadrado entre columnas d2 (j, j 0 ) = 1
P
fi. f.j − f.j 0 .
i=1
I J 2 X I X J 2
χ2
X X 1 fij (fij − fi. × f.j )
I (NI ) = fi. − f.j = = = Φ2
i=1 j=1
f .j fi. i=1 j=1
fi. × f.j N
La contribución de cada documento i a la inercia total de la nube NI es por lo tanto, proporcional a su contribución
a la estadística χ2 .
Del mismo modo, la inercia de NJ con respecto a su CoG, GJ , es igual a:
J I 2 X I X J 2
χ2
X X 1 fij (fij − fi. × f.j )
I (NJ ) = f.j − fi. = = = Φ2
j=1 i=1
f i. f .j i=1 j=1
fi. × f.j N
13
TRABAJO DE GRADO
inercia de la nube proyectada. Cada subsecuente eje vs , ortogonal a los (s − 1) anteriores, maximiza sucesivamente
la inercia residual proyectada.
Se ha establecido que calcular los ejes factoriales es equivalente a una cierta diagonalización matricial, con los
vectores de dirección de la unidad correspondientes a los vectores propios de esta matriz. El primer eje factorial
corresponde a el vector propio asociado con el valor propio más grande, denotado λ1 . La inercia a lo largo de
este eje es igual a λ1 . El segundo eje corresponde al vector propio asociado con el segundo valor propio, λ2 , y así
sucesivamente. Hay tantos ejes factoriales como valores propios distintos de cero. Del mismo modo, la dirección
de la unidad vectores vs correspondientes a los ejes de máxima inercia de la nube de columna, los perfiles son los
vectores propios de la transposición de la matriz anterior que tiene los mismos valores propios distintos de cero.
Esto implica que el perfil de columna y el perfil de fila de nubes, proyectados en ejes del mismo rango s, tienen la
misma inercia, igual a λs . Ambas nubes se centran en espacios con el mismo número de dimensiones y tienen el
mismo número de ejes factoriales con inercia distinta de cero, que como máximo es igual a S = min (I − 1, J − 1).
De hecho, las filas y columnas provienen de la misma tabla y, por lo tanto, corresponden a dos lados de los mismos
datos. Las dos nubes están fuertemente relacionadas, y esta relación se manifiesta de varias maneras, aquí en
términos de los dos nubes que tienen la misma inercia, y más tarde en términos de las fórmulas de transición entre
las coordenadas de fila y columna. Estas conexiones se denominan relaciones de dualidad.
En cualquier espacio, buscando el plano de máxima inercia, o en su lugar el primer eje de inercia máxima seguido del
segundo, conduce a la misma solución. Más generalmente, el hiperplano s-dimensional de máxima inercia contiene
el correspondiente (s − 1) -dimensional uno, y así sucesivamente hasta el plano y luego el eje de máxima inercia.
Es decir, los subespacios de inercia máxima, conocidos como subespacios factoriales, están anidados.
En análisis de correspondencia, los valores propios son no negativos y menores o iguales que 1. Un valor propio
igual a 1 corresponde a una asociación perfecta entre un subconjunto de filas y un subconjunto de columnas.
Esto ocurre cuando un subconjunto de documentos digitales utiliza exclusivamente ciertas palabras que nunca
se usan en los otros documentos. En tales casos, al reordenar filas y columnas de la tabla léxica, Aparecen dos
subtablas disjuntas. Se pueden observar valores propios de S 0 < S iguales a 1 en el caso de (S 0 + 1) subconjuntos
de documentos asociados exclusivamente con (S 0 + 1) subconjuntos de palabras. Al reordenar las filas y columnas
de la tabla léxica, (S 0 + 1) aparecerían subtablas disjuntas.
La inercia total de la nube NI (respectivamete NJ ) es la suma de las inercias a lo largo de cada eje, es decir, la
suma de los valores propios. La inercia asociada con un plano factorial es igual a la suma de los dos valores propios
asociados con su dos ejes. En consecuencia, el porcentaje de inercia que se explica por un determinado eje es igual
a la relación de su valor propio con respecto a la suma de todos los valores propios.
Dada una tabla léxica (I × J), el valor máximo de Φ2 es igual a min(I − 1; J − 1). Este máximo se alcanza cuando
los valores propios distintos de cero son todos iguales a 1. V de Cramer relaciona el valor observado de la inercia
(denotado por Φ2 ) a su valor máximo teórico a través de la siguiente relación:
12
Φ2
V =
min {(I − 1) , (J − 1)}
Esta estadística varía entre 0 (independencia entre documentos digitales y palabra) y 1 (asociación máxima entre
documentos digitales y palabra). Suponiendo que la cantidad de documentos digitales es menor que la cantidad de
14
TRABAJO DE GRADO
palabras (I < J), este máximo se alcanza cuando cada documento utiliza su propio conjunto de palabras, ninguna
de las cuales se encuentra en los otros documentos. V de Cramer nos permite comparar la inercia de tablas de
diferentes tamaños.
J
1 X fij
Fs (i) = √ Gs (j)
λs j=1 fi.
y
I
1 X fij
Gs (j) = √ Fs (i)
λs i=1 f.j
Fs (i) denota el valor de coordenadas de la fila i en el eje s, Gs (j) la coordenada valor de la columna j en el eje s,
λs el valor propio asociado con el eje s, fi. el peso para la fila i, f.j el peso para la columna j, y fij la proporción
de ocurrencias correspondientes al documento i y la palabra j.
Por lo tanto, en el eje s, el punto de fila i está, hasta una constante, en el CoG de la columna j, y viceversa. Los
pesos están dados por los componentes del punto de fila i (resp. punto de columna j)
I
X
ctrs (i) = 100
i=1
Del mismo modo, la contribución de la palabra j a la inercia del eje s viene dada por:
15
TRABAJO DE GRADO
J
X
ctrs (j) = 100
j=1
inercia del punto i proyectado en el eje s fi. Fs2 (i) Fs2 (i)
qlts (i) = = =
inercia total en el punto i fi. d2 (i, GI ) d2 (i, GI )
La calidad de representación de un punto de fila también se conoce como la relativa contribución o cos2 . La suma de
las cualidades de representación de un punto en el eje s (s = 1, ..., S 0 ) mide la calidad de representación del punto
en el subespacio S 0 -dimensional asociado. Si S 0 = S, entonces el punto es perfectamente representada porque:
S
X
qlts (i) = 1
s=1
De manera similar, la calidad de representación del punto de columna j en el eje s es calculado como:
S
X
qlts (j) = 1
s=1
La calidad de representación de un punto de fila o columna en el eje s se denota cos2 en la salida del análsis
de correspondencia ya que también es igual al coseno cuadrado entre vector que conecta el punto al CoG, y su
proyección en el eje s.
16
TRABAJO DE GRADO
Agrupación jerárquica divisiva: Dividimos todo el conjunto de documentos en dos grupos, de modo que
cada uno sea tan homogéneo como diferente del otro como sea posible en términos de vocabulario. Entonces,
cada uno se divide nuevamente en dos, de acuerdo con el mismo principio. En general, el proceso se detiene
cuando la división es lo suficientemente homogéneos con respecto al criterio elegido. Este método conduce
a una sucesión de particiones anidadas, generalmente representado en forma de árbol jerárquico, también
conocido como dendrograma.
Agrupación jerárquica aglomerativa (AHC): Los dos documentos más cercanos entre sí desde un punto
de vista léxico se agrupan para formar un nuevo documento. Iterativamente, buscamos los dos documentos
más cercanos. y agruparlos, hasta que solo nos quede un documento. Aquí de nuevo, nosotros obtener una
sucesión de particiones anidadas que se pueden representar como árbol jerárquico.
Después de la agrupación, la nube de documentos NI se divide en Q cluster etiquetados por q, para q = 1, ..., Q,
con miembros Iq respectivamente cada uno. Documentos en cluster q están etiquetados por iq , para iq = 1, ..., Iq
17
TRABAJO DE GRADO
y q = 1, ..., Q. El factor en la fila de documentos, Fs (iq ) para s = 1, ..., S, los coloca en los ejes del análisis de
correspondencia. Se los atribuyen los pesos fiq también provenientes del análisis de correspondencia o, en algunos
casos, múltiples análisis factorial para tablas de contingencia.
En el espacio factorial, cada uno de los cluster está representado por su centro de gravedad (CoG) Cq para
q = 1, ..., Q, y se le atribuye el peso fq para q = 1, ..., Q igual a la suma de los pesos de los documentos que contiene.
Las Cq coordenadas factoriales de Fs (Cq ), para s = 1, ..., S son los medias ponderados de las coordenadas. Fs (iq ),
para iq = 1, ..., Iq de los documentos del grupo correspondiente. El documento, la nube y el conjunto de CoG de
clúster se centran en el CoG global.
Queremos particionar el conjunto de documentos para que dentro de cada clúster, en los documentos usen palabras
similar, y de un grupo a otro, las palabras tienen que ser relativamente diferente. El algoritmo de agrupación tiene
que funcionar con el conjunto de palabras retenidas, a menudo se logra tanto la homogeneidad dentro del clúster
como una buena separación entre los clústeres. Este objetivo sugiere que evaluemos la calidad de la partición por
medio de un criterio, usando la inercia dentro del clúster y entre clústeres.
La inercia total de la nube de documentos NI puede desglosarse en inercia dentro del grupo y entre grupos según el
teorema de Huygens de descomposición por inercia. Como los ejes del espacio factorial son ortogonales, las inercias
se pueden calcular como sumas de las inercias de cada eje. Como el documento y las nubes están centradas al CoG,
la inercia se puede descomponer como:
Iq S
Q X Q X
S Iq S
Q X
X X X X X 2
fiq Fs2 (iq ) = 2
fq Fs (Cq ) + fiq (Fs (iq ) − Fs (Cq ))
q=1 i=1 s=1 q=1 s=1 q=1 i=1 s=1
18
TRABAJO DE GRADO
En el método de enlace único, la diferencia entre los cluster q y q 0 es igual a la distancia más pequeña entre un
documento en q y un documento en q 0 . Este criterio puede conducir a cluster de baja densidad y dispersión como
es susceptible a un "encadenamiento".
En el método de enlace completo, también conocido como el diámetro, la disimilitud entre los grupos q y q 0 es igual
a la mayor distancia entre un documento en q y un documento en q 0 . Esto conduce a grupos concentrados (de bajo
diámetro)
Nos centramos aquí en la agrupación asociada con un método factorial como el análisis de correspondencia. En
este caso, preferimos tener en cuenta la inercia.
La disimilitud entre dos cluster se mide por la disminución de la inercia entre grupos que su agregación produce.
Este criterio (o método), llamado método de Ward o método de varianza mínima, se determina del siguiente modo.
Suponga que los grupos q y q 0 , con los CoGs Cq y Cq0 , se atribuyen pesos fq y fq0 , correspondientes a las sumas
respectivas de los pesos de los puntos que pertenecen a cada grupo. Y denotemos por d2 (Cq , Cq0 ) a la distancia
Euclidiana al cuadrado entre sus CoGs. Si los dos grupos están agregados, la inercia entre racimos disminuye en:
fq · fq 0 2
δ (q, q 0 ) =
d (Cq , Cq0 )
fq + fq0
El método de Ward a menudo se usa en agrupamiento jerárquico sin restricciones ya que tiende a conducir a
grupos homogéneos y bién separados. Sin embargo, la optimización local utilizada para crear cada nuevo nodo no
necesariamente conduce a la partición óptima para un número dado de clústeres.
En la inicialización, tenemos tantos clústeres como documentos. Cada uno de ellos, también conocidos como nodo
terminal, están formados por un documento y se llaman un singleton luego:
1. Construya la matriz de disimilitud entre los nodos terminales I. Inicialmente, la entrada correspondiente a
una fila y columna dada es igual a la distancia euclidiana entre la terminal correspondiente nodos. Por lo
tanto, es suficiente solo con la diagonal superior o inferior de la matriz; por convención, estaremos en la parte
inferior.
19
TRABAJO DE GRADO
2. Los dos nodos más cercanos entre sí, ya sean terminales o no, son agregado en un nuevo nodo, numerado
entre I + 1 (primer no-terminal nodo) y 2I − 1 (último nodo no-terminal). Indexamos cada nodo creado por
el algoritmo con el valor de la agregación entre sus dos subnodos. El árbol resultante se conoce como un árbol
de índice jerárquico o una jerarquía indexada.
3. Después de cada fusión de dos nodos, la matriz de disimilitud debe ser actualizado. Las filas y columnas
correspondientes al agregado de los documentos se eliminan y se agregan una nueva fila y columna, corres-
pondiente al nodo recién formado. Antes de iterar, las entradas correspondiente a esta fila y columna se
actualizan calculando las diferencias entre este nuevo nodo y todos los demás restantes nodos
4. Si bien todavía tenemos más de un clúster, regrese al Paso 2. Cuando todos los documentos se han agregado
juntos como el nodo raíz, es decir, el nodo (2I − 1), el árbol está completo.
Por construcción, este es un árbol binario, lo que significa que cada no-terminal el nodo reúne dos subnodos. Los
nodos formados están, por lo tanto, anidados, a la derecha hasta el más grande, que contiene todos los documentos.
Podemos cortar un árbol jerárquico dibujando una línea horizontal sobre él. Cada uno de la línea define una
partición y la dibuja a diferentes alturas corresponde a diferentes particiones. De hecho, una partición dada estará
anidada en cada partición hecha más arriba en el árbol. Un árbol jerárquico corresponde así a una secuencia de
particiones anidadas, desde la más extrema (cada terminal el elemento corresponde a un clúster de un documento)
al menos (hay uno grupo que contiene todos los documentos).
1. El CA transporta estas dos nubes a espacios dotados con la distancia euclidiana, revelando así similitudes
entre documentos, y similitudes entre palabras. Además, el conjunto de distancias entre palabras tiene en
cuenta la estructura de vocabulario en el cuerpo. Superponer las dos representaciones ayuda a visualizar
enlaces entre palabras y documentos.
2. Se puede realizar una agrupación de los documentos en este espacio euclidiano, utilizando sus valores de
coordenadas en los ejes factoriales considerados interpretables
3. Los grupos de documentos se pueden describir utilizando toda la información disponible, incluyendo pala-
bras sub y sobre representadas en cada grupo, documentos característicos y todas las variables contextuales
utilizadas como variables suplementarias en la CA
20
TRABAJO DE GRADO
De esta forma, los contrastes que aparecen en los ejes factoriales pueden estar relacionados con la estructura
jerárquica del cuerpo, y la partición obtenida es más significativo cuando los grupos se muestran en los planos
factoriales.
21
CAPÍTULO 3
Metodología de la Investigación
3.1. Introducción:
Actualmente estamos viviendo en una era en donde la tecnología y el Internet nos ha permitido generar y recopilar
grandes volúmenes de información. Se generan las informaciones en redes sociales, en el cine, hospitales, etc. Para
las empresas u organizaciones los datos son materia prima para poder encontrar patrones que favorezcan a su
mejoramiento.
Un modelo es la representación que intenta explicar algún patrón en los datos, es importante mencionar que
hablar de modelo como fórmula mágica no significa que existe una muestra para cualquier problemática, sino todo
lo contrario, pues existen muchos métodos o algoritmos que podrían satisfacer las necesidades dependiendo de los
objetivos del estudio y de los datos que se quieran analizar. Es por esta razón que un requisito para poder adentrarse
en esta área es tener conocimiento de conceptos de Estadística.
Como mencionamos antes, KDD es un proceso metodológico y además secuencial que se sigue para encontrar
conocimiento en un conjunto de datos en bruto. Estos pasos son: 1) abstracción del escenario, 2) Diseño del Modelo
para el almacenamiento de Datos, 3) Recopilación de datos, 4) Selección y limpieza de datos, 5) Aplicación de las
técnicas de Minería de Textos, 6) Interpretación y evaluación de modelos.
22
TRABAJO DE GRADO
En este proyecto se utilizaran la información digitales que corresponden a los diferentes tipos de periódicos.
Por medio de la programación informática la información digital se lo puede llegar a extrae , pero como el titular
de una información brinda la información central del cuerpo de las noticias solo es conveniente extraer el titular de
cada noticia.
Para extraer estos titulares de los periódicos digitales se ha elaborado un sistema denominado web scraping.
El sistema web scraping se ha llegado a desarrollar en el caso del Diario de la siguiente forma:
1. A Través de la búsqueda del URL de los periódico digital: Esta búsqueda se realiza por medio de una
línea de código en HTML más PHP, la siguiente dirección localhost/siscraping/eldiario/ingresarfecha.php
nos ilustra el archivo donde se encuentra la siguiente linea de códigos
que corresponde al periodico El Diario. Y el diseño de el raspado del periodico El Diariol en fecha 2020-12-06 se
observa de la siguiente forma.
2. El raspado del periódico digital: Una vez ingresado al periódico digital almacenamos en una variable para
hacer el raspado de todos los titulares.
23
TRABAJO DE GRADO
por ejemplo, despues de realizarse el raspado de las noticias en fecha 2020-06-12, se ilustran de la siguiente ventana
mostrando que el respado se a realizado de forma correcta.
3. Notificación del raspado correcto: Al momento de realizar el raspado el sistema envia una notificación al
usuario para indicar que el raspado se realizo de forma correcta y enviando este raspado a la vez a la base de datos.
la siguiente imagen muestra todas las operaciones que se an realizado de forma correcta, es decir se realizo correc-
tamente el raspado, el guardado en la base de datos, la ilustración el la pantalla principal y la notificación.
24
TRABAJO DE GRADO
4. Brindar la información de los titular de las noticias en fecha indicada: El sistema notifica en la pantalla
principal que las noticias se guardaron correctamente.
5. Almacenamiento de los titulares del periódico digital en una base de datos: La siguiente linea de
codigo crea una tabla en la base de datos denominado eldiariocontenido
25
TRABAJO DE GRADO
la siguiente linea de códigos almacena toda la información del raspado en nuestra base de datos del periodico El
Diario.
al realizar la inspección dentro del servidor local se observa que en la tabla eldiariocontenido se a almacenado toda
la información de forma correcta en nuestra base de datos, que se ilustra a continuación
26
TRABAJO DE GRADO
de esta forma se logra realizar el raspado o scraping de los titulares y contenidos del periodico digital El Diario
para el almacenamiento en una base de datos. De forma similar se prosede a raspar los titulares y contenidos de
los periodicas digitales la Prensa y La Razón, para su almacenamiento en la base de datos.
y los titulares de las noticias se describen en la columna de noticias y a continuacion se observa la noticia de la
figura 3.2.1 en marcada
27
TRABAJO DE GRADO
3.3.2. Toma de la muestra aleatoria por medio del comando sample para la noticia
de un día determinado:
Al realizar el raspado de las noticias por día en algunos casos se obtienen uno, dos, etc. O ningún titulares
relacionados con el ambito de la salud, politico o económico. Para que el modelo trabaje de forma correcta se
ejecuta el comando sample para elegir sólo un titular relacionado con el ambito de la salud, politico o economico.
28
TRABAJO DE GRADO
Periodico Cantidad
El diario AC 1787 noticias
Prensa AC 5741 noticias
La Razon AC 3844 noticias
b) Cantidad de titulares según los periodo desde julio del 2019 al 15 de marzo del 2020 en los ambitos de la
salud, politica y economico.
Periodico Cantidad
El diario AC 544 noticias
Prensa AC 1665 noticias
La Razon AC 1402 noticias
c) Cantidad de titulares extraida con la muestra aleatorio sample por día según los periodo desde julio del
2019 al 15 de marzo del 2020
Periodico Cantidad
El diario AC 301 noticias seleccionados por categoria
Prensa AC 425 noticias seleccionados por categoria
La Razon AC 264 noticias seleccionados por categoria
29
TRABAJO DE GRADO
d) Noticias según el ambito de estudio del periodico El Diario por dia desde julio del 2019 al 15 de marzo del
2020
Categoria Cantidad
salud 54 noticias
politica 145 noticias
economia 102 noticias
e) Noticias según el ambito de estudio del periodico la Prensa por dia desde julio del 2019 al 15 de marzo del
2020
Categoria Cantidad
salud 119 noticias
politica 159 noticias
economia 147 noticias
f ) Noticias según el ambito de estudio del periodico La Razón por dia desde julio del 2019 al 15 de marzo del
2020
Categoria Cantidad
salud 79 noticias
politica 100 noticias
economia 85 noticias
g) El total de noticias según los periodicos desde julio del 2019 al 15 de marzo del 2020 en los ambitos de
salud, politico y economico por dia:
30
TRABAJO DE GRADO
Periodico Cantidad
El Diario 158 noticias
Prensa 162 noticias
La Razon 101 noticias
31
TRABAJO DE GRADO
Periodico Cantidad
El diario DC 3347 noticias
Prensa DC 2958 noticias
La Razon DC 3730noticias
b) Cantidad de titulares según los periodo desde el 16 de marzo del 2020 a julio del 2020 en los ambitos de la
salud, politica y economico.
Periodico Cantidad
El diario DC 1127 noticias
Prensa DC 1469 noticias
La Razon DC 1783 noticias
c) Cantidad de titulares extraida con la muestra aleatorio sample por día según los periodo desde el 16 de
marzo del 2020 a julio del 2020
Periodico Cantidad
El diario DC 273 noticias seleccionados por categoria
Prensa DC 304 noticias seleccionados por categoria
La Razon DC 364 noticias seleccionados por categoria
d) Noticias según el ambito de estudio del periodico El Diario por dia desde el 16 de marzo del 2020 a julio
del 2020
Categoria Cantidad
salud 114 noticias
politica 63 noticias
economia 96 noticias
32
TRABAJO DE GRADO
e) Noticias según el ambito de estudio del periodico la Prensa por dia desde el 16 de marzo del 2020 a julio
del 20200
Categoria Cantidad
salud 104 noticias
politica 99 noticias
economia 101 noticias
f ) Noticias según el ambito de estudio del periodico La Razón por dia desde el 16 de marzo del 2020 a julio
del 2020
Categoria Cantidad
salud 134 noticias
politica 112 noticias
economia 118 noticias
g) El total de noticias según los periodicos desde el 16 de marzo del 2020 a julio del 2020 en los ambitos de
salud, politico y economico por dia:
Periodico Cantidad
El Diario 114 noticias
Prensa 104 noticias
La Razon 139 noticias
33
TRABAJO DE GRADO
De esta forma a continuación se observa una parte de la base de datos para trabajar la matriz de analisis de
correspondencia cuyas dimensiones son de 778 filas por 5 columnas
34
TRABAJO DE GRADO
de esta base de datos divididos en dos grupos (AC y DC) se puede realizar el siguiente conteo de palabras según
las categorias periodo, periodico y p_per (periodo_periodico)
35
TRABAJO DE GRADO
Las 20 palabras más frecuentes AC y DC en los ambitos de salud y política según los documentos AC_diario,
AC_prensa, AC_razon, DC_diario, DC_prensa y DC_razon correspondientes a la categoria p_per son:
En una escala logarítmica se puede observar las frecuencias f y el número de palabras repetidas al menos f veces
en el cuerpo
Se realiza el conteo de las palabras más frecuentes en la categoría p_per en el ámbito de la salud, política y
económico omitiendo las palabras de, en, la, el, a, etc. De esta forma se obtiene el siguiente resultado
36
TRABAJO DE GRADO
A continuación se observan los valor númericos de la prueba χ2 y de p el cual nos indica que se tiene que rechazar
la hipótesis de independencia entre documentos y palabras
De esta forma la inercia de los ejes factoriales se llega a determina mediante el calculo de los valores propios de
la matriz formado por palabras y documentos (AC_diario, AC_prensa, AC_razon, DC_diario, DC_prensa y
DC_razon)
en la figura 3.2.18 se observa la inercia total de las nubes NI y NJ como también la V de Cramer. Estos valores
númerica nos indican que la asociación entre documentos y palabras esta en un 38 % el cual es relativamente bueno,
pero esto no prohibe la existencia de ciertos ejes factoriales que descubriran interesantes estructuras en los datos.
A continuación se observa como los valores propios se asocian con los ejes factoriales
37
TRABAJO DE GRADO
Figura 3.5.8: Asociación entre los valores propios y los ejes factoriales
la figura 3.2.19 indica que el plano adecuado para realizar el análisis entre los documentos y las palabras está
formado por las dim1 y dim2 con un 56,5 % de inercia, así a continuación se tiene la representación gráfica de los
documentos en el plano de máxima inercia
el cual indica que en el primer eje factorial las noticias (titulares) AD y DC se van contrastando según las categorias,
es decir las informaciones que vierten los periódicos AC y DC son casi paralelos según la coyuntura social de Bolivia,
y el segundo eje factorial indica que la información vertida por los periodicos a sufrido un cambio leve en su difusión
38
TRABAJO DE GRADO
La figura 3.2.21 nos indica que los ducumentos o peridicos utilizan de forma similar las diferentes palabras observadas
en la figura 3.2.16, también se observemos que las palabras dialogo y producción estan aislada del centro de gravedad
esto indica que no se a hablado en Bolivia mucho de la producción y tampoco del dialogo. A continuación se tiene
una representación entre documentos y palabras.
39
TRABAJO DE GRADO
en estos graficos se puede observar que según los titulares de los periodicos en el actual gobierno de Añez se esta
trabajando bastante en la parte gubernamental sin descuidar la parte de la salud. También se puede observar que
el señor Evo Morales se a preacupado muy poco de la salud a diferencia de este gobierno.
Mediante el plano de maxima inersia se puede análisar el dendograma de los documentos
40
TRABAJO DE GRADO
en este dendograma se observa que los periodicos La Razón y la Prensa AC y DC estan utilizando paladras similares
en la difusión de noticias que brindan a la población Boliviana.
41
TRABAJO DE GRADO
42
CAPÍTULO 4
Conclusión y Recomendaciones
4.1. Conclusión:
Hoy en día la comunicación en forma digital a crecido de forma acelerada debido al problema social que vivimos, la
recopilación de la información en forma digital ayuda bastante, en algunos casos a la toma de decisiones, por esta
razón decidí recopilar información de tipo online, pero como este campo es muy amplio decidí trabajar en el ámbito
de la difusión de la información por medio de los periódicos digitales extraendo los titulares de los periódicos por
medio de la URL para almacenarlo en una base de datos, y estructurarlos de la siguiente forma
en una hoja Excel, para posteriormente cargar esta información al programa R en donde se realiza la categorización
de periodo, periódico y p_per y aplicar el modelo planteado en el marco teórico par el primer grupo denominado
antes de la cuarentena (AC) que trabaja con los titulares desde el mes de julio del 2019 al 15 de marzo del 2020 y
el segundo denominado después de la cuarentena (DC) que trabaja con los titulares desde el 16 de marzo del 2020
a julio del 2020 mediante esta estructura se realiza el conteo de las palabras más frecuentes que se encuentran en
cada uno de los titulares digitales, pero como es habitual las palabras que frecuentan bastante en una oración son:
el, la, los, un, etc. Se realiza otra vez el conteo de las palabras más frecuentes pero esta vez sin tomar en cuenta
las palabras del tipo el, la, los, etc.
De esta forma se obtienen el número de palabras más frecuentes en los ámbitos de la salud, político y económico,
con los cuales se llega a formar una matriz cuyas filas están constituidas por los documentos y cuyas columnas están
constituidos por las palabras y esta matriz se transforma a una matriz de frecuencias el cual nos permite obtener
dos matrices denominadas matriz de perfil de fila y matriz de perfil de columnas y cada una de estas matrices se
plasma en un espacio de dimensión finita.
Por medio de la prueba χ2 se llega a determinar la inercia de cada uno de estos espacios denominados espacios de
nubes resulta que el espacio de nubes de fila y el espacio de nubes de columna tiene la misma inercia, permitiéndonos
43
TRABAJO DE GRADO
así por medio de una relación pasar de un espacio de filas a uno de columnas y viceversa gracias a esta relación
se pude determinar el plano de máxima inercia en el cual se llega a plasmar de forma gráfica los documentos y
también las palabras para realizar el análisis respectivo.
También se llegar a realizar el grafico de las elipses de confiabilidad en el plano de máxima inercia y este grafico nos
permite realizar un análisis con respecto a los titulares de los periódicos digitales La Razón, El Diario, La Prensa,
en torno a los ámbitos de la economía, política y salud.
4.2. Propuestas:
Bajo la idea del raspado de las noticias digitales, seria favorable realizar esta operación de tal manera que se puede
obtener los titulares de los periódicos digitales de mayor renombre de los diferentes países de Sudamérica para
almacenarlos en una base de datos del cual se pueda extraer esta información bajo alguna estructura que nos
permita primero realizar el análisis de cada país sobre un ámbito determinado y relacionarlos con nuestro país en el
mismo ámbito, gracias a esta información se podría tomar decisiones para mejorar o mantener el ámbito estudiado.
4.3. Recomendación:
El raspado de las noticias que se realizan depende de las URL de los periódicos digitales, pero por seguridad de la
información las diferentes empresas tienden a actualizar sus programas que cubren este campo, pero hay periódicos
digitales que trabajan en esta parte de forma que su actualización en términos de seguridad sea a largo plazo y
sería muy bueno contar con esta información para tomar decisiones y poder trabajar con un grupo de periódicos
digitales los cual no traigan problemas en el raspado de la información digital.
Esto nos permitiría ampliar muestro campo de trabajo a más periódicos de Bolivia, para poder aplicar el modelo
planteado en el marco teórico de tal forma que la cantidad de categorías sea más amplia, y esto nos permitirá
obtener más resultados y así realizar una interpretación más certera en un ámbito adecuado para el beneficio de
nuestro país.
4.4. Bibliografía:
[1] Charu C. Aggarwal. (2015). Data Mining. New York USA: Springer .
[2] Massimiliano Bonamente . (2017). Statistics and Analysis of Scientific Data. 2017: Springer .
[3] Hair-Anderson-Tatham-Black. Anális Multivariable. Quinta edición
[4] Bécue-Bertaut M. (2019). Textual Data Science with R. Florida: Chapman \& Hall/CRC Press, Boca Raton,.
[5] Bécue-Bertaut M. (2008). Multiple factor analysis and clustering of a mixture of quantitative, categorical and
frequency data. Computational Statistics and Data Analysis. Pagès J: 52, 3255–3268.
[6] R Journal. Rcmdr Plugin.temis, a graphical integrated text mining solution in R. 5, 188–196.
[8]Francisco Charte Ojeda. Análisis exploratorio y visualización de datos con R
[9] Mónica Bécue-Bertaut. (2018). Textual Data Science With R. Teylor & Francis Group: CRC Press.
44
TRABAJO DE GRADO
4.5. Anexo A:
45
TRABAJO DE GRADO
46
TRABAJO DE GRADO
4.5.2. Código del modelo para el plano de máxima inercia y Agrupación de datos:
47
TRABAJO DE GRADO
48
TRABAJO DE GRADO
4.6. Anexo B:
49
TRABAJO DE GRADO
p
0 X
Aj Aj = a2kj = 1
k=1
el primer componente principal se calcula eligiendo a1 de modo que y1 tenga la mayor varianza posible, sujeta a
0
la restricción de que A1 A1 = 1, el segundo componente principal se calcula obteniendo a2 de modo que y2 esté
incorrelada con y1 .
Del mismo modo se eligen y1 , y2 , ..., yp incorrelados entre sí, de manera que las variables aleatorias obtenidas vayan
teniendo cada vez menor varianza.
0 0 X
V ar (y1 ) = V ar A1 X = A1 A1
el método habitual para maximizar una función de varias variables sujeta a restricciones es el método de los
multiplicadores de Lagrange.
0 P 0
El problema consiste en maximizar la función A1 A1 sujeta a la restricción A1 A1 = 1.
Se puede observar que la incógnita es precisamente A1 (el vector desconocido que nos da la combinación lineal
0 P
0
óptima). Así, se construye la función de Lagrange L tal que L (A1 ) = A1 A1 − λ A1 A1 − 1 y se busca el
máximo, y esto se logra derivando e igualando a 0
∂L
P P
∂A1 =2 A1 − 2λIA1 = 0 entonces ( −λI) A1 = 0
así se obtiene un sistema de ecuaciones lineales. Por el teorema de Roché-Frobenius, para que nuestro sistema tenga
P
una solución diferente de 0 la matriz ( −λI) tiene que ser singular, esto implica que el determinante debe ser
igual a cero
X
−λI = 0
P P
y de este modo, λ es un autovalor de (matriz de covarianzas de orden p) y si además es definida positiva,
entonces se tendrá p autovalores distintos, λ1 , λ2 , ..., λp tal que, por ejemplo, λ1 > λ2 > ... > λp .
así
50
TRABAJO DE GRADO
P
( −λI) A1 = 0
P
A1 − λIA1 = 0
P
A1 = λIA1
entonces
0
V ar (y1 ) = V ar A1 X
0 P
= A1 A1
0
= A1 λIA1
0
= λA1 A1
= λ (1)
= λ
Luego, para maximizar la varianza de y1 se tiene que tomar el mayor autovalor, digamos λ1 , y el correspondiente
autovector A1 . En realidad A1 es un vector que nos da la combinación de las variables originales que tiene mayor
0
varianza, esto es si A1 = (a11 , a12 , ..., a1p ), entonces
0
y1 = A1 X = a11 x1 + a12 x2 + · · · + a1p xp
0
El segundo componente principal, digamos y2 = A2 X, se obtiene mediante un argumento similar. Además, se quiere
que y2 esté incorrelado con el anterior componente y1 , es decir, Cov (y2 , y1 ) = 0, por lo tanto
0 0
Cov (y2 , y1 ) = Cov A2 X, A1 X
0 0
= A2 E[(X − µ) (X − µ) ]A1
0 P
= A2 A1
0 P
es decir A2 A1 = 0.
P 0 P
pero A1 = λA1 y como A2 A1 = 0, entonces
0 X 0 0
A2 A1 = A2 λA1 = λA2 A1 = 0
0
esto implica que A2 A1 = 0, es decir, que los vectores sean ortogonales.
P
De este modo, se tendrá que que maximizar la varianza de y2 , es decir, A2 A2 , sujeta a las siguientes restricciones
0
A2 A2 = 1
0
A2 A1 = 0
0 X 0 0
L (A2 ) = A2 A2 − λ A2 A2 − 1 − δA2 A1
y derivando
∂L(A2 ) P
∂A2 =2 A2 − 2λIA2 − δA1 = 0
51
TRABAJO DE GRADO
0
si multiplicamos por A1 esta relación se tendrá
0 X
2A1 A2 − δ = 0
pero
0 0
A1 A2 = A2 A1 = 0
0
A1 A1 = 1
luego
0 X 0 X
δ = 2A1 A2 = 2A2 A1 = 0
∂L(A2 )
y como Cov (y2 , y1 ) = 0 entonces ∂A2 queda
∂L(A2 ) P
∂A2 = 2 A2 − 2λA2 − δA1
P
= 2 A2 − 2λA2
P
= ( −λI) A2
P
de donde ( −λI) A2 = 0.
P
Usando el mismo razonamiento anterior, elegimos λ como el segundo mayor autovalor de la matriz con su
autovector asociado A2 .
El razonamientos anteriores se pueden extender, de modo que a la j−ésimo componente le correspondería el j−ésimo
autovalor.
Entonces todos los componentes de Y (en total p) se pueden expresar como el producto de una matriz formada
por los autovectores y multiplicado por el vector X que contiene las variables originales x1 , x2 , ..., xp
Y = AX
es decir
y1 a11 a12 ··· a1p x1
y2 a21 a22 ··· a2p x2
Y = , A = . , X = .
.. .. .. .. ..
.
. .
yp ap1 ap2 ··· app xp
con
V ar (y1 ) = λ1
V ar (y2 ) = λ2
···
V ar (yp ) = λp
52
TRABAJO DE GRADO
λ1 0 ··· 0
0 λ2 ··· 0
Λ=
..
0
0 . 0
0 0 ··· λp
ya que y1 , y2 , ..., yp se han construido como variables incorreladas.
Se tiene así
0 0 X
Λ = V ar (Y ) = A V ar (X) A = A A
o bien
X 0
= AΛA
0
y como A es una matriz ortogonal (pues Ai Ai = 1 para todas sus columnas)
p
X Xp
V ar (yi ) = λi = traza (Λ)
i=1 i=1
0X X
traza (Λ) = traza A A = traza
X Xp
traza (Λ) = traza = V ar (xi )
i=1
Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas de las componentes son
iguales. Esto permite hablar del porcentaje de varianza total que recoge un componente principal:
λi λi
p = p
P P
λi V ar (xi )
i=1 i=1
53
TRABAJO DE GRADO
m
P
λi
i=1
p
P
V ar (xi )
i=1
donde m < p.
En la práctica, si se tienen p variables solo nos quedaremos con un número menor de componentes que tenga un
Pp
porcentaje amplio de la variabilidad total V ar (xi ). En general solo se suele tomar tres componentes principales,
i=1
para poder representarlos en forma gráficas.
54