Está en la página 1de 11

UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL

CUSCO
“APLICACIÒN WEB PARA LA PREDICCIÓN DEL TRÁFICO TURÍSTICO EN
CUSCO MEDIANTE EL USO DE MINERÍA DE OPINIONES EN LA RED
SOCIAL TWITTER”

​PLAN DE TESIS

Que para optar al título profesional presenta(n)


Ronny Ibsen Huaman Lopez
Cristhian Eddy Valdeiglesias Quispe
Bajo la asesoría de:
​MAG. LINO PRISCILIANO FLORES PACHECO

​MAG. YESHICA ISELA ORMEÑO AYALA

​Perú, febrero del 2020

Escuela Profesional de Ingeniería de Informática y de Sistemas

FACULTAD DE INGENIERÍA ELÉCTRICA, ELECTRÓNICA,


INFORMÁTICA Y MECÁNICA
Contenido

Contenido 1

1.-Resumen 2

2.-Antecedentes 2

3.-Problema de Investigación 4

4.-Planteamiento del Problema 4

5.-Justificación 4

6.-Objetivos 4
6.1.-General: 4

7.-Alcances y Limitaciones 5

8.-Marco Teórico 5

9.-Metodología 7

1
1.-Resumen
En el presente trabajo se hará uso del análisis de datos en los comentarios en los
comentarios en Twitter, analizando los comentarios de acuerdo a las palabras Claves
referentes a los sitios los lugares turísticos del Cusco.
Todo este análisis de datos se hace Scrapeando (Método para obtener datos de una web
en tiempo real, en nuestro caso para ser almacenado y estudiado) la API de la Red
Social Twitter.
Palabras clave: Scrapear, Clustering, Twitter.

2.-Antecedentes
• Fernández​ en su paper ​Minería de Datos en Opiniones en la Red Social
Twitter,​ se centra en resolver los problemas causados por las irregularidades
lingüísticas que generalmente no son contempladas en el preprocesamiento para
ello ha utilizado como ejemplo los foros EmotiBlog Kyoto y EmotiBlog Phones
además de una colección JRC, y así obtener un conjunto de datos comparables.
Además de utilizar un método de aprendizaje automático, utiliza las relaciones
semánticas SentiWordNet y WordNet para aumentar la cobertura de resultados
sin disminuir la precisión, enfocándose en si en la importancia del análisis del
corpus y el etiquetado de granulidad fina. (Fernández et al., 2011)

• Becerra​ en su TFG ​Análisis de datos en Twitter: el bueno, el malo y el feo, s​ ​e


centra en determinar correctamente las oraciones de doble sentido, ironías, así
como oraciones libres del contexto para ello prueba con varios clustering y
compara los resultados en fuentes como el New York Times.
En Cuanto a la metodología se centra en el modelo básico de: recolección de datos,
preprocesamiento, análisis de sentimiento, clustering, visualización de datos y
finalmente conclusiones. En la primera parte relata la recolección de datos a
través del API de twitter; en la segunda parte describe el mapeo, tokenizacion de
los datos, stemming, vectorización y frecuencia; la tercera parte abarca la
granulidad y el análisis , así como un método de evaluación; la cuarta parte
explica a fondo el proceso de clustering y aprendizaje ; la quita se encarga de la
interpretación y visualización de los datos obtenidos; y por ultimo se llega a
sacar las conclusiones del proyecto (Becerra, 2016)

• Montesinos​ en sus Memoria ​Análisis de Sentimientos y Predicción de Eventos


en Twitter​ tomando en cuenta que en el año 2014 la población chilena es uno de
los países con más uso de Twitter planean determinar si los resultados aplicando
minería de opinión son fiables comparándolos con los resultados respecto a los
candidatos Andrés Allamand y Pablo Longueira Logrando un 66% de acierto en
el caso de los usuarios que estaban a favor y un 97% determinando los usuarios
que estaban en contra.

2
En Cuanto a la metodología se Basa en la Implementación, Análisis de resultados y
Conclusiones. En la etapa de implementación es donde se desarrolla todo,
primero propone el caso de estudio para luego seguir con la creación de
diccionario que utilizara para comprobar el grado de aceptación de los objetivos
estudiados, el análisis de comentario se basa en asignar puntajes en base a las
palabras que tiene un comentario siendo estas positivas, neutras y negativas, el
orden de las palabras influye en el proceso; los métodos de clasificación a
utilizar son: diccionario léxico, SVM, Naive Bayes y máxima
entropía.(Montesinos García, 2014)

• Dubiau​ en su Tesis ​Procesamiento de Lenguaje Natural en Sistemas de


Análisis de Datos​ se Aborda la tesis desde una perceptiva de herramienta de
optimización por que usa todos los posibles métodos posible para optimizar el
proceso de análisis de datos por lo cual plantea varios casos de estudio y las va
midiendo, llega a la conclusión que hoy en día conocemos que los mejores
clústeres y métodos de aprendizaje maquina son Naive Bayes, MaxEnt y SVM.
En cuanto a la metodología Primero define las Herramientas que va a utilizar,
luego propone el caso de estudio para luego pasar a la experimentación. Al final
termina con una comparación de efectividad y llega a conclusiones, va
mostrando visualización de los resultados obtenidos por cada caso de estudio
propuesto (Dubiau, 2013)

• Sobrino​ en TFM ​Análisis de Datos en Twitter​ aborda la creación de un sistema


automatizado de clasificación de mensajes a través del análisis de sentimiento
evaluando los distintos tipos de clúster que se usa en un aprendizaje automático
y evaluándolos haciendo una comparativa entre ellos, da a conocer todo el
concepto posible sobre análisis de sentimiento, es una gran fuente de
información, llega a la conclusión de que el análisis de sentimiento es una gran
herramienta y hace una reflexión sobre el futuro.(Sobrino Sande, 2018)

3
3.-Problema de Investigación
Cuando una persona (usuario que navega por internet interesado en viajar o visitar un
destino turístico en Cusco), está interesada en la afluencia de personas en un sitio
turístico del Cusco y tiene el inconveniente de no hallar esa información al día y en
tiempo real.

4.-Planteamiento del Problema


La mencionada tesis, se basa en crear una Aplicación Web para brindar información sobre el
problema de la afluencia en los lugares turísticos más concurridos en Cusco.

Así poder decidir si un sitio Turístico es apto para ser visitado en cierta fecha.

5.-Justificación
El presente proyecto de investigación ayudará a complementar y actualizar
investigaciones enfocadas al ámbito de la Informática, de la misma forma servirá para
motivar a los estudiantes a investigar sobre la predicción de tráfico turístico del Cusco
en la red social de Twitter.

6.-Objetivos

6.1.-General:
Scrapear la red social Twitter por medio de Keyword, para obtener datos sobre la
concurrencia de turistas nacionales y extranjeros en Cusco en los lugares y sitios
turísticos de la Ciudad de Cusco.
6.2.-Específicos
• Recolección de información de Twitter sobre las tendencias hacia nuestra
región.
• Adaptar toda la información obtenida a través del pre-procesamiento para su
correcta utilización por los métodos de clustering.
• Clasificación de tendencias en afluencia turística a través del Métodos de Naive
Bayes.
• Informar sobre la afluencia turística en los lugares arqueológicos y turísticos de

Cusco.

4
• Brindar datos estadísticos a la población y agencias de turismo.

7.-Alcances y Limitaciones
• El trabajo solo comprenderá la red social de Twitter.
• La limitación territorial solo comprenderá la región Cusco, puede variar de
acuerdo a la cantidad de información que se puede obtener.
• Solo se utilizarán scraping para la recolección de información.
• Toda la información recolectada será guardada en un documento CSV y será
puesta a disposición para futuras investigaciones.
• Los comentarios descartados en la etapa de preprocesamiento no cuentan para el
máximo de comentarios.

8.-Marco Teórico
Clustering
Es la tarea de agrupar un conjunto de objetos de tal manera que los miembros del mismo
grupo (llamado clúster) sean más similares, en algún sentido u otro. Es la tarea principal
de la minería de datos exploratoria y es una técnica común en el análisis de datos
estadísticos. además, es utilizada en múltiples campos como el aprendizaje automático,
el reconocimiento de patrones, el análisis de imágenes, la búsqueda y recuperación de
información, la bioinformática, la compresión de datos y la computación gráfica.
El análisis de grupos no es en sí un algoritmo específico, sino la tarea pendiente de
solución. Se puede hacer el agrupamiento utilizando varios algoritmos que difieren
significativamente en su idea de qué constituye un grupo y cómo encontrarlos
eficientemente. Las ideas clásicas de grupo incluyen distancias pequeñas entre los
miembros del mismo, áreas densas del espacio de datos, intervalos o distribuciones
estadísticas particulares. El agrupamiento, por tanto, puede ser formulado como un
problema multi-objetivo de optimización. El algoritmo apropiado y los valores de los
parámetros (incluyendo valores como la función de distancia para utilizar, un umbral de
densidad o el número de grupos esperado) depende del conjunto de datos que se analiza
y el uso que se le dará a los resultados. Agrupamiento como tal no es una tarea
automática, sino un proceso iterativo de minería de datos o interactivo de optimización

5
multi-objetivo que implica prueba y fracaso. A menudo será necesario hacer un
preprocesamiento de los datos y un ajuste de los parámetros del modelo hasta que el
resultado tenga las propiedades deseadas.

Análisis de Sentimiento
Para identificar las opiniones en Internet, es necesario realizar un análisis de
sentimientos, técnica que utiliza procesamiento de lenguaje, análisis de texto y
herramientas computacionales para clasificar cometarios subjetivos de diferentes
usuarios, ya sean sentimientos propiamente tal u opiniones sobre diversos temas. Los
métodos usados para este tipo de análisis tienen cerca de 15 años de aplicación, los
cuales se han usado para clasificar mails, reseñas de clientes, publicaciones digitales,
etc.
A la hora de querer diseñar un sistema que analice y clasifique sentimientos u
opiniones, hay que, en primer lugar, tener claro los desafíos que se deben vencer, los
cuales están descritos en la literatura.

• En primer lugar, es necesario determinar si existe opinión en el tweet o no, ya


que no siempre esto ocurre, pudiendo ser un comentario objetivo, una respuesta
a otro usuario, etc.
• Determinar el tema sobre el cual se está hablando de manera de saber si es
información útil, ya que se puede estar buscando opiniones sobre una empresa
determinada y si el tweet es sobre política no aporta información relevante sobre
lo que se está buscando.
• Reconocer las abreviaciones y modismos típicos. Al tener Twitter un carácter
informal el lenguaje usado no siempre es correcto, ya que normalmente no se
ocupan tildes y se ocupan palabras populares que no aparecen en el diccionario
(Ej. Ocupar “bn” en vez de “bien”, “x” en vez de “por”, el uso de garabatos, usar
expresiones del tipo “po”, ”malooooo”, etc.).
• Determinar la polaridad de una oración pudiendo tener palabras positivas y
negativas en la misma frase (Ej. “Me alegro que se haya terminado, pésimo el
espectáculo”, “La película no fue nada buena”).
Maquina de Vector de Soporte
Es un algoritmo de aprendizaje supervisado que se puede emplear para clasificación
binaria o regresión. Las máquinas de vectores de soporte son muy populares en
aplicaciones como el procesamiento del lenguaje natural, el habla, el reconocimiento de
imágenes y la visión artificial.
Una máquina de vectores de soporte construye un hiperplano óptimo en forma de
superficie de decisión, de modo que el margen de separación entre las dos clases en los
datos se amplía al máximo. Los vectores de soporte hacen referencia a un pequeño

6
subconjunto de las observaciones de entrenamiento que se utilizan como soporte para la
ubicación óptima de la superficie de decisión.
Las máquinas de vectores de soporte pertenecen a una clase de algoritmos de Machine
Learning denominados métodos kernel y también se conocen como máquinas kernel.
El entrenamiento de una máquina de vectores de soporte consta de dos fases:
1. Transformar los predictores (datos de entrada) en un espacio de características
altamente dimensional. En esta fase es suficiente con especificar el kernel; los
datos nunca se transforman explícitamente al espacio de características. Este
proceso se conoce comúnmente como el truco kernel.
2. Resolver un problema de optimización cuadrática que se ajuste a un hiperplano
óptimo para clasificar las características transformadas en dos clases. El número
de características transformadas está determinado por el número de vectores de
soporte.
Para construir la superficie de decisión solo se requieren los vectores de soporte
seleccionados de los datos de entrenamiento. Una vez entrenados, el resto de los datos
de entrenamiento son irrelevantes.

9.-Metodología

Recolección y Descripción de Datos:


La recolección de información es una importante parte del proceso porque los resultados
dependen de la calidad de los datos, estos datos serán sacados de las redes Social
Twitter

7
Las herramientas que utilizaremos serán la API de la plataforma y en caso sea necesario
la web scraping.
Además describiremos las características de los datos obtenidos.

Cronograma

CRONOGRAMA DE ACTIVIDADES

Mes Marzo Abril Mayo Junio Julio


Actividades
Semanas

Recolección 4
1 X X X X X
De Datos

Pre-procesa
2 4 X X X X X X
miento
Clustering y
3 aprendizaje 4 X X X X X X X X

Análisis de
4 4 X X
Sentimiento

5 Resultado 4 X X X

Elaboración
6 4 X X X X
Del Marco
Teórico

7 Metodología 4 X X X X

Recolección
8 4 X X X X X X
De Datos

Análisis De
9 4 X X X X
Datos
Conclusione
10 4 X X X
s

8
Redacción
4 X X X X
Del Informe
Final

Presupuesto y Financiamiento

Servidor 3500 .00

PC 3000.00

Programadores 4000.00

Materiales de Escritorio 200.00

Software en General 300.00

Pre-Procesamiento:
El preprocesamiento consistirá en eliminar las partes relevantes de las oraciones, así
como corregir la gramática, y obtener información lista para el aprendizaje.
Esta etapa es en gran medida importante puesto que dependiendo de cómo trataremos la
información obtendremos mejores resultados.

Clustering y Aprendizaje:
En esta parte consistirá en el entrenamiento y selección de los datos, que generalmente
utiliza algoritmos de clustering, algoritmos de aprendizaje supervisado para la
determinación de la polaridad de los datos; en nuestro caso para la determinación de
afluencia turística en cusco.
Se harán varias pruebas para la determinación del mejor algoritmo en nuestro caso.

Análisis del Sentimiento:


Consistirá en la interpretación de la información obtenida y la selección de información
relevante, así c​omo su visualización.

9
Resultados:
Se explicará los resultados y Conclusiones

Bibliografía
Becerra, C. M. (2016). Análisis de sentimiento en Twitter: el bueno, el malo y el >:(.
Universidad Nacional de Córdoba,​ 1–56.
https://rdu.unc.edu.ar/bitstream/handle/11086/3751/Becerra
2016_analisis-desentimiento.pdf?sequence=1&isAllowed=y
Fernández, J., Boldrini, E., Gómez, J., & Martinez-Barco, P. (2011, January 1).
Sentiment Analysis and Opinion Mining: The EmotiBlog Corpus. ​Procesamiento
Del Lenguaje Natural​, ​47​, 179–187.
Dubiau, L. (2013). ​Procesamiento de Lenguaje Natural en Sistemas de Análisis de
Sentimientos.​ https://www.dropbox.com/s/2bn1f9capouftu6/Tesis.pdf
Montesinos García, L. (2014). ​Análisis de Sentimientos y Predicción de Eventos en
Twitter​. 1–60.
http://repositorio.uchile.cl/bitstream/handle/2250/130479/cfmontesinos_lg.pdf
Sobrino Sande, J. C. (2018). ​Análisis de sentimientos en Twitter​. 17–78.
http://openaccess.uoc.edu/webapps/o2/handle/10609/81435

10

También podría gustarte