Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PLANtesisanalisiscuscooooooooooooooo
PLANtesisanalisiscuscooooooooooooooo
CUSCO
“APLICACIÒN WEB PARA LA PREDICCIÓN DEL TRÁFICO TURÍSTICO EN
CUSCO MEDIANTE EL USO DE MINERÍA DE OPINIONES EN LA RED
SOCIAL TWITTER”
PLAN DE TESIS
Contenido 1
1.-Resumen 2
2.-Antecedentes 2
3.-Problema de Investigación 4
5.-Justificación 4
6.-Objetivos 4
6.1.-General: 4
7.-Alcances y Limitaciones 5
8.-Marco Teórico 5
9.-Metodología 7
1
1.-Resumen
En el presente trabajo se hará uso del análisis de datos en los comentarios en los
comentarios en Twitter, analizando los comentarios de acuerdo a las palabras Claves
referentes a los sitios los lugares turísticos del Cusco.
Todo este análisis de datos se hace Scrapeando (Método para obtener datos de una web
en tiempo real, en nuestro caso para ser almacenado y estudiado) la API de la Red
Social Twitter.
Palabras clave: Scrapear, Clustering, Twitter.
2.-Antecedentes
• Fernández en su paper Minería de Datos en Opiniones en la Red Social
Twitter, se centra en resolver los problemas causados por las irregularidades
lingüísticas que generalmente no son contempladas en el preprocesamiento para
ello ha utilizado como ejemplo los foros EmotiBlog Kyoto y EmotiBlog Phones
además de una colección JRC, y así obtener un conjunto de datos comparables.
Además de utilizar un método de aprendizaje automático, utiliza las relaciones
semánticas SentiWordNet y WordNet para aumentar la cobertura de resultados
sin disminuir la precisión, enfocándose en si en la importancia del análisis del
corpus y el etiquetado de granulidad fina. (Fernández et al., 2011)
2
En Cuanto a la metodología se Basa en la Implementación, Análisis de resultados y
Conclusiones. En la etapa de implementación es donde se desarrolla todo,
primero propone el caso de estudio para luego seguir con la creación de
diccionario que utilizara para comprobar el grado de aceptación de los objetivos
estudiados, el análisis de comentario se basa en asignar puntajes en base a las
palabras que tiene un comentario siendo estas positivas, neutras y negativas, el
orden de las palabras influye en el proceso; los métodos de clasificación a
utilizar son: diccionario léxico, SVM, Naive Bayes y máxima
entropía.(Montesinos García, 2014)
3
3.-Problema de Investigación
Cuando una persona (usuario que navega por internet interesado en viajar o visitar un
destino turístico en Cusco), está interesada en la afluencia de personas en un sitio
turístico del Cusco y tiene el inconveniente de no hallar esa información al día y en
tiempo real.
Así poder decidir si un sitio Turístico es apto para ser visitado en cierta fecha.
5.-Justificación
El presente proyecto de investigación ayudará a complementar y actualizar
investigaciones enfocadas al ámbito de la Informática, de la misma forma servirá para
motivar a los estudiantes a investigar sobre la predicción de tráfico turístico del Cusco
en la red social de Twitter.
6.-Objetivos
6.1.-General:
Scrapear la red social Twitter por medio de Keyword, para obtener datos sobre la
concurrencia de turistas nacionales y extranjeros en Cusco en los lugares y sitios
turísticos de la Ciudad de Cusco.
6.2.-Específicos
• Recolección de información de Twitter sobre las tendencias hacia nuestra
región.
• Adaptar toda la información obtenida a través del pre-procesamiento para su
correcta utilización por los métodos de clustering.
• Clasificación de tendencias en afluencia turística a través del Métodos de Naive
Bayes.
• Informar sobre la afluencia turística en los lugares arqueológicos y turísticos de
Cusco.
4
• Brindar datos estadísticos a la población y agencias de turismo.
7.-Alcances y Limitaciones
• El trabajo solo comprenderá la red social de Twitter.
• La limitación territorial solo comprenderá la región Cusco, puede variar de
acuerdo a la cantidad de información que se puede obtener.
• Solo se utilizarán scraping para la recolección de información.
• Toda la información recolectada será guardada en un documento CSV y será
puesta a disposición para futuras investigaciones.
• Los comentarios descartados en la etapa de preprocesamiento no cuentan para el
máximo de comentarios.
8.-Marco Teórico
Clustering
Es la tarea de agrupar un conjunto de objetos de tal manera que los miembros del mismo
grupo (llamado clúster) sean más similares, en algún sentido u otro. Es la tarea principal
de la minería de datos exploratoria y es una técnica común en el análisis de datos
estadísticos. además, es utilizada en múltiples campos como el aprendizaje automático,
el reconocimiento de patrones, el análisis de imágenes, la búsqueda y recuperación de
información, la bioinformática, la compresión de datos y la computación gráfica.
El análisis de grupos no es en sí un algoritmo específico, sino la tarea pendiente de
solución. Se puede hacer el agrupamiento utilizando varios algoritmos que difieren
significativamente en su idea de qué constituye un grupo y cómo encontrarlos
eficientemente. Las ideas clásicas de grupo incluyen distancias pequeñas entre los
miembros del mismo, áreas densas del espacio de datos, intervalos o distribuciones
estadísticas particulares. El agrupamiento, por tanto, puede ser formulado como un
problema multi-objetivo de optimización. El algoritmo apropiado y los valores de los
parámetros (incluyendo valores como la función de distancia para utilizar, un umbral de
densidad o el número de grupos esperado) depende del conjunto de datos que se analiza
y el uso que se le dará a los resultados. Agrupamiento como tal no es una tarea
automática, sino un proceso iterativo de minería de datos o interactivo de optimización
5
multi-objetivo que implica prueba y fracaso. A menudo será necesario hacer un
preprocesamiento de los datos y un ajuste de los parámetros del modelo hasta que el
resultado tenga las propiedades deseadas.
Análisis de Sentimiento
Para identificar las opiniones en Internet, es necesario realizar un análisis de
sentimientos, técnica que utiliza procesamiento de lenguaje, análisis de texto y
herramientas computacionales para clasificar cometarios subjetivos de diferentes
usuarios, ya sean sentimientos propiamente tal u opiniones sobre diversos temas. Los
métodos usados para este tipo de análisis tienen cerca de 15 años de aplicación, los
cuales se han usado para clasificar mails, reseñas de clientes, publicaciones digitales,
etc.
A la hora de querer diseñar un sistema que analice y clasifique sentimientos u
opiniones, hay que, en primer lugar, tener claro los desafíos que se deben vencer, los
cuales están descritos en la literatura.
6
subconjunto de las observaciones de entrenamiento que se utilizan como soporte para la
ubicación óptima de la superficie de decisión.
Las máquinas de vectores de soporte pertenecen a una clase de algoritmos de Machine
Learning denominados métodos kernel y también se conocen como máquinas kernel.
El entrenamiento de una máquina de vectores de soporte consta de dos fases:
1. Transformar los predictores (datos de entrada) en un espacio de características
altamente dimensional. En esta fase es suficiente con especificar el kernel; los
datos nunca se transforman explícitamente al espacio de características. Este
proceso se conoce comúnmente como el truco kernel.
2. Resolver un problema de optimización cuadrática que se ajuste a un hiperplano
óptimo para clasificar las características transformadas en dos clases. El número
de características transformadas está determinado por el número de vectores de
soporte.
Para construir la superficie de decisión solo se requieren los vectores de soporte
seleccionados de los datos de entrenamiento. Una vez entrenados, el resto de los datos
de entrenamiento son irrelevantes.
9.-Metodología
7
Las herramientas que utilizaremos serán la API de la plataforma y en caso sea necesario
la web scraping.
Además describiremos las características de los datos obtenidos.
Cronograma
CRONOGRAMA DE ACTIVIDADES
Recolección 4
1 X X X X X
De Datos
Pre-procesa
2 4 X X X X X X
miento
Clustering y
3 aprendizaje 4 X X X X X X X X
Análisis de
4 4 X X
Sentimiento
5 Resultado 4 X X X
Elaboración
6 4 X X X X
Del Marco
Teórico
7 Metodología 4 X X X X
Recolección
8 4 X X X X X X
De Datos
Análisis De
9 4 X X X X
Datos
Conclusione
10 4 X X X
s
8
Redacción
4 X X X X
Del Informe
Final
Presupuesto y Financiamiento
PC 3000.00
Programadores 4000.00
Pre-Procesamiento:
El preprocesamiento consistirá en eliminar las partes relevantes de las oraciones, así
como corregir la gramática, y obtener información lista para el aprendizaje.
Esta etapa es en gran medida importante puesto que dependiendo de cómo trataremos la
información obtendremos mejores resultados.
Clustering y Aprendizaje:
En esta parte consistirá en el entrenamiento y selección de los datos, que generalmente
utiliza algoritmos de clustering, algoritmos de aprendizaje supervisado para la
determinación de la polaridad de los datos; en nuestro caso para la determinación de
afluencia turística en cusco.
Se harán varias pruebas para la determinación del mejor algoritmo en nuestro caso.
9
Resultados:
Se explicará los resultados y Conclusiones
Bibliografía
Becerra, C. M. (2016). Análisis de sentimiento en Twitter: el bueno, el malo y el >:(.
Universidad Nacional de Córdoba, 1–56.
https://rdu.unc.edu.ar/bitstream/handle/11086/3751/Becerra
2016_analisis-desentimiento.pdf?sequence=1&isAllowed=y
Fernández, J., Boldrini, E., Gómez, J., & Martinez-Barco, P. (2011, January 1).
Sentiment Analysis and Opinion Mining: The EmotiBlog Corpus. Procesamiento
Del Lenguaje Natural, 47, 179–187.
Dubiau, L. (2013). Procesamiento de Lenguaje Natural en Sistemas de Análisis de
Sentimientos. https://www.dropbox.com/s/2bn1f9capouftu6/Tesis.pdf
Montesinos García, L. (2014). Análisis de Sentimientos y Predicción de Eventos en
Twitter. 1–60.
http://repositorio.uchile.cl/bitstream/handle/2250/130479/cfmontesinos_lg.pdf
Sobrino Sande, J. C. (2018). Análisis de sentimientos en Twitter. 17–78.
http://openaccess.uoc.edu/webapps/o2/handle/10609/81435
10