Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROGRAMACION R.
INTEGRANTES
- Nuestro text minig (tm) nos sirve para la minería de texto R, es quizá el más
1. INSTALACIÓN DE PAQUETES.
Una vez ejecutado nuestro R Studio, para comenzar, procedemos a instalar nuestros
paquetes para hacer el uso de nuestras librerías, en el caso que no los tengamos
instalados, ¿Cómo los instalamos?, vamos a ver cómo:
- El httr junto a los otros paquetes nos permitirán cargar los paquetes que
necesitamos.
install.packages("httr")
importante.
install.packages("tm")
Imagen 1
Imagen 2
2. CARGAR LAS LIBRERÍAS DE LOS PAQUETES INSTALADOS.
Ya estamos
Una vez instalados nuestros paquetes, usaremos listos paracargándolas
sus librerías, empezar a descargar
a o sub
nuestro trabajo, para poder hacer uso de las funciones que necesiten de dicha
librería. ¿Cómo lo hacemos?, vamos a ver cómo:
2. le
library() y como parámetro entre comillas dobles, METODOS PARA
damos el nombre delOBTENER
paquete NUESTRO
instalado, el cual nos cargará su librería.
Para obtener nuestra data set o los datos, lo pod
- library(twitteR) - uno es mediante el código de R utilizando creden
library(ROAuth) - nuestra y/o mediante una extensión de twitter jun
---------------------- - GoogleDrive, existen otros métodos, pero aquí vere
----------------------
- Método 1. Para el método 1 de obtención de da
R, debemos
Así lo haremos con todas las librerías de los paquetes primero que todo crear nuestra API de
instalados.
Luego
Está de más aclarar que debemos escoger el texto y de loguearnos en twitter, nos dirigimos a est
proyecto con “Run” y de esta forma tenemos cargadas nuestras librerías. 3
ur
C
ríc
Imagen 3
ulo: Una vez allí, damos un click en el botón [Create New App], luego de dar click a
dicho botón, solo es de llenar los campos obligatorios y dar un click en el botón
llamado [Create your Twitter Application].
Imagen 4
Utilizaremos la función setup_twitter_oauth - objeto <- searchTwitter("palabra(s) específi
descargar twits de forma gratuita en R, estosSeleccionamos
permisos se todo los daremos
el texto y ejecutamos
por con R
parámetros, entre comillas dobles, los cuales son las credenciales de la
Aun teniendo
para obtener mediante mi API, permisos de Twitter para la eldescarga
objeto, nodeestá
los capacitado
twits para tr
necesarios o queridos para trabajar. una lista normal, lo que debemos hacer es; copiar
mediante la función twListToDF que le enviarem
- setup_twitter_oauth("credencial 1","cre/al
donde
2","cre/al
tenemos3","cre/al
los twits4")
descargados.
Seleccionamos todo el texto y ejecutamos con
- objeto2 = twListToDF(objeto)
Ya obtenido el permiso, podemos crear nuestro objetoSeleccionamos
y comenzar a descargar
todo el texto
twits
y ejecutamos co
en tiempo real, con nuestra función searchTwitter
las palabras específicas que deben tener losYtwits
ya tendremos nuestro
a descargar y el data set listo,
número de en lo que re
registros a descargar también. es recomendable ejecutarla, una por una y ver lo
pantalla. En este caso mi objeto y objeto2 se llaman d
diferencia entre ejecuciones de líneas de código, la
Al ejecutar objeto<-searchTwitter("palabra(s)específica(s)",
y la segunda te n=30),
crea una tabla de datos con objetos
5
ur
C
ríc
ulo:
6
- Método 2. Google Drive, Debes instalar un complemento en tu navegador
llamado Google Sheets, luego abres una hoja de cálculo en tu google drive, nos
vamos a complementos y escogemos la opción Twitter Archiver donde encontraras
la opción Create Search Rule.
Y luego ya te parecerá la opción de Create Search Rule, una vez escogida esta
opción te pedirá especificar en el número 1 las palabras que deseas que contengan
tus twits, en el 2 el país de donde deseas descargarlo y 3 el lenguaje.
La hoja de cálculo comenzará a llenarse de twits en tiempo real al igual que el
método 1, lo siguiente es descargar tu hoja de cálculo como csv y proseguir de esta
forma, para cargarlo a R.
Utilizaremos la palabra reservada del sistema getwd() para recibir la ruta en donde
R está trabajando y así llevar mi data set a dicha ruta que nos arroje esta función.
- getwd()
Seleccionamos todo el texto y ejecutamos con Run.
Con esto ya tenemos la obtención de nuestros datos por dos métodos diferentes, ya
las instrucciones por venir se aplicarán a los datos ya cargados por cualquier tipo de
método.
- nombrebaul = Corpus(VectorSource(nomdatasetdesc$atributo))
Seleccionamos todo el texto y ejecutamos con Run
7
ur
C
ríc
Luego con la función tm_map() procederemos
mayúscula a minúscula, solo necesitamos darle po
ulo: baul, que es el que ustedes han querido ponerle a
removeWords, c(stopwords(“spanish”),
Seleccionamos todo el texto y
ejecutamos con Run
Seleccionamos todo el texto y ejecutamos con Run
Lo siguiente será remover todo tipo de signos de puntuación con la misma función
tm_map().
En todo tipo de textos, existen palabras que no son muy relevantes para trabajarlas
en x o y modelo las cuales no generan información, todo idioma tiene ese tipo de
palabras que son consideradas stopwords, entonces procederemos a quitarlas de
nuestros datos, removiendo esas palabras.
Ahora debemos llevar nuestras palabras a su palabra fuente con la misma función
que venimos trabajando, solo lo que ha cambiado es el método que se le aplica a la
función, ¿cómo es eso de palabra fuente? Pues tenemos: “corriendo, caminando,
podría”, este método nos da su fuente: “correr, caminar, poder”.
Lo faltante Ahora es crear digamos una hoja de cálculo que va a estar ya lista para
implementarle el modelo, lo hacemos mediante la función
as.data.frame(as.matrix()) que recibe por parámetro la matriz.
- hojadecalculo <- as.data.frame(as.matrix(matriz2)) -
Seleccionamos todo el texto y ejecutamos con Run