Está en la página 1de 10

MANUAL DE USUARIO EN EL LENGUAJE DE

PROGRAMACION R.

INTEGRANTES

MOISES OVALLE CAMARGO.

LUIS EDUARDO VILLARREAL TOBÍO.


ur
C
ríc PROCESOS.
ulo:

- Nuestro text minig (tm) nos sirve para la minería de texto R, es quizá el más
1. INSTALACIÓN DE PAQUETES.

Una vez ejecutado nuestro R Studio, para comenzar, procedemos a instalar nuestros
paquetes para hacer el uso de nuestras librerías, en el caso que no los tengamos
instalados, ¿Cómo los instalamos?, vamos a ver cómo:

install.packages() y como parámetro entre comillas dobles, le damos el nombre del


paquete a utilizar.

- El twitterR es utilizado para descargar los tweets en tiempo real.


install.packages("twitteR")

- El ROAuth trabaja con las credenciales de mi API de twitter.


install.packages("ROAuth")

- El httr junto a los otros paquetes nos permitirán cargar los paquetes que
necesitamos.
install.packages("httr")

importante.
install.packages("tm")

- SnowballC nos permite ejecutar nuestra función stemming.


install.packages("SnowballC")

Bueno, ahora, una vez haber codificado la instrucción


install.packages(“nombre_paquete”). Escojemos el texto completo de cada
install.packages o el conjunto de install.packages y lo ejecutamos compilando el
proyecto con “Run” y ya tenemos instalados nuestros paquetes para continuar.

Imagen 1
Imagen 2
2. CARGAR LAS LIBRERÍAS DE LOS PAQUETES INSTALADOS.
Ya estamos
Una vez instalados nuestros paquetes, usaremos listos paracargándolas
sus librerías, empezar a descargar
a o sub
nuestro trabajo, para poder hacer uso de las funciones que necesiten de dicha
librería. ¿Cómo lo hacemos?, vamos a ver cómo:

2. le
library() y como parámetro entre comillas dobles, METODOS PARA
damos el nombre delOBTENER
paquete NUESTRO
instalado, el cual nos cargará su librería.
Para obtener nuestra data set o los datos, lo pod
- library(twitteR) - uno es mediante el código de R utilizando creden
library(ROAuth) - nuestra y/o mediante una extensión de twitter jun
---------------------- - GoogleDrive, existen otros métodos, pero aquí vere
----------------------
- Método 1. Para el método 1 de obtención de da
R, debemos
Así lo haremos con todas las librerías de los paquetes primero que todo crear nuestra API de
instalados.

Luego
Está de más aclarar que debemos escoger el texto y de loguearnos en twitter, nos dirigimos a est
proyecto con “Run” y de esta forma tenemos cargadas nuestras librerías. 3
ur
C
ríc
Imagen 3

ulo: Una vez allí, damos un click en el botón [Create New App], luego de dar click a
dicho botón, solo es de llenar los campos obligatorios y dar un click en el botón
llamado [Create your Twitter Application].

- Ya creada, y una vez entrados en nuestra aplicación, que en mi caso se llama


DataSetTw, escogemos la opción (Keys and Acces Tokens) donde escogeremos
nuestras credenciales.

Imagen 4
Utilizaremos la función setup_twitter_oauth - objeto <- searchTwitter("palabra(s) específi
descargar twits de forma gratuita en R, estosSeleccionamos
permisos se todo los daremos
el texto y ejecutamos
por con R
parámetros, entre comillas dobles, los cuales son las credenciales de la
Aun teniendo
para obtener mediante mi API, permisos de Twitter para la eldescarga
objeto, nodeestá
los capacitado
twits para tr
necesarios o queridos para trabajar. una lista normal, lo que debemos hacer es; copiar
mediante la función twListToDF que le enviarem
- setup_twitter_oauth("credencial 1","cre/al
donde
2","cre/al
tenemos3","cre/al
los twits4")
descargados.
Seleccionamos todo el texto y ejecutamos con
- objeto2 = twListToDF(objeto)
Ya obtenido el permiso, podemos crear nuestro objetoSeleccionamos
y comenzar a descargar
todo el texto
twits
y ejecutamos co
en tiempo real, con nuestra función searchTwitter
las palabras específicas que deben tener losYtwits
ya tendremos nuestro
a descargar y el data set listo,
número de en lo que re
registros a descargar también. es recomendable ejecutarla, una por una y ver lo
pantalla. En este caso mi objeto y objeto2 se llaman d
diferencia entre ejecuciones de líneas de código, la
Al ejecutar objeto<-searchTwitter("palabra(s)específica(s)",
y la segunda te n=30),
crea una tabla de datos con objetos
5

Y Al ejecutar objeto2 = twListToDF(objeto)

ur
C
ríc

ulo:
6
- Método 2. Google Drive, Debes instalar un complemento en tu navegador
llamado Google Sheets, luego abres una hoja de cálculo en tu google drive, nos
vamos a complementos y escogemos la opción Twitter Archiver donde encontraras
la opción Create Search Rule.

Lo más probable es que te pida Authorize Twitter antes de mostrarte la opción


Create Search Rule, lo haces, es sencillo, mira:

Y luego ya te parecerá la opción de Create Search Rule, una vez escogida esta
opción te pedirá especificar en el número 1 las palabras que deseas que contengan
tus twits, en el 2 el país de donde deseas descargarlo y 3 el lenguaje.
La hoja de cálculo comenzará a llenarse de twits en tiempo real al igual que el
método 1, lo siguiente es descargar tu hoja de cálculo como csv y proseguir de esta
forma, para cargarlo a R.

Utilizaremos la palabra reservada del sistema getwd() para recibir la ruta en donde
R está trabajando y así llevar mi data set a dicha ruta que nos arroje esta función.

- getwd()
Seleccionamos todo el texto y ejecutamos con Run.

Ahora damos un nombre a nuestro data set que llamaremos en R mediante la


función read.csv() que nos leerá y nos traerá nuestro data set que hemos
descargado, si quieren pueden dar el mismo nombre, a esta función read.csv() le
enviaremos como parámetro, entre comillas dobles el nombre de nuestro data set
que está en la ruta obtenida anteriormente y la delimitación del data set con la
palabra reservada sep=””.

- nomdatasetdesc<-read.csv("nomdatasetdesc.csv", sep = ";") o -


nuevonombre<-read.csv("nomdatasetdesc.csv", sep = ";") -
Seleccionamos todo el texto y ejecutamos con Run.

De esta forma tendremos nuestro data set listo y cargado a R.

Con esto ya tenemos la obtención de nuestros datos por dos métodos diferentes, ya
las instrucciones por venir se aplicarán a los datos ya cargados por cualquier tipo de
método.

3. PRE-PROCESAMIENTO DE LOS DATOS.

Para nuestro pre-procesamiento, vamos a escoger primero que todo de nuestros


atributos, el o los atributos con el cual deseamos trabajar, ¿cómo? Bueno, mediante
la función Corpus(VectorSource()) en donde recibe como parámetros el data set
que has creado y el o los atributos con el cual deseas trabajar, y nos creará una
bolsa en donde vamos a depositar lo que nos retorna la función corpus.

- nombrebaul = Corpus(VectorSource(nomdatasetdesc$atributo))
Seleccionamos todo el texto y ejecutamos con Run

7
ur
C
ríc
Luego con la función tm_map() procederemos
mayúscula a minúscula, solo necesitamos darle po
ulo: baul, que es el que ustedes han querido ponerle a

anterior y el otro parámetro es el proceso que

nombrebaul2 <- tm_map(nombrebaul, tolower)

removeWords, c(stopwords(“spanish”),
Seleccionamos todo el texto y
ejecutamos con Run
Seleccionamos todo el texto y ejecutamos con Run

Lo siguiente será remover todo tipo de signos de puntuación con la misma función
tm_map().

- nombrebaul3 <- tm_map(nombrebaul3, removePunctuation) -


Seleccionamos todo el texto y ejecutamos con Run

En todo tipo de textos, existen palabras que no son muy relevantes para trabajarlas
en x o y modelo las cuales no generan información, todo idioma tiene ese tipo de
palabras que son consideradas stopwords, entonces procederemos a quitarlas de
nuestros datos, removiendo esas palabras.

- nombrebaul4 <- tm_map(nombrebaul3,


Le especifico el idioma en el que necesito que me retire las stopwords si estoy
trabajando en idioma inglés, en lugar de spanish, debo asignar english y así
dependiendo el idioma que trabajes, luego estoy especificando las palabras
que no necesito en mis datos, tales como xxxxx, yyyy, zzzz.

Ahora debemos llevar nuestras palabras a su palabra fuente con la misma función
que venimos trabajando, solo lo que ha cambiado es el método que se le aplica a la
función, ¿cómo es eso de palabra fuente? Pues tenemos: “corriendo, caminando,
podría”, este método nos da su fuente: “correr, caminar, poder”.

- nombrebaul5 <- tm_map(nombrebaul4,stemDocument) -


Seleccionamos todo el texto y ejecutamos con Run
En estos momentos, tenemos un data set casi listo para ejecutarle un modelo, lo
siguiente es crear una matriz de términos mediante la función
DocumentTermMatrix() donde le daremos por parámetro los datos que traemos ya
limpios, el cual terminó llamándose nombrebaul5.

- matriz <- DocumentTermMatrix(nombrebaul5) -


Seleccionamos todo el texto y ejecutamos con Run

Ahora con la función findFreqTerms() clasificaremos los términos de la matriz el


cual su mínimo de frecuencia en esta matriz sea 50, por lo menos que se repita 50
veces dicha palabra, esta función recibe la matriz y el método de frecuencia, y
almacenará el resultado en la misma matriz, él trabaja sobre la matriz que entra por
parámetro.

- findFreqTerms(matriz, lowfreq = 50) - Seleccionamos


todo el texto y ejecutamos con Run

Luego con la función removeSparseTerms() eliminamos los términos de la matriz el


cual sean muy escasos de frecuencia.

- matriz2 <- removeSparseTerms(matriz, 0.995) -


Seleccionamos todo el texto y ejecutamos con Run

Lo faltante Ahora es crear digamos una hoja de cálculo que va a estar ya lista para
implementarle el modelo, lo hacemos mediante la función
as.data.frame(as.matrix()) que recibe por parámetro la matriz.
- hojadecalculo <- as.data.frame(as.matrix(matriz2)) -
Seleccionamos todo el texto y ejecutamos con Run

También podría gustarte