Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Minería de texto
2
Agenda
1. Nube de palabras
2. Clasificación supervisada
3. Clasificación no supervisada
3
Nube de palabras
Tenemos un texto
Queremos obtener
palabra soldados
toda sancho punto
seã± siempre
habã
unas
â¿ haber mejor casi
mã¡s
puesto
pasado v ista caballo
ahora rey palabras decã sino
sã poder cierto luego gente mientras dos
â¡quã© aã± asã
buen dã amor cosas tal guerra
parte entonces historia tierra
despues
parecã mil puede amigos
rostro muchas camino hombres lugar paso
casa niã± work tiempo
nunca
san ã©
sã³lo tres tãnoche
f uerza
indios
vida
hombre muertellegar electronic cã³mo dijo amigo dia
cuanto
f amilia quã©
suerte
gutenberg
mujeres debe hace
mar tambiã©n agua parece sol horas
tarde pueblo ver medio ã³ verdad dicho madre
seã±ora
gran fin
cada tan
espaã±oles
manera hora
salir aun espaã± juan hacer
allã tãº
usted
project manos despuã©s querã
ciudad
mundo
aãºn
pesar
cielo quijote luz tener joven may
pasarhecho mal aqueldar
hablar
capitã¡n modo
podã oro
pobre aunque primera decir marã mayor mismo
pequeã±
â« hizo puerta alguna allã¡
nombrenuev o causa habia general
cosa
don
hija hacã estã¡alma iba paãs f oundation armas
doã± hacia aquella mujer visto saber terms caso
hijo idea
madrid pues ojos dios
ã¡
w orks suelo junto
f rente mano grande agreement dentro dice v iejo
cerca sã© aquellas pronto buena momento ser
padre aquellos lado tenã caballero nadiedemã¡s
cuerpo
calle veces aquã sabã
misma mã mas
cabeza grandes solo adj ademã¡s segãºn
manuel existencia vez cuatro
menos voz
fuã© ã©l
todas bajo â¿quã©
â¡
maã±ana
bien
4
Nube de palabras
library(tm)
library(wordcloud)
library(RText)
5
Nube de palabras
Cargo el corpus
docs <-
Corpus(DirSource("d:/Users/ignacio/Dropbox/Curso
Elearning Diplo en BI/MLP/Materiales/Minería de
Texto/Libros"))
6
Nube de palabras
Limpio el corpus
Nube de palabras
Nube de palabras
Nube de palabras
Nube de palabras
wordcloud(names(freq2),freq2)
11
Nube de palabras
palabra soldados
toda sancho punto
seã± siempre
habã
unas
â¿ haber mejor casi
mã¡s
puesto
pasado v ista caballo
ahora rey palabras decã sino
sã poder cierto luego gente mientras dos
â¡quã© aã± asã
buen dã amor cosas tal guerra
parte entonces historia tierra
despues
parecã mil puede amigos
rostro camino hombres lugar paso
casa niã± work muchas tres tãnoche san ã© tiempo
nunca
f uerza
sã³lo
indios
vida
hombre muertellegar electronic cã³mo dijo amigo dia
cuanto
f amilia quã©
suerte
gutenberg
seã±ora
verdad dicho gran fin
cada tan
espaã±oles
manera hora
t㺠salir aun espa㱠juan hacer
project allã aãºn
usted
manos despuã©s
ciudad
mundo
querã
pesar
cielo quijote luz tener joven may
pasarhecho mal aqueldar
hablar
capitã¡n modo
pobre podã oro decir marã mismo
hizo aunque primera mayor
pequeã±
â« puerta alguna allã¡
nombrenuev o causa habia general
cosa
don
hija hacã estã¡alma iba paãs f oundation armas
doã± hacia aquella mujer visto saber terms caso
hijo idea
madrid pues ojos dios
ã¡
w orks suelo junto
f rente mano grande agreement dentro dice v iejo
cerca sã©
aquellos
aquellas pronto buena momento ser
padre lado tenã caballero nadiedemã¡s
cuerpo
Clasificador supervisado
library(tidyverse)
library(tidytext)
library(naivebayes)
library(tm)
library(caret)
13
Clasificador supervisado
setwd("d:/Users/ignacio/Dropbox/Curso Elearning
Diplo en BI/MLP/Materiales/Minería de Texto")
download.file(url =
"https://raw.githubusercontent.com/jboscomendoza/r
pubs/master/bayes_twitter/tuits_bayes.csv", destfile =
"tuits.csv“)
14
Clasificador supervisado
Clasificador supervisado
Operador %>%:
Probamos:
0 %>% cos()
Da:
1
Operador %>%:
Probamos:
tuits_df %>%
unnest_tokens(input = "text", output =
"palabra") %>%
count(screen_name, status_id, palabra) %>%
spread(key = palabra, value = n)
20
Creo la matriz:
ejemplo_matriz <-
tuits_df %>%
mutate(screen_name = ifelse(screen_name == "MSFTMexico",
screen_name, "Otro"),
screen_name = as.factor(screen_name)) %>%
crear_matriz
22
set.seed(2001)
ejemplo_entrenamiento <- sample_frac(ejemplo_matriz, .7)
ejemplo_prueba <- setdiff(ejemplo_matriz,
ejemplo_entrenamiento)
24
lista_sets
}
25
Modelo y predicción:
Matriz de confusión:
confusionMatrix(ejemplo_prediccion,
ejemplo_prueba[["screen_name"]])
27
bayes
}
28
bayes
}
29
Salida gráfica:
plot(ejemplo_conf[["table"]])
31
Salida gráfica:
ejemplo_conf[["table"]]
Otro
Prediction
¿Alguna pregunta?
Muchas Gracias