¡Te damos la bienvenida a Scribd!

Saltar el carrusel

Documento 8

Cargado por

Leomaris Ferreras

0% encontró este documento útil (0 votos)

40 vistas7 páginas

Derechos de autor

Formatos disponibles

DOCX, PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

40 vistas7 páginas

Documento 8

Cargado por

Leomaris Ferreras

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 7

Buscar dentro del documento

Leomaris Ferreras cuevas

matricula:20211123
Fecha: 27-2-2021
hora: 11:50 pm
Profesor: Bismark montero
Materia: ciencia y analítica en datos

Text mining y word claud

Escogí un libro que fue don quijote de la mancha de Miguel de Cervantes

Procedimiento realizado.

# limpiamos el workspace

rm(list = ls())

# Limpiamos la consola

cat("\014")

# fijamos a UTF-8

options(encoding = "utf-8")

#########################

# 1. Librerias

library(pdftools)

library(dplyr)
library(stopwords)

library(tidytext)

library(stringi)

library(stringr)

library(ggplot2)

library(scales)

library(tidyr)

library(widyr)

library(ggraph)

library(igraph)

library(quanteda)

library(topicmodels)

library(cvTools)

########################

# directorio de trabajo

setwd(dirname(rstudioapi::getActiveDocumentContext()$path))

getwd()

# Lectura de archivos de texto

texto01 <- pdftools::pdf_text("DONQUIJOTE.pdf")

texto02 <- pdftools::pdf_text("DONQUIJOTE_PARTE2.pdf")

texto01[1]

length(texto01)

length(texto02)

texto <- c(texto01,texto02)

length(texto)

# limpieza de texto

texto <- gsub("\\r", " ", texto)

texto <- gsub("\\n", "", texto)

texto <- gsub("\\d\\K\\.(?=\\d)", "", texto, perl = TRUE)

# Juntamos todas las páginas del libros

texto<-paste(texto, collapse = '')

length(texto)

texto[1]

# estructurar el texto

texto <- gsub("http://www.educa.jcyl.es","",texto)

vector = c()

for(i in 1:length(texto)){

temp<-(strsplit(texto[[i]], "\\.")[[1]])

print(temp)

vector <- c(vector, temp)

# dataframe

frases_texto<-as.data.frame(vector)

#####################################

# 3. Limpieza de texto
# limpieza manual

colnames(frases_texto)[1]<-"frase"

# Quitamos los espacios de encabezado y pie de página

frases_texto$frase<-trimws(frases_texto$frase, "l") # para la izquierda trimws(frase,'r')

# Convertimos a caracter

frases_texto$frase <-as.character(frases_texto$frase)

# limpieza de texto

frases_texto$frase<-gsub("El Ingenioso Hidalgo Don Quijote de la

Mancha","",frases_texto$frase)

frases_texto$frase<-gsub("PRIMERA PARTE","",frases_texto$frase)

frases_texto$frase<-gsub("Miguel de Cervantes Saavedra","",frases_texto$frase)

frases_texto$frase<-gsub("Portal Educativo EducaCYL","",frases_texto$frase)

#####################################

# 4. Analisis exploratorio de texto

# Nos creamos un lexicon de stopwords en espa?ol

lexiconSW<-stopwords("es")

lexiconSW <- append(lexiconSW,c("capítulo","d"," "))

lexiconSW<-as.data.frame(lexiconSW) # convertimos a dataframe

names(lexiconSW)<-"word"

lexiconSW$word<-as.character(lexiconSW$word)

# 1.1. Algunos análisis básicos

df <- tibble::rowid_to_column(frases_texto, "ID") # Generamos un ID para cada frase

review_words <- df %>%

distinct(frase, .keep_all = TRUE) %>% # eliminar filas duplicadas basadas en frase

unnest_tokens(word, frase, drop = FALSE) %>%

distinct(ID, word, .keep_all = TRUE) %>%

anti_join(lexiconSW) %>% # devuelve todas las filas de x donde no hay valores coincidentes
en y, manteniendo solo columnas de x.

filter(str_detect(word, "[^\\d]")) %>% # selececciona words con algun comentario

group_by(word) %>%

dplyr::mutate(word_total = n()) %>%

ungroup() # agrega nuevas variables y conserva las existentes

# Contamos las palabras resultantes

word_counts <- review_words %>%

dplyr::count(word, sort = TRUE)

word_counts %>%

head(40) %>%

mutate(word = reorder(word, n)) %>%

ggplot(aes(word, n)) +

geom_col(fill = "blue") +

scale_y_continuous(labels = comma_format()) +

coord_flip() +

labs(title = paste0("Palabras mas utilizadas"),

subtitle = "Stopwords retiradas",

x = "Palabra",

y = "Numero de veces usada")

# Generamos nuestro WordCloud

# ---------------------------

library(wordcloud)

library(RColorBrewer)

df_grouped_V <- review_words %>% group_by(word) %>% count(word) %>%

group_by(word) %>% mutate(frecuencia = n/dim(review_words)[1])

# Generamos el wordcloud

wordcloud(words = df_grouped_V$word, freq = df_grouped_V$frecuencia,

max.words = 400, random.order = FALSE, rot.per = 0.35,

colors = brewer.pal(8, "Dark2"))

También podría gustarte

Documento 8
Documento7 páginas
Documento 8
Leomaris Ferreras
Aún no hay calificaciones
Clasae 8.2
Documento10 páginas
Clasae 8.2
Rafexo Mamani
Aún no hay calificaciones
Estadística Descriptiva Con R
Documento4 páginas
Estadística Descriptiva Con R
Luisa Fernanda Gutierrez Jaramillo
Aún no hay calificaciones
v1 IntroduccionR
Documento37 páginas
v1 IntroduccionR
roditas152
Aún no hay calificaciones
Taller R
Documento8 páginas
Taller R
Diana Maria Torres Restrepo
Aún no hay calificaciones
Mineria Trump
Documento30 páginas
Mineria Trump
Jose Luis MORA RONCANCIO
Aún no hay calificaciones
R Tema1
Documento27 páginas
R Tema1
israel morales
100% (2)
Readxl
Documento9 páginas
Readxl
Ricardo Nyno
Aún no hay calificaciones
Rogelio Notas R
Documento116 páginas
Rogelio Notas R
mach_ec
Aún no hay calificaciones
Intro R
Documento28 páginas
Intro R
Dayana260896
Aún no hay calificaciones
Curso 2 Data Types I
Documento54 páginas
Curso 2 Data Types I
iiSHRii
Aún no hay calificaciones
Tarea 4 Metodos Numericos
Documento7 páginas
Tarea 4 Metodos Numericos
sergiomendezgzalez
Aún no hay calificaciones
Unido Eval 1
Documento51 páginas
Unido Eval 1
KAREN JENNIFER RODRIGUEZ CHAVEZ
Aún no hay calificaciones
Prep Araci On Informacion 2
Documento4 páginas
Prep Araci On Informacion 2
Richard Muñoz
Aún no hay calificaciones
Intro
Documento9 páginas
Intro
marco antonio diaz barragan
Aún no hay calificaciones
Nuevo Script (23-1)
Documento3 páginas
Nuevo Script (23-1)
Adriana Alexandra Oscco Gonzales
Aún no hay calificaciones
Detalles Del Proyecto en JAVACC
Documento24 páginas
Detalles Del Proyecto en JAVACC
Enmanu El
Aún no hay calificaciones
5.lab 2. Deep Learning para Texto
Documento12 páginas
5.lab 2. Deep Learning para Texto
Andy Ortiz
Aún no hay calificaciones
Text Mining
Documento11 páginas
Text Mining
MELANY PALOMA CHAN SOSA
Aún no hay calificaciones
RStudio-Práctica 1
Documento12 páginas
RStudio-Práctica 1
Saudita Cienfuegos Chavez
Aún no hay calificaciones
Practica 5
Documento8 páginas
Practica 5
Victor Jose Castro Pin
Aún no hay calificaciones
1 R - Introduccion A R y RStudio
Documento43 páginas
1 R - Introduccion A R y RStudio
eorozcof
Aún no hay calificaciones
DiapositivasProg R (Samuel)
Documento46 páginas
DiapositivasProg R (Samuel)
Oliver Gomez Cutipa
Aún no hay calificaciones
RMARK
Documento30 páginas
RMARK
Jhefri Lopez Castillo
Aún no hay calificaciones
Archivos de R
Documento5 páginas
Archivos de R
Rosanny Albarran
Aún no hay calificaciones
Ejercicio 1: Escribe Una Función en Python Que Revierta Una Cadena de Palabras
Documento8 páginas
Ejercicio 1: Escribe Una Función en Python Que Revierta Una Cadena de Palabras
German Galdamez Ovando
Aún no hay calificaciones
Mineria de Texto
Documento20 páginas
Mineria de Texto
juanpablo2bg
Aún no hay calificaciones
Introducción A R
Documento35 páginas
Introducción A R
Santiago Ramirez Santa
100% (1)
Clase 3
Documento14 páginas
Clase 3
Rafexo Mamani
Aún no hay calificaciones
Codigo de Jackknife
Documento3 páginas
Codigo de Jackknife
Alexander Tirado
Aún no hay calificaciones
Breve Intro A R
Documento16 páginas
Breve Intro A R
Observatorio Derecho
Aún no hay calificaciones
Taller2 PHP
Documento3 páginas
Taller2 PHP
Danny Villanueva
Aún no hay calificaciones
Practica1 R
Documento12 páginas
Practica1 R
Raymundo Lumbreras
Aún no hay calificaciones
Agenda Digital
Documento18 páginas
Agenda Digital
balderasakari2
Aún no hay calificaciones
Laboratorio Introduccion Al Lenguaje R
Documento24 páginas
Laboratorio Introduccion Al Lenguaje R
SONIA MARIBEL AMEZQUITA
Aún no hay calificaciones
Pequeño Paseo Por La Biblioteca Estándar - Parte II - Documentación de Python - 3.10.8 PDF
Documento7 páginas
Pequeño Paseo Por La Biblioteca Estándar - Parte II - Documentación de Python - 3.10.8 PDF
rodrigo algo
Aún no hay calificaciones
Curso Primeros Pasos en R - Clase 3
Documento40 páginas
Curso Primeros Pasos en R - Clase 3
Viviana Miranda
Aún no hay calificaciones
Diccionario en Python
Documento27 páginas
Diccionario en Python
melissa asmat
Aún no hay calificaciones
S2 Guia Sesiones
Documento10 páginas
S2 Guia Sesiones
Arcangelxp21
Aún no hay calificaciones
Practica 04
Documento3 páginas
Practica 04
katty Gómez
Aún no hay calificaciones
Import Pandas As PD
Documento6 páginas
Import Pandas As PD
Kerly Villegas
Aún no hay calificaciones
ST Con Gretl R
Documento18 páginas
ST Con Gretl R
Giampaolo Orlandoni
Aún no hay calificaciones
Sesion 15 - Diccionarios
Documento26 páginas
Sesion 15 - Diccionarios
Margareth Vargas
Aún no hay calificaciones
C Preprocesador
Documento4 páginas
C Preprocesador
neconoe
Aún no hay calificaciones
Dev C++
Documento13 páginas
Dev C++
Johanna Negrete Sanchez
Aún no hay calificaciones
Ejercicios Busqueda - Ficheros Lab
Documento4 páginas
Ejercicios Busqueda - Ficheros Lab
carmen ria
Aún no hay calificaciones
Análisis Espacial
Documento7 páginas
Análisis Espacial
Noel Isaac Sinche Apaza
Aún no hay calificaciones
Practica 04
Documento2 páginas
Practica 04
Katherine Gómez
Aún no hay calificaciones
Introducción, Tipos de Datos y Funciones Básicas
Documento4 páginas
Introducción, Tipos de Datos y Funciones Básicas
matia
Aún no hay calificaciones
Prog R
Documento93 páginas
Prog R
bertha Limachi Choque
Aún no hay calificaciones
Cons Trucci On Comp Il Adores Haskell
Documento63 páginas
Cons Trucci On Comp Il Adores Haskell
Carlos Cruz
Aún no hay calificaciones
Programa 1 en R
Documento3 páginas
Programa 1 en R
خورخي لويس
Aún no hay calificaciones
Prácticas R
Documento35 páginas
Prácticas R
Jackie Denisse Maldonado Mojarrango
Aún no hay calificaciones
Librerias Mas Utilizadas en C
Documento4 páginas
Librerias Mas Utilizadas en C
Jhon Lainez
Aún no hay calificaciones
Comandos Phyton
Documento26 páginas
Comandos Phyton
nexus
Aún no hay calificaciones
Básicos de R
Documento6 páginas
Básicos de R
Hassan Emmanuel Ríos Chirino
Aún no hay calificaciones
R Intro
Documento9 páginas
R Intro
FERNANDO JOSE SIERRA VANEGAS
Aún no hay calificaciones
Embedded Systems Python
Documento57 páginas
Embedded Systems Python
Luis Francisco Herrera Garay
Aún no hay calificaciones
La programación JavaScript
De Everand
La programación JavaScript
Preston Prescott
Aún no hay calificaciones
Curso de Programación con iOS
De Everand
Curso de Programación con iOS
Ángel Arias
Calificación: 3.5 de 5 estrellas
3.5/5 (3)
Los Doce Añaos de Balaguer (Analisis de Canción)
Documento3 páginas
Los Doce Añaos de Balaguer (Analisis de Canción)
Leomaris Ferreras
Aún no hay calificaciones
Actividad M Dulo III. Parte 2
Documento4 páginas
Actividad M Dulo III. Parte 2
Leomaris Ferreras
Aún no hay calificaciones
Riesgos Del Proyecto
Documento18 páginas
Riesgos Del Proyecto
Angel Gabriel Ascanio Duran
100% (1)
Actividad M Dulo 3
Documento5 páginas
Actividad M Dulo 3
Leomaris Ferreras
Aún no hay calificaciones
Alcance de Proyecto
Documento2 páginas
Alcance de Proyecto
Leomaris Ferreras
Aún no hay calificaciones
Alcance de Proyecto
Documento2 páginas
Alcance de Proyecto
Leomaris Ferreras
Aún no hay calificaciones
Los Doce Añaos de Balaguer (Analisis de Canción)
Documento3 páginas
Los Doce Añaos de Balaguer (Analisis de Canción)
Leomaris Ferreras
Aún no hay calificaciones
Volley Ball 410x1024
Documento3 páginas
Volley Ball 410x1024
Leomaris Ferreras
Aún no hay calificaciones
Sensores de Color
Documento8 páginas
Sensores de Color
Stif Ojeda
100% (1)
1428-Texto Del Artículo-1489-1-10-20200629
Documento22 páginas
1428-Texto Del Artículo-1489-1-10-20200629
Leomaris Ferreras
Aún no hay calificaciones
Analisis Estadistico
Documento13 páginas
Analisis Estadistico
Leomaris Ferreras
Aún no hay calificaciones
3 Parcial - Calculadora
Documento2 páginas
3 Parcial - Calculadora
Leomaris Ferreras
Aún no hay calificaciones
Analitica Avanzada
Documento2 páginas
Analitica Avanzada
Leomaris Ferreras
Aún no hay calificaciones
Analisis Descriptivo
Documento16 páginas
Analisis Descriptivo
Leomaris Ferreras
Aún no hay calificaciones
25.3.10 Packet Tracer - Explore A NetFlow Implementation
Documento5 páginas
25.3.10 Packet Tracer - Explore A NetFlow Implementation
Leomaris Ferreras
Aún no hay calificaciones
25.3.11 Packet Tracer - Logging From Multiple Sources
Documento3 páginas
25.3.11 Packet Tracer - Logging From Multiple Sources
Leomaris Ferreras
Aún no hay calificaciones
2.1 Practicas de Base de Datos II - Redis
Documento1 página
2.1 Practicas de Base de Datos II - Redis
Leomaris Ferreras
Aún no hay calificaciones
2.1 Practicas de Base de Datos II - Redis
Documento1 página
2.1 Practicas de Base de Datos II - Redis
Leomaris Ferreras
Aún no hay calificaciones
2 Parcial - Diagramas y Estructuras
Documento2 páginas
2 Parcial - Diagramas y Estructuras
Leomaris Ferreras
Aún no hay calificaciones
2.1 Practicas de Base de Datos II - Redis
Documento3 páginas
2.1 Practicas de Base de Datos II - Redis
Leomaris Ferreras
Aún no hay calificaciones
3.1 Laboratorio - Símbolos de DFD
Documento2 páginas
3.1 Laboratorio - Símbolos de DFD
Leomaris Ferreras
Aún no hay calificaciones
3.1 1er Periodo Evaluación
Documento2 páginas
3.1 1er Periodo Evaluación
Leomaris Ferreras
Aún no hay calificaciones
2.2 Asignaciones de Base de Datos II - Redis
Documento1 página
2.2 Asignaciones de Base de Datos II - Redis
Leomaris Ferreras
Aún no hay calificaciones
1er Parcial Analisis de Exel
Documento74 páginas
1er Parcial Analisis de Exel
Leomaris Ferreras
Aún no hay calificaciones
1.2 Laboratorio - Pensamiento Logico
Documento3 páginas
1.2 Laboratorio - Pensamiento Logico
Leomaris Ferreras
Aún no hay calificaciones
1.1 Laboratorio - Problemas Parte 1
Documento1 página
1.1 Laboratorio - Problemas Parte 1
Leomaris Ferreras
Aún no hay calificaciones
2.1 Asignacion - Lenguajes de Programcion
Documento1 página
2.1 Asignacion - Lenguajes de Programcion
Leomaris Ferreras
Aún no hay calificaciones
2.2 Laboratorio - Programas Informaticos
Documento1 página
2.2 Laboratorio - Programas Informaticos
Leomaris Ferreras
Aún no hay calificaciones
1428-Texto Del Artículo-1489-1-10-20200629
Documento22 páginas
1428-Texto Del Artículo-1489-1-10-20200629
Leomaris Ferreras
Aún no hay calificaciones
2.1 Laboratorio - Algoritmos
Documento1 página
2.1 Laboratorio - Algoritmos
Leomaris Ferreras
Aún no hay calificaciones
Loudbreak Elbow & Deadbreaks T
Documento11 páginas
Loudbreak Elbow & Deadbreaks T
Edwin Ortega
Aún no hay calificaciones
1 4 4 EJEMPLO Acta de Constitucion
Documento8 páginas
1 4 4 EJEMPLO Acta de Constitucion
Edgardo Pinares
Aún no hay calificaciones
Expresiones A Lgebraicas: Guía Teór ICA
Documento12 páginas
Expresiones A Lgebraicas: Guía Teór ICA
nalfuentes
Aún no hay calificaciones
Box Jenkins y Winters
Documento6 páginas
Box Jenkins y Winters
ergr
Aún no hay calificaciones
18.01.19editarperfil Inatec Campus
Documento8 páginas
18.01.19editarperfil Inatec Campus
Edgard Lazo
Aún no hay calificaciones
Script Televenta Móvil Ob (Mafe)
Documento5 páginas
Script Televenta Móvil Ob (Mafe)
Fernando Murillo Quintana
Aún no hay calificaciones
Tipos de Aplicaciones Web, Tercer Intento
Documento9 páginas
Tipos de Aplicaciones Web, Tercer Intento
Roger Reyes Robledo
Aún no hay calificaciones
Smart Meter TS Instalacion y Puesta en Marcha
Documento26 páginas
Smart Meter TS Instalacion y Puesta en Marcha
angel lastra medez
Aún no hay calificaciones
Trabajo Algortimos
Documento48 páginas
Trabajo Algortimos
pepe lopez
Aún no hay calificaciones
Manual e Instructivo Del Verificador
Documento52 páginas
Manual e Instructivo Del Verificador
Miguel Angel Medrano Alape
Aún no hay calificaciones
Blue Technological Artificial Intelligence Infographic
Documento1 página
Blue Technological Artificial Intelligence Infographic
rociorosas241171
Aún no hay calificaciones
Ensayo Ejecutivo
Documento6 páginas
Ensayo Ejecutivo
obdin
Aún no hay calificaciones
Guia 6 Informatica Octavo
Documento1 página
Guia 6 Informatica Octavo
Andrea Montoya
Aún no hay calificaciones
Modem
Documento3 páginas
Modem
ALIRIO SALAZAR GARZON-Estudiante
Aún no hay calificaciones
Informe N°1
Documento12 páginas
Informe N°1
Ariane Guevara Bernardo
Aún no hay calificaciones
Charles Babbage
Documento2 páginas
Charles Babbage
Leslie Rodríguez
Aún no hay calificaciones
Checklist Campañas Adwords PDF
Documento4 páginas
Checklist Campañas Adwords PDF
carlos
0% (1)
1 Sesion 2 - InfraestructuraSI
Documento28 páginas
1 Sesion 2 - InfraestructuraSI
Stephany Sherelyn
Aún no hay calificaciones
Cálculo Manual de Notas
Documento2 páginas
Cálculo Manual de Notas
Marcelo Campos Pulgar
82% (11)
Herramientas de Macromedia Flash
Documento20 páginas
Herramientas de Macromedia Flash
Génesis Yánez Mejia
Aún no hay calificaciones
CHAT
Documento28 páginas
CHAT
Armando Andres Gonzalez
Aún no hay calificaciones
Código de Colores
Documento5 páginas
Código de Colores
Diana Carolina Villacis
Aún no hay calificaciones
1 s2.0 S1697791207702406 Main
Documento14 páginas
1 s2.0 S1697791207702406 Main
Jair Andrey Rivera Rodríguez
Aún no hay calificaciones
Ana Nora Sanchez
Documento2 páginas
Ana Nora Sanchez
LIDIA PAOLA PACHECO INFANTE
Aún no hay calificaciones
Apoyo Actividad 4
Documento13 páginas
Apoyo Actividad 4
Ana Karen Rivera Nicolas
Aún no hay calificaciones
1º GRADO - PROGRAMACIÓN CURRICULAR ANUAL DE CyT 2022
Documento7 páginas
1º GRADO - PROGRAMACIÓN CURRICULAR ANUAL DE CyT 2022
Raul Martin Orosco Paucar
Aún no hay calificaciones
Manual de Instalacion Software TPCR
Documento6 páginas
Manual de Instalacion Software TPCR
Victor Plaza
Aún no hay calificaciones
1 - Entrega Final - Una Nueva Ola de Incertidumbre en La Era Digital para Las Pymes
Documento15 páginas
1 - Entrega Final - Una Nueva Ola de Incertidumbre en La Era Digital para Las Pymes
Jose
Aún no hay calificaciones
Curso OSINT Investigaciones en Internet Mediante Fuentes Abiertas
Documento9 páginas
Curso OSINT Investigaciones en Internet Mediante Fuentes Abiertas
Katherine Mariño
Aún no hay calificaciones
Referente Pensamiento Eje 4
Documento22 páginas
Referente Pensamiento Eje 4
Ricardo Garzon
Aún no hay calificaciones