Está en la página 1de 18

Análisis de Datos en

Lenguaje R

Leal, D; Ruete D. (2021). Análisis de Datos


en Lenguaje R [apunte]. Chile. UNAB
Análisis de Datos en Lenguaje R

ANÁLISIS DE DATOS EN LENGUAJE R

Una vez que los datos se han codificado, transferido a una matriz, guardado en un
archivo y “limpiado” los errores, el investigador procede a analizarlos.

Utilizando la base de datos entregada en la asignatura, realice un análisis de los datos


para conocer qué contienen y qué se puede entender de ellos, mediante el lenguaje
de programación R.

La base de datos contiene variables de entrada y salida provenientes de un test


aplicado a alumnos de Educación Parvularia. La idea de este test es conocer el nivel
de abstracción de los estudiantes mediante ciertas preguntas que deben contestar.

Las variables de entrada provenientes del test son:


• Modalidad: diurno/vespertino
• Edad: de 20 a 49 según muestra
• Semestre: 3, 4, 5, 6, 7 y 8 del programa en cuestión
• Evaluación Pregunta 1
• Evaluación Pregunta 2
• Evaluación Rotular
• Evaluación Reducción de Contenido
1
• Evaluación Título

La variable de salida es:


• Abstracción:
o Abstracción Mala: 1<= Promedio valores de entrada <2
o Abstracción Satisfactoria: 2<= Promedio valores de entrada <3
o Abstracción Buena: 3<= Promedio valores de entrada <3,5
o Abstracción Óptima: 3,5<= Promedio valores de entrada <4

𝑋̅ = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 (𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝐸𝑛𝑡𝑟𝑎𝑑𝑎)

𝑁𝑜 𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛, 1 ≤ 𝑋̅ < 2
𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑆𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑡𝑜𝑟𝑖𝑎, 2 ≤ 𝑋̅ < 3
𝑋̅ =
𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 𝐵𝑢𝑒𝑛𝑎, 3 ≤ 𝑋̅ < 3,5
{ 𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 Ó𝑝𝑡𝑖𝑚𝑎, 3,5 ≤ 𝑋̅ ≤4
Análisis de Datos en Lenguaje R

Instalaciones de R y RStudio:

Para esto debe instalar R desde:


https://cran.r-project.org/bin/windows/base/
La descarga de R es gratuita.

Descargue la versión gratuita de RStudio que le proporcionará una interfaz de


programación amigable. Para esto descargue RStudio desde:
https://www.rstudio.com/products/rstudio/download/

Conceptos básicos de RStudio:

Imagen 1

2
Análisis de Datos en Lenguaje R

RStudio es una interfaz (IDE) que nos permite trabajar de manera más fluida con el
programa R. Tiene el siguiente aspecto:

Cuadrante superior izquierdo: Corresponde al editor de sintaxis, lugar donde


podremos escribir nuestros códigos para posterior a ello ejecutarlos con el boto Run.

Cuadrante superior derecho: Corresponde al entorno de trabajo y es donde se


almacenan las bases de datos trabajadas, las variables, los objetos creados.

Cuadrante inferior izquierdo: Corresponde a la consola y es lo que se vería en el


programa original de R. Acá es donde se ejecutan las operaciones ejecutadas en el
cuadrante superior izquierdo.

Cuadrante inferior derecho: Este cuadrante tiene varias pestañas:

1.- files permite ver el historial de archivos,


2.- plots permite visualizar los gráficos,
3.- packages permite ver los paquetes descargados y guardados en el disco duro,
4.- help permite conocer sobre los paquetes,
5.- viewer muestra los resultados al construir reportes.

Comenzando a trabajar con RStudio:

Una vez abierto nuestro programa debemos abrir un nuevo script como muestra
la imagen.
3

Imagen 2
Análisis de Datos en Lenguaje R

Luego, definimos una carpeta de trabajo donde tendremos nuestro scrpt de R y


nuestra base de datos como muestra la imagen:

Imagen 3

4
Análisis de Datos en Lenguaje R

Para guardar nuestro script lo podemos hacer presionando en la figura de disquete


que aparece en la barra de acceso o como aparece en la imagen:

Imagen 4

R trae una cantidad limitada de herramientas para el análisis de datos por lo que se
deben instalar paquetes que contienen mayores herramientas. Se puede hacer a
través de comandos, por ejemplo, install.packages(“readxl”) indicando entre
comillas el nombre del paquete a descargar o se puede realizar en packages en el
cuadrante inferior derecho y luego install y buscar el nombre del paquete como en la
imagen:
Análisis de Datos en Lenguaje R

Imagen 5

6
Cabe señalar que, como se mencionó, para utilizar un paquete este debe estar
instalado previamente, luego de eso para “llamarlo” se debe realizar con el comando
library(readxl)

En la sección help puede escribir el nombre del paquete para obtener mayor
descripción del mismo.

Cuando tengamos nuestro script terminado podemos compilar un reporte en Word,


PDF, o HTML, como aparece en la imagen:
Análisis de Datos en Lenguaje R

Imagen 6

Construya su código fuentes a partir de los siguientes pasos:

Descriptivo.R
#Instalamos las librerias

library(readxl)
library(dplyr)

##
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':


##
## filter, lag

## The following objects are masked from 'package:base':


##
## intersect, setdiff, setequal, union

library(ggplot2)
library(ggcorrplot)
Análisis de Datos en Lenguaje R

library(e1071)
library(ROCR)
library(class)
library(rpart)
library(randomForest)

## randomForest 4.6-14

## Type rfNews() to see new features/changes/bug fixes.

##
## Attaching package: 'randomForest'

## The following object is masked from 'package:ggplot2':


##
## margin

## The following object is masked from 'package:dplyr':


##
## combine

library(reshape)

##
## Attaching package: 'reshape' 8
## The following object is masked from 'package:class':
##
## condense

## The following object is masked from 'package:dplyr':


##
## rename

library(kknn)
library(psych)

##
## Attaching package: 'psych'

## The following object is masked from 'package:randomForest':


##
## outlier

## The following objects are masked from 'package:ggplot2':


##
## %+%, alpha
Análisis de Datos en Lenguaje R

##Importar encuesta a un objeto llamado data

data <- read_excel("BBDD_EPA_NIVELES_ABSTRACCION_CLASS-Minaría_de_dato


s.xlsx")

##Para ver la base

View(data)

#Para conocer los nombres de las columnas:

head(data)

## # A tibble: 6 x 11
## Nº Modalidad Edad Semestre Pregunta1 Pregunta2 Rotular Reducc
ionConten…
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
<dbl>
## 1 1 Diurna 25 5 2 1 4
1
## 2 2 Diurna 26 5 1 1 1
1
## 3 3 Diurna 21 5 2 1 1
1 9
## 4 4 Diurna 21 5 1 1 1
1
## 5 5 Diurna 24 5 3 1 1
1
## 6 6 Diurna 30 3 2 1 1
2
## # … with 3 more variables: Titulo <dbl>, PromedioPreguntas <dbl>, `
Abstraccion
## # final` <chr>

##Para obtener un resumen estadistico general

summary(data)

## Nº Modalidad Edad Semestre


## Min. : 1.00 Length:114 Min. :20.00 Min. :3.000
## 1st Qu.: 30.25 Class :character 1st Qu.:23.00 1st Qu.:5.000
## Median : 59.50 Mode :character Median :25.00 Median :7.000
## Mean : 59.11 Mean :26.98 Mean :6.289
## 3rd Qu.: 87.75 3rd Qu.:29.00 3rd Qu.:7.000
## Max. :118.00 Max. :49.00 Max. :8.000
## Pregunta1 Pregunta2 Rotular ReduccionContenido
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
Análisis de Datos en Lenguaje R

## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:1.000


## Median :2.000 Median :1.000 Median :1.000 Median :1.000
## Mean :2.316 Mean :1.763 Mean :1.623 Mean :1.439
## 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.:2.000 3rd Qu.:2.000
## Max. :4.000 Max. :4.000 Max. :4.000 Max. :4.000
## Titulo PromedioPreguntas Abstraccion final
## Min. :1.000 Min. :1.000 Length:114
## 1st Qu.:1.000 1st Qu.:1.400 Class :character
## Median :1.000 Median :1.800 Mode :character
## Mean :1.895 Mean :1.807
## 3rd Qu.:4.000 3rd Qu.:2.000
## Max. :4.000 Max. :3.200

##Calcular la media de una variable (edad)

mean(data$Edad)

## [1] 26.98246

##Calcular la mediana de una variable (edad)

median(data$Edad)

## [1] 25
10
##Calcular el rango de una variable (edad)

range(data$Edad)

## [1] 20 49

##Calcular el minimo y maximo de una variable (edad)

min(data$Edad)

## [1] 20

max(data$Edad)

## [1] 49

##Calcular la varianza de una variable (edad)

var(data$Edad)

## [1] 38.68995
Análisis de Datos en Lenguaje R

##Calcular la desviacion estandar de una variable (edad)

sd(data$Edad)

## [1] 6.220125

##Calcular coeficiente de asimetria skew de una variable (edad)

skew(data$Edad)

## [1] 1.577707

##Calcular curtosis de una variable (edad)

kurtosis(data$Edad)

## [1] 2.559568

##Graficar boxplot de una variable (edad)

boxplot(data$Edad)
Imagen 7

11
Análisis de Datos en Lenguaje R

##Variable modalidad de estudio

tabla_Modalidad <- table(data$Modalidad)


tabla_Modalidad

##
## Diurna Vespertina
## 60 54

barplot(tabla_Modalidad, xlab="JORNADA", ylab= "Frecuencia", main =


"ESTUDIANTES SEGUN JORNADA", col=c(1:2))

Imagen 8

12

##Variable EDAD, histograma

hist(data$Edad, main = "HISTOGRAMA EDAD")


Análisis de Datos en Lenguaje R

Imagen 9

##Variable Semestre,

Tabla_Semestre <- table(data$Semestre) 13


Tabla_Semestre

##
## 3 4 5 6 7 8
## 10 3 17 1 80 3

barplot(Tabla_Semestre, xlab="SEMESTRE", ylab= "Frecuencia", main =


"ESTUDIANTES SEGUN SEMESTRE", col=c(1:2))
Análisis de Datos en Lenguaje R

Imagen 10

##Variable Abstraccion final,

tabla_Abstraccion <- table(data$`Abstraccion final`)


tabla_Abstraccion
14
##
## ABSTRACCION BUENA ABSTRACCION SATISFACTORIA NO A
BSTRACCION
## 2 41
71

barplot(tabla_Abstraccion, xlab="TIPO DE ABSTRACCION", ylab= "Frecuenc


ia", main =
"ABSTRACCION FINAL",col=c(1:2))
Análisis de Datos en Lenguaje R

Imagen 11

##Matriz de correlaciones

##Correlaciones
corr<-data.frame(ED=data$Edad,SE=data$Semestre,P1=data$Pregunta1,
P2=data$Pregunta2)
15
correlacion <- round(cor(corr), 2)

#Matriz de correlaciones
ggcorrplot(correlacion, hc.order = FALSE,
outline.col = "white",
ggtheme = theme_minimal(),
colors = c("#6D9EC1", "white", "#E46726"), lab= T) +
labs(title="Correlacion de las Variables", subtitle = "Nivel de Resp
usta de Encuesta")+
theme(legend.position="right",plot.title = element_text(size = 18, h
just = 0.5),plot.subtitle = element_text(size = 18, hjust = 0.5))
Análisis de Datos en Lenguaje R

Imagen 12

16
Análisis de Datos en Lenguaje R

Bibliografía

1. Hernández Sampieri, Roberto, Fernández Collado, Carlos, Baptista Lucio,


Pilar. (2003) Metodología de la investigación. Sexta Edición, Editorial McGraw
Hill.

2. https://www.r-project.org/

3. https://www.rpubs.com

17

También podría gustarte