Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual REstudio IMw
Manual REstudio IMw
Introducción al análisis
de datos con RStudio
Liseth Estefanía Vargas, Eloína Mesa Fuquen
Director General
Alexandre Patrick Cooman
Autores
Liseth Estefanía Vargas
Auxiliar de Investigación II
Eloína Mesa Fuquen
Investigadora Asociada
Cordinación editorial
Yolanda Moreno Muñoz
Diseño y diagramación
Fredy Johan Espitia B.
ISBN: 978-958-8360-83-6
Impresión
Estudio 45-8 S.A.S.
Cenipalma
Calle 98 No. 70-91, piso 14.
PBX: (57-601) 313 8600
Bogotá, D.C., Colombia
www.cenipalma.org
Septiembre de 2021
Contenido
Introducción����������������������������������������������������������������������������������������������������������������������������������������������������������������� 8
Introducción a R y RStudio��������������������������������������������������������������������������������������������������������������������������������������� 10
¿Qué es R?������������������������������������������������������������������������������������������������������������������������������������������������������������ 11
¿Qué es RStudio?������������������������������������������������������������������������������������������������������������������������������������������������� 11
Interfaz gráfica de RStudio��������������������������������������������������������������������������������������������������������������������������������� 12
Medidas de posición������������������������������������������������������������������������������������������������������������������������������������������� 38
Medidas de dispersión���������������������������������������������������������������������������������������������������������������������������������������� 38
Rango���������������������������������������������������������������������������������������������������������������������������������������������������������������� 39
Rango intercuartil�������������������������������������������������������������������������������������������������������������������������������������������� 39
Varianza y desviación estándar��������������������������������������������������������������������������������������������������������������������� 39
Coeficiente de variación�������������������������������������������������������������������������������������������������������������������������������� 40
3
Exploración gráfica����������������������������������������������������������������������������������������������������������������������������������������������������� 42
Gráficos de dispersión ��������������������������������������������������������������������������������������������������������������������������������������� 43
Gráfico de líneas�������������������������������������������������������������������������������������������������������������������������������������������������� 45
Gráfico de cajas y bigotes���������������������������������������������������������������������������������������������������������������������������������� 48
Histograma������������������������������������������������������������������������������������������������������������������������������������������������������������ 50
Gráfico de barras������������������������������������������������������������������������������������������������������������������������������������������������� 52
Gráfico circular����������������������������������������������������������������������������������������������������������������������������������������������������� 55
Apéndices��������������������������������������������������������������������������������������������������������������������������������������������������������������������� 57
A. Conjunto de datos empleado����������������������������������������������������������������������������������������������������������������������� 58
B. Instalación de R y RStudio����������������������������������������������������������������������������������������������������������������������������� 61
Instalación de R����������������������������������������������������������������������������������������������������������������������������������������������� 61
Instalación de RStudio������������������������������������������������������������������������������������������������������������������������������������ 62
Bibliografía������������������������������������������������������������������������������������������������������������������������������������������������������������������� 63
4
Listado de figuras
ontenido
5
Figura 27. Histograma de frecuencias por tratamiento........................................................................................ 52
Figura 28. Gráfico de barras con ggplot.................................................................................................................. 53
Figura 29. Gráfico de barras teniendo en cuenta porcentajes............................................................................ 55
Figura 30. Gráfico circular con ggplot...................................................................................................................... 56
Figura 31. Página CRAN para descargar R.............................................................................................................. 61
Figura 32. Descargar R para Windows.................................................................................................................... 61
Figura 33. Última versión de R.................................................................................................................................. 62
Figura 34. Opciones de descarga de RStudio......................................................................................................... 62
Figura 35. Descargar RStudio para Windows......................................................................................................... 62
6
Listado de tablas
7
Introducción
8
Introducción al análisis de datos con RStudio
En el marco del análisis de datos es importante terpretación. Se muestran tres: las de tendencia
contar con una caja de herramientas, y su co- central, las de posición y las de variación. La quin-
rrecto uso aumenta las posibilidades de éxito en ta, cubre el tema de representación gráfica, apli-
el análisis. Este manual tiene como objetivo, caciones e interpretación. Los gráficos abordados
ofrecer a los usuarios una conceptualización son: de dispersión, histograma, de cajas y bigo-
básica de la estadística descriptiva, para em- tes, de líneas, de barras y circular. Para terminar,
plearla en el análisis de datos con el soft- en los apéndices se expone el conjunto de datos
ware RStudio, explicando su utilidad de una que se trabaja a lo largo del manual, y la guía para
forma sencilla. instalar R y RStudio.
Al tener la capacidad para realizar el aná- La estrategia para desarrollar esta guía de
lisis descriptivo de sus datos, identificando aprendizaje tiene varios componentes para te-
con claridad su estructura y las características ner en cuenta. Se utilizan códigos que el lector
más importantes de las variables bajo estudio, puede copiar y pegar en su consola de R, para
el usuario podrá entender el comportamiento obtener los resultados aquí presentados. Estos
de las observaciones y llegar a conclusiones se destacan en una caja similar a la que aparece
acertadas. a continuación.
En este documento se presentan los con-
ceptos básicos para el análisis de datos, em-
print ('Introducción al análisis de datos con R')
pleando el software estadístico R (R Core Team, 2+2
2020) versión 4.0.4. Se usa un conjunto de datos 1:10
correspondiente a un experimento en un culti-
vo de palma de aceite, en el que se evaluaron
algunas características vegetativas. Los resultados obtenidos al ejecutar el có-
digo se muestran en rojo con dos símbolos de
A continuación, se muestra una breve des-
numeral (##) al inicio de cada línea o renglón; el
cripción de las temáticas abordadas en el manual.
usuario NO los debe copiar. Los resultados ob-
La primera sección abarca una introduc-
tenidos luego de correr el código anterior son:
ción al lenguaje de programación R y su interfaz
RStudio. Se realiza un reconocimiento de las par-
tes básicas del software, definiendo conceptos ## [1] 'Introducción al análisis de datos con R'
claves como consola, script, ambiente de trabajo, ## [1] 4
entre otros. La segunda, expone los pasos bási- ## [1] 1 2 3 4 5 6 7 8 9 10
cos en RStudio. Se indica cómo fijar un directo-
rio de trabajo y crear una sección en el script, se Para resaltar algún aspecto importante, se
presentan la sintaxis del lenguaje R y algunos de emplean bloques informativos:
los operadores más conocidos. La tercera, abor-
da la conceptualización básica para el entendi-
Nota
miento de un conjunto de datos, la definición de
variable, sus tipos y escalas de medición. Adicio-
nal a esto, se describe el paso a paso para la im-
portación y manejo de un conjunto de datos en
Advertencia
RStudio. En la cuarta, se habla de las medidas
numéricas descriptivas, su cálculo en R y su in-
9
Introducción a R y RStudio
Foto: Zúñiga, F.
10
Introducción al análisis de datos con RStudio
¿Qué es R? Nota
11
Introducción a R y RStudio
12
Introducción al análisis de datos con RStudio
Advertencia
Al escribir el código directamente en la consola, este no se guarda en ninguna parte. Por esto es
recomendable anotarlo en el script, del que se habla a continuación.
b. El script: editor de texto de RStudio, cesario crearlo. Para esto, se hace clic
que permite escribir y ejecutar el códi- en el botón New file que se encuentra
go. A diferencia de la consola, el script en la esquina superior izquierda (Figura
deja guardar dicho código para utilizarlo 4), y se selecciona R Script. También es
en futuras ocasiones. Al abrir RStudio posible hacerlo con el atajo de teclado
por primera vez no se observa y es ne- Ctrl + Shift + N.
13
Introducción a R y RStudio
Una vez se tiene el script, emerge una Una vez creado el script, es fundamental
ventana en la parte superior izquierda, justo guardarlo: primero se hace clic en el botón Save
encima de la consola. Esta se asemeja a un bloc document que se encuentra en la parte superior
de notas usual. Sin embargo, en la parte supe- izquierda, o se usa el atajo de teclado Ctrl + S.
rior cuenta con diferentes opciones tales como Posterior a esto, aparece una ventana emergen-
guardar, ejecutar todo el código o una línea de te que permite conservar el archivo en cualquier
comando, entre otras (Figura 5). carpeta del computador.
Nota
Se recomienda crear una carpeta llamada “Manual” en el escritorio del equipo, para almacenar
allí todos los archivos. El script se caracteriza por tener una extensión .R, su nombre no debe
contener espacios ni caracteres alfanuméricos (puntos, tildes, letra ñ, especiales como @, &, *),
ya que puede presentar problemas al abrir el archivo.
Advertencia
No es suficiente escribir el código, se debe ejecutar para que RStudio lo reconozca y realice la
orden indicada. Correr un comando en R es solicitar que cumpla la instrucción dada. Para hacerlo
en la consola, se presiona la tecla Enter mientras que en el script se oprimen Ctrl + Enter, o se
hace clic en el botón RUN que se encuentra en la parte superior derecha del script.
2. Área de salida. Cuenta con tres partes: la interfaz. Aquí se muestra el conjun-
el ambiente de trabajo, la ventana varios y to de datos que se está trabajando, los
la consola. Esta área se encarga de mos- resultados obtenidos al ejecutar el có-
trar resultados, visualizar gráficos, presen- digo, funciones, variables y constantes
tar ayudas y manuales para el manejo de R empleadas (Figura 6). Al cerrar RStudio
y RStudio. estos se pierden, por lo que es recomen-
a. Ambiente o entorno de trabajo: se vi- dable guardar el ambiente de trabajo en
sualiza en la parte superior derecha de un archivo con extensión .Rdata.
14
Introducción al análisis de datos con RStudio
Nota
En R los datos trabajados se guardan como un objeto y se les asigna un nombre para identificarlos.
Algunos de estos objetos son constantes, variables, tablas de datos, entre otros.
15
Introducción a R y RStudio
16
Introducción al análisis de datos con RStudio
• Help: comprende todo el soporte y la do- les para el usuario, cursos en línea, guías,
cumentación de RStudio. Permite acceder entre otros. Además, presenta informa-
al CRAN, que ofrece diferentes recursos ción de los paquetes instalados y sus fun-
para el programador, tales como manua- ciones, como se observa en la Figura 10.
Las pestañas y conceptos se irán descri- faz de RStudio, pues aquí únicamente se expo-
biendo a lo largo de este manual. Sin embargo, nen los conceptos principales y las pestañas
es fundamental que el usuario explore la inter- más utilizadas.
17
Uso básico de RStudio
18
Introducción al análisis de datos con RStudio
El directorio de trabajo que se va a manejar es una vez fijado, el comando empleado aparece
la carpeta “Manual”, ubicada en el escritorio del en la consola y se sugiere escribirlo en el script
computador. Como se observa en la Figura 12, para ejecutarlo en futuras ocasiones.
19
Uso básico de RStudio
Nota
3 En R la cifra decimal se marca con punto y no con coma, siguiendo la notación norteamericana.
4 Observe que en el código presentado se asigna 5 a x (minúscula) y 10 a X mayúscula.
20
Introducción al análisis de datos con RStudio
21
Uso básico de RStudio
## [1] FALSE
## [1] 4.5
x == x
x*y #Multiplicar
## [1] TRUE
## [1] 47.5
x/y #Dividir
• Operadores lógicos: se emplean en con-
## [1] 0.5263158 juntos como la negación (!), intersección
x^3 #Elevar x a la potencia 3 (&) y disyunción (|).
## [1] 125
Funciones
Para definir el concepto de función, imagine
• Pruebas lógicas: R permite verificar si un
que se tiene una máquina que necesita un in-
objeto cumple una condición dada.
sumo para generar un producto. Por ejemplo,
• < indica si un número es menor que una bombilla requiere energía eléctrica para
otro producir luz (Figura 16).
22
Introducción al análisis de datos con RStudio
Una función tiene este mismo principio: • Cuerpo: es el proceso interno que trans-
precisa de un insumo, realiza un proceso in- forma los argumentos de entrada en ob-
terno y devuelve un resultado. Las funciones jetos de salida o resultados.
en R llevan un nombre corto y dan idea de lo • Salidas: son los resultados de una fun-
que hacen. Usualmente, la mayoría de los co- ción, y toda función debe tener al me-
mandos son funciones predeterminadas, pero nos uno.
también es posible crearlas. Sus partes son:
En la Figura 17 se muestra la estructura
• Entradas o argumentos: sirven para in- general de una función en R. A continuación,
gresar los datos necesarios para que la se presenta el código para elaborar la función
función realice su procedimiento. suma entre dos constantes.
s=x+y ## [1] 4
return (s) suma (3,4)
} ## [1] 7
23
Uso básico de RStudio
24
Introducción al análisis de datos con RStudio
Observe que el paquete readxl no se instala, ya que este se encuentra por defecto en R; solo
se debe cargar para poder emplear sus funciones.
25
Entendimiento de los datos
Foto: Zúñiga, F.
26
Introducción al análisis de datos con RStudio
## [1] TRUE
Nota
is.numeric(y)
Para el manejo de las variables cuantitativas,
es importante tener en cuenta su unidad de ## [1] TRUE
medida, el peso (gramos, libras, kilogramos, #Identificar si la palabra 'Hola' es numérica.
toneladas), las distancias (centímetros, metros, is.numeric('Hola')
kilómetros), el tiempo (segundos, minutos, ho-
## [1] FALSE
ras, días, años), entre otros.
#Convertir una variable a numérica
#(mientras sea posible)
Esta variable se divide a su vez en discreta as.numeric()
y continua. #Convertir la palabra 'Hola' a numérica no es
#posible y se genera un
• La variable discreta generalmente provie- #dato faltante (NA)
ne de un proceso de conteo. Por ejemplo: as.numeric('Hola')
número de racimos por palma, de insectos
en una hoja o de palmas en un lote. ## [1] NA
27
Entendimiento de los datos
Advertencia
#Crear las variables cosecheros y lotes
cosecheros <- c('Andrés', 'Juan', 'Pedro', En ocasiones, los datos categóricos se iden-
'Diana', 'María', 'Luis', 'Carlos', 'Raquel') tifican con números que reemplazan los nom-
lotes <- c('lote 1', 'lote 3', 'lote 2', 'lote 1', bres. Por ejemplo, se puede escribir 1 en lugar
'lote 2', 'lote 3', 'lote 1', 'lote 3') de “primero”. Aunque parecerían cuantitativos,
en realidad son cualitativos.
cosecheros
## [1] “Andres” “Juan” “Pedro” “Diana” “Maria”
“Luis” “Carlos” “Raquel” Escalas de medición
lotes
Una vez definidas las variables de interés en
## [1] “lote 1” “lote 3” “lote 2” “lote 1” “lote 2” una investigación o estudio, los análisis que se
“lote 3” “lote 1” “lote 3” realicen dependen de la manera en que estas
#Identificar el tipo de las variables cosechero se clasifiquen. Una forma común es empleando
#y lotes las escalas de medición (Clifford Blair & Taylor,
class(cosecheros) 2008) con cuatro niveles diferentes: nominal,
ordinal, de intervalo y de razón. Dada la varia-
## [1] “character”
ble a evaluar, se define la escala.
class(lotes)
Escalas para variables cualitativas
## [1] “character”
Las variables cualitativas cuentan con dos es-
#Para identificar si una variable o un dato es calas de medición: nominales y ordinales, que
#categórico
hacen referencia a datos que cuentan con ca-
is.character(cosecheros)
tegorías o atributos.
28
Introducción al análisis de datos con RStudio
• Los valores de las variables con escala mérico en donde el cero expresa la ausen-
nominal se caracterizan por ser etiquetas, cia de la característica medida. Esto permi-
categorías o clases. Adicional a esto, “los te que los cocientes y comparaciones entre
datos carecen de cualquier orden o signi- los valores tengan significado. Por ejemplo,
ficancia numérica, es decir, ninguna de las una palma que mide 4 m de altura es el do-
categorías tiene mayor jerarquía que otra” ble de grande que una de 2 m; un racimo de
(Triola, 2018). Ejemplos comunes son el 8 kg, pesa la mitad que uno de 16 kg.
tipo de cultivar sembrado, el nombre de las
zonas palmeras, las plantaciones que parti- Advertencia
cipan de cierto estudio, etc.
Recuerde que el análisis estadístico se realiza
• Los valores de las variables con escala
sobre los datos, y esto genera la información
ordinal consisten exclusivamente en nom-
con la que se toman decisiones. De aquí que la
bres, etiquetas o categorías. Sin embargo,
frase “el análisis de la información” tiende a ge-
a diferencia de la nominal, las clasificacio-
nerar confusiones, lo correcto sería “el análisis
nes producidas cuentan con cierto orden
de los datos arroja la siguiente información ...”
(Clifford Blair & Taylor, 2008). Ejemplos
comunes son el nivel de infestación (alto,
medio o bajo) o los rangos de un examen Importación de archivos
(excelente, sobresaliente, aceptable e insu-
ficiente). Cuando se tienen datos propios provenientes de
una investigación o estudio, el primer paso para
empezar su exploración y análisis en R, es reali-
Escalas para variables cuantitativas
zar una importación adecuada. R puede importar
Las variables cuantitativas tienen escalas de
una gran variedad de archivos de datos (.txt, .xlsx,
medición basadas en intervalos y en razones,
.csv) ofreciendo flexibilidad para su manejo.
refiriéndose a datos de una serie numérica
Los datos empleados en este manual se
ordenada.
presentan en el Apéndice A, y corresponden a un
• Por intervalo “es una escala numérica que experimento en el que se tienen ocho variables
indica el orden y la distancia con respec- y 81 observaciones. Se sugiere copiar la tabla de
to a un cero arbitrario” (Isaza, 2012). Este datos en un archivo Excel, empezando en la par-
concepto se refiere a que el punto cero en te superior izquierda sin dejar filas ni columnas
la escala, no representa ausencia de la ca- vacías, y guardar el archivo en la carpeta Manual
racterística medida (Clifford Blair & Taylor, que se fijó previamente como directorio de tra-
2008). El ejemplo más frecuente es el de bajo. El nombre recomendado es “datos1.xlsx”.
la temperatura, en donde los 0 °C no indi- Sin embargo, se puede asignar cualquiera recor-
can la falta de temperatura, sino otro punto dando no emplear espacios, signos de puntua-
posible en la escala. Es por esto que no se ción o caracteres especiales.
puede afirmar que 36 °C representa dos La importación de archivos se realiza por
veces más temperatura que 18 °C. medio de readxl (Wickham & Bryan, 2019), uno
• “Los datos provenientes de una escala de de los principales paquetes para leer archivos de
razón indican tanto el orden como la dis- datos provenientes de Excel. Para cargarlo, se
tancia a un cero natural” (Isaza, 2012). Es emplea la función library como se presentó en
decir, esta escala cuenta con un sistema nu- la página 25 (Paquetes).
29
Entendimiento de los datos
30
Introducción al análisis de datos con RStudio
str(datos1)
Para asignar el tipo correcto a cada va- El paquete dplyr es muy útil, ya que pro-
riable, y empezar con un manejo básico de los porciona funciones fáciles de entender y mane-
datos, se emplea el paquete dplyr (Wickham jar. Además son muy rápidas, puesto que están
et al., 2020), que cuenta con una gran varie- implementadas en el lenguaje C++ (Peng, 2016).
dad de funciones altamente optimizadas para Algunas de las principales son:
el manejo de data.frames.
31
Entendimiento de los datos
• select: devuelve un conjunto de variables. bido a que tiene funciones con el mismo nom-
• filter: devuelve un conjunto de filas según bre que en otros paquetes.
cierta condición lógica. Para asignar el tipo correcto a cada una
• arrange: reordena las filas de acuerdo con de las variables se emplea la función mutate(),
una variable. que permite modificar una columna. Se toman
• rename: renombra las variables. lote, eval, trat, rep y estadio, y se convierten
• mutate: añade nuevas columnas o trans- en variables categóricas por medio de la fun-
forma las existentes. ción as.factor(). Al realizar este cambio se crea
una nueva tabla llamada datos, con la que se
• group_by: agrupa los datos según las ca-
racterísticas de una variable cualitativa. va a trabajar a lo largo de este manual.
str(datos)
Una vez importados los datos a R y corroborado que se están leyendo correctamente, se procede
a realizar su descripción y análisis básico.
32
Medidas numéricas descriptivas
33
Medidas numéricas descriptivas
34
Introducción al análisis de datos con RStudio
• group_by: agrupa un conjunto de obser- el ancho promedio del folíolo en cada trata-
vaciones, de acuerdo con las categorías de miento. Las funciones empleadas se unen por
una variable cualitativa. medio del comando %>%, y el resultado es
• summarise: permite calcular algunas medi- una nueva tabla llamada anchoPromedio, que
das numéricas descriptivas (media, media- tiene solo dos columnas: tratamiento y an-
na, varianza, entre otras) a una variable cho promedio del folíolo (ancho_promedio). A
numérica, agrupada por categorías de una continuación se muestra el código empleado.
variable cualitativa. Como se puede observar en la Tabla 1,
Entonces, empleando la función group_ los folíolos del tratamiento 2, en promedio
by(), las observaciones se agrupan según las son más anchos que los demás. También, que
categorías de la variable tratamiento. Luego, los más angostos se encuentran en el tra-
utilizando el comando summarise(), se calcula tamiento 1.
anchoPromedio <- datos %>% #Se asigna el nombre a la nueva tabla de datos
group_by(trat) %>% #Se agrupan las observaciones según el tratamiento
summarise(ancho_promedio = mean(ancho_fol))
#Se crea una nueva columna llamada ancho_promedio y se calcula el
#ancho promedio del folíolo
1 5.15
2 6.27
3 6.14
Mediana Nota
Esta medida se encuentra en la posición central
En comparación con la media aritmética, la
de un conjunto de datos ordenados. Las obser-
mediana no se deja afectar por datos con va-
vaciones se organizan de manera creciente (de
lores extremos, de modo que usualmente es
menor a mayor). Si el conjunto de datos contie-
una medida más informativa con respecto al
ne un número impar de valores, la mediana es
centro de un conjunto de datos sesgados (con
simplemente el valor que se ubica en el medio
valores extremos).
de los datos ordenados. Si es una cifra par, re-
sulta del promedio de los dos números que se
hallan en el medio de los datos. Se dice que la En R, se emplea la función median indi-
mitad de las observaciones es menor o igual al cando la variable de interés sobre la que se va a
valor de la mediana (Isaza, 2012). realizar el cálculo, acompañada del argumento
35
Medidas numéricas descriptivas
na.rm si la variable presenta valores faltantes. A 50 % uno mayor a 5.52 cm. Como se determinó
continuación se calcula la mediana para la va- anteriormente, el ancho promedio del folíolo es
riable ancho del folíolo (ancho_fol). de 5.85 cm, muy cercano al valor de la mediana,
indicando que no se presentan valores extremos
y que los datos se están representando de ma-
median(datos$ancho_fol) nera adecuada por estas dos medidas.
La Tabla 2 muestra la mediana del ancho ferencia entre la media y la mediana de los otros
del folíolo por tratamiento. Se observa que el dos tratamientos. Esto indica que los datos tie-
3 presenta un ancho mayor con 6.21 cm. Si se nen un comportamiento característico dentro
compara este resultado con el promedio de los de cada tratamiento, y se hace necesario apoyar
folíolos (Tabla 1), se puede ver que aunque el los análisis con medidas de variación para en-
tratamiento 1 abarca los más angostos, hay di- tender mejor la distribución de los datos.
1 5.12
2 6.03
3 6.21
Moda
La moda es el valor que más veces se repite tamiento de las observaciones. Se determina
en un conjunto de datos, y junto al promedio al contar el número de veces que cada valor
y la mediana, permite caracterizar el compor- ocurre dentro de un conjunto de datos.
36
Introducción al análisis de datos con RStudio
table(datos$ancho_fol)
##
## 2.09 2.88 2.99 4.15 4.45 4.72 4.81 4.84 4.89 4.9 4.92 4.94 4.97 5.01
## 1 1 1 1 1 1 1 1 1 1 1 2 1 1
## 5.06 5.08 5.1 5.11 5.12 5.15 5.19 5.21 5.22 5.24 5.25 5.28 5.3 5.32
## 1 1 2 2 2 1 1 2 1 1 1 2 2 1
## 5.39 5.43 5.5 5.51 5.52 5.53 5.64 5.68 5.69 5.7 5.72 5.81 5.82 5.85
## 1 2 1 1 1 1 1 1 2 1 1 1 1 1
## 5.9 6.03 6.12 6.21 6.24 6.33 6.41 6.46 6.47 6.56 6.65 6.72 6.85 6.86
## 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 6.98 7.03 7.08 7.1 7.12 7.13 7.2 7.49 7.52 7.71 8.1 8.33 8.85 8.95
## 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 9.12 9.32
## 1 1
Como se puede ver, hay más de dos obser- cuenta con la función mfv(), que identifica de
vaciones con una frecuencia de 2, por lo que es forma automática el o los valores más frecuen-
multimodal. Para que sea más fácil identificar tes de un conjunto de observaciones. Para
los datos que se repiten, se puede organizar el emplearla se debe primero instalar y cargar el
resultado con la función sort(). paquete mencionado.
37
Medidas numéricas descriptivas
38
Introducción al análisis de datos con RStudio
39
Medidas numéricas descriptivas
## [1] 0.2081839
La varianza del peso seco de la hoja co-
rresponde a 0.714 kg2, pero no se tiene una
fácil interpretación. Sin embargo, la desviación
Se observa que el coeficiente de variación
estándar para esta variable es de 0.85 kg, es
del peso seco es del 20 %, indicando que este
decir esta es aproximadamente la distancia de
conjunto no presenta una dispersión alta, y
los datos con respecto a su valor promedio
que el promedio representa correctamente los
4.06 kg.
datos. Ahora bien, para entender mejor el com-
portamiento del peso seco, se puede calcular su
#Para calcular la media promedio, la mediana, la desviación estándar y
mean(datos$peso_seco) el coeficiente de variación por tratamiento. Esto
se realiza por medio de las funciones group_by
## [1] 4.060123
y summarise, como se mostró anteriormente.
40
Introducción al análisis de datos con RStudio
41
Exploración gráfica
42
Introducción al análisis de datos con RStudio
En esta sección se muestran gráficos explora- tiempo, e identificar los puntos alejados de la
torios para resumir datos y obtener una des- nube para revisarlos y sacar conclusiones acer-
cripción clara y precisa para su interpretación, ca de ellos. También, se emplea para establecer
teniendo en cuenta la conceptualización esta- posibles asociaciones lineales y no lineales en-
dística necesaria. Es importante mencionar que tre las variables de interés.
si estos no se presentan de manera correcta, Para ilustrar cómo crear un diagrama de
pueden generar conclusiones erróneas. Así, se dispersión se seleccionan las variables largo_fol
recomienda no omitir información pertinente, y peso_seco. Al emplear el paquete ggplot2,
especificar siempre el nombre de los ejes y primero se debe generar un gráfico básico en
considerar la escala empleada. donde se define la tabla de datos a usar, y las
Para crear los gráficos, se emplea ggplot2 variables que van en cada uno de los ejes. Esto
(Wickham, 2016), que es un paquete de R que se realiza por medio de la función ggplot(). Pos-
permite hacerlos de una manera potente y teriormente, para generar el diagrama de dis-
flexible, ofreciendo al usuario ilimitadas posibi- persión, se emplea la función geom_point() y se
lidades de edición novedosas, que se adaptan une al gráfico básico por medio del símbolo +,
a un problema específico. Cuenta con funcio- como se muestra a continuación.
nes especializadas, y debido a esto, el nivel de
trabajo de ciertos gráficos puede ser elevado.
ggplot(datos, aes(x = largo_fol, y = peso_seco)) +
Sin embargo, el objetivo de esta sección es
#gráfico básico
presentar los elementos básicos para la ela-
geom_point() #Nube de puntos
boración de los gráficos descriptivos usuales.
Recuerde que debe instalar y cargar el paquete
en la sesión de trabajo. Para cambiar el nombre de los ejes y
agregar títulos y subtítulos, se utiliza la fun-
ción labs().
install.packages('ggplot2')
library('ggplot2')
ggplot(datos, aes(x = largo_fol, y = peso_seco)) +
geom_point() +
Gráficos de dispersión
labs(title = 'Gráfico de dispersión',
Es una representación de dos variables nu- #Permite agregar un título
méricas por medio de una nube de puntos, en
x = 'Largo del folíolo (cm)',
donde una se ubica en el eje x y la otra en el #Cambia el nombre del eje x
eje y, y se dibujan los puntos (x,y) para cada
y = 'Peso seco de la hoja 17 (kg)')
observación. En este gráfico se puede observar
#Cambia el nombre del eje y
el comportamiento de dos variables al mismo
43
Exploración gráfica
Gráfico de dispersión
6
50 75 100 125
Largo del folíolo (cm)
Figura 20. Gráfico de dispersión con ggplot
44
Introducción al análisis de datos con RStudio
En la Figura 21 se puede observar el grá- ta una baja variabilidad con respecto al resto,
fico de dispersión, en donde el color del punto pues todos sus valores se encuentran entre los
indica a qué tratamiento pertenece, permitien- 105 cm y 125 cm; mientras tanto, el tratamien-
do identificar el comportamiento de las varia- to 3 (color naranja), presenta valores del largo
bles según cada uno. Por ejemplo, el largo del del folíolo desde 70 cm hasta 180 cm, siendo
folíolo en el tratamiento 1 (color azul), presen- este el más variable.
Gráfico de dispersión
6
Peso seco de la hoja 17 (kg)
Tratamiento
4 1
2
3
3
50 75 100 125
Largo del folíolo (cm)
Figura 21. Gráfico de dispersión teniendo en cuenta el tratamiento
45
Exploración gráfica
6 91.07
12 84.45
18 92.77
Para elaborar el gráfico de líneas, se crea comando group(). Por medio del geom_line(),
el esquema básico con la función ggplot(), cuyo se origina una línea que presenta el compor-
primer argumento es la tabla largo_eval. Des- tamiento del largo promedio del folíolo en el
pués, en los ejes x y y se ubican las variables tiempo, y con la función geom_point() se pre-
eval y largo_promedio, respectivamente. Como sentan los puntos en el gráfico.
no se tienen otras adicionales, se asigna 1 al
92
Largo promedio del folíolo (cm)
90
88
86
6 12 18
Evaluación (meses)
46
Introducción al análisis de datos con RStudio
largo_eval_trat <- datos %>% #Se asigna el nombre a la nueva tabla de datos
group_by(eval,trat) %>%
#Se agrupan las observaciones según la evaluación y el tratamiento
summarise(largo_promedio = mean(largo_fol))
#Se crea una nueva columna llamada largo_promedio y se calcula el
#largo promedio del folíolo
1 81.1
6 2 98.76
3 93.35
1 78.9
12 2 85.06
3 89.4
1 82.42
18 2 101.15
3 94.74
47
Exploración gráfica
100
Largo promedio del folíolo (cm)
95
90
85
80
6 12 18
Evaluación (meses)
Tratamiento 1 2 3
En la Figura 23 se observa que el trata- rios grupos de datos con la misma característi-
miento que produce menores largos de folíolo ca evaluada. Su principal atributo es que realiza
es el 1 (color azul). También, que al año de em- un resumen de los datos mediante cinco nú-
pezar este experimento (en la segunda evalua- meros: la mediana o percentil 50 (P50), el per-
ción) hay un descenso promedio en todos los centil 25 (P25), el percentil 75 (P70) y los límites
tratamientos, resaltando el 2 (color naranja). superior e inferior de las líneas del gráfico, lla-
mados bigotes.
Gráfico de cajas y bigotes Para entenderlo, en la Figura 24 se mues-
El gráfico de cajas y bigotes también conocido tran dos gráficos de cajas y bigotes con sus par-
como boxplot, se emplea para ver el compor- tes. El ancho de la caja representa la dispersión
tamiento de una variable cuantitativa, y es muy que tienen los datos, y sus límites correspon-
útil para comparar las distribuciones entre va- den a los percentiles 25 y 75, cuyo cálculo e
48
Introducción al análisis de datos con RStudio
Bigote superior
Percentil 75
Mediana
Percentil 25
Bigote Inferior
Lo más relevante de la Figura 25 es que el los otros dos, pues su caja es mucho más ancha.
segundo tratamiento presenta una mayor dis- Se puede ver que la mediana en el primer tra-
persión en el largo del folíolo comparándola con tamiento es más baja, aunque es el que arroja
49
Exploración gráfica
resultados menos variables. Adicional a esto, el del segundo y tercero son muy similares, pero
primer tratamiento muestra un valor fuera de la dispersión de este último es mucho más baja
los bigotes, lo que indica que hay un folíolo con y sus bigotes son cortos, expresando que no se
un largo extrañamente menor. Las medianas presentan datos muy lejanos de la mediana.
125
Largo del folíolo (cm)
100
75
50
1 2 3
Tratamiento
Tratamiento 1 2 3
50
Introducción al análisis de datos con RStudio
15
Frecuencia
10
0
2 3 4 5 6
Peso seco de la hoja 17 (kg)
Figura 26. Histograma con ggplot
Una manera rápida de crear un histogra- posición de la leyenda por medio del comando
ma por tratamiento, es empleando la función legend.position = ‘bottom’, como se muestra
facet_wrap(). También es posible cambiar la a continuación.
En la Figura 27 se exponen los histo- otros dos. Además, los valores centrales de
gramas de la variable peso seco de la hoja 17, los tres tratamientos se encuentran cercanos
según el tratamiento. Se puede observar que a los 4 kg (barras más altas).
el primero presenta una amplitud mayor que los
51
Exploración gráfica
1 2 3
8
6
Frecuencia
0
2 3 4 5 6 2 3 4 5 6 2 3 4 5 6
Peso seco de la hoja 17 (kg)
Tratamiento 1 2 3
Advertencia
Es muy común confundir el histograma con el gráfico de barras. Para tener claridad, el histograma
calcula la frecuencia de los valores de una variable numérica y permite ver la distribución de los
datos. El gráfico de barras se emplea para comparar las categorías de una variable cualitativa,
como se explica a continuación.
52
Introducción al análisis de datos con RStudio
30
Racimos 20
10
0
805 806 807 809
Estadio
#Número de observaciones
n = 81
53
Exploración gráfica
Para crear una gráfica más completa, se Como se mencionó anteriormente, los grá-
puede mostrar el porcentaje correspondiente ficos presentan una gran variedad de argu-
a cada barra, por medio de la función geom_ mentos para su edición, como el tamaño de
text(), que tiene como argumento principal el la letra (size) o la posición del texto (vjust),
valor a exponer (en este caso el porcentaje). entre otros.
54
Introducción al análisis de datos con RStudio
39.51 40.74
40.0 %
30.0 %
Porcentaje
20.0 %
14.81
10.0 %
4.94
0.0 %
805 806 807 809
Estadio
ggplot(estadio_resumen,aes(x='',y=Porcentaje, fill=estadio))+
geom_bar(stat = 'identity', color='black')+
coord_polar(theta = 'y',direction = -1)+
geom_text(aes(label=Porcentaje),
position=position_stack(vjust=0.5),color='white',size=4)+
theme_void()+
scale_fill_manual(values = c('#638239', '#0578A0', '#F1592A', '#C3AF8D'))
55
Exploración gráfica
Como se observa en la Figura 30, el ros. Se puede apreciar que el área del estadio
porcentaje en los estadios 805 y 806 es de 805 es la más pequeña, seguida por la 809,
44.45 %, indicando que casi la mitad de los indicando una baja frecuencia de racimos.
racimos evaluados están en estados inmadu-
4.94
14.81
Estadio
805
39.51 806
807
809
40.74
56
Apéndices
57
Apéndices
58
Introducción al análisis de datos con RStudio
59
Apéndices
60
Introducción al análisis de datos con RStudio
B. Instalación de R y RStudio
Instalación de R
Para descargar R debe dirigirse a la página CRAN que se encuentra en el enlace The Comprehensive
R Archive Network7. Es importante aclarar que la mayoría de las páginas y documentos oficiales
se encuentran en inglés.
Al ir a la página se observa un cuadro similar al de la Figura 31. Este contiene diferentes en-
laces para descargar e instalar R. Aquí se explica el paso a paso para Windows, ya que de forma
similar se realiza en los otros dos sistemas operativos. Para bajarlo en su última versión, se hace
clic en el hipervínculo Download R por Windows.
Allí se debe hacer clic en install R for the fist time, y luego sale el enlace para la descarga
(Figura 32). Al cliquear el hipervínculo Download R for Windows, automáticamente debe descar-
gar un archivo .exe con la última versión de R (a la fecha de elaboración de este manual era la
4.04) (Figura 33).
Al ejecutar el archivo descargado, el computador pide permisos para instalar el software, y al
aceptarlo se genera una ventana que permite elegir el idioma de preferencia. Una vez realizado,
se hace clic en la opción “siguiente” a todas las ventanas que aparezcan. Seguidamente, se puede
ingresar a R desde la lista de programas, o por medio del acceso directo del escritorio.
7 https://cran.r-project.org/index.html
61
Apéndices
Instalación de RStudio
Para descargar RStudio, debe dirigirse a la página oficial que se encuentra en el enlace Download
the RStudio IDE. Aquí se puede acceder a la versión gratis o comercial del software, según las
necesidades del usuario (Figura 34).
62
Introducción al análisis de datos con RStudio
Bibliografía
Gough, B. (2009). GNU Scientific Library Reference Manual. Network Theory Ltd.
Vinasco, L. E (2012 ). Estadística Descriptiva con Minitab versión 15.0. Cali: Pontificia Universidad Javeriana.
R Core Team. (2020). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation
for Statistical Computing. https://www.r-project.org/
Clifford Blair, R., & Taylor, R. A. (2008). Bioestadística. México: Pearson Educación.
RStudio Team. (2020). RStudio: Integrated Development Environment for r. Boston, MA: RStudio, PBC.
Santana, J. S., & Farfán, E. M. (2014). El arte de programar en R: un lenguaje para la estadística. Instituto
Mexicano de Tecnología del Agua, 1.
Wickham, H. (2016). Ggplot2: Elegant Graphics for Data Analysis. New York: Springer‐Verlag. https://ggplot2.
tidyverse.org
Wickham, H., & Bryan, J. (2019). Readxl: Read Excel Files. https://CRAN.R‐project.org/ package=readxl
Wickham, H., François, R., Henry, L., & Müller, K. (2020). Dplyr: A Grammar of Data Manipulation. https://
CRAN.R‐project.org/package=dplyr
63
Esta publicación es propiedad del Centro de Investigación en Palma de Aceite, Cenipalma, por tanto, ninguna parte del
material ni su contenido, ni ninguna copia del mismo puede ser alterada en forma alguna, transmitida, copiada o distribuida
a terceros sin el consentimiento expreso de Cenipalma. Al realizar la presente publicación, Cenipalma ha confiado en la
información proveniente de fuentes públicas o fuentes debidamente publicadas. Contiene recomendaciones o sugerencias
que profesionalmente resultan adecuadas e idóneas con base en el estado actual de la técnica, los estudios científicos,
así como las investigaciones propias adelantadas. A menos que esté expresamente indicado, no se ha utilizado en esta
publicación información sujeta a confidencialidad ni información privilegiada o aquella que pueda significar incumplimiento
a la legislación sobre derechos de autor. La información contenida en esta publicación es de carácter estrictamente
referencial y así debe ser tomada y está ajustada a las normas nacionales de competencia, Código de Ética y Buen Gobierno
de la Federación, respetando en todo momento la libre participación de las empresas en el mercado, el bienestar de los
consumidores y la eficiencia económica.