Está en la página 1de 80

Andrea Monge Quinta

Laura Dastis del Álamo


Francisco Isaac de la Rosa Negrón
 R es un software de análisis estadístico de
datos que utiliza un lenguaje de
programación orientado a objetos. Estos
objetos se definen como variables, datos,
resultados o funciones que se almacenan en
nuestra área de trabajo. Dado que está
orientado al análisis estadístico nos va a
permitir desde el manejo de bases de datos
hasta la realización de análisis y
representaciones gráficas.
 R fue desarrollado inicialmente
por Robert Gentleman y Ross
Ihaka del Departamento de
Estadística de la Universidad
de Auckland en 1992.

La intención inicial con R era hacer un lenguaje


didáctico para ser utilizado en el curso de
Introducción a la Estadística de su Universidad.
 Durante los últimos años ha habido un
interés creciente entre profesionales de
Ciencias de la Salud por el uso del software R
en sus investigaciones.
¿A qué se debe este éxito?
¿Qué lo hace tan especial?
• Los usuarios tienen libertad para
copiar, distribuir, ejecutar y modificar
LIBRE el programa informático accediendo a
su código fuente.

GRATUITO • No hay que pagar por usarlo.


MULTIPLATAFORMA
• Funciona en múltiples plataformas informáticas: Linux,
Windows, MacOS.

ACTUALIZACIÓN
• La comunidad de usuarios hace que se actualice
constantemente.

HERRAMIENTAS ESTADÍSTICAS
• Proporciona una amplia gama de herramientas
estadísticas que incluyen análisis de datos y generación
de gráficos.
VOLUMEN DE DATOS
• Se pueden manejar grandes volúmenes de datos.

BIBLIOTECAS Y PAQUETES
• Permite cargar bibliotecas y paquetes con diversas
funcionalidades.
BASES DE DATOS
• Permite usar más de una base de datos a la vez.
ESTÁNDAR EN LA SOCIEDAD CIENTÍFICA
• Crea figuras de calidad de publicación, además de poder
exportarse a diferentes formatos, incluidos PDFs.
 R está pensado para el uso en problemas
matemáticos y estadísticos en general y está
probado que es una excelente herramienta
para utilizar en epidemiología.
 Desde el explorador de Internet, entrar en
www.r-project.org. A continuación, hacer clic
en el enlace “download R”, situado dentro de
la opción Getting Started.
 Localizar España (Spain) en el listado de
Servidores y pinchar sobre el primer enlace.
 En el cuadro Download and Install R,
seleccionar la opción Download R for
Windows.
 Hacer clic sobre el enlace “base”, que nos da
la opción “install R for the first time”.
 En el cuadro superior de la pantalla aparecerá
un enlace que lleva a la última versión de R.
Hacer clic sobre este enlace, titulado
Download R (…) for Windows. En lugar de los
puntos suspensivos aparecerá la numeración
de la última versión de R disponible.
La última versión de R en este momento es la 3.4.4
 Pulsar el botón Guardar archivo para
almacenar el archivo R-(…)-win.exe en la
carpeta “Mis documentos” o en cualquier otra
que el usuario decida. Este archivo ejecutable
se utilizará posteriormente para instalar R en
el ordenador.
 Una vez descargado el archivo la instalación de R es
muy sencilla. Bastará con ir a la carpeta donde se
almacenó el archivo, hacer doble clic sobre él y seguir
las instrucciones que aparecerán en pantalla.
 En cuanto a la configuración del programa, cuando el
cuadro de diálogo de la instalación pregunte si se
desea utilizar las opciones de configuración se
responderá Sí.
 Tras pulsar el botón Siguiente aparecerá la ventana
Modo de display. En ella es conveniente marcar
siempre la opción SDI (ventanas separadas).
 El resto de opciones puede quedar como aparece por
defecto.
 Tras la instalación del software R aparecerán en el
escritorio dos iconos con la forma R. Uno de ellos
llevará a pie de imagen el nombre Ri386 y el otro
Rx64. En general, es recomendable usar la primera
versión (Ri386) si se trabaja bajo Windows 32-bit y
la segunda (Rx64) si el sistema operativo es
Windows 64-bit.
¿Cómo puedo saber si mi equipo ejecuta una
versión de Windows de 32 bits o 64 bits?

 Abrir Sistema. Para ello, hacer clic en el


botón Inicio, luego hacer clic con el botón derecho
en Equipo y después en Propiedades.
 Cuando abrimos el programa aparece lo que
denominamos “consola” o “ventana de
comandos y resultados”.
Consola o ventana de comandos y resultados.
 Para guardar nuestras instrucciones y poder
modificarlas después existe un editor de R,
también conocido como “script”.
Es recomendable
guardar las
instrucciones en un
script para poder
acceder a ellas más
tarde, ya que las
instrucciones no
pueden cambiarse
luego si se escriben
en la consola.
(Este sería nuestro script o fichero
de trabajo)
Cuando hayamos terminado de trabajar con el script…
Para acceder a un script
una vez cerrado y
guardado, hacemos clic
en la opción “abrir
script” y lo buscamos en
la ruta en que lo
hayamos guardado.
 Un consejo muy útil a la hora
de redactar nuestras
instrucciones en el script es ir
escribiendo comentarios. Esto
se hace con la almohadilla.
Tiene como especial
característica que estas líneas
cuando ejecutemos las
instrucciones no se ejecutarán
en la ventana de comandos.
Comentario escrito con
almohadilla para que no pase a la
consola cuando ejecutemos las
instrucciones.
 Una vez escritas nuestras instrucciones
tenemos que pasarlas a la ventana de
comandos. Para esto corremos línea con el
tercer botón que nos aparece en la interfaz.
Así en la consola o ventana de comandos
aparecerán los resultados de las instrucciones
escritas en el script.
Instrucciones en el script.

Resultados en la consola tras correr línea.


 El programa R puede funcionar como una
potente calculadora. Dispone de todas las
funciones matemáticas usuales.
◦ Suma.
◦ Diferencia.
◦ Producto.
◦ Cociente.
◦ Potencia.
◦ Raíz cuadrada.
◦ Logaritmo neperiano.
◦ Logaritmo en base 10.
Función matemática En el lenguaje de R
Suma a+a
Diferencia a-a
Producto a*a
Cociente a/a
Potencia a^a
a ** a
Raíz cuadrada sqrt(a)
Logaritmo neperiano log(a)
Logaritmo en base 10 log(a,base=10)
 Además de realizar estas operaciones
matemáticas, R permite crear secuencias y
repeticiones.
Actividades:
 ¿Cuál es el producto de 45x23?
 Suma 344 más 1208 y multiplícalo por 3 al
cubo.
 Repite el número 4, 10 veces.
 Crea la secuencia del 225 al 300 cada 3.
 Haz una secuencia que repita los número 8 y
4. El 8 trece veces y el 4 quince veces.
 Crea la secuencia de los números naturales
del 15 al 461.
 Una de las ventajas
que nos ofrece el
software R es que no
solo nos permite
trabajar con números,
como hemos visto
hasta ahora, sino que
también nos permite
hacerlo con variables.
 El uso de variables es una de las
características indispensables de R. En la
mayoría de las computaciones que hacemos,
en algún momento necesitamos guardar
valores en memoria para usarlos más tarde
en otras expresiones. Para este efecto
creamos variables y les damos el nombre que
queramos.
¿Cómo se nombran las variables?
 El operador de asignación de valores a un
objeto determinado es “=“ o “<-”.
◦ Ejemplo: v=2 o v<-2.

¡OJO!
R distingue entre mayúsculas y minúsculas.
Creación de las variables x, y, z.

Una vez creadas,


podemos operar con
nuestras variables.
Crea las variables:
 A, con el valor 34.
 B, con el valor 27.
 C, con el valor 45.

 Calcula la raíz cuadrada de A.


 Multiplica B por C.
 Se pueden crear de la misma forma que las
variables numéricas. R entenderá que son
vectores.
◦ Ejemplo: 0=categoría hombre y 1=categoría mujer.
 No obstante, R considerará que estos valores
son números, cuando en realidad no lo son.
Para decir a R que esta variable es una
variable categórica y no numérica, utilizamos
la orden factor.
◦ Ejemplo:
 También se pueden crear los factores con
etiquetas. En este caso se deben poner entre
comillas.
◦ Ejemplo:
 La mayoría de los objetos con los que
trabajaremos en R son vectores. Los
construimos con el operador c(...).
 Pueden contener cero o más objetos, pero
todos deben ser de la misma clase.
 El siguiente ejemplo nos muestra cómo crear
un vector con el peso de los individuos de
una muestra.
 El comando length() nos da la longitud de un
vector:
 Se pueden hacer cálculos con vectores de la
misma longitud.
 Por ejemplo, disponemos de los datos de las
alturas y los pesos de un grupo de personas y
queremos calcular el índice de masa corporal
(IMC) para cada persona. Lo haríamos de la
siguiente forma:
Calculemos los IMC de 6 alumnos con los
siguientes datos:
 Alturas: 1.67, 1.56, 1.75, 1.86, 1.69, 1.89.
 Pesos: 75, 54, 75, 97, 52, 82.
 Nos muestran la información estructurada en
filas y en columnas.
 Al igual que ocurre con los vectores, pueden
contener cero o más objetos, pero todos de la
misma clase.
 Para especificar la matriz usaremos la
instrucción matrix y especificaremos los
datos, el número de columnas y el número de
filas.
 La estructura de un data.frame es muy similar
a la de una matriz. La diferencia es que una
matriz sólo admite valores numéricos,
mientras que en un dataframe podemos
incluir también datos alfanuméricos.
 El siguiente ejemplo nos muestra cómo crear
un data.frame a partir de los datos recogidos
sobre una muestra de 10 estudiantes de
primero de Enfermería, para cada una de los
cuales se ha registrado su edad, sexo y
tiempo en horas que estuvo dedicando al
estudio el día antes del examen de
Farmacología Clínica.
 Los datos que vayamos a manejar en R
pueden ser importados desde otra base de
datos. De hecho, se recomienda que se haga
de este modo. Podemos importar datos de los
siguientes tipos de fichero:
◦ Fichero de texto. Son ficheros que se crean desde el
bloc de notas.
◦ Fichero de datos.
◦ Fichero Excel.
◦ Fichero en SPSS.
 Para leer estos datos desde la interfaz de R
tendremos que especificarle la ruta en la que
están guardados. Para ello entraremos en
archivo y en “cambiar dir” le indicaremos la
ruta.
 Los paquetes son programas que permiten a
los usuarios de R realizar diversas funciones
de forma más sencilla e intuitiva que desde la
consola de R.
 A pesar de sus cualidades técnicas, el uso de
R puede resultar complejo para personas que
no están familiarizadas con los lenguajes de
programación. La necesidad de escribir
instrucciones y comandos para realizar
análisis estadísticos simples hace que R no
sea el software elegido por profesionales no
especializados en Estadística para llevar a
cabo proyectos de investigación aplicada.
Paquetes y R Commander
Programa base: el corazón de R. Software con órdenes para
análisis estadísticos.

Paquetes (Rstudio, Rcommander, etc.): programas creados


para análisis específicos (epidemiológicos, genéticos,
ecológicos, económicos, etc.)

R Commander.
Interface que permite el uso de R “a golpe de
click”. Menos potente pero suficiente para los
análisis usuales en CCSS.
Paquetes y R Commander
 Creado por John Fox (Department of Sociology,
McMaster University) (http://www.rcommander.com/).

 Es compatible con la mayoría de sistemas operativos:


Windows, mac, linux…
(http://socserv.socsci.mcmaster.ca/jfox/Misc/Rcmdr/)

 Compatible con R Studio (https://cran.r-


project.org/web/packages/Rcmdr/index.html)

 Actualización más tardía que R.


 install.packages(“Rcmdr”)

 library (“Rcmdr”)

 Versión de R:
◦ Consultar enlaces indicados.

 En R Studio
install.packages("Rcmdr", dependencies=TRUE)
R Comander

Consola de R

Ventana de instrucciones de R Commander

Ventana de resultados de R Commander

Entorno de R

Ventana de mensajes de R Commander


Nombre que el fichero tendrá en
R
Señalar si en el fichero Excel aparece el nombre de las
variables en la primera fila
Si queremos que variables categóricas sean
transformadas en factores en R
Datos ausentes: “celda vacía”
Filtrar el conjunto de datos activo: Seleccionar un subconjunto de
individuos dentro del conjunto de datos activo con todas las variables o no.

Con todas la
variables

Selección de variables

Selección de individuos

Nombrar el nuevo
fichero de datos
resultante
Resúmenes numéricos

¿Cuáles variables aparecen del


fichero?
numSummary(NHANESm_18_69[,"Weight"], statistics=c("mean",
"sd", "IQR", "quantiles"),
quantiles=c(0,.25,.5,.75,1))
mean sd IQR 0% 25% 50% 75% 100% n NA
82.76249 21.57888 27.6 37 67.2 79.9 94.8 230.7 6516 45

 ¿Cómo podemos describir la variable peso?

 ¿Qué significa NA? ¿Cómo se han utilizado?


 1. Calcular la variable.
numSummary(NHANESm18_69[,"imc"], statistics=c("mean", "sd", "IQR",
"quantiles"), quantiles=c(0,.25,.5,.75,1))

mean sd IQR 0% 25% 50% 75% 100%


n NA
28.71366 6.794399 8.352451 15.02444 23.90309 27.60154 32.25554
81.25457 6514 47

 ¿Cómo podemos describir la variable IMC?

 ¿Se podría entender mejor de forma cualitativa?


Vamos a hacerlo
 IMC_OMS: 12.0_18.4, 18.5_24.9, 25.0_29.9, or
30.0_plus.
Recodificar variables
¿Y en normopeso y sobrepeso?

counts: imc_normo_sobrepeso
normopeso sobrepeso
2032 4482

percentages: imc_normo_sobrepeso
normopeso sobrepeso
31.19 68.81

counts: imc_oms
bajo peso normopeso obesidad sobrepeso
114 1918 2362 2120

percentages: imc_oms
bajo peso normopeso obesidad sobrepeso
1.75 29.44 36.26 32.55
 R es un software de análisis estadístico que utiliza un
lenguaje de programación orientado a objetos.
 Es un software libre y gratuito.
 Está pensado para el uso en problemas matemáticos
y estadísticos en general, siendo muy útil en
epidemiología.
 En R manejamos gran cantidad de datos, ya sean
creados en el mismo programa o importados desde
otra base de datos.
 Los paquetes son programas que complementan a R
y uno de los más importantes es R Commander, una
interface que permite el uso de R sin necesidad de
conocer el lenguaje informático.
 Sergio, S., & Mateos, E. (27 de Noviembre de 2014).
El arte de programar en R: un lenguaje para la
estadística. México.
 Díaz, R. (2003). cran: r-project. Recuperado el 19
de Mayo de 2018, de https://cran.r-
project.org/doc/contrib/curso-R.Diaz-Uriarte.pdf
 EASP. (s.f.). tutorialr. Recuperado el 20 de Mayo de
2018, de http://www.tutorialr.es/es/index.html
 Ocaña, R. (s.f.). Serie Monografías EASP.
Descubriendo R-Commander . EASP.
 Bases de Estadística. 1º de CC Ambientales. (2009).
Guión de las prácticas con R .

También podría gustarte