Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual de Estadistica Descriptiva Con Rcomander PDF
Manual de Estadistica Descriptiva Con Rcomander PDF
http://www.r-project.org
1.2. Instalacin de R
Vamos a explicar aqu como se realiza la instalacin en Windows. La descarga del archivo de instalacin se
realiza desde
http://www.r-project.org
Adems, una de las funcionalidades que podramos destacar como ms afortunadas de R Commander es
que, a pesar de que permite estos atajos mediante sus mens para no utilizar el cdigo de R, escribe el
cdigo de las operaciones realizadas en una ventana de sintaxis ventana de instrucciones, de manera que
siempre lo veremos en la pantalla podremos, poco a poco, ir aprendindolo, casi sin darnos cuenta.
La instalacin de R Commander se realiza en 4 sencillos pasos:
1. En la consola de R seleccionamos Paquetes Instalar paquete(s).
2. Nos saldr una ventana solicitando un mirror desde el que descargar los paquetes, de entre los cuales
elegimos obviamente, Colombia, aunque se puede elegir otro cualquiera de los mirror disponibles.
3. Se abrir una ventana donde aparecen todos los paquetes disponibles para R. Seleccionamos, en
principio, el paquete Rcmdr, aunque necesitaremos tambin los plugins adicionales llamados
RcmdrPlugin. HHRcmdrPlugin. IPSUR.
4. A continuacin, cargamos R Commander, introduciendo el siguiente cdigo en la consola de R: library
(Rcmdr) o seleccionando en la consola R paquetes cargar paquete. Esta primera vez que cargamos R
Commander nos pedir la instalacin de otros paquetes necesarios: debemos autorizarlo, eligiendo la
opcin, que aparece por defecto, de descarga desde CRAN. No debemos extraarnos si tarda unos
minutos en descargar e instalar estos otros paquetes.
Una vez cargado R Commander veremos una ventana en la cual podemos distinguir 4 partes:
1. El men de ventanas desplegables, con las opciones Fichero, Editar, Datos, ...
Es un men de ventanas con entradas bastante intuitivas, que no requieren conocimientos de R, pero
s de Estadstica.
2. La ventana de instrucciones.
Cada vez que ejecutemos alguna accin del men, R Commander traducir dicha accin a cdigo de R
lo escribir en esta ventana. Como debamos, eso permite ir aprendiendo este cdigo y, adems,
facilita la posibilidad de volver a ejecutar la misma accin una ligera variante de la misma retocando
el cdigo, sin tener que volver a utilizar el men.
Por otra parte, esta ventana de instrucciones es equivalente al editor de R. Por ejemplo, podemos
escribir 2+2, clicar en el botn de ejecutar (equivalente a F5 Control+R) obteniendo el resultado.
3. La ventana de resultados.
Si hemos realizado ese sencillo ejemplo en la ventana de instrucciones, habremos visto que el
resultado aparece en esta ventana. En general, cualquier resultado de R Commander ser mostrado
aqu.
4. La ventana de mensajes.
Es la ms inferior de todas
aparece ligeramente sombreada. Sirve para que
R Commander nos
Introduccin
Este captulo pretende ofrecer una descripcin de algunas cuestiones relativas al lenguaje de R que
resultaran de inters en el resto del documento. Podran parecer a un lector que se inicie en R desde aqu
demasiado complejas, a un lector que ya haya manejado R previamente, demasiado simples.
Tambin describimos el uso de la ayuda, lo que facilita informacin til sobre las funciones el lenguaje de
R.
2.2.
En el lenguaje de R, los elementos u objetos que se vayan definiendo, bien por nosotros mismos, bien como
resultado del programa, pueden deben ser distinguidos para su uso correcto. Por ejemplo, una matriz, por
su propia definicin, es una coleccin de nmeros configurados en filas columnas, t odas ellas de la misma
longitud. Sin embargo, en ocasiones es necesario reunir nmeros en vectores estos en alg
n objeto,
cuando no todos ellos tienen la misma dimensin: esto es posible en un tipo especial de objeto llamado
lista. Desde luego, una lista no es una matriz, luego, aunque nos sirva para meter en ella vectores de
dimensiones distintas, no admite las operaciones matriciales habituales, por ejemplo.
No se pretende ser exhaustivo en la descripcin de los tipos de objeto de R. Tan solo se van a describir los
que se cree que son ms utilizados en el contexto de un manual como este. Concretamente, se va a hablar
de:
Vectores.
Matrices.
Hojas de datos.
Se hace nfasis en que otros tipos de objetos, como las listas, las variables indexadas (arrays), las funciones
los modelos, son tambin muy importantes.
2.2.1. Vectores
Un vector en R puede contener una coleccin de nmeros de caracteres no numricos. Para definir un
vector, por ejemplo, el vector x = (1, 3, 5), usaramos la orden x<-c(1,3,5)
Observemos que es la funcin de concatenacin c() la que construye el vector.
Tambin es posible definir un vector de nmeros consecutivos, por ejemplo, el vector (1, 2, 3, 4, 5) mediante
x<-1:5
De forma ms general, la funcin seq() permite definir secuencias desde un inicio hasta un fin con una
determinada separacin entre ellos. Por ejemplo,
y<-seq(-3,3,0.5)
proporciona
[1] -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Tambin es til la funcin rep() para definir vectores como repeticin de otros vectores. Por ejemplo,
Si queremos saber la longitud de un vector, usaremos length(). Por ejemplo, length(y) nos devolverla el valor
13.
No hay problema en que un vector, en vez de incluir nmeros, incluya caracteres, siempre que estos estn
entre comillas. Por ejemplo, podramos definir el vector
genero<-c("Mujer","Hombre")
2.2.2. Matrices
Una matriz se define mediante la funcin matrix () a la que hay que especificar sus elementos su
dimensin y se debe tener en cuenta que por defecto introduce sus elementos por columnas.
Por ejemplo, para definir la matriz:
lo haramos usando
matriz<-matrix(c(1,2,3,4,5,6,7,8,9),3,3)
Las dimensiones (nmero de filas columnas) de la matriz pueden obtenerse mediante la funcin dim(). Por
ejemplo, dim(matriz) proporcionara el valor
Por otra parte, tanto para vectores como para matrices, funcionan las operaciones suma diferencia sin ms
complicaciones.
En el caso del producto, sin embargo, hay que clarificar que, por ejemplo, matriz * matriz devuelve la
multiplicacin elemento a elemento, mientras que matriz %*% matriz s devuelve el producto matricial.
cumsum() proporciona un vector con la suma acumulada del vector argumento. Por ejemplo,
teniendo en cuenta que x = (1, 3, 5), cumsum(x) dara
[1] 1 4 9
rowSums() colSums() suman, por filas por columnas, respectivamente, los datos de una hoja de
datos.
prod() cumprod() son el equivalente a sum() cumsum() para el producto.
sqrt() es la funcin raz cuadrada.
log() es la funcin logaritmo natural neperiano.
log10() es el logaritmo en base 10.
exp() es la funcin exponencial.
max() min() proporcionan el mximo el mnimo del argumento (habitualmente, un vector).
sort () proporciona la ordenacin de un vector de menor a mayor.
2.4. La ayuda de R
Si se desea obtener ayuda sobre el uso de alguna funcin cuyo nombre conocemos, podemos utilizar la
ayuda de R simplemente antecediendo el nombre de esa funcin con un signo de interrogacin.
Por ejemplo, ?sort abrir una ventana de nuestro explorador con todos los detalles sobre el uso de esa
funcin, incluyendo interesantes ejemplos.
Pero, qu ocurre si se necesita ayuda sobre un aspecto del que desconocemos qu funcin nos lo facilita?
Supongamos, por ejemplo, que se desea saber cmo se realiza la descomposicin de Choleski de una
matriz. En ese caso, si no se sabe qu funcin facilita esa descomposicin, se escribe ??choleski. Eso abrir
una ventana de R con todas las funciones que incluyen la palabra Choleski en su ayuda.
Si se quiere ayuda concreta sobre esta funcin, solo se ejecuta ?Choleski. Sin embargo, la funcin Choleski()
se encuentra dentro del paquete Matrix, por lo que se tiene que cargar este paquete antes de pedir la
ayuda. Las instrucciones seran:
library(Matrix)
?Choleski
Un ltimo paso en la bsqueda de ayuda. Qu ocurre si se necesita ayuda sobre algo que est en una
funcin de un paquete que no est instalado? Se debe tener en cuenta que, al instalar R tan solo se
incorpora una mnima parte de los paquetes que el proyecto CRAN tiene, gracias a la colaboracin de los
miles de desarrolladores de R, as que, si no encontramos ayuda en los paquetes instalados por defecto,
puede que aun as, exista un paquete en CRAN donde haya algo al respecto.
3. Manejo de datos
3.1. Introduccin de datos nuevos
3.1.1. La hoja de datos
Vamos a ponernos en una situacin general en la que tenemos informacin sobre n individuos, informacin
que se refiere a k variables. En ese caso, la forma en que en Estadstica se organiza toda esta informacin es
una matriz de dimensiones n k, donde cada fila representa un individuo caso cada columna representa
una variable dato.
Por ejemplo, consideremos que tenemos la puntuacin en una prueba escrita (x) en una prueba oral (y), de
una muestra de 10 personas. Su matriz de datos es la siguiente:
161
203
235
176
201
188
228
211
191
178
159
206
241
163
197
193
209
189
169
201
clculo de Excel. En esta hoja debemos introducir los datos con la misma estructura que tiene la matriz de
datos que acabamos de escribir, con los individuos en las filas las dos variables en dos columnas.
Una vez introducidos los datos, debemos nombrar las variables, es decir, las columnas, con nombres
sencillos que nos recuerden a que variable corresponde cada columna. Para ello clicamos con el ratn sobre
la parte superior de cada columna, donde R Commander nombra por defecto las variables como var1, var2,
etc. escribimos otros nombres ms acordes con nuestros datos
Para terminar, cerramos la ventana del editor de datos. En ese momento, R habr almacenado los datos
introducidos convirtindolos en lo que R Commander llama el conjunto de datos. Observen que justo
encima de la ventana de instrucciones aparece ahora una pestaa informativa que pone Conjunto de datos:
Prueba. Esta ventana especifica que, en efecto, el conjunto de datos activo en este momento es el que
nosotros hemos llamado Prueba.
Finalmente, podemos retocar estos datos pulsando la pestaa Editar conjunto de datos que hay justo sobre
la ventana de instrucciones simplemente visualizarlos pulsando la pestaa Visualizar conjunto de datos.
Como comentario final, debemos advertir que por problemas con el lenguaje de programacin en el que
est diseado R R Commander, es frecuente que al abrir cerrar el editor de datos, el programa se
bloquee, por lo que recomendamos hacerlo solo cuando sea imprescindible. Adems, tambin es
recomendable cerrar la ventana del editor, evitando dejarla minimizada.
3.1.3. Almacenamiento de un conjunto de datos en R Commander
Para guardar una hoja de datos en R Commander, seleccionamos en el men Datos la opcin Conjunto de
datos active y, dentro de esta, Guardar el conjunto de datos activo (Figura 3.2). A continuacin nos pedir
un nombre un directorio donde almacenar el fichero, cuya extensin por defecto ser .rda.
Si posteriormente queremos cargar estos datos, no tenemos ms que usar la opcin del men Datos
Cargar conjunto de datos buscar el archivo correspondiente mediante la ventana del explorador que se
abre.
10
11
Vamos a ver como se hace mediante un ejemplo. En el archivo promedio.txt aparecen datos relativos al
promedio de los estudiantes de una universidad, discriminados por estrato, tiempo en horas semanales
dedicadas a estudiar, edad y si trabaja o no. Si abrimos este fichero con el bloc de notas, tiene el aspecto
que aparece a continuacin. En ella podemos ver que, en efecto, se excluye el nombre de las variables,
adems, los decimales estn separados por puntos y el caracter que separa las variables es el espacio.
Mediante R Commander
Nos vamos a la opcin del men Datos Importar datos desde archivo de texto portapapeles...
12
Se abre una ventana como la que se muestra a continuacin, en la que debemos elegir las opciones del
archivo Importa_ texto.txt:
Nombre: Por ejemplo, Datos.
Nombre de las variables en el fichero: desactivado.
Indicador de valores ausentes: lo dejamos en blanco.
Separador de campos: espacios.
Caractr decimal: punto.
Como vemos, se puede escoger entre buscar los datos dentro de un archivo de nuestro disco duro
(sistemade archivo local) bien desde el portapapeles. En el primer caso, se abre una ventana del
explorador para que encontremos el archivo lo seleccionamos. Ahora el conjunto de datos activo es Datos.
Si lo deseamos, podemos guardar este conjunto de datos activo con formato .rda() para que la prxima vez
no tengamos que importarlo de nuevo.
13
Mediante R Commander
En el caso de los archivos tipo Excel, R Commander no necesita que le digamos nada, ya que detecta
automticamente los nombres de las variables si estn presentes. No obstante, estos no deben incluir
caracteres extraos, deben estar todos los nombres de todas las variables ninguno; en cualquier otro
caso, la importacin podra ser invalida.
Nos vamos a la opcin del men Datos Importar datos datos Excel, Access dBase..., eligiendo
despus el archivo a travs de la ventana del explorador.
Por ejemplo, el archivo universidad.xls contiene para cada estudiante universitario 6 variables, que
consisten en el valor de la matricula VMATRI, el promedio PROM, el nmero de horas semanales que
dedican a estudiar por fuera de clase HORAS, el estrato socioeconmico ESTRATO, si trabajan o no TRAB y la
facultad a la que pertenecen FAC. Los datos se encuentran en la Hoja1, por lo tanto la debemos seleccionar.
3.4
.
Re
14
15
16
A continuacin seleccionamos en el men Fichero Guardar las instrucciones. Nos pedir el nombre la
ruta donde guardar el fichero de instrucciones, que tendr extensin .R. Una buena idea para nombrar los
ficheros de instrucciones, es ponerles como nombre la fecha del da, por ejemplo, 10_09_13. No es
necesario escribir la extensin (pero tampoco la borremos): lo har el propio programa. Podemos
debemos seguir guardando las instrucciones con posterioridad, eligiendo de nuevo Guardar las
instrucciones, pero ya no nos pedir de nuevo un nombre, a no ser que elijamos Guardar las instrucciones
como.
4. Estadstica descriptiva
4.1. Calculo de medidas de posicin, dispersin forma
Mediante R Commander
Las medidas de posicin, dispersin forma ms comunes, media, mediana, percentiles, desviacin tpica
coeficiente de asimetra, se hallan en la opcin del men Estadsticos Resmenes Conjunto de datos
activo
17
Al seleccionar esta opcin nos muestra un resumen de cada una de las variables
disponibles en el conjunto de datos, como se muestra a continuacin, es importante resaltar
que al pedirle al programa que realice un resmen el desconoce la naturaleza de los
datos, porque si bien distingue de datos numricos y alfanumricos, el investigador debe
distingir entre los tipos de variables con los que cuenta la base de datos para realizar
futuras interpretaciones de los resultados.
18
A modo de ejemplo, vamos a obtener estas medidas para la variable VMATRI discriminada por la variable
RESTRATO la cual fue re codificada en la seccin anterior. Los resultados son los siguientes:
Aqu, mean se refiere a la media, sd a la raz de la varianza muestral, IQR es el rango intercuartil, el
percentil 0 es el valor mnimo de la variable, el percentil 50, como ya sabemos, es la mediana el percentil
100 es el valor mximo de la variable.
19
En la ventana emergente elegimos las variables que queremos analizar, la tabla aparece en la ventana de
resultados, incluyendo las frecuencias absolutas relativas.
20
En esta ventana hemos solicitado un anlisis de la variable FAC. Es muy importante tener en cuenta que
solo pueden representarse variables cualitativas de tipo factor.
La funcin barplot() nos permite obtener la distribucin de barras mediante cdigo. Aqu tenemos
posibilidad de controlar ms cosas.
El grfico obtenido con los pasos anteriores es el que se muestra en la siguiente figura, este grfico contiene
las frecuencias absolutas para cada categora,
21
La ventana emergente solo permite elegir una variable cualitativa. De nuevo es muy importante tener en
cuenta que solo pueden representarse variables cualitativas de tipo factor. El diagrama correspondiente al
tipo de facultad es el siguiente:
22
La ventana de entrada permite elegir solo una variable para cada anlisis (pestaa Datos), el nmero de
intervalos del histograma la escala de este: frecuencias absolutas, porcentajes densidades (pesta
a
Opciones).
23
En el caso de la variable VMATRI hemos seleccionado histogramas con escala en frecuencias el Nmero de
clases con la opcin <auto> (Por defecto, asigna el nmero de intervalos por el conocido mtodo de
Sturges.). El grfico obtenido se muestra a continuacin:
24
Las dos ventanas de entradas son muy parecidas: en ellas tenemos que elegir la variable que queremos
analizar existen dos opciones muy interesantes: Grfica por grupos y en la pestaa Opciones se encuentra
identificar datos atpicos. Inicialmente realizaremos un Boxplot discriminando por grupos, para elegir esta
opcin damos click en la opcin Grfica por grupos y seleccionamos la variable categrica por la cual
queremos discriminar el anlisis.
25