Está en la página 1de 6

Gua de Estadstica Descriptiva y Exploratoria en R con Rcmdr

FERNANDO SANTA GUZMN


1

______________________

1. Introduccin

A continuacin se muestran algunas instrucciones que permiten la generacin de los
mtodos estadsticos descriptivos y exploratorios usados comnmente, por medio del
software R y de sus paquetes Rcmdr e IPSUR. R se caracteriza por la flexibilidad y la
disponibilidad qu posee en el anlisis de datos. La flexibilidad expresada en la posibilidad
de modificar las funciones propias y/o generar nuevas dependiendo de la necesidad del
usuario y, la disponibilidad que hace referencia a que es un software libre y no requiere de
una gran inversin de recursos en su adquisicin. Pese a lo anterior, R en algunos
procedimientos no es eficiente cuando los conjuntos de datos son voluminosos (millones de
registros).
Para los nuevos usuarios de R es comn considerarlo poco amigable y difcil de
manejar, pues en principio es una interfaz de comandos, lo que implica tener que conocer
exactamente el nombre y el uso de las funciones propias al momento de invocarlas. En los
ltimos aos, ha sido desarrollado un paquete (extensin de R, grupo de funciones con un
objetivo especfico) llamado Rcmdr, el cual al ser ledo abre una ventana de mens
adicional que permite al usuario llevar a cabo los principales anlisis estadsticos de una
manera sencilla y sin la necesidad de memorizar una gran cantidad de instrucciones.
Adicionalmente, el Rcmdr tiene la ventaja, que al ejecutar cualquier accin en los mens
los cdigos en lenguaje R que hubieran sido necesarios para obtener dicho resultado
tambin aparecen en pantalla, lo que permite a los usuarios conocer fcilmente funciones
del R y la posibilidad de crear grupos de instrucciones que pueden repetirse rpidamente sin
tener que realizar en cada momento el mismo proceso.

2. Instalacin del R bajo Windows

Para descargar el programa R, en un navegador de internet dirjase a la siguiente
direccin: http://cran.r-project.org/bin/windows/base/ descargue el archivo y ejectelo. Para
la instalacin, se pueden escoger las opciones por defecto, debe asegurarse que en el paso
que se llama Seleccin de los componentes se seleccionen todos los tems con el fin de
garantizar que la ayuda del software quede completamente habilitada.
Luego se debe realizar la instalacin de los paquetes que sern empleados, la manera
ms sencilla es cuando de dispone de un acceso a internet sin restricciones de
administrador, pues generalmente en redes de trabajo los administradores bloquean la
descarga de archivos por parte de los software. Al momento de instalar los paquetes se debe
ejecutar el R como administrador, con el fin de que los nuevos paquetes instalados sean
ubicados en la misma carpeta que los paquetes base instalados directamente por el R; pues

1
Ingeniero Catastral y Geodesta; Estadstico; Msc. en Geomtica. E mail: lfsantag@unal.edu.co
cuando la instalacin no se realiza como administrador los paquetes son ubicados en Mis
Documentos y slo ser posible usarlos en la actual sesin de trabajo y no posteriormente.
Vaya al men de inicio busque el R y de clic derecho sobre el icono para abrir el programa
y escoja Ejecutar como administrador. Cuando el programa est abierto, en el men
Paquetes vaya a Instalar paquetes(s) cuando le pida seleccionar CRAN Mirror escoja
Austria. En la siguiente ventana, debe marcar los paquetes que se desean instalar, por favor
busqu los siguientes: abind, IPSUR, Rcmdr y RcmdrPlugin.IPSUR y de Aceptar.
Cuando el proceso termine, en la consola del R escriba la siguiente instruccin:

r equi r e( Rcmdr )

Posterior a ello aparecer una nueva ventana que le indicar que hacen falta unos
paquetes adicionales para que la nueva interfaz funcione completamente, all se debe
seleccionar que descargue los archivos faltantes marcando la opcin CRAN. Este proceso
puede tardar unos minutos dependiendo la velocidad de conexin de la red. Al finalizar se
desplegar una nueva ventana ms completa que la consola del R. Cierre el R sin guardar la
imagen del rea de trabajo.

3. Importacin de datos

Inicialmente, se debe crear una carpeta en el directorio C: \ con el nombre
Tr abaj oR donde debe guardar los archivos de trabajo, en este caso el archivo
caudales.xlsx que contiene los datos de los valores mximos mensuales de caudales
medidos en metros cbicos por segundo en 6 seis estaciones de monitoreo en el
departamento de Cundinamarca durante el perodo enero de 2004 a diciembre de 2011.
Se deben recalcar en este punto varios aspectos. El primero de ellos sobre el nombre
de la carpeta, pues ella podra recibir cualquiera lo importante es que al llamarla se tiene
que usar el nombre exacto que tiene en el sistema diferenciando entre maysculas y
minsculas y si hay espacios en blanco entre caracteres. El segundo punto es el de la
ubicacin dentro del equipo, ella puede estar ubicada en cualquier parte del disco, solo que
para invocarla dentro de R se facilita si no est en un directorio bastante oculto.
Luego abra el R y utilice las siguientes instrucciones para cambiar el directorio de
trabajo, que por defecto est en Mis Documentos, y ponerlo en la carpeta creada
anteriormente, finalmente verificar que archivos estn en esa ubicacin:

set wd( " C: \ \ Tr abaj oR" )
di r ( )

El resto del trabajo se llevar a cabo en el Rcmdr y algunas funciones del paquete
IPSUR, para abrir las funciones de ambos paquetes de manera simultnea use la
instruccin:

r equi r e( Rcmdr Pl ugi n. I PSUR)

Cuando se encuentre abierta la interfaz del Rcmdr puede usted visualizar 9 mens con
funciones especficas para muchos de los ms comunes anlisis estadsticos.
Para la lectura de datos el R y en particular en Rcmdr tiene una gran diversidad de
fuentes externas de datos que son reconocidas para la importacin de la informacin. Dos
de las ms comunes son los archivos planos o de texto y los archivos de MS Excel. Para
que un conjunto de datos pueda ser correctamente ledo en R, el archivo donde se encuentra
almacenado debe tener unas ciertas caractersticas de integridad. Por ejemplo, en el caso de
MS Excel, cada columna representa la informacin de cada variable y cada fila representa
la informacin de cada unidad estadstica; se requiere adicionalmente que la primera fila
contenga el rtulo o el nombre de cada variable, y en cada nombre deben evitarse el uso de
espacios y caracteres extraos.
Para importar el conjunto de datos dirjase al men Datos, all entre al submen
Importar datos y seleccione desde conjunto de datos Excel, Access o dBase y en la
ventana que se despliega Aceptar por defecto el nombre de Datos, el cual ser el nombre de
la tabla dentro de R, en la siguiente ventana dar clic donde aparece Fichero MS Excel
(*.xls, *.XLS) y cambiarlo por Fichero MS Excel 2007 (*.xlsx, *.XLSX), entonces,
seleccione el archivo llamado caudales. Para conocer como son almacenados en R los datos
de clic en el botn Visualizar conjunto de datos, el cual debe aparecer as:



Cierre la ventana de los datos.

4. Estadstica descriptiva y exploratoria

Inicialmente, se crear una nueva variable de tipo cualitativo y medida en escala
ordinal para ilustrar la construccin de las tablas de frecuencias en el Rcmdr. Para ello vaya
al men Datos, Modificar variables del conjunto de datos activo, Segmentar variable
numrica en la ventana que se despliega seleccione que la Variable a segmentar es
La_Iberia, cambie el Nombre de la nueva variable de variable por ClasIberia y especifique
Nmero de clases sea 6 y el Mtodo de segmentacin es Segmentos equidistantes y de
Aceptar. En la nueva ventana deber cambiar el nombre a cada clase as: 1=Bajo-bajo,
2=Bajo-alto, 3=Medio-bajo, 4=Medio-alto, 5=Alto-bajo, 6=Alto-alto; y Aceptar de nuevo.
De nuevo visualice el conjunto de datos y responda:

(1) Por qu al segmentar una variable numrica, su escala de medida es ordinal?
(2) Qu cambios se presentaron en la estructura de la base de datos luego de la
segmentacin?

Para construir la distribucin de las frecuencias vaya al men Estadsticos,
Resmenes, Frequency distributions (IPSUR) en Variable (elegir una) seleccione
ClasIberia y Aceptar. Este anlisis puede ser complementado con la obtencin del grfico
de Pareto. En el men Grficas, Pareto chart (IPSUR) seleccione ClasIberia.
Responda:

(1) Cul estadsticas son desplegadas en pantalla? Para qu son empleadas?
(2) Cul de los resultados proporciona ms detalle respecto de la variable en estudio?
(3) De una caracterizacin del comportamiento de los caudales de mximos mensuales en
la estacin La Iberia.

Actividad:

(1) Rcmdr dispone de otras herramientas para obtener resultados similares, obtenga la
distribucin de frecuencias con Estadsticos, Resmenes, Distribucin de
frecuencias y en Grficas, Grfica de barras y Grfica de sectores qu puede
concluir al respecto de cada una de las funciones?
(2) Clasifiqu una segunda variable y repita los mismos procedimientos. Qu puede
comentar del comportamiento estadstico de estas dos variables?

El anlisis descriptivo y exploratorio de una variable cuantitativa puede conducirse de
la siguiente manera. Para la obtencin de las medidas resumen se debe ir a Estadsticos,
Numerical summaries (IPSUR) y seleccionar la variable a analizar, en este caso
LaIberia, y las medidas a calcular. El grfico descriptivo bsico, el histograma, se obtiene
en Grficas, Histograma en la pestaa Datos se selecciona la variable LaIberia y en la
pestaa Opciones estn los argumentos para modificar y editar la configuracin de la
figura, nicamente modificar el argumento Escalas de los ejes seleccionando Porcentajes y
Aceptar. Los grficos exploratorios convencionales son el diagrama de tallos y hojas y el
diagrama de caja y bigotes, el primero se puede conseguir en Grficas, Grfica de tallos y
hojas en la pestaa Datos se marca la variable LaIberia y en la pestaa Opciones se
escogen Partes por tallo Automtico, Estilo de divisin de los tallos Dgitos repetidos de
los tallos y en Otras opciones se deshabilitan todas cajas y Aceptar; para el segundo
Grficas, Diagrama de caja en la pestaa Datos se marca la variable LaIberia y en la
pestaa Opciones se escogen Identificar atpicos Automticamente y Aceptar. Responda:

(1) En el resumen de medidas descriptivas y exploratorias, cul estadsticas son
desplegadas en pantalla? Para qu son empleadas? Qu tipo de informacin
proporcionan?
(2) Explique cmo ha sido el comportamiento de los caudales de mximos mensuales en la
estacin La Iberia.

Actividad:

(1) Rcmdr dispone de otras herramientas para obtener resultados similares, obtenga las
medidas estadsticas con Estadsticos, Resmenes numricos y en Grficas, Boxplot
(IPSUR) qu puede concluir al respecto de cada una de las funciones? hay cambios en
la cantidad y tipo de medidas obtenidas?
(2) Realice el anlisis para cada uno de las dems estaciones y compare el comportamiento
de los caudales mximos. Hay comportamientos similares? Hay algn tipo de
regularidad que se pueda destacar?

Para el anlisis de las relaciones entre pares de variables, se pueden obtener las
correlaciones entre pares de variables y construir diagramas de dispersin por pares de
variables. La matriz se obtiene en Estadsticos, Resmenes, Matriz de correlaciones en
Variables se seleccionan las de inters, en este caso los caudales de las seis estaciones en
consideracin, Tipo de correlaciones Coeficiente de Pearson y en Observaciones a usar
Observaciones completas y Aceptar. Los diagramas de dispersin pueden ser presentados
de dos formas; la primera en la cual cada par de variables son representadas en un solo
grfico, para ello en Grficas, Diagrama de dispersin en la pestaa Datos se escogen el
par de variables (una para cada eje), LaIberia y PteVargas, y en la pestaa Opciones en
Opciones de grfica nicamente dejar seleccionado Lnea de mnimos cuadrados y el resto
por defecto y Aceptar; la segunda alternativa es mostrar todos los posibles diagramas de
dispersin en la misma ventana, Grficas, Matriz de diagramas de dispersin en la
pestaa Datos seleccionar las 6 estaciones y en la pestaa Opciones en el argumento En la
diagonal Histogramas y Otras opciones Lnea de mnimos cuadrados y Aceptar. Responda:

(1) Cul de los grficos resulta ms til para representar la informacin?
(2) Qu informacin adicional presenta la matriz de diagramas de dispersin?
(3) Describa las relaciones lineales ms importantes entre los valores de los caudales
mximos entre estaciones.

Finalmente, tambin es posible estudiar la relacin entre una variable de tipo
cualitativo con una de tipo cuantitativo. Se cambiar la naturaleza numrica de la variable
Ao para que R asuma que ella es un atributo. En el men Datos, Modificar variables del
conjunto de datos activo, Convertir variable numrica en factor en Variables
seleccionar Ao y en Niveles del factor Utilizar nmeros y Aceptar en la siguiente ventana
emergente S. La idea es establecer si con el paso de los aos hay un cambio en el nivel
medio del caudal en cada estacin. Lo primero es comparar las medidas descriptivas y
exploratorias en cada estacin entra cada uno de los aos, en Estadsticos, Resmenes,
Numerical summaries (IPSUR) en Variables LaIberia en Resumir por grupos Ao y
Aceptar y Aceptar. De manera grfica puede ser explorada as, Grficas, Diagrama de
caja en Variable LaIberia y en Grfica por grupos Ao y Aceptar y Aceptar; la
segunda alternativa es en Grficas, Grfica de las medias en la pestaa Datos en
Factores escoger Ao y en Variable explicada LaIberia y en la pestaa Opciones en
Barras de error Intervalos de confianza y Aceptar. Responda:

(1) Hay algn tipo de cambio en los niveles medios de los caudales en la estacin La
Iberia respecto de los aos? Por qu?
(2) Realice el mismo anlisis para las dems estaciones. presentan el mismo tipo de
comportamiento?

También podría gustarte