Está en la página 1de 31

Prcticas de Estad a stica con R E.T.S.Ing.

Industrial
Universidad de Cantabria1 Curso 20072008

Adaptado del manual de R de Estad stica EUITIO

Indice general
1. Estructura de R 1.1. Comienzo de sesin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.2. Ayuda incluida con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Ventana de rdenes (consola) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1.4. Interfaz grca (Rcommander) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 1.4.1. Barra de mens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 7 7 7 8 8 9

1.4.2. Barra de elementos activos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4.3. Ventana de instrucciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.4. Ventana de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.5. Ventana de mensajes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.5. Fin de sesin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 o 2. Manejo de datos 13

2.1. Obtencin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 o 2.1.1. Creacin de un conjunto de datos nuevo . . . . . . . . . . . . . . . . . . . . . 14 o 2.1.2. Importar datos de un chero externo . . . . . . . . . . . . . . . . . . . . . . . 15 2.1.3. Utilizar datos incluidos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2. Trasformaciones de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.1. Renombrar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.2. Recodicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.3. Calcular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.4. Convertir a factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.5. Agrupar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2.6. Eliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3. Anlisis descriptivo con una variable a 23

3.1. Anlisis numricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 a e 3.1.1. Resumen rpido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 a 3

INDICE GENERAL 3.1.2. Resmenes numricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 u e 3.1.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2. Representaciones grcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 a 3.2.1. Grca secuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 a 3.2.2. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2.3. Tallo y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2.4. Grco de cajas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 a 3.2.5. Grco de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 a 3.2.6. Grco de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 a

El paquete R1 es una coleccin de programas libres2 diseada para el anlisis estad o n a stico de datos, que permite desde los anlisis descriptivos ms sencillos (como tablas de frecuencias a a simples) a procedimientos inferenciales ms complejos (como el anlisis de varianza o el anlisis de a a a componentes principales). R realiza tres funciones esenciales: (1) leer datos, (2) especicar el tipo de anlisis que se quiere a realizar con esos datos y (3) mostrar los resultados obtenidos tras los anlisis. La interpretacin de a o los resultados es tarea del investigador.

1 2

Sitio de referencia: http://www.r-project.org. En el sentido GNU: http://gnu.org/philosophy/free-sw.es.html.

Instalacin de R o
Debian GNU/Linux
Mediante algn gestor de paquetes, solicita la instalacin de los paquetes r-cran-rcmdr y u o r-cran-fbasics. Por ejemplo, en la l nea de rdenes: o aptitude install r-cran-rcmdr r-cran-fbasics

Microsoft Windows
Si dispones de acceso a Internet: 1. Descarga el chero ejecutable http://cran.r-project.org/bin/windows/base/R-2.6.2-win32.exe 2. Ejecuta el chero descargado, teniendo en cuenta: a) Cuando pregunta si deseamos establecer opciones de instalacin, escoge S o . b) Para el modo de presentacin (MDI o SDI), escoge SDI (es conveniente por la impleo mentacin actual de Rcommander). o 3. Ejecuta el programa R, ya instalado. 4. En el men Paquetes, pincha en Seleccionar espejo CRAN. u 5. En el cuadro de dilogo, escoge Spain (Madrid), France (Toulouse), Portugal o algn otro a u cercano, y pulsa OK. 6. En el men Paquetes, pincha en Instalar paquete(s) u 7. Escoge fBasics y Rcmdr y acepta.

INDICE GENERAL

Tema 1

Estructura de R
El objetivo de este primer tema es que el alumno aprenda a manejar el programa R. Para ello, primero hablaremos de su estructura: sus ventanas y los elementos que las constituyen (barras de mens, de elementos activos, etctera). u e

1.1.

Comienzo de sesin o

Tras arrancar el programa, aparece una ventana titulada Consola R que indica la versin de o R y cmo obtener informacin de la licencia de uso. o o R version 2.6.2 (2008-02-08) Copyright (C) 2008 The R Foundation for Statistical Computing ISBN 3-900051-07-0 R es un software libre y viene sin GARANTIA ALGUNA. Usted puede redistribuirlo bajo ciertas circunstancias. Escriba license() o licence() para detalles de distribucion. R es un proyecto colaborativo con muchos contribuyentes. Escriba contributors() para obtener ms informacin y citation() para a o saber cmo citar R o paquetes de R en publicaciones. o Escriba demo() para demostraciones, help() para el sistema on-line de ayuda, o help.start() para abrir el sistema de ayuda HTML con su navegador. Escriba q() para salir de R.

1.2.

Ayuda incluida con el programa


?rnorm help.start() ?help.search help.search(normal) ?apropos apropos(normal) 7

8 ?demo demo(graphics); demo(persp); demo(lm.glm)

TEMA 1. ESTRUCTURA DE R

1.3.

Ventana de rdenes (consola) o

Por debajo del t tulo, esta ventana contiene una barra con los siguientes mens, cuyas opciones u principales destacamos: Fichero Operaciones bsicas con los cheros. Slo usaremos: a o Salir Para salir del programa. Editar T pico men con opciones de edicin (copiar, pegar, ...). u o Misc Opciones avanzadas. Paquetes Permite gestionar los paquetes adicionales de R. Nos interesar la opcin: a o Cargar paquete Para activar un paquete en concreto. Ayuda Informacin abundante sobre R. o La consola permite una interaccin con el intrprete de lenguaje R. A grandes rasgos, se o e trata de un lenguaje de alto nivel, al estilo de Octave/Matlab, pero orientado a la computacin o estad stica1 .

1.4.

Interfaz grca (Rcommander) a

Desde el men Paquetes, pinche en Cargar paquete y escoja Rcmdr. Aparece una interfaz u grca2 que permite acceder a muchas de las rdenes de gestin y anlisis de datos del lenguaje R. a o o a La pantalla presenta el aspecto de la gura 1.1. En la parte superior puede observarse una barra que consta de una serie de mens (Archivo, u Editar, Datos, etc.). Si se selecciona con el ratn cada una de ellas aparece un men desplegable o u donde se ofrecen otros submens, cada uno de los cuales tiene a su vez un cuadro de dilogo que u a es el lugar donde se especican los detalles de cada procedimiento. Inmediatamente debajo aparece otra barra que indica el conjunto de datos activo (Datos:) y el modelo activo. Hay botones para ver los datos (Visualizar datos) y modicarlos (Editar datos). A continuacin viene la ventana de instrucciones. Muestra las rdenes de R correspondientes a o o las opciones de los mens escogidas por el usuario. Adems, tales instrucciones se pueden modicar, u a y ejecutar mediante el botn Ejecutar. o La ventana de resultados contiene aquellas salidas de las rdenes ejecutadas que se muestran o en formato de texto.
1 En realidad, es un lenguaje con la semntica de Lisp/Scheme (con clausuras), lo que lo hace mucho ms elegante a a que Octave y Splus. 2 Basada en Tcl/Tk.

1.4. INTERFAZ GRAFICA (RCOMMANDER)

Figura 1.1: Aspecto inicial de la interfaz grca a Finalmente, la ventana de mensajes recoge la informacin adicional que R nos quiere hacer o llegar (por ejemplo, advertencias o mensajes administrativos). Si por cualquier motivo salimos de la interfaz grca, podemos volver a acceder a ella escribia endo en la consola la orden Commander(). A continuacin, repasamos con ms detalle cada una de las partes. o a

1.4.1.

Barra de men s u

En cada men describimos solamente las opciones de inters para este curso: u e Archivo Hay opciones para cargar o grabar instrucciones, resultados o el entorno de trabajo. Tambin para salir de la interfaz grca, o tambin de R. e a e Editar T pico men de edicin. Permite seleccionar, cortar, copiar, pegar y buscar. u o

10

TEMA 1. ESTRUCTURA DE R

Datos Permite la gestin de los datos por analizar. R mantiene distintos conjuntos de datos dentro o del entorno de trabajo. Uno (y slo uno) de ellos se considera activo. o Un conjunto de datos es una matriz con variables como columnas y casos como las. Lo comentaremos en la seccin 2. o Estad sticas Recoge los diferentes mtodos de anlisis que se pueden aplicar al conjunto de datos e a activo. Se comentar a partir de la seccin 3. a o Grcas Recoge los diferentes tipos de grco que se pueden obtener. Se comentar a partir de a a a la seccin 3. o Modelos Un conjunto de datos puede tener asociados varios modelos estad sticos. Este men sirve u para la gestin de los mismos. o Distribuciones Para trabajar con funciones de distribucin de probabilidad: cuantiles, probabilo idades y grcas asociadas a las distribuciones normal, t, 2 , F , binomial. . . Se emplear en a a el segundo trimestre. Herramientas Este men de utilidades contiene: u Cargar paquet(e) Para cargar paquetes de R adicionales. No ser necesario para los cona tenidos del curso. Opciones Para ajustar diferentes caracter sticas de la interfaz, por ejemplo, el tamao tin pogrco. a Ayuda La ayuda de la interfaz grca es una extensin de la ofrecida por la consola. a o Ayuda de R Commander Uso de la interfaz grca. a Introduccin a R commander Art o culo introductorio con imgenes. a Ayuda sobre los datos activos (si es posible) Misma opcin que bajo el men Datos. o u Informacin sobre Rcmdr Versin y autores de la interfaz grca. o o a Adems, la mayor de los cuadros de dilogo dispone de un botn Ayuda que ofrece infora a a o macin sobre las rdenes de R asociadas a la accin correspondiente. o o o

1.4.2.

Barra de elementos activos


attach(trees) data(trees) names(trees) row.names(trees)

Consta de:

1.4. INTERFAZ GRAFICA (RCOMMANDER)

11

Datos Nombre del conjunto de datos activo, es decir, el que se toma por omisin a la hora de o ejecutar una orden. Editar datos Hace aparecer una cuadr cula donde es posible modicar el contenido del conjunto actual de datos. Visualizar datos Muestra el contenido del conjunto actual de datos.

Modelo Para un mismo conjunto de datos se pueden crear diferentes modelos de anlisis (de a regresin lineal, de componentes principales...). Este men permite escoger el modelo activo, o u es decir, aqul considerado por omisin cuando se ejecuta una orden. e o

1.4.3.

Ventana de instrucciones

Se puede acceder a muchas rdenes desde los mens y los cuadros de dilogo. No obstante, o u a algunas rdenes y opciones slo estn disponibles mediante el uso del lenguaje R. Adems, se pueden o o a a grabar los guiones en un chero de texto (habitualmente con extensin .R) con lo que podr repetir o a los anlisis en otro momento o ejecutarlos en un trabajo automatizado. a Un chero .R es simplemente un chero de texto que contiene rdenes. Es posible escribir o o rdenes directamente en la ventana de guiones3 . Sin embargo, es ms sencillo permitir que el a programa le ayude a construir un guin aprovechando que la realizacin de una accin desde un o o o cuadro de dilogo aade la orden a la ventana de guiones. En sta puede ser modicada para su a n e posterior ejecucin. Para ello, ha de seleccionar con el ratn la orden u rdenes y despes ha de o o o u pinchar en el botn Submit o Ejecutar. o

Tambin en la consola. e

12

TEMA 1. ESTRUCTURA DE R

En el cuadro de dilogo de un procedimiento determinado, pulse en el botn Help o Ayuda a o para saber qu opciones del lenguaje R estn disponibles (si hay alguna) para ese procedimiento. Si e a desea informacin completa sobre el lenguaje de rdenes, consulte el manual de referencia incluido o o con la documentacin de R. o

1.4.4.

Ventana de resultados

Una vez que se solicita un anlisis con los datos, los resultados obtenidos se muestran en la a ventana inferior, mostrada en la pgina siguiente. a

El texto en rojo son las rdenes correspondientes que aparecen en la ventana de instrucciones. o El texto en azul es el resultado de cada orden. Los contenidos de la ventana de resultados son texto puro, que puede ser copiado a cualquier editor de texto para su procesamiento.

1.4.5.

Ventana de mensajes

Recoge las indicaciones y advertencias de R.

1.5.

Fin de sesin o

En el men Archivo, ptese por (Salir ) u o De Commander Se abandona la interfaz grca, pero no la consola de R. Recuerde que para a volver a la interfaz grca puede escribir Commander(). a De Commander y R Abandona el entorno R completamente. En ambos casos se pide conrmacin del abandono, y se pregunta si se quiere guardar el contenido o de las ventanas de instrucciones y de resultados.

Tema 2

Manejo de datos
En este tema aprenderemos a manejar los conjuntos de datos y a leer y almacenar en un chero los datos necesarios para realizar un anlisis. Estas tareas se realizan a travs del men Datos, cuyas a e u opciones mostramos someramente a continuacin: o Nuevos datos Para introducir nuevos datos por el teclado. Requiere dar un nombre a los datos nuevos, que no puede contener espacios ni caracteres especiales. Importar datos Para leer datos contenidos en un chero. Soporta varios formatos: texto puro, SPSS, Minitab. . . Datos en paquetes R contiene una coleccin de datos de ejemplo, por si queremos ejercitarnos o con el programa pero no disponemos de datos propios adecuados. Datos activos Aqu se gestiona el conjunto de datos activo. Seleccionar los datos activos Elegir el conjunto de datos activo entre los que hay disponibles en ese momento en la sesin. o Ayuda sobre los datos activos (si es posible) Algunos conjuntos de datos (como los de ejemplo) contienen una descripcin. o Variable de los datos activos Lista los nombres de las variables del conjunto de datos. Establecer nombre de casos A veces una variable no es tal, sino que contiene los nombres de los casos. Esta opcin permite indicrselo a R. o a Filgrar los datos activos Si queremos que los anlisis subsiguientes se realicen sobre una a subconjunto de los casos, aqu podemos indicar una expresin de ltro. El ltro construye o un nuevo conjunto de datos, cuyo nombre conviene indicar; en caso contrario, la seleccin o se hace permanente (se eliminan los casos que no pasan el ltro). Eliminar los casos sin datos En algunas variables, puede que se desconozca el valor para cierto caso: se trata de un dato ausente (missing). Esta opcin elimina los casos con o algn dato ausente. u Exportar los datos activos Para guardar una tabla con el conjunto de datos activo en un chero de texto. Modicar variables de los datos activos Para realizar trasformaciones en los datos. Recodicar variable Crea una nueva variable a partir de una ya existente. Sirve para agrupar datos cuantitativos en intervalos. 13

14

TEMA 2. MANEJO DE DATOS Calcular una nueva variable Crea una nueva variable a partir de una frmula, la cual o puede involucrar al resto de las variables. Tipicar variables Para tipicar variables cuantitativas. Convertir variable numrica en factor Indica al programa que los nmeros no represene u tan cantidades, sino categor as. Segmentar variable numrica Simplica la agrupacin de datos cuantitativos en intervae o los, aunque por ello es menos exible que Recode variable. Renombrar variables Cambia el nombre de la variable. Eliminar variables de los datos Elimina la variable.

2.1.

Obtencin de datos o

Podemos introducir datos directamente, leerlos de un chero ya existente, o bien utilizar datos que R trae de ejemplo.

2.1.1.

Creacin de un conjunto de datos nuevo o

Esta opcin es conveniente cuando el conjunto de datos es pequeo. Para conjuntos de datos o n mayores, es ms cmodo crear un chero de datos por otros medios (por ejemplo, desde una hoja a o de clculo o una base de datos) y luego importarlo. a Lo primero que hay que tener en cuenta y no olvidar es que los conjuntos de datos (data set, data frame) estn organizados de forma matricial, donde las las se reeren a los casos (individuos, a unidades u observaciones) de la muestra y las columnas a las variables. Para introducir nuevos datos ha de escogerse al opcin Nuevos datos del men Datos. Se nos o u pide entonces un nombre para el conjunto de datos (pues pueden manejarse varios simultneaa mente).

Para introducir los datos simplemente se coloca el cursor en la celda correspondiente a cada individuo y variable. Para moverse de una celda a otra se puede utilizar el ratn, o las teclas o del cursor y retorno para el desplazamiento vertical, o las teclas del cursor y tabulador para el desplazamiento horizontal. Al introducir los datos, se observa que R da por omisin nombre a las variables (var1, var2, ...) o y dene sus caracter sticas. En principio, una variable puede ser numrica (numeric) o de caracteres e (character ). Si se desea cambiar el nombre o denir el tipo de variable hay que pulsar en la cabecera de la columna correspondiente. Llamaremos factores a las variables de caracteres. Nos servirn para representar variables a cualitativas, es decir, aqullas cuyo valores toman un nmero nito de modalidades. e u

2.1. OBTENCION DE DATOS

15

2.1.2.

Importar datos de un chero externo

El chero externo puede contener datos en formato de texto puro (ASCII) o en alguno de los formatos binarios soportados. En ambos casos ha de recurrirse al men Datos / Importar datos. u Los cheros de texto (columnas de nmeros) representan la forma ms universal para interu a cambio de datos. Para importar datos de texto se elegir la opcin desde un chero de texto, que a o abrir el cuadro de dilogo Leer datos de archivo de texto. a a

Es necesario indicar: Introducir nombre de datos: Para el conjunto construido a partir de los datos del chero.

16

TEMA 2. MANEJO DE DATOS

Nombres de las variables en el chero: Si el chero contiene los nombres de las variables en la primera la. Indicador de datos ausentes: Cmo se indica si un campo no contiene valores, esto es, que se o considera un valor ausente. Por omisin, el indicador es NA (not available, no disponible). o Puede dejarse as a menudo, pues si un campo de una variable numrica est vac tambin e a o, e se considera ausente. Separador de campos: Indique el carcter que separa los campos, bien espacio en blanco, comas, a tabuladores, o cualquier otro carcter que se puede especicar. a Carcter decimal: Si se utiliza punto o coma para separar los decimales de la parte entera. a En el caso de cheros binarios, se pueden abrir cheros guardados desde otros programas estad sticos, como SPSS y Minitab. As para abrir un chero SPSS elegimos desde datos SPSS en , el men Datos / Importar datos. u

2.1.3.

Utilizar datos incluidos en R

R incluye en su distribucin una coleccin importante de datos de todo tipo. Para ver una o o descripcin sucinta de los datos disponibles, elija la opcin Listar datos en paquetes del men Datos o o u en paquetes.

Si alguno resulta de inters, escoja, en el mismo men, la opcin Leer datos de paquete adjunto. e u o Indique el paquete y el conjunto de datos buscado, que se convertir en el conjunto de datos activo. a

2.2. TRASFORMACIONES DE LAS VARIABLES

17

2.2.

Trasformaciones de las variables

Vamos a utilizar diferentes opciones del men Datos / Modicar variables de los datos activos. u Considrese el siguiente conjunto de datos Importar Datos Desde Minitab.. ElPulse.mtp: e

La variable Ran es un factor, las variables Pulse1, Pulse2, Height y Weight son numricas. e Sin embargo, los valores de Smokes y Sex son binarios, donde 1 indica s y 0 indica no (conexin o segura o insegura, respectivamente) o male y female respectivamente. Vamos a considerar las siguientes trasformaciones:

18

TEMA 2. MANEJO DE DATOS

2.2.1.

Renombrar

La opcin Renombrar variables permite cambiar el nombre a una o varias de las variables del o conjunto de datos activo.

2.2.2.

Recodicar

Sirve para trasformar una variable cualquiera en una variable de tipo factor (de caracteres). Supongamos que queremos crear una variable binaria. Por ejemplo en el chero del Pulso, la variable Correr que toma los valores 1 y 2queremos codicarla de forma que valga Si para 1 y No par el 2. En la ventana de recodicar elegimos la variable Correr, como nuevo nombre de variable dejaremso la misma para que la sobreescriba y como Introducir directrices.. escribiremos 1=Si 2=No

2.2. TRASFORMACIONES DE LAS VARIABLES

19

Figura 2.1: Recodicar variables

2.2.3.

Calcular

Aqu podemos denir una nueva variable (o sobrescribir una antigua) mediante una expresin o arbitraria. Supongamos que queremos en nuestro chero cambiar la unidad de la variable Altura de pulgadas a cent metros. Teniendo en cuenta la equivalencia 1 in=2.54 cm. La opcin correo spondiente es Calcular una nueva variable.

Figura 2.2: Cambiamos las pulgadas de la altura a cent metros Pulso$Altura <- with(Pulso, Altura*2.54)

20

TEMA 2. MANEJO DE DATOS Ahora queremos crear una nueva variable Resul de forma que valga 1 cuando la altura de un alumno sea inferior a 183 cm y 0 en caso contrario. El cuadro de dilogo para Calcular a variable ser Indicar el nombre de la nueva variable de salida y la expresin a calcular. a: o En primera instancia hubisemos puesto simplemente la expresin e o Altura < 183 , pero los valores lgicos por defecto en R son TRUE y FALSE, por lo que si o queremos utilizarlos en numrico usaremos la funcin as.numeric. e o as.numeric(Altura < 183)

El resultado de la nueva columna con sus valores se puede ver en la imagen inferior.

2.2.4.

Convertir a factor

Cuando una variable numrica representa, en realidad, a una variable cualitativa en que los e nmeros son cdigos correspondientes a las modalidades, es necesario indicarlo al programa (ya u o que ste no puede discernir si los nmeros son cantidades o cdigos). e u o

2.2. TRASFORMACIONES DE LAS VARIABLES

21

Como se puede comprobar en las capturas de la seccin anterior, Smokes se considera factor. o Desde el men Datos - Modicar variables.., vamos a utilizar la opcin Convertir variable numrica u o e en factor.

Pulso$Fumar <- factor(Pulso$Fumar, labels=c(fuma,no fuma)) Se ofrece la posibilidad de dar nombre a las modalidades (Asignar nombres a los niveles).

En este caso hemos sustituido la denicin anterior de Smokes por la nueva. Pod o amos haber elegido crear una nueva variable. Realizar lo mismo para las variables codicadas Sex, Ran, y Activity

22

TEMA 2. MANEJO DE DATOS

2.2.5.

Agrupar

Mediante la recodicacin hab o amos visto cmo agrupar una variable numrica en intervalos. o e La opcin Segmentar variable numrica permite agrupar en intervalos de forma cmoda, si nos o e o conformamos con obtener intervalos de alguna de las tres formas siguientes: Segmentos equidistantes: Intervalos de igual amplitud. Segmentos de igual cantidad: Intervalos de igual frecuencia. Segmentos naturales: Se aplica un algoritmo de agrupacin automtica (k medias) para obtener o a los intervalos. Supongamos que queremos clasicar las personas en 3 tramos atendiendo a su Altura de forma que los intervalos midan lo mismo..

Los nombres de los grupos se pueden especicar, o crearse automticamente como nmeros a u o como rangos. En nuestro caso creamos la variable tramos.altura y como niveles hemos elegido bajos, medios y altos.

2.2.6.

Eliminar

La opcin Eliminar variables de los datos permite eliminar una o varias variables del conjunto o de datos activo. Como ejercicio eliminar la variable tramos.altura que hemos creado en el apartado anterior.

Tema 3

Anlisis descriptivo con una variable a


Se pueden obtener resultados numricos o representaciones grcas. e a

3.1.

Anlisis numricos a e

Los diferentes tipos de anlisis numricos para una variable se albergan bajo la opcin Resmenes a e o u del men Estad u sticas. Las posibilidades son:

3.1.1.

Resumen rpido a

Pulsando Estad sticos - Resmenes - Conjunto de Datos activos, se muestra una descripcin de todas las u o variables contenidas en un conjunto de datos (gura 3.1). Para las variables cuantitativas, se indica: mximo, m a nimo, cuartiles y media. Para las variables cualitativas, se da la frecuencia absoluta de las modalidades ms frecuentes (y la de los valores ausentes, si hay alguno). a

Figura 3.1: Resumen de los Datos Activos 23

24

TEMA 3. ANALISIS DESCRIPTIVO CON UNA VARIABLE

Si hay ms de diez variables en el conjunto de datos, R pide conrmacin, pues la abundancia a o de informacin puede resultar incmoda. o o

3.1.2.

Res menes numricos u e

En Resmenes numricos podemos obtener los valores de la media (mean), desviacin t u e o pica (standard deviation) y cuantiles (quantiles) arbitrarios para una variable cuantitativa (gura 3.2).

Figura 3.2: Resmenes numricos u e Conviene resaltar que R utiliza la cuasivarianza, es decir, cuando se le pide que calcule la varianza y la desviacin t o pica, lo que da exactamente es el resultado de las frmulas: o s2 = 1 n1 (xi x)2
i

s=

1 n1

(xi x)2
i

Para calcular otros descriptivos ha de recurrirse a la ventana de instrucciones. En primer lugar, f jese en que al efectuar el clculo de la media aparec en la ventana de instrucciones la orden a a

mean(Pulso$Peso, na.rm=TRUE) Veamos cmo obtener el descriptivo deseado sustituyendo la orden mean por la que corresponda o en su lugar1 . Para ejecutar la orden, ha de seleccionar la l nea completa y pulsar Ejecutar. Mediana: Utilice un cuantil de orden 0,5, como se vio arriba, o bien la orden median:

median(Pulso$Peso, na.rm=TRUE)
La parte , na.rm=TRUE es opcional y se utiliza para obtener un valor numrico (en lugar de un valor ausente, e NA) cuando los datos contienen valores ausentes.
1

3.1. ANALISIS NUMERICOS

25

Media recortada: Utilice el argumento trim de la funcin mean para indicar la fraccin (de 0 a o o 0,5) de observaciones eliminadas de cada extremo de la muestra antes de calcular la media. Por ejemplo, para una media recortada al 5 % por cada extremo:

mean(Pulso$Peso, trim=0.05) Amplitud: Aqu es necesario combinar dos rdenes: o

diff(range(Pulso$Peso)) Si la va a utilizar varias veces, es mejor denir una funcin amplitud: o amplitud <- function (x) diff (range (x)) % amplitud(Pulso$Peso) Recorrido intercuart lico: Utilice la orden IQR:

IQR(Pulso$Peso) Coeciente de variacin: Denamos la funcin CV, bien en la forma ms simple, o o a CV <- function (x) sd (x) / mean (x) o, para obtener un valor numrico incluso en datos con valores ausentes, e CV <- function (x) sd (x, na.rm=TRUE) / mean (x, na.rm=TRUE)

CV <- function (x) sd (x, na.rm=TRUE) / mean (x, na.rm=TRUE) Simetr Utilice skewness as2 : a: skewness(Pulso$Peso) Curtosis: La orden correspondiente es kurtosis: kurtosis(Pulso$Peso)

Puede ser necesario que antes cargue el paquete fBasics, eligindolo en el menu Herramientas / Cargar paquete(s). e

26

TEMA 3. ANALISIS DESCRIPTIVO CON UNA VARIABLE

Figura 3.3: Clculo de descriptivos no incluidos en los mens. a u

3.1.3.

Distribuciones de frecuencias

Para las variables cualitativas, puede confeccionarse con el procedimiento Estad sticas / Resmenes u / Distribucin de frecuencias una tabla donde aparezcan los valores de la variable, sus frecuencias o absolutas y las frecuencias relativas en forma de porcentajes.

Figura 3.4: Frecuencias y porcentajes de la variable categrica sexo. o

3.2.

Representaciones grcas a

Las representaciones grcas permiten captar rpidamente y sin gran esfuerzo las principales a a caracter sticas de una distribucin de frecuencias. Son un medio complementario, aunque muy o importante, para realizar un anlisis estad a stico de los datos. Estn recogidas bajo el men Grcas. Describimos slo las opciones de inters en nuestro a u a o e curso. Si la orden ejecutada proporciona una salida grca, R abre una nueva ventana (device) que a contiene el grco. Este puede ser grabado en un chero mediante la opcin Guardar grca del a o a men Grcas. u a

3.2. REPRESENTACIONES GRAFICAS

27

3.2.1.

Grca secuencial a

La opcin Grca secuencial permite representar una secuencia de observaciones de una vario a able cuantitativa, bien mediante barras nas (spikes) o puntos (points).

3.2.2.

Histograma

Para representar la distribucin de una variable cuantitativa, se puede recurrir a la opcin o o Histograma. Es posible pedir el nmero aproximado de barras o dejar la eleccin a un algoritmo u o automtico. a

3.2.3.

Tallo y hojas

Se obtienen con la opcin Grca de tallos y hojas. Estos grcos se representan mediante o a a caracteres, y se utilizan para describir variables cuantitativas y permite visualizar globalmente la distribucin manteniendo la individualidad de los datos. Tienen una gran similitud con los o histogramas pero representan directamente los d gitos de los valores observados en vez de barras o rectngulos, por lo que ofrecen mayor cantidad de informacin. a o > stem.leaf(Pulso$Peso, unit=1, m=1) 1 | 2: represents 12 leaf unit: 1

28 n: 92 6 30 (29) 33 10 1 4 5 6 7 8 9 | | | | | |

TEMA 3. ANALISIS DESCRIPTIVO CON UNA VARIABLE

369999 022223344445566666999999 01111223333455555788888888889 00000000001222244777799 111366668 7

3.2.4.

Grco de cajas a

Se obtienen con la opcin Diagrama de caja. o

plot(Pulso$Sexo,Pulso$Altura)

3.2. REPRESENTACIONES GRAFICAS

29

split.screen(c(1, 2)) screen(1) boxplot(Peso Sexo, ylab=Peso,xlab=Sexo, data=Pulso) screen(2) boxplot(Peso Fumar, ylab=Peso, xlab=Fumar,data=Pulso)

30

TEMA 3. ANALISIS DESCRIPTIVO CON UNA VARIABLE

3.2.5.

Grco de barras a

Bajo la opcin Grca de barras. Para representar variables cualitativas. o a

Figura 3.5: Diagrama de barras de la variable Actividad

3.2.6.

Grco de sectores a

Bajo la opcin Grca de sectores. Para representar variables cualitativas. o a

Figura 3.6: Diagrama de sectores de la variable Fumar

También podría gustarte