Está en la página 1de 15

Práctica 5: Análisis de datos con RCommander.

Constrastes de hipótesis.

1. Introducción a RCommander
Hasta ahora hemos utilizado R introduciendo comandos en la consola.
Aunque es fundamental conocer los comandos básicos de R para aprovechar
todo el potencial de este programa y trabajar con soltura, también existen
una serie de interfaces gráficas para trabajar con R. Estas interfaces permi-
ten realizar análisis estadı́sticos de datos sencillos mediante eun entorno de
ventanas, que puede ser más intuitivo.
En esta práctica vamos a ver uno de estos entornos llamado RComman-
der. Un listado completo de interfaces gráficas para R se puede encontrar en
http://www.sciviews.org/_rgui/. Además, la página web de RComman-
der (http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/) proporciona más
información sobre esta interfaz. También existe un artı́culo (en inglés) pu-
blicado en el Journal of Statistical Software, disponible en http://www.
jstatsoft.org/v14/i09/paper, que proporciona una descripción más de-
tallada.
Básicamente, RCommander proporciona un entorno de ventanas que per-
mite al usuario realizar muchas de las tareas que se pueden hacer con el
lenguaje de comandos, pero de una manera un poco más amigable. Ası́, me-
diante las ventanas de RCommander podemos cargar datos e introducir los
parámetros necesarios para realizar una determinada operación. Con toda
esta información, RCommander ejecuta los comandos necesarios para realizar
esa operación.
El uso de interfaces gráficas de usuario presenta el inconveniente de que
nos son prácticas a la hora de realizar muchos bancos de datos y permiten
poca flexibilidad en el análisis.

1
1.1. Instalación
RCommander es lo que que conoce como un paquete de R, que es la forma
en la que se pueden añadir nuevas rutinas de análisis de datos y ejemplos al
programa. Por defecto, R sólo viene con una serie de paquetes mı́nimos para
realizar los análisis estadı́sticos más conocidos, pero en la web del programa
existe un repositorio con cientos de paquetes adicionales desarrollados por
los usuarios.
Para instalar nuevos paquetes tenemos que utilizar el comando ins-
tall.packages(). Ası́, para instalar RCommander debemos escribir

> install.packages("Rcmdr")

R nos mostrará una serie de servidores desde los que descargas el paquete.
Podemos seleccionar el que está en España, que se encuentra dentro de Red
Iris (la red de las universidades españolas), y que dará una velocidad de
descarga razonable.
Por defecto los paquetes adicionales no aparecen cargados en R. Para ello
utilizaremos el comando library(), que toma como argumento una cadena
de texto con el nombre del paquete. Por tanto, para cargar RCommander
debemos escribir:

> library("Rcmdr")

La primera vez que carguemos el paquete es posible que nos ad-


vierta de que faltan otros paquetes y nos preguntará si los queremos instalar.
Debemos contestar que sı́, y esperar a que se descarguen los paquetes. És-
to puede tardar unos minutos, dependiendo de la conexión a Internet que
tengamos.

2. Un paseo por RCommander


Cuando se hayan descargado e instalado los paquetes que RCommander
necesita, veremos la ventana que aparece en la Figura 1. A través de los
menús que allı́ aparecen realizaremos los análisis estadı́sticos pertinentes.
Las partes de la ventana de RCommander son:

Menús
Listado de menús para cargar datos, realizar análisis estadı́sticos, etc.

2
Figura 1: Ventana principal de RCommander.

Banco de datos activo


Se encuentra justo debajo de los menús y nos muestra el nombre del
banco de datos activo. Éste es el que RCommander usará por defecto a
la hora de realizar los análisis.

Ventana de instrucciones
Muestra los comandos que hemos ido ejecutando.

Ventana de resultados
Muestra las salidas de texto de los comandos que hemos ejecutado.

Mensajes
Muestra determinados mensajes relacionados con la ejecución de co-
mandos, como errores, etc.

2.1. Menús
En la parte superior de la ventana podemos ver una serie de menús. Su
utilidad es la siguiente:

3
Fichero
Permite cargar y guardar ficheros de datos y comandos de R.

Editar
Permite realizar operaciones sobre el texto de la Ventana de coman-
dos, tales como buscar, reemplazar, etc.

Datos
Permite cargar bancos de datos disponibles en los paquetes de R que
tengamos instalados, ası́ como importar datos en diversos formatos.
Esto incluso formatos de otros programas estadı́sticos como SPSS, SAS,
etc.

Estadı́sticos
Bajo este menú encontramos todos los análisis estadı́sticos que se pue-
den realizar con RCommander.

Gráficas
Permite realizar distintos tipos de gráficas con los datos.

Modelos
Aquı́ tememos las herramientas para hacer análisis de datos utilizando
distintos modelos estadı́sticos.

Distribuciones
Funciones para trabajar con distribuciones estadı́sticas y calcular valo-
res de interés, como cuantiles, probabilidades, etc.

Herramientas
Permite cargar otros paquetes de R y cambiar algunos parámetros del
entorno RCommander, como el tamaño de letra.

Ayuda
Ayuda de RCommander.

4
2.2. Ventana de instrucciones
Esta ventana muestra los comandos que hemos ejecutado o que vamos a
ejecutar. Cada vez que hacemos una operación con RCommander el comando
equivalente aparece en esta ventana. Por tanto, resulta muy útil para ver
los comandos necesarios para un análisis y los podemos modificar a nuestro
antojo. Por ejmplo, para analizar otro banco de datos similar.
También podemos añadir nuevos comandos escribiendo directamente en
la ventana. Para ejecutarlos debemos seleccionar el texto y pulsar el botón
Ejecutar (o pulsando Control+R).

2.3. Ventana de resultados


Aquı́ es donde aparecen los resultados obtenidos con los comandos ejecu-
tados. En esta ventana no podemos editar los comandos pero sı́ que podemos
copiar los resultados para pegarlos en otro documento.
Tanto en esta ventana como en la de instrucciones podemos hacer opera-
ciones con el texto, tales como copiar, buscar palabras, etc. pinchando encima
de la ventana con el botón derecho.

2.4. Mensajes
En general, aquı́ es donde aparecerán los mensajes de error que obtenga-
mos cuando ejecutemos los comandos de R.

3. Análisis exploratorio de datos con RCom-


mander
3.1. Cómo cargar datos
Todas las operaciones para cargar datos con RCommander están bajo el
menú Datos. Aunque existen numerosas opciones nosotros sólo vamos a ver
unas pocas.

3.1.1. Nuevo conjunto de datos


Para crear un nuevo banco de datos introduciendo nosotros mismos los
valores podemos ejecutar Datos->Nuevo conjunto de datos. Se nos
preguntará el nombre del banco de datos que queremos crear (es decir, el
nombre de la variable en R).

5
EJERCICIO:
Crea un conjunto de datos que se llame numeros. En la prime-
ra columna pon los valores del 1 al 8 y en la sengunda los valores
del 11 and 18.

3.1.2. Datos de un paquete de R


Si lo que queremos es seleccionar uno de los bancos de datos de ejemplo
que aparecen en el lo podemos hacer seleccionando Datos->Conjunto de
datos en paquetes. Hay dos opciones:

Lista de conjuntos de datos en paquetes


Muestra una lista (con una pequeña descripción) de los bancos de datos
disponibles en los paquetes de R cargados actualmente. Si un banco de
datos está instalado pero no cargado (con el comando library()), no
veremos la lista de datos que contiene.

Leer conjunto de datos desde paquete adjunto...


Permite cargar un banco de datos de un paquete concreto.

EJERCICIO:
Muestra la lista de todos los bancos de datos disponibles. Ins-
pecciona la lista para ver el tipo de datos que hay disponibles.

EJERCICIO:
Carga el banco de datos cars del paquete datasets. La ven-
tana es la que aparece Figura 2. Este banco de datos contiene
resultados de un experimento en el que se midió el espacio nece-
sario de parada de un coche en función de la velocidad a la que
circula.

Después de cargar el banco de datos cars, éste aparecerá como el banco


de datos seleccionado en la parte de debajo del menú. Éste es el banco de
datos que usaremos por defecto cuando hagamos otro tipo de operaciones
con los datos. Si lo tenemos que cambiar podemos hacerlo pinchando sobre
el nombre.

3.2. Estadı́sticos resumen


Para obtener un resumen de los datos podemos seleccionar los menús
debajo de Estadı́sticos->Resúmenes. Para obtener un resumen del banco
de datos activo seleccionaremos Conjunto de datos activo.

6
Figura 2: Cómo cargar el banco de datos cars.

Otra opción es seleccionar Resúmenes numéricos, que nos calcula la


media, la desviación tı́pica y algunos cuantiles de los datos. La Figura 3 mues-
tra la ventana que aparece cuando seleccionamos esta opción. Tenemos que
seleccionar las variables del banco de datos de las que queremos calcular los
estadı́sticos resumen. También podemos calcular otros cuantiles añadiéndolos
a la lista de valores que aparecen en la ventana.

Figura 3: Cálculo de estadı́sticos resumen de la variable speed del banco de


datos cars.

EJERCICIO
Calcula los estadı́sticos resumen para las dos variables que
aparecen en el banco de datos cars. Hazlo de manera que también
se calculen los cuantiles del 0.10, 0.30, 0.80 y 0.90.

7
3.3. Gráficas
Debajo del menú Gráficas podemos encontrar varios submenús para la
creación de gráficos con los datos. En particular, podemos destacar:

Histograma
Nos permite hacer histogramas de las variables del banco de datos ac-
tivo. Como opciones podemos elegir la escala de las barras, ya sea fre-
cuencias o densidades (probabilidades). La Figura 4 muestra la ventana
que aparece al seleccionar este menú.

Figura 4: Menú para dibujar un histograma con las variables del banco de
datos cars.

Gráfico de tallo y hojas


Sirve para hacer un diagrama de tallo y hojas de los datos. La ventana
que aparece es la de la Figura 5.

Diagrama de cajas
Hace un diagrama de cajas de la variable seleccionada. Una opción
nos permite poder identificar los valores atı́picos con el ratón sobre la
gráfica del diagrama de cajas. La ventana para hacer un diagrama de
cajas es la que se puede ver en la Figura 6.

EJERCICIO
Haz los tres gráficos mencionados anteriormente para las dos
variables del banco de datos cars.

8
Figura 5: Menú para dibujar un diagrama de tallo y hojas con las variables
del banco de datos cars.

Figura 6: Menú para dibujar un diagrama de cajas con las variables del banco
de datos cars.

4. Distribuciones estadı́sticas
El menú Distribuciones contiene funciones para realizar cálculos con
numerosas distribuciones estadı́sticas (muchas de las cuales no veremos en
clase). Las funciones está agrupadas en Distribuciones discretas y Dis-
tribuciones contı́nuas, y debajo de estos menús encontraremos, para
cada distribución, las siguientes funciones:

Cuantiles
Calcula los cuantiles de esa distribución.

Probabilidades
Calcula probabilidades de la distribución en cuestión.

Gráfica de la distribución

9
Dibuja una gráfica de la función de densidad probabilidad o de la fun-
ción de distribución.
Muestra de la distribución
Simula datos de la distribución. El resultado es una matriz en el que
las filas muestran las repeticiones de la simulación y las columnas las
observaciones de cada repetición.

La Figura 7 muestra ejemplos de las ventanas que aparecen cuando selec-


cionamos alguna de estas 4 opciones para la distribución Normal. Para otras
distribuciones las ventanas son similares, aunque cambian los parámetros
requeridos para especificar la distribución.

EJERCICIO
Dibuja las probabilidades de una Binomial de n = 20 y π =0.15.
Para esta misma distribución, calcula los cuantiles del 0.25, 0.5 y
0.75.

EJERCICIO
Dibuja las probabilidades de una Exponencial de media 10.
Para esta misma distribución, calcula los cuantiles del 0.45, 0.5 y
0.55.

EJERCICIO
Dibuja las funciones de densidad de probabilidad y de dis-
tribución de una distribución Normal de media 20 y desviación
tı́pica 3. Haz 5 simulaciones de 20 observaciones cada una de esta
distribución.

EJERCICIO
Dibuja la función de densidad de probabilidad de una distri-
bución t de Student de 15 grados de libertad. Calcula los cuantiles
del 0,05 y 0,95 de esta distribución.

5. Constrastes de hipótesis
RCommander también contiene menús para hacer contrastes de hipótesis.
Para los ejercicios de esta parte de la práctica necesitamos instalar el paquete
PASWR, que contiene numerosos bancos de datos del libro Probability and
Statistics with R (de Marı́a Dolores Ugarte, Ana Militino y Alan Arhnholt).
Para instalar y cargar dicho paquete ejecutaremos el siguiente comando:

10
Figura 7: Ventanas del menú sobre la distribución Normal.

> install.packages("PASWR")
> library("PASWR")

De esta manera podremos ver desde RCommander todos los bancos de datos
disponibles en el paquete PASWR.

EJERCICIO:
Muestra la lista de todos los bancos de datos disponibles. Ins-
pecciona la lista para ver el tipo de datos que hay disponibles
busca los bancos de datos que pertencen al paquete PASWR. ¿Se
veı́an estos datos cuando se inspeccionó la lista de bancos de datos
disponibles al inicio de la práctica?

5.1. Distribución t de Student


En primer lugar vamos a ver cómo hacer un contraste de hipótesis para
un banco de datos cuando la varianza (σ 2 ) de la población no es conocida.
En estos casos el estadı́stico de contraste estaba basado en una distribución
t de Student con n − 1 grados de libertad (n es el número de datos).
Todos los contrastes de hipótesis para la media (de una o varias pobla-
ciones) se encuentran en el menú Estadı́sticos->Medias. Para una única

11
población elegiremos Test t para una muestra. La ventana que aparece
se muestra en la Figura 8. A través de dicha ventana podemos seleccionar:

La variable sobre la que queremos hacer el contraste


El valor de la media bajo la hipótesis nula (µ0 )
La dirección de la hipótesis alternativa, para un contraste unilateral o
bilateral
Nivel de confianza para el cálculo del intervalo de confianza asociado
al contraste

Figura 8: Menú para hacer un contraste de hipótesis para la media de una


población utilizando el test de la t de Student.

Si lo que queremos es hacer un contraste en el que comparemos las medias


de dos poblaciones, podemos seleccionar Test t para muestras indepen-
dientes o Test t para datos relacionados, según sea el caso.

EJERCICIO
Carga el banco de datos Battery del paquete PASWR que con-
tiene datos de baterı́as de litio de un fabricante que tiene dos
plantas de producción, A y B. Para obtener estos datos se selec-
cionaron 50 baterı́as al azar de la planta A, que se supone que
tienen una duración media de 180 horas, y se midieron sus tiem-
pos de duración (variable facilityA). También se seleccionaron
otras 509 baterı́as producidas en la planta B, que se supone que
tienen una duración de 200 horas, y se midió su tiempo de dura-
ción (variable facilityB).
1. Haz un análisis de las dos variables de este banco de datos
que incluya:

12
Estadı́sticos resumen
Gráficas resumen de los datos
2. En vista de los datos recogidos, ¿crees que la duración media
de las pilas producidas en las plantas A y B es realmente la
que se dice en el enunciado del problema? Para ello realiza
los contrastes de hipótesis oportunos.
3. Plantea y resuelve un contraste de hipótesis para la dife-
rencia de la duración media de las dos baterı́as. ¿Existen
indiciones de que hay diferencias?

5.2. Distribución Normal


RCommander no proporciona ninguna opción para realizar intervalos de
confianza y contrastes de hipótesis cuando la distribución de los datos es
Normal y conocemos el valor de la varianza poblacional. Sin embargo, po-
demos usar RCommander para calcular los lı́mites del intervalo y resolver el
contraste.

Intervalo de confianza
La forma general de un intervalo de confianza bilateral es
!
σ σ
x − zα/2 √ , x + zα/2 √
n n
Para los intervalos unilaterales tenemos
!
σ
−∞, x + zα √
n
o !
σ
x − zα √ , +∞
n

Por tanto, para calcular un intervalo de confianza necesitamos:

1. x.
Se puede obtener calculando los estadı́sticos resumen de los datos.
2. zα/2 ó zα
Se puede calcular utilizando los cuantiles de la distribución Nor-
mal.

13

3. σ/ n
Se puede calcular directamente en la consola de R.

Contraste de hipótesis
El estadı́stico de contraste es

x − µ0

z=
σ/ n
y se puede calcular de manera muy sencilla en la consola de R.
El p-valor se puede calcular a partir de la probabilidad acumulada por
z y realizando las correspondientes operaciones. Por ejemplo, el p-valor
para un contraste bilateral es

pvalor = P (Z > z) + P (Z < −z) = 2(1 − P (Z < z))


EJERCICIO
Si en el ejercicio anterior suponemos que sabemos que la va-
ribilidad de las baterias de la planta A y B son 2 y 2.75, respec-
tivamente, calcula:
1. Calcula un intervalo de confianza al 95 % para cada uno de
los dos tipos de baterı́as.
2. Resuelve los tres contrastes planteados anteriormente (en los
apartados 2 y 3 del ejercicio anterior) suponiendo conocida
las desviaciones tı́picas de los datos.
EJERCICIO
El banco de datos MilkCarton del paquete PASWR contiene
datos de tiempos de secado de dos tipos de contenedores de leche
de un galón (variable Wgallon)y medio galón (variable Hgallon).
Un galón son aproximadamente 3.78 litros.
1. Calcula estadı́sticos resumen para cada variable y haz una
representación gráfica
2. Haz un contraste para ver si el tiempo medio de secado de
los dos tipos de contenedores es el mismo
EJERCICIO
El banco de datos Fertilize contiene las alturas (en pulga-
das; 1 pulgada son 2.54 cm) de plantas que fueron fertilizadas de
dos formas distintas: cruzada (variable cross) y autofertilización
(self).

14
1. Contrasta si los datos sugieren que la altura media de las
plantas autofertilizadas es mayor de 17 pulgadas. Usa α =
0,05.
2. Calcula un intervalo unilateral al 95 % de confianza para la
altura media de las plantas autofertilizadas. Usa que H1 :
µ > 17.
3. ¿Crees que el crecimiento medio de los dos tipos de plantas
es el mismo?

EJERCICIO
La tecnologı́a de una cierta planta de fabricación de ordenado-
res permite que las capas de silicio se transformen en chips usando
dos ténicas distintas. Para decidir qué ténica es mejor se tomaron
28 capas de silicio al azar del almacén, de manera que se probaron
cada una de estas técnicas en 14 capas de silicio. Los resultados
del experimento se ecnuentran en el banco de datos Chips.
Produce estadı́sticos y gráficas que resuman los datos obte-
nidos en el experimento. ¿Crees que los datos provienen de
una distribución Normal?
Suponiendo que este tamaño muestral es lo suficientemente
grande, contrasta si el número medio de chips producido es
de 330 para cada método.
Haz un contraste para ver si el número medio de chips pro-
ducido por cada método es el mismo o no.

15