Está en la página 1de 48

Estadística aplicada a la Biología

Grado de Biología

Tratamiento Estadístico de datos con R

.
y R-Commander (Rcmdr)

I.O
Contenido e
a
1 Instalación de R-commander ..................................................................................................... 3
2 Crear y abrir ficheros de datos ................................................................................................... 7
ic
2.1 Crear una nueva base de datos ........................................................................................ 7
2.2 Importar bases de datos .................................................................................................... 8
st

2.3 Visualizar y guardar el fichero de datos ............................................................................. 8


2.4 Estructura del fichero de datos .......................................................................................... 9

3 Variable cualitativa. Tablas de frecuencias y gráficos .............................................................. 10


3.1 Tablas de frecuencias ..................................................................................................... 10
ta

3.2 Diagrama de rectángulos y diagrama de sectores ........................................................... 11


4 Variable cuantitativa sin agrupar. Tablas de frecuencias y gráficos ......................................... 14
4.1 Tablas de frecuencias ..................................................................................................... 14
Es

4.2 Diagrama de barras, polígono de frecuencias y curva acumulativa ................................. 15


5 Variable cuantitativa agrupada. Tablas de frecuencias y gráficos ............................................ 18
5.1 Tablas de frecuencia ....................................................................................................... 18
5.2 Histograma, polígono de frecuencias y curva acumulativa .............................................. 19
6 Medidas estadísticas ............................................................................................................... 23
7 Tablas de doble entrada .......................................................................................................... 25
8 Coeficiente de correlación lineal y recta de regresión .............................................................. 27
8.1 Coeficiente de correlación lineal ...................................................................................... 27
8.2 Recta de regresión lineal ................................................................................................. 27
8.3 Representación gráfica.................................................................................................... 29
9 Modelos de distribuciones ........................................................................................................ 31
9.1 Distribuciones discretas................................................................................................... 31
1
9.1.1 Para obtener la función de probabilidad ................................................................ 31
9.1.2 Para obtener la función de distribución .................................................................. 32
9.1.3 Para obtener la gráfica de la distribución de probabilidad o de la función de
distribución ...................................................................................................................... 32
9.2 Distribuciones continuas.................................................................................................. 33
9.2.1 Para obtener la función de distribución .................................................................. 33
9.2.2 Para obtener los cuantiles ..................................................................................... 33
9.2.3 Para obtener la gráfica de la función de densidad o de la función de distribución . 34
10 Contrastes de hipótesis e Intervalos de confianza (IdC) en poblaciones normales .................. 36
10.1 Contraste de hipótesis e IdC para la media de una población ......................................... 36
10.2 Contraste de hipótesis e IdC para la diferencia de medias: muestras relacionadas ......... 37
10.3 Contraste de hipótesis e IdC para el cociente de varianzas: muestras independientes ... 38

.
I.O
10.4 Contraste de hipótesis e IdC para la diferencia de medias: muestras independientes ..... 39
11 Contrastes de hipótesis sobre proporciones ............................................................................ 41
11.1 Para una muestra ............................................................................................................ 41
11.2 Para dos muestras .......................................................................................................... 43
12 Contraste chi-cuadrado. Independencia y homogeneidad........................................................ 45

e
12.1 Sobre dos variables categóricas del fichero de datos ...................................................... 45
12.2 Sobre una tabla de contingencia independiente del fichero de datos .............................. 47
a
ic
st

ta
Es

2
1 Instalación de R-commander
R es un lenguaje de programación y un entorno para el análisis estadístico y la realización de
gráficos. Debido a su naturaleza, es fácilmente adaptable a una gran variedad de tareas. El código
de R está disponible como software libre, y se cuenta con versiones para múltiples plataformas
(Windows, Linux, Mac).
A continuación se dan unas breves instrucciones que permitirán comenzar a usar R y la librería R-
Commander, que se denotará abreviadamente como Rcmdr, y que permite hacer uso de
herramientas estadísticas utilizando ventanas y menús.
El sitio web del proyecto R tiene como dirección http://www.r-project.org. Para acceder directamente
a la página de descarga de R para Windows, se debe acceder al enlace
https://cran.r-project.org/bin/windows/base/

.
I.O
e
a
ic
st

Se debe ejecutar el fichero de instalación (R-4.0.2-win.exe en este ejemplo) una vez descargado. Al
poner en marcha R una vez concluida la instalación, se obtendrá:

ta
Es

3
Para poder utilizar R-Commander, la librería Rcmdr debe estar instalada en R. Si no lo estuviera, es
preciso instalarla seleccionando la opción Paquetes del menú de opciones de R y, posteriormente,
Instalar paquete(s).

.
I.O
R nos pedirá que seleccionemos la ubicación (CRAN mirror) desde la que se van a descargar los
archivos. Seleccionar Spain (A Coruña) [https], tras lo cual se obtendrá una lista de todas las
librerías disponibles en R, en la deberemos seleccionar Rcmdr.

e
a
ic
st

ta
Es

El proceso de instalación lleva algún tiempo, dependiendo de la velocidad de la conexión a Internet


de que se disponga.
Una vez concluida la instalación, se debe proceder a cargar la librería Rcmdr, operación que habrá
que realizar también cada vez que se comience a trabajar con R y se quiera utilizar R-Commander.

4
Para cargar la librería se debe seleccionar la opción Paquetes del menú de opciones de R y,
posteriormente, Cargar paquete.

.
I.O
Se obtiene entonces una lista de todas las librerías instaladas en R, donde
deberemos buscar y seleccionar Rcmdr.

e
En la primera activación, Rcmdr detectará la ausencia de ciertas librerías
y nos pedirá usuario autorización para su autorización.
a
ic
st

ta
Es

La puesta en marcha de R-Commander también puede realizarse directamente desde la consola de


R por medio del comando

library(Rcmdr)

Una vez concluido el proceso, aparecerá en pantalla la ventana de R-Commander, similar a la que
se muestra a continuación.

5
Barra de menús

Ventana de comandos Barra de herramientas

.
I.O
Ventana de resultados
Botón Ejecutar

Ventana de mensajes
e
a
ic
st

Dentro de la ventana de R-Commander pueden distinguirse los siguientes elementos:

1) Barra de menús, que permite acceder a la mayoría de las funciones de Rcmdr.


2) Barra de herramientas, que permite seleccionar, editar y visualizar el conjunto de datos sobre
el que se trabaja.
ta

3) Ventana de comandos, en la que se irán mostrando los comandos de R correspondientes a las


acciones que realicemos dentro de Rcmdr. Adicionalmente, podemos introducir directamente
comandos de R en esta ventana y pedir que se ejecuten pulsando el botón Ejecutar situado en
Es

la parte inferior derecha de la misma.


4) Ventana de resultados, donde irán apareciendo los resultados de las acciones que se realicen
dentro de Rcmdr.
5) Ventana de mensajes, donde pueden aparecer advertencias y mensajes de error.

Por defecto, el directorio de trabajo es C:…/Documentos pero se puede cambiar en el menú

Fichero > Cambiar directorio de trabajo

6
2 Crear y abrir ficheros de datos
Supondremos que en un conjunto de n individuos tenemos información sobre una serie de p
características o variables de igual o distinta naturaleza (nominales, ordinales, cuantitativas
discretas, continuas, etc.).

Los datos obtenidos se organizarán en una matriz 𝑛 × 𝑝, donde cada fila representa a un individuo
y cada columna una de las características o variables observadas. En ocasiones se añade una
columna que se suele colocar en primer lugar y que asigna un identificador a cada individuo; dicha
columna recibe el nombre de variable etiqueta.

La estructura de una matriz de datos se corresponde con el esquema de una base de datos o una
hoja de cálculo.

R se refiere a este tipo de estructura de datos como data.frame. Este es el formato que requiere el

.
programa para aplicar la mayoría de los procedimientos estadísticos.

I.O
Se pueden introducir los datos creando una nueva base de datos e introduciéndolos manualmente
o bien importando un fichero procedente de otra aplicación.

2.1 Crear una nueva base de datos

e
Vamos a crear un conjunto de datos, que llamaremos Ejemplo, que contendrá tres variables: Sexo
(cualitativa), Edad (cuantitativa discreta), IMC (cuantitativa continua).
a
Para ello seleccionamos
ic
Datos > Nuevo conjunto de datos

Se introduce el nombre que se desea para el conjunto de datos (en este caso, Ejemplo).
st

ta

Se introducen los nombres de las variables y, de ser preciso, se pulsan los botones Añadir fila y
Es

Añadir columna.

y se procede a introducir los datos.


7
.
I.O
2.2 Importar bases de datos

e
Para ilustrar la práctica usaremos el fichero Datos_hormigas.xlsx. Este fichero consta de las
variables Colonia, Distancia, Peso, Anchura de la cabeza medida con el microscopio, Anchura de la
cabeza en mm y Clase. La descripción de estas variables se encuentra en la segunda hoja del fichero
a
(Descripción Datos).
ic
Para importar el conjunto de datos:

Datos > Importar datos > Desde un archivo Excel…


st

El nombre que le asignemos al conjunto de datos no tiene que coincidir con el del archivo Excel. Le
llamaremos Hormigas y seleccionaremos la hoja Hormigas, que es la que contiene los datos.

ta
Es

Observe que en la ventana R Script se muestra el comando, escrito según la sintaxis empleada por
R, correspondiente a la importación del fichero Excel.

2.3 Visualizar y guardar el fichero de datos


Desde Rcmdr podemos ver el conjunto de datos mediante el botón Visualizar conjunto de datos
de la barra de herramientas.

8
.
I.O
e
Desde Rcmdr podemos guardar la base de datos. Las bases de datos pueden guardarse en el
formato interno de R (extensión .RData)
a
Datos > Conjunto de Datos Activo > Guardar el conjunto de datos activo…
ic
Y luego puede recuperarse con
st

Datos > Cargar conjunto de datos…

Con el menú Datos podemos unir bases de datos, transformar y recodificar variables o seleccionar
un subconjunto de datos.

2.4 Estructura del fichero de datos


ta

La orden (escribiéndola en la ventana R Script y pulsando Ejecutar)


Es

>str(Hormigas)

proporciona el tipo de las distintas variables del fichero.

En nuestro caso nos muestra que Distancia, Peso_mg, Ancho_cabeza y Ancho_cabez_mm son
numéricas (num) y las variables Colonia y Clase son cualitativas (Factor) con 8 y 4 categorías
respectivamente.

9
Para hacer referencia a cada una de estas variables en la ventana R Script, será necesario poner,
tras el nombre del conjunto de datos o data.frame, el símbolo $ seguido del nombre de la variable
(por ejemplo Hormigas$Colonia). Para abreviar, se puede fijar el conjunto de datos de referencia
con el comando attach: attach(Hormigas).

3 Variable cualitativa. Tablas de frecuencias y gráficos


3.1 Tablas de frecuencias
Por defecto, R-Commander sólo construye tablas de frecuencias para variables cualitativas. Lo
ilustramos con la variable Colonia.

Para obtener las frecuencias absolutas y relativas de la variable Colonia:

.
I.O
Estadísticos > Resúmenes > Distribución de frecuencias…

e
a
ic
st

En la ventana Salida obtenemos la tabla de frecuencias absolutas y relativas (expresadas en


porcentajes)

ta
Es

O bien, de forma más sencilla usando directamente el comando table para construir la tabla de
frecuencias absolutas y prop.table para construir la tabla de frecuencias relativas, escribiendo las
instrucciones en la ventana R Script:

10
Para construir la tabla de frecuencias absolutas, podemos escribir:

>table(Hormigas$Colonia)
>prop.table(Hormigas$Colonia)

o simplemente
>table(Colonia)
>prop.table(Colonia)

si se ha fijado previamente el conjunto de datos a través del comando attach.

Puede ser conveniente guardar el resultado de la tabla para su uso posterior, así que ejecutaremos
lo siguiente:

.
I.O
Frec=table(Colonia)

Y si queremos visualizar el contenido, escribiremos solamente el nombre de la variable:

Frec

e
Para construir la tabla de frecuencias relativas, usaremos el comando prop.table introduciendo como
argumento una tabla de frecuencias, que en nuestro caso le hemos llamado Frec:
a
> prop.table(Frec)
ic
3.2 Diagrama de rectángulos y diagrama de sectores
st

La realización de gráficos se hará a partir del menú correspondiente. Los gráficos aparecen en la
ventana de R.
Para obtener el diagrama de rectángulos (diagrama de barras en la terminología de Rcmdr):

Graficas > Gráfica de barras…


ta
Es

11
.
I.O
e
En la ventana de comandos queda escrita la instrucción con la que se ha creado el gráfico:
a
>with(Hormigas, Barplot(Colonia, xlab="Colonia", ylab="Frequency", labels.bars=TRUE))
ic
Se pueden añadir o quitar parámetros para mejorar el gráfico, señalando elementos de la pestaña
“Opciones” o añadiendo argumnto a la instrucción anterior. Por ejemplo:
st

>with(Hormigas, Barplot(Colonia, xlab="Colonia", ylab="Frecuencias", col=rainbow(8)))


Para que la instrucción anterior sea efectiva, se debe pulsar el botón


ta
Es

12
.
I.O
e
Obsérvese que desde el cuadro de diálogo Opciones se pueden modificar directamente diversas
características del gráfico, entre ellas el color de las barras o las etiquetas de los ejes. Por otra parte,
el botón Gráfica por grupos… del cuadro de diálogo Datos permite mostrar la distribución de cada
a
modalidad según los niveles del factor que se especifique al pulsar dicho botón.
ic
Para obtener el diagrama de sectores
st

Gráficas > Gráfica de sectores…



ta
Es

13
4 Variable cuantitativa sin agrupar. Tablas de frecuencias y
gráficos
4.1 Tablas de frecuencias

Como se señaló anteriormente, Rcmdr no construye de forma directa la tabla de frecuencias


asociada a una variable cuantitativa sin agrupar. Lo podemos solucionar de dos formas:

1. Con
Datos > Modificar variables del conjunto de datos activo > Convertir variable
numérica en factor… (utilizar números)

Conviene asignar un nuevo nombre al factor que se obtendrá como resultado, para así no perder la

.
variable numérica original.

I.O
e
a
ic

Se puede seleccionar más de una variable para convertir en factor y, en tal caso, especificar un
st

prefijo que se antepondrá al nombre de cada variable convertida.


Por medio de este procedimiento se crean nuevas variables con los mismos valores que las

originales, pero ahora se consideran como variables cualitativas, para las que es posible
construir su tabla de frecuencias absolutas y relativas, tal como se vio en la Sección 3.1.
ta

2. Directamente introduciendo las siguientes órdenes en la ventana de comandos. Vamos a asignar


un nombre a algunas de estas tablas para poderlas usar posteriormente. También será posible
calcular frecuencias acumuladas a través de los comandos:
Es

a) Frecuencias absolutas: Frec=table(variable)


b) Frecuencias relativas: Relat=prop.table(Frec)
c) Frecuencias absolutas acumuladas: cumsum(Frec)
d) Frecuencias relativas relativas: cumsum(Relat)

14
.
I.O
e
a
ic
st

ta
Es

4.2 Diagrama de barras, polígono de frecuencias y curva acumulativa


Para representar el Diagrama de barras se debe usar la opción:

Gráficas > Dibujar una variable numérica discreta

15
.
I.O
El botón Gráfica por grupos… permite realizar gráficas independientes para cada nivel de un factor
existente en el conjunto de datos (en este caso, Clase o Colonia). En el cuadro de diálogo Opciones
se pueden especificar las etiquetas de los ejes y el título del gráfico, así como elegir entre frecuencias
absolutas y relativas (porcentajes).

e
a
ic
st

ta
Es

No existe ninguna opción de menú en Rcmdr que permita representar el polígono de frecuencias;
esta representación gráfica debe realizarse introduciendo directamente las instrucciones
correspondientes en la ventana de comandos.

Por ejemplo:

En estas instrucciones, podríamos haber prescindido de Hormigas$ que precede a la variable


Distancia, si se ha utilizado previamente el comando attach, como se ha explicado con anterioridad.
El comando plot, permite dibujar gran cantidad de gráficos. El argumento que distingue el tipo de
16
gráfica a realizar es type, que para el caso de un polígono de frecuencias (en general cualquiera que
une puntos mediante una poligonal), se le asigna “l”. El primer argumento que suele introducirse es
una tabla de frecuencias, el argumento xlab proporciona una etiqueta o nombre a la variable
representada en el eje de abscisas, ylab proporciona una etiqueta o nombre a la variable
representada en el eje de ordenadas, lwd proporciona el grosor de la línea, main proporciona un
nombre a la gráfica y col, como hemos visto antes, define el color.

.
I.O
e
a
ic
Pueden representarse conjuntamente el diagrama de barras y el polígono de frecuencias por medio
de los siguientes comandos:
st

ta
Es

17
Para representar la curva acumulativa tampoco se dispone de ninguna opción de menú, siendo
preciso introducir las instrucciones oportunas en la ventana de comandos.

.
I.O
e
a
ic
Esta curva está incompleta, ya que faltaría señalar la parte de la gráfica correspondiente a valores
st

inferiores al valor mínimo observado o superiores al máximo. Se podría completar de forma no


excesivamente dificultosa.

5 Variable cuantitativa agrupada. Tablas de frecuencias y


gráficos
ta

5.1 Tablas de frecuencia


En primer lugar, hemos de definir los intervalos que se desean considerar. Para ello:
Es

Datos > Modificar variables del conjunto de datos activo > Segmentar variable numérica…

En el cuadro de diálogo hemos de especificar el nombre la nueva variable, el número de intervalos


y el criterio de construcción de estos. En nuestro ejemplo elegiremos 10 intervalos para la variable
Ancho_cabeza, con nombres de niveles los Rangos y segmentos equidistantes.

18
.
I.O
La nueva variable (en nuestro caso Ancho_cabeza_intervalos) es considerada de tipo cualitativo
(puede verse con str(Hormigas)), por lo que es posible obtener sus tablas de frecuencia del mismo
modo que se hizo en la Sección 4.1.

e
a
ic
st

ta
Es

5.2 Histograma, polígono de frecuencias y curva acumulativa


Para representar el histograma de una variable cuantitativa:

Gráficas > Histograma > …

En el cuadrado de diálogo Datos escogemos la variable (Ancho_cabeza) y en Opciones:


 Número de clases: Todos los intervalos (clases) serán de igual tamaño. Se trata de una
recomendación, quedando la decisión final en manos de R, por lo que puede obtenerse un
número de intervalo distinto del indicado.

19
 Densidades: En este caso se trata de densidades relativas, resultantes de dividir la
frecuencia relativa de cada intervalo entre su amplitud.
 Otros parámetros: Etiquetas, título.

.
I.O
e
Las instrucciones que se obtienen al ejecutar este cuadro de diálogo son:
a
ic
st

Y como resultado se obtiene el siguiente histograma, en el que a pesar de haber pedido que los
datos se agrupen en 9 intervalos, lo hace en 7, para asignar números enteros como extremos:

ta
Es

20
.
I.O
e
a
Desde las opciones de menú no es posible especificar los extremos de los intervalos del histograma,
ic
sí que es posible hacerlo en la ventana de comandos. Simplemente habría que cambiar el argumento
breaks, sustituyendo el número de intervalos por un vector que contenga los extremos de estos:
st

breaks=c(Extremos de los intervalos)



ta

Por otro lado, es posible obtener información detallada sobre los elementos del histograma (extremos
Es

de intervalos, frecuencias, densidades de frecuencia, marcas de clase) a través de la ventana de


comandos. Para ello, se selecciona el comando utilizado para generar el histograma (eliminando, si
se quiere, los elementos no esenciales) y se modifica en la ventana de comandos para que su
resultado se almacene en un objeto de R, que posteriormente visualizaremos:

>h = Hist(Ancho_cabeza, scale = "density", breaks = 9)


>h

Obtenemos la siguiente salida, que contiene con los extremos de los intervalos (breaks), las
frecuencias absolutas (counts), las alturas (density) y las marcas de clase (mids).

21
Esta información puede utilizarse para dibujar el polígono de frecuencias, de nuevo mediante el
comando lines, uniendo los puntos constituidos por las marcas de clase (h$mids) y las densidades
de frecuencia (h$density):

.
I.O
e
En este caso, debemos de poner el nombre de la variable completo, haciendo referencia a h (h$mids,
h$density), ya que no es parte del conjunto de datos o date.frame Hormigas, que habíamos fijado
a
con el comando attach. Se han añadido argumentos que proporcionan el color, etiquetas de los ejes
y nombre al histograma.
ic
st

ta
Es

La curva acumulativa puede obtenerse por medio de las siguientes instrucciones:

22
El comando c que aparece dentro de plot es el comando de concatenación, y permite construir un
vector a partir de valores individuales y de otros vectores. En este caso, se ha añadido el valor 0 a
la tabla de frecuencias acumuladas, ya que los puntos que se deben de unir son:

(L0,0),(L1,N1),(L2,N2),…,(Lk,Nk)

h$breaks abarca los k+1 extremos de los intervalos, pero la tabla de frecuencias acumuladas sólo
contiene las k frecuencias acumuladas. Esta gráfica se debería de completar extendiendo a izquierda
y a derecha la gráfica.

.
I.O
e
a
ic
st

ta

6 Medidas estadísticas
Es

Se puede obtener un resumen de las medidas estadísticas elementales de todas las variables del
conjunto de datos activo. Las variables cualitativas también aparecen en dicho resumen,
mostrándose sus frecuencias absolutas:

Estadísticos > Resúmenes > Conjunto de datos activo

23
También es posible obtener un resumen de una variable cuantitiva, lo que permite obtener más
medidas:

Estadísticos > Resúmenes > Resúmenes numéricos

.
I.O
Es posible seleccionar más de una variable para obtener el resumen, usando la tecla Ctrl (si las
variables no están dispuestas de forma contigua) o la tecla  (si la selección es contigua).

e
El cuadro de diálogo Estadísticos permite seleccionar las medidas estadísticas que contendrá el
a
resumen:
ic
st

ta
Es

Hay que tener en cuenta que, aunque el cuadro de diálogo indica la posibilidad de seleccionar la
desviación típica, en realidad proporciona la cuasidesviación típica.

Las instrucciones que se obtienen tras ejecutar el cuadro de diálogo anterior son:

24
En la salida obtenida, mean representa la media, sd la cuasidesviación típica, IQR el recorrido
intercuartílico, cv el coeficiente de variación, 0% el valor mínimo, 25% el primer cuartil, 50% la
mediana, 75% el tercer cuartil, 100% el valor máximo y n la frecuencia absoluta de cada valor de la
variable que se ha elegido en la agrupación.

El botón Resumir por grupos… permite obtener un resumen diferenciado para cada uno de los
grupos de observaciones que definen los distintos niveles del factor que se seleccione. Por ejemplo,
para obtener un resumen para cada hormiguero, se debe pulsar dicho botón y seleccionar la variable
Colonia en el listado que se mostrará en pantalla.

.
I.O
e
a
ic
st

ta

7 Tablas de doble entrada


Por defecto, Rcmdr solo crea tablas de doble entrada para variables cualitativas. Para obtener la
Es

tabla de doble entrada con variables cuantitativas hemos de segmentarlas previamente como se vio
en la Sección 5.1.

Para la construcción de la tabla de doble entrada:

Estadísticos > Tablas de contingencia > Tabla de doble entrada…

25
.
I.O
e
a
En el cuadro de diálogo Estadísticos se dispone de opciones que permiten obtener, expresadas
ic
como porcentajes, las frecuencias relativas conjuntas (Porcentajes totales) y las frecuencias relativas
condicionadas (Porcentajes por filas y Porcentajes por columnas). Por ejemplo, para obtener la
st

distribución de la variable Colonia condicionada a la variable Clase, seleccionaremos Porcentaje


por filas.

ta
Es

26
8 Coeficiente de correlación lineal y recta de regresión
8.1 Coeficiente de correlación lineal

.
I.O
Para calcular la matriz de correlaciones, que contiene el coeficiente de correlación lineal entre cada
par de variables seleccionadas, se debe utilizar la opción

Estadísticos > Resúmenes > Matriz de correlaciones…

Se deben seleccionar al menos dos variables, para lo cual puede usarse la tecla Ctrl si las variables

e
a seleccionar no se encuentran dispuestas de forma contigua, o tecla , en caso de que estén
dispuestas de forma contigua.
a
ic
st

ta
Es

8.2 Recta de regresión lineal y predicciones


Para obtener la recta de regresión

27
Estadísticos > Ajuste de modelos > Regresión Lineal…

Se debe elegir un nombre para el modelo de regresión que se creará (o aceptar el que se propone
por defecto) y seleccionar tanto la variable explicada (la que figura a la izquierda de la ecuación)
como la variable explicativa (podrían ser más de una). Por ejemplo, para calcular la recta que
expresa el Ancho de la cabeza como una función lineal del peso en mg, seleccionaremos
Ancho_cabeza como variable explicada y Peso_mg como variable explicativa.

.
I.O
e
a
ic
st

ta

Para obtener el nombre de los coeficientes sólo haremos uso del comando coef, aplicándolo al
Es

modelo obtenido.

De la salida anterior se obtiene que, para 𝑋 = 𝑝𝑒𝑠𝑜_𝑚𝑔 e 𝑌 = 𝐴𝑛𝑐ℎ𝑜_𝑐𝑎𝑏𝑒𝑧𝑎, la recta de mínimos


cuadrados de 𝑌 sobre 𝑋 viene dada por

𝑌 = 31.529579 + 0.129439𝑋

siendo el coeficiente de determinación


𝑅 2 = 0.533

28
Para hacer una predicción, se utiliza el comando predict. Para ello, definimos previamente una
variable con los valores de la variable explicativa. Por ejemplo, para los valores de Peso_mg 20, 80,
120, las predicciones del ancho de cabeza se obtendrían como sigue:

.
8.3 Representación gráfica

I.O
Para dibujar el diagrama de dispersión o nube de puntos junto con la recta de regresión mínimo-
cuadrática se debe usar la opción

Gráficas > Diagrama de dispersión…

e
En el cuadro de diálogo Datos se deben seleccionar las dos variables que se representarán, mientras
que en el cuadro de diálogo Opciones se debe marcar la opción Línea de mínimos cuadrados.
a
ic
st

ta
Es

El diagrama de dispersión obtenido es el siguiente:

29
Es
ta

st
ic
a
e
I.O
.

30
9 Modelos de distribuciones
Rcmdr permite, para un conjunto amplio de distribuciones de probabilidad, realizar las siguientes
acciones:
 Obtener la probabilidad asociada a un valor 𝑥, 𝑃𝑟(𝑋 = 𝑥), o para un conjunto de ellos.
 Obtener la función de distribución asociada a un valor 𝑥, 𝐹(𝑥).
 Obtener los cuantiles de una distribución, 𝑄𝛼 /𝑃𝑟(𝑋 ≤ 𝑄𝛼 ) = 𝛼.
 Obtener la representación gráfica de la función de probabilidad (variable discreta).
 Realizar la representación gráfica de la función de densidad (variable continua).
 Realizar la representación gráfica de la función de distribución.
 Generar valores de la distribución.

.
I.O
En particular, tiene implementado todo lo especificado anteriormente en las distribuciones Binomial,
Poisson, Normal, Exponencial, Chi-cuadrado, t-Student y F-Snedecor.

9.1 Distribuciones discretas


Para una distribución discreta (lo ilustramos con la distribución binomial)

e
Distribuciones > Distribuciones discretas > Distribución binomial > …
a
9.1.1 Para obtener la función de probabilidad
ic
… > Probabilidades binomiales

En el cuadrado de diálogo se especifican los parámetros de la distribución (n y p).


st

ta
Es

31
Si solo se requiere calcular las probabilidades para ciertos valores concretos, puede hacerse en la
ventana de comandos usando la instrucción dbinom. Por ejemplo, si 𝑋 ∼ 𝐵(20,0.65), para calcular
𝑃[𝑋 = 2], 𝑃[𝑋 = 7] y 𝑃[𝑋 = 15] utilizaríamos la orden

dbinom(c(2,7,15), size=20, prob=0.65)

9.1.2 Para obtener la función de distribución

… > Probabilidades binomiales acumuladas

En el cuadrado de diálogo se especifican los parámetros de la distribución (n y p), los valores para
los que se desea obtener la función de distribución (Ej: 2,4,6 o 2:6) y se marca Cola izquierda. Por
ejemplo, si 𝑋 ∼ 𝐵(20,0.6), para evaluar la función de distribución en los puntos 2, 5 13, 14, 15 y 16:

.
I.O
e
a
ic
Para obtener la función de distribución completa en el ejemplo anterior, bastaría introducir 0:20 en el
st

campo Valor(es) de la variable del cuadro de diálogo.

9.1.3 Para obtener la gráfica de la distribución de probabilidad o de la función


de distribución

… > Gráfica de la distribución Binomial


ta

En el cuadrado de diálogo hay que especificar los parámetros de la distribución (n y p) y seleccionar


el tipo de gráfica que se desea.
Es

32
.
I.O
9.2 Distribuciones continuas
Para una distribución continua (lo ilustramos con la distribución normal)

Distribuciones > Distribuciones continuas > Distribución normal > …

9.2.1 Para obtener la función de distribución


e
… > Probabilidades normales acumuladas
a
En el cuadrado de diálogo se especifican los parámetros de la distribución (𝜇 y 𝜎), los valores para
ic
los que se desea obtener la función de distribución (Ej: -2.3, 10, 12, 14.7) y se marca Cola izquierda.
Por ejemplo, si 𝑋 ∼ 𝑁(10,32 ) y queremos calcular 𝑃[𝑋 ≤ −2.3], 𝑃[𝑋 ≤ 10], 𝑃[𝑋 ≤ 12] y 𝑃[𝑋 ≤ 14.7],
procederíamos de la siguiente forma:
st

ta
Es

9.2.2 Para obtener los cuantiles

… > Cuantiles normales

En el cuadrado de diálogo se especifican los parámetros de la distribución, (𝜇 y 𝜎), los valores para
los que se desea obtener los cuantiles (Ej: 0.2, 0.25, 0.80) y se marca Cola izquierda. Por ejemplo,
si 𝑋 ∼ 𝑁(10,32 ) y queremos calcular los cuantiles de orden 0.15, 0.5 y 0.87, procederíamos de la
siguiente forma:

33
.
I.O
9.2.3 Para obtener la gráfica de la función de densidad o de la función de
distribución

… > Gráfica de la distribución Normal

En el cuadrado de diálogo se especifican los parámetros de la distribución (𝜇 y 𝜎) y se selecciona el

e
tipo de gráfica que se desea. Por ejemplo, si 𝑋 ∼ 𝑁(10,32 ):
a
ic
st

ta
Es

34
.
I.O
Las restantes opciones del cuadro de diálogo permiten colorear una o dos regiones bajo la curva
comprendidas entre dos valores del eje horizontal, que pueden indicarse directamente o bien venir
especificados por medio de cuantiles.

e
a
ic
st

ta
Es

35
10 Contrastes de hipótesis e Intervalos de confianza (IdC) en
poblaciones normales
10.1 Contraste de hipótesis e IdC para la media de una población

Estadísticos > Medias > Test t para una muestra…

En el cuadro de diálogo, especificar:


 La variable sobre la que se desea hacer el contraste.
 El valor de μ0.
 El tipo de contraste (bilateral o unilateral).
 El nivel de confianza.

.
La salida devuelve:

I.O
 Valor del estadístico t, el número de grados de libertad (df) y el p-valor.
 Intervalo de confianza para la media poblacional.
 Valor de la media muestral.

Por ejemplo, para contrastar si el ancho de la cabeza de las hormigas, expresado en milímetros, es
igual a 1.6, con un nivel de significación del 5%:

e
a
ic
st

ta

La salida que se obtiene es la siguiente:


Es

El p-valor es muy pequeño, por lo que se rechaza la hipótesis nula y, en consecuencia, podemos
considerar que el valor de la media poblacional es significativamente diferente de 1.6; el intervalo de
confianza al 95% para la media poblacional es (1.614895,1.631476).

36
10.2 Contraste de hipótesis e IdC para la diferencia de medias: muestras
relacionadas

Estadísticos > Medias > Test t para datos relacionados…

En el cuadro de diálogo:
 Datos: Se seleccionan las variables
 Opciones: Se selecciona el tipo de contraste (bilateral, unilateral) y el nivel de confianza.

La salida devuelve:
 Valor del estadístico 𝑡 del contraste, número de grados de libertad (df) y p-valor.
 Intervalo de confianza para la diferencia de medias.
 Valor de la diferencia de medias muestrales.

.
I.O
En el Problema 59 se desea saber si un fármaco hipotensor es efectivo, para lo cual se dispone de
una muestra de 11 individuos, en los que se ha medido la presión sistólica antes y después de la
administración del fármaco (fichero Problema_59.xlsx). El contraste de hipótesis se podría realizar
de la siguiente forma con Rmcdr:

e
a
ic
st

ta
Es

El p-valor nos lleva a rechazar la hipótesis nula, por lo que podemos considerar que la diferencia de
medias es positiva y, en consecuencia, la presión sistólica disminuye significativamente, resultando
efectivo el fármaco.

37
10.3 Contraste de hipótesis e IdC para el cociente de varianzas: muestras
independientes
Para poder realizar inferencias sobre poblaciones independientes, los datos de ambas muestras
deben estar dispuestos en una misma variable, requiriéndose una variable auxiliar tipo factor que
especifique a qué población pertenece cada observación.

 Los niveles de este factor se ordenan alfabéticamente, considerándose como primera


población aquella cuyo nivel del factor va primero en la ordenación.
 Se pueden reoordenar los niveles del factor haciendo uso de la opción:

Datos > Modificar variables del conjunto de datos activo > Reordenar niveles de factor

Para realizar el contraste sobre igualdad de varianzas y el intervalo de confianza correspondientes.

.
I.O
Estadísticos > Varianzas > Test F para 2 varianzas…

En el cuadro de diálogo:
 Datos:
o Grupo: Seleccionar la variable (factor) que define las dos poblaciones.
Variable explicada: Seleccionar la variable sobre la que se desea comparar las


o
varianzas.
e
Opciones: Seleccionar el tipo de contraste (bilateral, unilateral) y el nivel de confianza.
a
La salida devuelve:
ic
 Valor del estadístico F del contraste, número de grados de libertad (df) y p-valor.
 Intervalo de confianza para el cociente de varianzas.
st

 Valor del cociente de varianzas muestrales.

Por ejemplo, para realizar el contraste de igualdad sobre igualdad de varianzas en el Problema 60,

los datos deberían disponerse como se muestran en el fichero Problema_60.xlsx. En este caso no
existe ningún problema con los niveles del factor, ya que la primera población está asociada a
Proveedor 1, que es el primer nivel en orden alfabético.
ta
Es

38
.
I.O
e
El nivel de significación se estableció en 0.05; al ser el p-valor menor que esta cantidad, se rechaza
a
la hipótesis nula. Por tanto, el cociente de las varianzas poblaciones es significativamente diferente
de 1 y, en consecuencia, las varianzas son significativamente distintas.
ic
10.4 Contraste de hipótesis e IdC para la diferencia de medias: muestras
st

independientes

Estadísticos > Medias > Test t para muestras independientes…


En el cuadro de diálogo:
 Datos:
ta

o Grupo: Seleccionar la variable de grupo (factor) que define las dos poblaciones.
o Variable explicada: Seleccionar la variable sobre la que se desea comparar las
medias.
Es

 Opciones:
o Seleccionar el tipo de contraste (bilateral, unilateral).
o Especificar el nivel de confianza.
o Indicar si se suponen varianzas iguales o distintas.

La salida devuelve:
 Valor del estadístico t del contraste, número de grados de libertad (df) y p-valor.
 Intervalo de confianza para la diferencia de medias.
 Valores de las medias muestrales.

Haciendo uso de los datos del Problema 60 (Problema_60.xlsx), las varianzas poblacionales deben
suponerse distintas, según lo visto en el apartado 10.3. Para comparar si las medidas poblacionales
son iguales o no, procederíamos de la siguiente forma:

39
.
I.O
e
a
ic
st

ta

El nivel de significación considerado es 𝛼 = 0.05, por lo que se rechaza la hipótesis nula al ser el p-
valor menor que este valor. Por tanto, consideramos que la diferencia de las medias poblacionales
Es

es distinta de cero, lo que implica que tales medias son significativamente distintas.

Al igual que en el caso del contraste de igualdad de varianzas (apartado 10.3), debe tenerse presente
que se considera como primera población aquella cuyo nivel correspondiente en el factor que define
los grupos es el primero en orden alfabético.

40
11 Contrastes de hipótesis sobre proporciones
11.1 Para una muestra

Estadísticos > Proporciones > Test de proporciones para una muestra…

En el cuadro de diálogo:
 Datos:
o Seleccionar la variable sobre la que se realizará el contraste. que debe ser de tipo
factor con dos niveles. El primero de ellos (en orden alfabético) es el que se considera
asociado al Éxito y, por tanto, al parámetro p.
 Estadísticos:
o Indicar el valor de 𝑝0 .

.
o Indicar el tipo de contraste (bilateral, unilateral).

I.O
o Indicar el nivel de confianza.
o Seleccionar el tipo de prueba (aproximación normal, aproximación normal con
corrección por continuidad, Binomial exacto).

La salida devuelve:




Tabla frecuencia de cada una de las categorías.

e
Valor del estadístico (dependiendo del tipo de prueba seleccionada) y el p-valor.
Intervalo de confianza para p.
a
 Proporción muestral de éxitos.
ic
Como ejemplo vamos a considerar los datos del Problema 53 (fichero Problema_53.xlsx) para
contrastar si la proporción de personas con afección pulmonar en la población es del 10%, es decir,
𝑝 = 0.10. En este caso sí existe un problema con los niveles del factor, ya que el primero en orden
st

alfabético es No, que corresponde a Fracaso, es decir, al parámetro q.


Para solucionar el problema anterior, o bien se realiza el contraste 𝑞 = 0.90, o bien (así lo haremos
aquí) se reordenan las categorías del factor usando

Datos > Modificar variables del conjunto de datos activo > Reordenar niveles de factor

Se puede elegir un nuevo nombre para el factor reordenado, aunque nosotros no lo cambiaremos.
ta
Es

41
Una vez reordenados los niveles del factor, se puede proceder a realizar el contraste mediante la
opción indicada anteriormente (Estadísticos > Proporciones > Test de proporciones para una
muestra…).

.
I.O
e
a
ic
st

ta
Es

42
.
I.O
El nivel de significación elegido es 𝛼 = 0.05, y el p-valor obtenido vale 0.8815, por lo que no existen
evidencias significativas para considerar que 𝑝 ≠ 0.10. El intervalo de confianza al 95% para el
parámetro 𝑝 es (0.05577123, 0.16031961).

11.2 Para dos muestras

e
Estadísticos > Proporciones > Test de proporciones para dos muestras…

En el cuadro de diálogo:
a
 Datos:
o Seleccionar la variable de grupo de grupo (factor) que define las dos poblaciones.
ic
o Seleccionar la variable sobre la que se realizará el contraste. Debe ser un factor con
dos niveles, que, ordenados alfabéticamente, corresponden a Éxito y Fracaso,
st

 Opciones:
o Indicar el tipo de contraste (bilateral, unilateral).

o Indicar el nivel de confianza.


o Seleccionar el tipo de prueba (aproximación normal, con o sin corrección por
continuidad).
ta

La salida devuelve
 Tabla de porcentajes (de Éxitos y Fracasos) en cada una de las dos poblaciones.
Es

 Valor del estadístico𝜒 2 , número de grados de libertad y p-valor.


 Intervalo de confianza para la diferencia de proporciones p1 – p2.
 Proporción muestral de Éxitos en cada una de las dos poblaciones.

NOTAS:
 Se considera como primera población aquella que tiene asociado el primer nivel (en orden
alfabético) de la variable de grupo.
 En la variable sobre la que se realiza el contraste, se considera Éxito el nivel que va primero en
orden alfabético.

Como ejemplo vamos a considerar los datos del Problema 61 (fichero Problema_61.xlsx) para
contrastar si el nuevo proceso de fabricación es mejor que el antiguo, es decir, si la proporción de
sacos deteriorados con el procedimiento actual es mayor que la obtenida con el procedimiento

43
antiguo (𝑝1 > 𝑝2 , considerando como Éxito el caso en que el saco está deteriorado y como primera
población la correspondientes al procedimiento actual).
Observando los niveles del factor Procedimiento no se observa ningún problema, ya que el primero
en orden alfabético es Actual. No sucede lo mismo con los niveles de la variable Saco deteriorado,
ya que el primero de ellos en orden alfabético es No, por lo que el éxito correspondería a Saco no
deteriorado. Para solucionar este problema puede plantearse el contraste en términos de 𝑞, con lo
cual nos interesa ver si 𝑞1 < 𝑞2 , o bien reordenar los niveles de este factor, como se ha hecho en el
apartado 11.1 (optamos por esta última opción).
Una vez reordenados los niveles del factor, se realiza el contraste.

.
I.O
e
a
ic
st

ta
Es

44
.
I.O
El p-valor es mayor que el nivel de significación elegido (𝛼 = 0.05), por lo que no existen evidencias
significativas para afirmar que el nuevo proceso de fabricación es mejor que el antiguo.

12 Contraste chi-cuadrado. Independencia y homogeneidad

e
12.1 Sobre dos variables categóricas del fichero de datos
a
Estadísticos > Tablas de contingencia > Tabla de doble entrada…
ic
En el cuadro de diálogo:
 Datos:
st

o Seleccionar las variables fila y columna


 Estadísticos:

o Seleccionar: Test de independencia Chi-cuadrado e Imprimir frecuencias esperadas


(opcional).

La salida devuelve:
ta

 Tabla de doble entrada de frecuencia absolutas.


 Valor del estadístico 𝜒 2 , número de grados de libertad y p-valor.
Es

 Tabla de doble entrada de valores esperados (opcional).

Como ejemplo, vamos a realizar un contraste de hipótesis sobre los datos del Problema 61 (fichero
Problema_61.xlsx) para comprobar si existe relación entre la proporción de sacos deteriorados y el
procedimiento de fabricación utilizado (se trata, por tanto, de un contraste de homogeneidad /
independencia).

45
.
I.O
e
a
ic
st

ta
Es

El p-valor es mayor que el nivel de significación usual (𝛼 = 0.05), por lo que concluimos que no
existen evidencias significativas para rechazar la hipótesis nula de independencia.

46
12.2 Sobre una tabla de contingencia independiente del fichero de datos

Es posible realizar un contraste 𝝌𝟐 de homogeneidad / independencia a partir de una tabla de doble


entrada directamente, sin que sea necesario disponer de los datos individualizados. Para ello:

Estadísticos > Tablas de contingencia > Introducir y analizar una tabla de doble entrada…
En el cuadro de diálogo:
 Tabla:
o Introducir nombre de las variables Fila y Columna.
o Indicar número de filas y de columnas.
o Introducir las frecuencias en la tabla que aparecerá en pantalla.
 Estadísticos:

.
o Seleccionar Test de independencia Chi-cuadrado e Imprimir las frecuencias

I.O
esperadas (opcional).
La salida devuelve:

 Tabla de doble entrada de frecuencia absolutas


 Valor del estadístico 𝜒 2 , número de grados de libertad y p-valor.

e
Tabla de doble entrada de valores esperados (opcional).

Como ejemplo vamos a considerar el Problema 62, en el que se trata de ver si la edad de los
a
chimpancés influye en su preferencia por distintos tipos de alimentos, disponiéndose para ello de los
siguientes datos:
ic
Edad A B C
0 - 15 11 39 13
st

15 – 30 37 31 25
30 – 50 7 18 19

ta
Es

47
.
I.O
e
a
ic
st

ta

El p-valor obtenido es menor claramente que el nivel de significación usual (𝛼 = 0.05), por lo que se
rechaza la hipótesis nula de independencia de las variables consideradas. En consecuencia,
Es

podemos considerar que la preferencia por el tipo de alimento se ve influenciada por la edad de los
chimpancés.

48

También podría gustarte