Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Grado de Biología
.
y R-Commander (Rcmdr)
I.O
Contenido e
a
1 Instalación de R-commander ..................................................................................................... 3
2 Crear y abrir ficheros de datos ................................................................................................... 7
ic
2.1 Crear una nueva base de datos ........................................................................................ 7
2.2 Importar bases de datos .................................................................................................... 8
st
.
I.O
10.4 Contraste de hipótesis e IdC para la diferencia de medias: muestras independientes ..... 39
11 Contrastes de hipótesis sobre proporciones ............................................................................ 41
11.1 Para una muestra ............................................................................................................ 41
11.2 Para dos muestras .......................................................................................................... 43
12 Contraste chi-cuadrado. Independencia y homogeneidad........................................................ 45
e
12.1 Sobre dos variables categóricas del fichero de datos ...................................................... 45
12.2 Sobre una tabla de contingencia independiente del fichero de datos .............................. 47
a
ic
st
dí
ta
Es
2
1 Instalación de R-commander
R es un lenguaje de programación y un entorno para el análisis estadístico y la realización de
gráficos. Debido a su naturaleza, es fácilmente adaptable a una gran variedad de tareas. El código
de R está disponible como software libre, y se cuenta con versiones para múltiples plataformas
(Windows, Linux, Mac).
A continuación se dan unas breves instrucciones que permitirán comenzar a usar R y la librería R-
Commander, que se denotará abreviadamente como Rcmdr, y que permite hacer uso de
herramientas estadísticas utilizando ventanas y menús.
El sitio web del proyecto R tiene como dirección http://www.r-project.org. Para acceder directamente
a la página de descarga de R para Windows, se debe acceder al enlace
https://cran.r-project.org/bin/windows/base/
.
I.O
e
a
ic
st
Se debe ejecutar el fichero de instalación (R-4.0.2-win.exe en este ejemplo) una vez descargado. Al
poner en marcha R una vez concluida la instalación, se obtendrá:
dí
ta
Es
3
Para poder utilizar R-Commander, la librería Rcmdr debe estar instalada en R. Si no lo estuviera, es
preciso instalarla seleccionando la opción Paquetes del menú de opciones de R y, posteriormente,
Instalar paquete(s).
.
I.O
R nos pedirá que seleccionemos la ubicación (CRAN mirror) desde la que se van a descargar los
archivos. Seleccionar Spain (A Coruña) [https], tras lo cual se obtendrá una lista de todas las
librerías disponibles en R, en la deberemos seleccionar Rcmdr.
e
a
ic
st
dí
ta
Es
4
Para cargar la librería se debe seleccionar la opción Paquetes del menú de opciones de R y,
posteriormente, Cargar paquete.
.
I.O
Se obtiene entonces una lista de todas las librerías instaladas en R, donde
deberemos buscar y seleccionar Rcmdr.
e
En la primera activación, Rcmdr detectará la ausencia de ciertas librerías
y nos pedirá usuario autorización para su autorización.
a
ic
st
dí
ta
Es
library(Rcmdr)
Una vez concluido el proceso, aparecerá en pantalla la ventana de R-Commander, similar a la que
se muestra a continuación.
5
Barra de menús
.
I.O
Ventana de resultados
Botón Ejecutar
Ventana de mensajes
e
a
ic
st
2) Barra de herramientas, que permite seleccionar, editar y visualizar el conjunto de datos sobre
el que se trabaja.
ta
6
2 Crear y abrir ficheros de datos
Supondremos que en un conjunto de n individuos tenemos información sobre una serie de p
características o variables de igual o distinta naturaleza (nominales, ordinales, cuantitativas
discretas, continuas, etc.).
Los datos obtenidos se organizarán en una matriz 𝑛 × 𝑝, donde cada fila representa a un individuo
y cada columna una de las características o variables observadas. En ocasiones se añade una
columna que se suele colocar en primer lugar y que asigna un identificador a cada individuo; dicha
columna recibe el nombre de variable etiqueta.
La estructura de una matriz de datos se corresponde con el esquema de una base de datos o una
hoja de cálculo.
R se refiere a este tipo de estructura de datos como data.frame. Este es el formato que requiere el
.
programa para aplicar la mayoría de los procedimientos estadísticos.
I.O
Se pueden introducir los datos creando una nueva base de datos e introduciéndolos manualmente
o bien importando un fichero procedente de otra aplicación.
e
Vamos a crear un conjunto de datos, que llamaremos Ejemplo, que contendrá tres variables: Sexo
(cualitativa), Edad (cuantitativa discreta), IMC (cuantitativa continua).
a
Para ello seleccionamos
ic
Datos > Nuevo conjunto de datos
Se introduce el nombre que se desea para el conjunto de datos (en este caso, Ejemplo).
st
dí
ta
Se introducen los nombres de las variables y, de ser preciso, se pulsan los botones Añadir fila y
Es
Añadir columna.
e
Para ilustrar la práctica usaremos el fichero Datos_hormigas.xlsx. Este fichero consta de las
variables Colonia, Distancia, Peso, Anchura de la cabeza medida con el microscopio, Anchura de la
cabeza en mm y Clase. La descripción de estas variables se encuentra en la segunda hoja del fichero
a
(Descripción Datos).
ic
Para importar el conjunto de datos:
El nombre que le asignemos al conjunto de datos no tiene que coincidir con el del archivo Excel. Le
llamaremos Hormigas y seleccionaremos la hoja Hormigas, que es la que contiene los datos.
dí
ta
Es
Observe que en la ventana R Script se muestra el comando, escrito según la sintaxis empleada por
R, correspondiente a la importación del fichero Excel.
8
.
I.O
e
Desde Rcmdr podemos guardar la base de datos. Las bases de datos pueden guardarse en el
formato interno de R (extensión .RData)
a
Datos > Conjunto de Datos Activo > Guardar el conjunto de datos activo…
ic
Y luego puede recuperarse con
st
Con el menú Datos podemos unir bases de datos, transformar y recodificar variables o seleccionar
un subconjunto de datos.
dí
>str(Hormigas)
En nuestro caso nos muestra que Distancia, Peso_mg, Ancho_cabeza y Ancho_cabez_mm son
numéricas (num) y las variables Colonia y Clase son cualitativas (Factor) con 8 y 4 categorías
respectivamente.
9
Para hacer referencia a cada una de estas variables en la ventana R Script, será necesario poner,
tras el nombre del conjunto de datos o data.frame, el símbolo $ seguido del nombre de la variable
(por ejemplo Hormigas$Colonia). Para abreviar, se puede fijar el conjunto de datos de referencia
con el comando attach: attach(Hormigas).
.
I.O
Estadísticos > Resúmenes > Distribución de frecuencias…
e
a
ic
st
O bien, de forma más sencilla usando directamente el comando table para construir la tabla de
frecuencias absolutas y prop.table para construir la tabla de frecuencias relativas, escribiendo las
instrucciones en la ventana R Script:
10
Para construir la tabla de frecuencias absolutas, podemos escribir:
>table(Hormigas$Colonia)
>prop.table(Hormigas$Colonia)
o simplemente
>table(Colonia)
>prop.table(Colonia)
Puede ser conveniente guardar el resultado de la tabla para su uso posterior, así que ejecutaremos
lo siguiente:
.
I.O
Frec=table(Colonia)
Frec
e
Para construir la tabla de frecuencias relativas, usaremos el comando prop.table introduciendo como
argumento una tabla de frecuencias, que en nuestro caso le hemos llamado Frec:
a
> prop.table(Frec)
ic
3.2 Diagrama de rectángulos y diagrama de sectores
st
La realización de gráficos se hará a partir del menú correspondiente. Los gráficos aparecen en la
ventana de R.
Para obtener el diagrama de rectángulos (diagrama de barras en la terminología de Rcmdr):
dí
11
.
I.O
e
En la ventana de comandos queda escrita la instrucción con la que se ha creado el gráfico:
a
>with(Hormigas, Barplot(Colonia, xlab="Colonia", ylab="Frequency", labels.bars=TRUE))
ic
Se pueden añadir o quitar parámetros para mejorar el gráfico, señalando elementos de la pestaña
“Opciones” o añadiendo argumnto a la instrucción anterior. Por ejemplo:
st
12
.
I.O
e
Obsérvese que desde el cuadro de diálogo Opciones se pueden modificar directamente diversas
características del gráfico, entre ellas el color de las barras o las etiquetas de los ejes. Por otra parte,
el botón Gráfica por grupos… del cuadro de diálogo Datos permite mostrar la distribución de cada
a
modalidad según los niveles del factor que se especifique al pulsar dicho botón.
ic
Para obtener el diagrama de sectores
st
13
4 Variable cuantitativa sin agrupar. Tablas de frecuencias y
gráficos
4.1 Tablas de frecuencias
1. Con
Datos > Modificar variables del conjunto de datos activo > Convertir variable
numérica en factor… (utilizar números)
Conviene asignar un nuevo nombre al factor que se obtendrá como resultado, para así no perder la
.
variable numérica original.
I.O
e
a
ic
Se puede seleccionar más de una variable para convertir en factor y, en tal caso, especificar un
st
originales, pero ahora se consideran como variables cualitativas, para las que es posible
construir su tabla de frecuencias absolutas y relativas, tal como se vio en la Sección 3.1.
ta
14
.
I.O
e
a
ic
st
dí
ta
Es
15
.
I.O
El botón Gráfica por grupos… permite realizar gráficas independientes para cada nivel de un factor
existente en el conjunto de datos (en este caso, Clase o Colonia). En el cuadro de diálogo Opciones
se pueden especificar las etiquetas de los ejes y el título del gráfico, así como elegir entre frecuencias
absolutas y relativas (porcentajes).
e
a
ic
st
dí
ta
Es
No existe ninguna opción de menú en Rcmdr que permita representar el polígono de frecuencias;
esta representación gráfica debe realizarse introduciendo directamente las instrucciones
correspondientes en la ventana de comandos.
Por ejemplo:
.
I.O
e
a
ic
Pueden representarse conjuntamente el diagrama de barras y el polígono de frecuencias por medio
de los siguientes comandos:
st
dí
ta
Es
17
Para representar la curva acumulativa tampoco se dispone de ninguna opción de menú, siendo
preciso introducir las instrucciones oportunas en la ventana de comandos.
.
I.O
e
a
ic
Esta curva está incompleta, ya que faltaría señalar la parte de la gráfica correspondiente a valores
st
Datos > Modificar variables del conjunto de datos activo > Segmentar variable numérica…
18
.
I.O
La nueva variable (en nuestro caso Ancho_cabeza_intervalos) es considerada de tipo cualitativo
(puede verse con str(Hormigas)), por lo que es posible obtener sus tablas de frecuencia del mismo
modo que se hizo en la Sección 4.1.
e
a
ic
st
dí
ta
Es
19
Densidades: En este caso se trata de densidades relativas, resultantes de dividir la
frecuencia relativa de cada intervalo entre su amplitud.
Otros parámetros: Etiquetas, título.
.
I.O
e
Las instrucciones que se obtienen al ejecutar este cuadro de diálogo son:
a
ic
st
Y como resultado se obtiene el siguiente histograma, en el que a pesar de haber pedido que los
datos se agrupen en 9 intervalos, lo hace en 7, para asignar números enteros como extremos:
dí
ta
Es
20
.
I.O
e
a
Desde las opciones de menú no es posible especificar los extremos de los intervalos del histograma,
ic
sí que es posible hacerlo en la ventana de comandos. Simplemente habría que cambiar el argumento
breaks, sustituyendo el número de intervalos por un vector que contenga los extremos de estos:
st
Por otro lado, es posible obtener información detallada sobre los elementos del histograma (extremos
Es
Obtenemos la siguiente salida, que contiene con los extremos de los intervalos (breaks), las
frecuencias absolutas (counts), las alturas (density) y las marcas de clase (mids).
21
Esta información puede utilizarse para dibujar el polígono de frecuencias, de nuevo mediante el
comando lines, uniendo los puntos constituidos por las marcas de clase (h$mids) y las densidades
de frecuencia (h$density):
.
I.O
e
En este caso, debemos de poner el nombre de la variable completo, haciendo referencia a h (h$mids,
h$density), ya que no es parte del conjunto de datos o date.frame Hormigas, que habíamos fijado
a
con el comando attach. Se han añadido argumentos que proporcionan el color, etiquetas de los ejes
y nombre al histograma.
ic
st
dí
ta
Es
22
El comando c que aparece dentro de plot es el comando de concatenación, y permite construir un
vector a partir de valores individuales y de otros vectores. En este caso, se ha añadido el valor 0 a
la tabla de frecuencias acumuladas, ya que los puntos que se deben de unir son:
(L0,0),(L1,N1),(L2,N2),…,(Lk,Nk)
h$breaks abarca los k+1 extremos de los intervalos, pero la tabla de frecuencias acumuladas sólo
contiene las k frecuencias acumuladas. Esta gráfica se debería de completar extendiendo a izquierda
y a derecha la gráfica.
.
I.O
e
a
ic
st
dí
ta
6 Medidas estadísticas
Es
Se puede obtener un resumen de las medidas estadísticas elementales de todas las variables del
conjunto de datos activo. Las variables cualitativas también aparecen en dicho resumen,
mostrándose sus frecuencias absolutas:
23
También es posible obtener un resumen de una variable cuantitiva, lo que permite obtener más
medidas:
.
I.O
Es posible seleccionar más de una variable para obtener el resumen, usando la tecla Ctrl (si las
variables no están dispuestas de forma contigua) o la tecla (si la selección es contigua).
e
El cuadro de diálogo Estadísticos permite seleccionar las medidas estadísticas que contendrá el
a
resumen:
ic
st
dí
ta
Es
Hay que tener en cuenta que, aunque el cuadro de diálogo indica la posibilidad de seleccionar la
desviación típica, en realidad proporciona la cuasidesviación típica.
Las instrucciones que se obtienen tras ejecutar el cuadro de diálogo anterior son:
24
En la salida obtenida, mean representa la media, sd la cuasidesviación típica, IQR el recorrido
intercuartílico, cv el coeficiente de variación, 0% el valor mínimo, 25% el primer cuartil, 50% la
mediana, 75% el tercer cuartil, 100% el valor máximo y n la frecuencia absoluta de cada valor de la
variable que se ha elegido en la agrupación.
El botón Resumir por grupos… permite obtener un resumen diferenciado para cada uno de los
grupos de observaciones que definen los distintos niveles del factor que se seleccione. Por ejemplo,
para obtener un resumen para cada hormiguero, se debe pulsar dicho botón y seleccionar la variable
Colonia en el listado que se mostrará en pantalla.
.
I.O
e
a
ic
st
dí
ta
tabla de doble entrada con variables cuantitativas hemos de segmentarlas previamente como se vio
en la Sección 5.1.
25
.
I.O
e
a
En el cuadro de diálogo Estadísticos se dispone de opciones que permiten obtener, expresadas
ic
como porcentajes, las frecuencias relativas conjuntas (Porcentajes totales) y las frecuencias relativas
condicionadas (Porcentajes por filas y Porcentajes por columnas). Por ejemplo, para obtener la
st
26
8 Coeficiente de correlación lineal y recta de regresión
8.1 Coeficiente de correlación lineal
.
I.O
Para calcular la matriz de correlaciones, que contiene el coeficiente de correlación lineal entre cada
par de variables seleccionadas, se debe utilizar la opción
Se deben seleccionar al menos dos variables, para lo cual puede usarse la tecla Ctrl si las variables
e
a seleccionar no se encuentran dispuestas de forma contigua, o tecla , en caso de que estén
dispuestas de forma contigua.
a
ic
st
dí
ta
Es
27
Estadísticos > Ajuste de modelos > Regresión Lineal…
Se debe elegir un nombre para el modelo de regresión que se creará (o aceptar el que se propone
por defecto) y seleccionar tanto la variable explicada (la que figura a la izquierda de la ecuación)
como la variable explicativa (podrían ser más de una). Por ejemplo, para calcular la recta que
expresa el Ancho de la cabeza como una función lineal del peso en mg, seleccionaremos
Ancho_cabeza como variable explicada y Peso_mg como variable explicativa.
.
I.O
e
a
ic
st
dí
ta
Para obtener el nombre de los coeficientes sólo haremos uso del comando coef, aplicándolo al
Es
modelo obtenido.
𝑌 = 31.529579 + 0.129439𝑋
28
Para hacer una predicción, se utiliza el comando predict. Para ello, definimos previamente una
variable con los valores de la variable explicativa. Por ejemplo, para los valores de Peso_mg 20, 80,
120, las predicciones del ancho de cabeza se obtendrían como sigue:
.
8.3 Representación gráfica
I.O
Para dibujar el diagrama de dispersión o nube de puntos junto con la recta de regresión mínimo-
cuadrática se debe usar la opción
e
En el cuadro de diálogo Datos se deben seleccionar las dos variables que se representarán, mientras
que en el cuadro de diálogo Opciones se debe marcar la opción Línea de mínimos cuadrados.
a
ic
st
dí
ta
Es
29
Es
ta
dí
st
ic
a
e
I.O
.
30
9 Modelos de distribuciones
Rcmdr permite, para un conjunto amplio de distribuciones de probabilidad, realizar las siguientes
acciones:
Obtener la probabilidad asociada a un valor 𝑥, 𝑃𝑟(𝑋 = 𝑥), o para un conjunto de ellos.
Obtener la función de distribución asociada a un valor 𝑥, 𝐹(𝑥).
Obtener los cuantiles de una distribución, 𝑄𝛼 /𝑃𝑟(𝑋 ≤ 𝑄𝛼 ) = 𝛼.
Obtener la representación gráfica de la función de probabilidad (variable discreta).
Realizar la representación gráfica de la función de densidad (variable continua).
Realizar la representación gráfica de la función de distribución.
Generar valores de la distribución.
.
I.O
En particular, tiene implementado todo lo especificado anteriormente en las distribuciones Binomial,
Poisson, Normal, Exponencial, Chi-cuadrado, t-Student y F-Snedecor.
e
Distribuciones > Distribuciones discretas > Distribución binomial > …
a
9.1.1 Para obtener la función de probabilidad
ic
… > Probabilidades binomiales
31
Si solo se requiere calcular las probabilidades para ciertos valores concretos, puede hacerse en la
ventana de comandos usando la instrucción dbinom. Por ejemplo, si 𝑋 ∼ 𝐵(20,0.65), para calcular
𝑃[𝑋 = 2], 𝑃[𝑋 = 7] y 𝑃[𝑋 = 15] utilizaríamos la orden
En el cuadrado de diálogo se especifican los parámetros de la distribución (n y p), los valores para
los que se desea obtener la función de distribución (Ej: 2,4,6 o 2:6) y se marca Cola izquierda. Por
ejemplo, si 𝑋 ∼ 𝐵(20,0.6), para evaluar la función de distribución en los puntos 2, 5 13, 14, 15 y 16:
.
I.O
e
a
ic
Para obtener la función de distribución completa en el ejemplo anterior, bastaría introducir 0:20 en el
st
de distribución
32
.
I.O
9.2 Distribuciones continuas
Para una distribución continua (lo ilustramos con la distribución normal)
En el cuadrado de diálogo se especifican los parámetros de la distribución, (𝜇 y 𝜎), los valores para
los que se desea obtener los cuantiles (Ej: 0.2, 0.25, 0.80) y se marca Cola izquierda. Por ejemplo,
si 𝑋 ∼ 𝑁(10,32 ) y queremos calcular los cuantiles de orden 0.15, 0.5 y 0.87, procederíamos de la
siguiente forma:
33
.
I.O
9.2.3 Para obtener la gráfica de la función de densidad o de la función de
distribución
e
tipo de gráfica que se desea. Por ejemplo, si 𝑋 ∼ 𝑁(10,32 ):
a
ic
st
dí
ta
Es
34
.
I.O
Las restantes opciones del cuadro de diálogo permiten colorear una o dos regiones bajo la curva
comprendidas entre dos valores del eje horizontal, que pueden indicarse directamente o bien venir
especificados por medio de cuantiles.
e
a
ic
st
dí
ta
Es
35
10 Contrastes de hipótesis e Intervalos de confianza (IdC) en
poblaciones normales
10.1 Contraste de hipótesis e IdC para la media de una población
.
La salida devuelve:
I.O
Valor del estadístico t, el número de grados de libertad (df) y el p-valor.
Intervalo de confianza para la media poblacional.
Valor de la media muestral.
Por ejemplo, para contrastar si el ancho de la cabeza de las hormigas, expresado en milímetros, es
igual a 1.6, con un nivel de significación del 5%:
e
a
ic
st
dí
ta
El p-valor es muy pequeño, por lo que se rechaza la hipótesis nula y, en consecuencia, podemos
considerar que el valor de la media poblacional es significativamente diferente de 1.6; el intervalo de
confianza al 95% para la media poblacional es (1.614895,1.631476).
36
10.2 Contraste de hipótesis e IdC para la diferencia de medias: muestras
relacionadas
En el cuadro de diálogo:
Datos: Se seleccionan las variables
Opciones: Se selecciona el tipo de contraste (bilateral, unilateral) y el nivel de confianza.
La salida devuelve:
Valor del estadístico 𝑡 del contraste, número de grados de libertad (df) y p-valor.
Intervalo de confianza para la diferencia de medias.
Valor de la diferencia de medias muestrales.
.
I.O
En el Problema 59 se desea saber si un fármaco hipotensor es efectivo, para lo cual se dispone de
una muestra de 11 individuos, en los que se ha medido la presión sistólica antes y después de la
administración del fármaco (fichero Problema_59.xlsx). El contraste de hipótesis se podría realizar
de la siguiente forma con Rmcdr:
e
a
ic
st
dí
ta
Es
El p-valor nos lleva a rechazar la hipótesis nula, por lo que podemos considerar que la diferencia de
medias es positiva y, en consecuencia, la presión sistólica disminuye significativamente, resultando
efectivo el fármaco.
37
10.3 Contraste de hipótesis e IdC para el cociente de varianzas: muestras
independientes
Para poder realizar inferencias sobre poblaciones independientes, los datos de ambas muestras
deben estar dispuestos en una misma variable, requiriéndose una variable auxiliar tipo factor que
especifique a qué población pertenece cada observación.
Datos > Modificar variables del conjunto de datos activo > Reordenar niveles de factor
.
I.O
Estadísticos > Varianzas > Test F para 2 varianzas…
En el cuadro de diálogo:
Datos:
o Grupo: Seleccionar la variable (factor) que define las dos poblaciones.
Variable explicada: Seleccionar la variable sobre la que se desea comparar las
o
varianzas.
e
Opciones: Seleccionar el tipo de contraste (bilateral, unilateral) y el nivel de confianza.
a
La salida devuelve:
ic
Valor del estadístico F del contraste, número de grados de libertad (df) y p-valor.
Intervalo de confianza para el cociente de varianzas.
st
Por ejemplo, para realizar el contraste de igualdad sobre igualdad de varianzas en el Problema 60,
dí
los datos deberían disponerse como se muestran en el fichero Problema_60.xlsx. En este caso no
existe ningún problema con los niveles del factor, ya que la primera población está asociada a
Proveedor 1, que es el primer nivel en orden alfabético.
ta
Es
38
.
I.O
e
El nivel de significación se estableció en 0.05; al ser el p-valor menor que esta cantidad, se rechaza
a
la hipótesis nula. Por tanto, el cociente de las varianzas poblaciones es significativamente diferente
de 1 y, en consecuencia, las varianzas son significativamente distintas.
ic
10.4 Contraste de hipótesis e IdC para la diferencia de medias: muestras
st
independientes
En el cuadro de diálogo:
Datos:
ta
o Grupo: Seleccionar la variable de grupo (factor) que define las dos poblaciones.
o Variable explicada: Seleccionar la variable sobre la que se desea comparar las
medias.
Es
Opciones:
o Seleccionar el tipo de contraste (bilateral, unilateral).
o Especificar el nivel de confianza.
o Indicar si se suponen varianzas iguales o distintas.
La salida devuelve:
Valor del estadístico t del contraste, número de grados de libertad (df) y p-valor.
Intervalo de confianza para la diferencia de medias.
Valores de las medias muestrales.
Haciendo uso de los datos del Problema 60 (Problema_60.xlsx), las varianzas poblacionales deben
suponerse distintas, según lo visto en el apartado 10.3. Para comparar si las medidas poblacionales
son iguales o no, procederíamos de la siguiente forma:
39
.
I.O
e
a
ic
st
dí
ta
El nivel de significación considerado es 𝛼 = 0.05, por lo que se rechaza la hipótesis nula al ser el p-
valor menor que este valor. Por tanto, consideramos que la diferencia de las medias poblacionales
Es
es distinta de cero, lo que implica que tales medias son significativamente distintas.
Al igual que en el caso del contraste de igualdad de varianzas (apartado 10.3), debe tenerse presente
que se considera como primera población aquella cuyo nivel correspondiente en el factor que define
los grupos es el primero en orden alfabético.
40
11 Contrastes de hipótesis sobre proporciones
11.1 Para una muestra
En el cuadro de diálogo:
Datos:
o Seleccionar la variable sobre la que se realizará el contraste. que debe ser de tipo
factor con dos niveles. El primero de ellos (en orden alfabético) es el que se considera
asociado al Éxito y, por tanto, al parámetro p.
Estadísticos:
o Indicar el valor de 𝑝0 .
.
o Indicar el tipo de contraste (bilateral, unilateral).
I.O
o Indicar el nivel de confianza.
o Seleccionar el tipo de prueba (aproximación normal, aproximación normal con
corrección por continuidad, Binomial exacto).
La salida devuelve:
Tabla frecuencia de cada una de las categorías.
e
Valor del estadístico (dependiendo del tipo de prueba seleccionada) y el p-valor.
Intervalo de confianza para p.
a
Proporción muestral de éxitos.
ic
Como ejemplo vamos a considerar los datos del Problema 53 (fichero Problema_53.xlsx) para
contrastar si la proporción de personas con afección pulmonar en la población es del 10%, es decir,
𝑝 = 0.10. En este caso sí existe un problema con los niveles del factor, ya que el primero en orden
st
Datos > Modificar variables del conjunto de datos activo > Reordenar niveles de factor
Se puede elegir un nuevo nombre para el factor reordenado, aunque nosotros no lo cambiaremos.
ta
Es
41
Una vez reordenados los niveles del factor, se puede proceder a realizar el contraste mediante la
opción indicada anteriormente (Estadísticos > Proporciones > Test de proporciones para una
muestra…).
.
I.O
e
a
ic
st
dí
ta
Es
42
.
I.O
El nivel de significación elegido es 𝛼 = 0.05, y el p-valor obtenido vale 0.8815, por lo que no existen
evidencias significativas para considerar que 𝑝 ≠ 0.10. El intervalo de confianza al 95% para el
parámetro 𝑝 es (0.05577123, 0.16031961).
e
Estadísticos > Proporciones > Test de proporciones para dos muestras…
En el cuadro de diálogo:
a
Datos:
o Seleccionar la variable de grupo de grupo (factor) que define las dos poblaciones.
ic
o Seleccionar la variable sobre la que se realizará el contraste. Debe ser un factor con
dos niveles, que, ordenados alfabéticamente, corresponden a Éxito y Fracaso,
st
Opciones:
o Indicar el tipo de contraste (bilateral, unilateral).
dí
La salida devuelve
Tabla de porcentajes (de Éxitos y Fracasos) en cada una de las dos poblaciones.
Es
NOTAS:
Se considera como primera población aquella que tiene asociado el primer nivel (en orden
alfabético) de la variable de grupo.
En la variable sobre la que se realiza el contraste, se considera Éxito el nivel que va primero en
orden alfabético.
Como ejemplo vamos a considerar los datos del Problema 61 (fichero Problema_61.xlsx) para
contrastar si el nuevo proceso de fabricación es mejor que el antiguo, es decir, si la proporción de
sacos deteriorados con el procedimiento actual es mayor que la obtenida con el procedimiento
43
antiguo (𝑝1 > 𝑝2 , considerando como Éxito el caso en que el saco está deteriorado y como primera
población la correspondientes al procedimiento actual).
Observando los niveles del factor Procedimiento no se observa ningún problema, ya que el primero
en orden alfabético es Actual. No sucede lo mismo con los niveles de la variable Saco deteriorado,
ya que el primero de ellos en orden alfabético es No, por lo que el éxito correspondería a Saco no
deteriorado. Para solucionar este problema puede plantearse el contraste en términos de 𝑞, con lo
cual nos interesa ver si 𝑞1 < 𝑞2 , o bien reordenar los niveles de este factor, como se ha hecho en el
apartado 11.1 (optamos por esta última opción).
Una vez reordenados los niveles del factor, se realiza el contraste.
.
I.O
e
a
ic
st
dí
ta
Es
44
.
I.O
El p-valor es mayor que el nivel de significación elegido (𝛼 = 0.05), por lo que no existen evidencias
significativas para afirmar que el nuevo proceso de fabricación es mejor que el antiguo.
e
12.1 Sobre dos variables categóricas del fichero de datos
a
Estadísticos > Tablas de contingencia > Tabla de doble entrada…
ic
En el cuadro de diálogo:
Datos:
st
La salida devuelve:
ta
Como ejemplo, vamos a realizar un contraste de hipótesis sobre los datos del Problema 61 (fichero
Problema_61.xlsx) para comprobar si existe relación entre la proporción de sacos deteriorados y el
procedimiento de fabricación utilizado (se trata, por tanto, de un contraste de homogeneidad /
independencia).
45
.
I.O
e
a
ic
st
dí
ta
Es
El p-valor es mayor que el nivel de significación usual (𝛼 = 0.05), por lo que concluimos que no
existen evidencias significativas para rechazar la hipótesis nula de independencia.
46
12.2 Sobre una tabla de contingencia independiente del fichero de datos
Estadísticos > Tablas de contingencia > Introducir y analizar una tabla de doble entrada…
En el cuadro de diálogo:
Tabla:
o Introducir nombre de las variables Fila y Columna.
o Indicar número de filas y de columnas.
o Introducir las frecuencias en la tabla que aparecerá en pantalla.
Estadísticos:
.
o Seleccionar Test de independencia Chi-cuadrado e Imprimir las frecuencias
I.O
esperadas (opcional).
La salida devuelve:
e
Tabla de doble entrada de valores esperados (opcional).
Como ejemplo vamos a considerar el Problema 62, en el que se trata de ver si la edad de los
a
chimpancés influye en su preferencia por distintos tipos de alimentos, disponiéndose para ello de los
siguientes datos:
ic
Edad A B C
0 - 15 11 39 13
st
15 – 30 37 31 25
30 – 50 7 18 19
dí
ta
Es
47
.
I.O
e
a
ic
st
dí
ta
El p-valor obtenido es menor claramente que el nivel de significación usual (𝛼 = 0.05), por lo que se
rechaza la hipótesis nula de independencia de las variables consideradas. En consecuencia,
Es
podemos considerar que la preferencia por el tipo de alimento se ve influenciada por la edad de los
chimpancés.
48