Está en la página 1de 3

Un problema común es mirar una tabla de datos y determinar si hay una relación entre dos

variables categóricas. Si no hubiera relación, las dos variables serían estadísticamente


independientes. En estas pruebas, la hipótesis es que las dos variables son independientes. La
hipótesis alternativa es que las dos variables no son independientes.

Las tablas de datos a menudo surgen en contextos experimentales: hay una columna de datos
de una población de prueba y otra de una población de control. En este contexto, el analista a
menudo desea calcular la probabilidad de que los dos conjuntos de datos provengan de la misma
población (lo que implicaría las mismas proporciones en cada uno). Este es un problema
equivalente, por lo que se pueden utilizar las mismas funciones de prueba.

Para tablas de contingencia pequeñas (y valores pequeños), puede obtener los mejores
resultados utilizando la prueba exacta de Fisher. La prueba exacta de Fisher calcula la
probabilidad de que la desviación de la independencia fuera mayor o igual que las cantidades
de la muestra. Por lo tanto, un valor p alto significa que los datos de la muestra implican que es
probable que las dos variables sean independientes. Un valor p bajo significa que los datos de la
muestra implican que las dos variables no son independientes.

En R, puede utilizar la función fisher.test para realizar la prueba exacta de Fisher:


fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, control = list(), or = 1,
alternative = "two.sided", conf.int = TRUE, conf.level = 0.95,
simulate.p.value = FALSE, B = 2000)
He aquí una descripción de los argumentos para fisher.test.

Argumento Descripción Predeterminado


x Especifica los datos simples
que se utilizarán para la
prueba. Ya sea una matriz
(que representa una tabla de
contingencia bidimensional)
o un factor.
y Especifica los datos de la NULL
muestra que se utilizarán
para la prueba. Si x es un
factor, entonces y debería
ser un factor. Si x es una
matriz, entonces y se ignora.
Workspace Un valor entero que 200000
especifica el tamaño del
espacio de trabajo a utilizar
en el algoritmo de red (en
unidades de 4 bytes).
Hybrid En el caso de los cuadros de FALSE
tamaño superior a 2 × 2,
especifíquese si deben
calcularse las probabilidades
exactas (hybrid=FALSE) o si
debe utilizarse una
aproximación (hybrid=TRUE).
Control Una lista de componentes List()
con nombre para el control
de bajo nivel de fisher.test;
consulte el archivo de ayuda
para obtener más
información.
Or La relación de 1
probabilidades hipotética
para el caso de 2 × 2.
Alternative La hipótesis alternativa. “two.sided”
Debe ser uno de "dos caras",
"mayor" o "menor".
Conf.int Un valor lógico que TRUE
especifica si se deben
calcular y devolver los
intervalos de confianza en
los resultados.
Conf.level Especifica el nivel de 0.95
confianza que se utilizará
para calcular el intervalo de
confianza.
Simulate.p.value Valor lógico que indica si se FALSE
debe utilizar la simulación de
Monte Carlo para calcular
valores p en tablas mayores
de 2 × 2.
B Un número entero que 2000
indica el número de réplicas
a utilizar en las simulaciones
de Monte Carlo.

Si usted especifica x e y como factores, entonces R calculará una tabla de contingencia a partir
de estos factores. Alternativamente, puede especificar una matriz para x que contenga la tabla
de contingencia.

La prueba exacta de Fisher puede ser muy intensiva desde el punto de vista computacional
para las tablas grandes, por lo que los estadísticos suelen utilizar una prueba alternativa:
pruebas de ji cuadrado. Las pruebas de ji cuadrado no son exactamente lo mismo que las
pruebas de Fisher. Con una prueba de ji cuadrado, se establece explícitamente una hipótesis
sobre la probabilidad de cada evento y luego se compara la distribución de la muestra con la
hipótesis. El valor p es la probabilidad de que una distribución al menos como diferente de la
distribución hipotética surgió por casualidad.
> births.july.2006 <- births2006.smpl[births2006.smpl$DMETH_REC!="Unknown" &
+ births2006.smpl$DOB_MM==7, ]
> nrow(births2006.smpl)
[1] 427323
> nrow(births.july.2006)
[1] 37060
> method.and.sex <- table(
+ births.july.2006$SEX,
+ as.factor(as.character(births.july.2006$DMETH_REC)))
> method.and.sex
C-section Vaginal
F 5326 12622
M 6067 13045
Tenga en cuenta que los métodos de entrega fueron en realidad ligeramente desequilibrados
por género durante julio de 2006:
> 5326 / (5326 + 6067)
[1] 0.46748
> 12622 / (12622 + 13045)
[1] 0.4917598

Sin embargo, no hay una razón intuitiva para que esto sea cierto. Comprobemos entonces si
esta diferencia es estadísticamente significativa: ¿se debe la diferencia al azar o es probable
que estas dos variables (método de administración y sexo) sean independientes? Podemos
usar la prueba exacta de Fisher para responder a esta pregunta:
> fisher.test(method.and.sex)
Fisher's Exact Test for Count Data
data: method.and.sex
p-value = 1.604e-05
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.8678345 0.9485129
sample estimates:
odds ratio
0.9072866

El valor p es la probabilidad de obtener resultados que estaban al menos tan alejados de la independencia como estos
resultados. En este caso, el valor p es muy bajo, lo que indica que los resultados estaban muy lejos de lo que
esperaríamos si las variables fueran verdaderamente independientes. Esto implica que debemos rechazar la hipótesis
de que las dos variables son independientes.

Como segundo ejemplo, veamos sólo los nacimientos de gemelos. (Tenga en cuenta que cada
registro representa un solo nacimiento, no un solo embarazo)
> twins.2006 <- births2006.smpl[births2006.smpl$DPLURAL=="2 Twin" &
+ births2006.smpl$DMETH_REC != "Unknown",]
> method.and.sex.twins <-
+ table(twins.2006$SEX,
+ as.factor(as.character(twins.2006$DMETH_REC)))
> method.and.sex.twins
C-section Vaginal
F 4924 1774
M 5076 1860

Ahora veamos si hay una diferencia estadísticamente significativa en los métodos de parto
entre los dos sexos:
> fisher.test(method.and.sex.twins)

Fisher's Exact Test for Count Data


data: method.and.sex.twins
p-value = 0.67
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.9420023 1.0981529
sample estimates:

odds ratio
1.017083

En este caso, el valor p (0.67) es muy alto, por lo que es muy probable que las dos variables
sean independientes.

También podría gustarte