Pruebas de Independencia

Pruebas de independencia
El objetivo es verificar si existe una dependencia entre las variables cualitativas

que definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se
verifica que la probabilidad del resultado correspondiente a la
combinación Ai ∩ Bj es el producto de las probabilidades marginales
correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila
y P(Bj) la del resultado j para la variable columna.
P(Ai ∩ Bj) = P(Ai) · P(Bj)
Utilizaremos generalmente la notación más simplificada:
P(Ai ∩ Bj) = pij
P(Ai) = pi·
P(Bj) = p·j
Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla

de contingencia, por ni·/N y n·j/N respectivamente.
Hipótesis nula de independencia: para toda combinación de resultados de las

variables fila y columna (i, j).
H0: pij = pi· p·j para todo i = 1, ..., k j = 1, .., m
La hipótesis alternativa, que implica dependencia, se puede formular diciendo

que alguna de las igualdades de la hipótesis nula es falsa.
Los valores observados son nij. Los valores esperados bajo la hipótesis nula de
independencia se calculan de la manera siguiente:
eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N
El estadístico de contraste se calcula de la manera habitual:

La distribución asintótica bajo la hipótesis nula es una χ 2 con (k − 1) · (m − 1)
grados de libertad. Los grados de libertad pueden entenderse, de manera intuitiva,
entendiendo que el número de parámetros que se estiman son (k − 1) y (m − 1),
ya que queda fijada la probabilidad de la última clase de cada característica una
vez estimadas las restantes. Por tanto, aplicando la fórmula para los grados de
libertad se obtiene:
grados de libertad = número de clases − número de parámetros estimados − 1
grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)
El criterio de decisión es el mismo que en el caso general:
Rechazamos la hipótesis nula si
donde el último término es el valor crítico asociado con una distribución χ2,

con (k − 1) · (m − 1) grados de libertad, tal que deja a su derecha una
probabilidad igual a α.
La condición de validez es que las frecuencias esperadas eij sean mayores que 5.
4.3.1 Pruebas de independencia
La prueba Ji Cuadrado de contraste de independencia entre

variables cualitativas se basa en el estadístico Ji Cuadrado, que
ha sido introducido en el tema 5 apartado 5, cuya distribución
es Ji Cuadrado con (f-1)(c-1) grados de libertad (f y c: Número
de filas y columnas de la tabla bivariada de contingencia) si la
Hipótesis Nula de independencia es verdadera.
1 Introducción
Las pruebas no paramétricas de contraste de hipótesis son una

alternativa a las pruebas paramétricas cuando los datos no
cumplen los supuestos requeridos para la inferencia
paramétrica, lo que generalmente ocurre cuando:
a) Los datos no siguen la distribución Normal.
b) El nivel de medida es ordinal.
.1 Binomial

La prueba de los signos o binomial puede ser considerada una

aplicación de la prueba de contraste de hipótesis sobre
proporciones cuando se desea hacer inferencias sobre
parámetros obtenidos con datos medidos a nivel ordinal como la
Mediana. El estadístico de contraste es el número de datos con
valor superior al definido en la Hipótesis Nula, y la prueba
contrasta el nivel de significación con la probabilidad de
ocurrencia de datos con valor igual o superior al observado.
Ejemplo
En una investigación piden a una muestra de sujetos que

indiquen en una escala de 0 a 10 la preferencia por una bebida.
Los resultados son:
Desean saber si la Mediana de la población de la que procede la

muestra de los datos es igual a 5.
a) Supuestos: Los datos están medidos a nivel ordinal o

superior.
b) Hipótesis:
c) Estadístico de contraste:
d) Distribución del estadístico de contraste: Bin(7,0.5). (7 es el

número de datos. 0.5 es la probabilidad que una observación
tenga valor superior a 5 bajo el supuesto establecido en la
Hipótesis Nula).
e) Significación del estadístico de contraste: La probabilidad de

obtener 3 datos por encima de 5 (n=7, p= 0.5) es 0.5
f) Decisión: Se acepta la Hipótesis Nula.
2.2 Kolmogorov

La prueba de Kolmogorov es una prueba de bondad de ajuste,

es decir, del grado en que la distribución observada difiere de
otra distribución. Es una alternativa a la prueba Ji Cuadrado de
bondad de ajuste cuanto el número de datos es pequeño. La
prueba no debe ser aplicada si hay muchos empates.
a) Supuestos. Los datos están medidos al menos a nivel ordinal.
b) Hipótesis Nula: No hay diferencias entre las distribuciones

comparadas.
c) Estadístico de contraste: D (mayor diferencia entre las

frecuencias relativas de las distribuciones).
d) Distribución del estadístico de contraste: Específico

dependiendo de la distribución con que se compare la
distribución observada.

Ejemplo
Desean saber si una muestra de debe datos pertenece a una

población normalmente distribuida. Los datos (ordenados de
menor a mayor) son:
b) Hipótesis Nula: No hay diferencia estadísticamente

significativa entre la distribución de la población a que pertenece
la muestra y la distribución Normal.
Hipótesis Alternativa: Hay diferencia estadísticamente

significativa entre la distribución de la población a que pertenece
la muestra y la distribución Normal.
c) Estadístico de contraste. Obtención del estadístico de

contraste:
Tipificar la muestra:
Obtener los valores típicos que corresponden a diez intervalos

de una distribución Normal:

-1.28, -0.84, -0.52, -0.25, 0, 0.25, 0.52, 0.84, 1.28
(Valores que corresponden a los puntos cuya función de

distribución Normal estandarizada son 0.1, 0.2, 0.3, 0.4, 0.5,
0.6, 0.7, 0.8 y 0.9)
Emparejar las distribuciones tipificadas hipotética (Normal en el

ejemplo) y observada:
(Notas:
* F(X) se refiere al límite superior del intervalo.
* Los valores en la columna F(X)obs son funciones de la

distribución Normal estandarizada y son los que correspondería
a las puntuaciones observadas si ajustaran a la distribución
Normal, es decir, si la Hipótesis Nula fuera verdadera)
D=0.2
e) Significación del estadístico de contraste: De acuerdo con las

tablas de la prueba es igual a 0.81
f) Se acepta la Hipótesis Nula por ser mayor la significación del

estadístico de contraste que el nivel previamente establecido
(alfa= 0.05)
.1 U de Mann
Es una alternativa a la prueba t para dos muestras

independientes. La prueba se basa en la relación entre las
sumas de rangos y las diferencias entre grupos, como puede
apreciarse en los siguientes ejemplos:
Los siguientes datos son puntuaciones de sensación de

bienestar obtenidas en dos muestras diferentes:
Ordenamos los datos como si fueran una sola muestra y les

asignamos rangos:
Los rangos de los dos grupos están separados, dado que las
puntuaciones de los dos grupos son diferentes.
Las sumas de los rangos por filas son:
Las sumas dan cantidades muy diferentes.

En cambio, consideremos el siguiente ejemplo, donde no hay

diferencia entre los grupos comparados:
Ordenación de los datos como si fueran de una sola muestra:
(Nota: Cuando los datos tienen empates se les asigna el rango

promedio del que tendrían si no hubiera empates)

Sustituyendo los valores originales por los rangos:
Los rangos de los dos grupos están mezclados, dado que las
puntuaciones son parecidas en ambos grupos.
Las sumas de rangos por filas son:
Las sumas dan la misma cantidad porque los rangos asignados a

las puntuaciones de los dos grupos son idénticos.

a) Supuestos:
Los datos deben estar medidos a nivel ordinal, cuando menos.
No hace falta suponer normalidad de las distribuciones ni

homogeneidad de las Varianzas.
El procedimiento se basa en la relación entre las sumas de los

rangos y las diferencias entre grupos.
b) Hipótesis:
donde R es la Media de los rangos.
Muestras pequeñas (si n<20):
Muestras grandes:
d) Distribución del estadístico de contraste. Con muestras

grandes Z aproxima la distribución Normal. Con muestras
pequeñas, U sigue distribución específica.

Ejemplo (con el primer grupo de datos)
b) Hipótesis:
e) Estadístico de contraste:
d) Distribución del estadístico de contraste: Específica ya que

las muestras son pequeñas.
e) Significación del estadístico de contraste. Según las tablas de
la prueba, el estadístico es significativo para alfa=0.05.
f) Decisión: Se rechaza la Hipótesis Nula
3.2 Wilcoxon
Es una alternativa a la prueba t para dos muestras relacionadas.
a) Supuestos:
Los datos deben estar medidos a nivel ordinal, cuando menos.
No se requiere los supuestos de normalidad de las distribuciones

ni homogeneidad de las Varianzas.
b) Hipótesis:
Muestras pequeñas: S+ (Suma de rangos de las diferencias

positivas entre los datos).
Muestras grandes:
Obtención de S+:
1) Calcular las diferencias en valor absoluto entre las dos

puntuaciones de cada pareja
2) Asignar rangos a las diferencias (no incluir las diferencias
nulas).
3) Sumar los rangos correspondientes a las diferencias positivas

(S+) y los correspondientes a las diferencias negativas (S-).
d) Distribución del estadístico de contraste:
Muestras pequeñas (si n<20): S+ sigue una distribución

específica.
Muestras grandes: Z aproxima la distribución Normal cuanto

más grande sea la muestra.

Ejemplo
d) Distribución del estadístico de contraste: Dado que n es

mayor que 20, se asume que Z aproxima la distribución Normal.
e) Significación del estadístico de contraste Z: 0.016
f) Decisión: Se rechaza la Hipótesis Nula por ser la significación

del estadístico de contraste menor que la previamente
establecida (alfa=0.05).
3.3 Kruskal
Es una extensión de la prueba de Mann-Whitney cuando hay

que comparar más de dos grupos independientes.
Alternativa al ANOVA unifactorial entre-sujetos cuando:
* No se dan los supuestos de normalidad y homoscedasticidad.
* Los datos están medidos a nivel ordinal.
b) Hipótesis:
c) Estadístico de contraste :
d) Distribución del estadístico de contraste: Aproxima Ji

Cuadrado con J-1 g.l. para muestras grandes. Con muestras
pequeñas (si el número de datos de algún grupo es menor a 5)
sigue una distribución específica.

Ejemplo

Ordenar los datos como si fueran de una sola muestra:
Asignar rangos a los datos:
Sustituir los datos originales por sus rangos:
Sumar los rangos de las filas:
El estadístico H toma el siguiente valor:

Cuadrado con 2gl.
e) Significación del estadístico de contraste: 0.07
f) Decisión: Se acepta la Hipótesis Nula por ser la significación

del estadístico de contraste superior a la del valor previamente
establecido (alfa= 0.05)
3.4 Friedman
Es una alternativa al análisis intrasujetos cuando:
1) No se dan los supuestos de normalidad y homoscedasticidad.
2) El nivel de medida de las variables es ordinal.

b) Hipótesis Nula y Alternativa:
H0: Las distribuciones de las J poblaciones son idénticas.
H1: Las distribuciones de las J poblaciones no son idénticas.

Cuadrado con n-1 grados de libertad con muestras grandes
(n>15 o J>4).

Ejemplo
Asignamos rangos por filas y sumamos por columnas:
d) Distribución del estadístico de contraste: Específica ya que

las muestras son pequeñas.
e) Significación del estadístico de contraste: De acuerdo a la

tabla de la prueba, el estadístico de contraste es significativo
(alfa=0.05) (el valor crítico para n=3 y J=4 es 7.4),
f) Decisión: Se acepta la Hipótesis Nula.
4 Datos categóricos
El objeto de este apartado es la inferencia con datos

cualitativos, que al ser relativamente fáciles de obtener facilitan
la generación de bases de datos en la práctica profesional. Sin
embargo, la inferencia con estos datos requiere muestras más
grandes que con datos cuantitativos.
Los estadísticos de contraste utilizados en estas pruebas

son z y Ji Cuadrado, que ha sido explicado anteriormente
como estadístico de asociación, y en Estadística Inferencial es
utilizado en pruebas de bondad de ajuste y de contraste de
hipótesis de proporciones. El procedimiento de cálculo del
estadístico Ji Cuadrado es el mismo en todos los casos, salvo
algunas particularidades en la prueba de bondad de ajuste.
https://www.uv.es/webgid/Inferencial/4_datos_categricos.html
Ejercicios de prueba de Independencia. Tabla de Contingencia
En una encuesta pre-electoral realizada a 500 personas se obtuvo la siguiente
Distribución en función de sus edades y de su intención de voto:
18 – 35 35 – 50 50 o más
Edad
Partido
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15
Compruebe la hipótesis a un nivel de confianza del 95%
Solución:
Paso 1. Redactar las hipótesis (Nula y Alternativa)

La hipótesis Nula siempre se redacta en términos de independencia:
H0: La intención de voto es Independiente de la edad de las personas.
H1: La intención de voto depende de la edad de las personas.
Paso 2. Determinar los grados de libertad
G.L. = (Filas -1)*(Columnas -1)
G.L.= (4-1)*(3-1) = 6
Paso 3. Determinar el punto Crítico
(GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 6 grados de
libertad por el lateral y en la parte superior de la tabla el nivel de significación de
0,05. (α=1-0,95 = 0,05) encontramos que el valor crítico es.
(6; 0,05) = 12,592

2
Las Filas son horizontales y las
Columnas verticales. Sólo se cuentan las
celdas internas donde están los datos.
(6; 0,05) = 12,592
Prof. Emma C. Argüello D
Paso 4. Calcular las Esperanzas
18 – 35 35 – 50 50 o más Total
Edad
Partido
A 10 40 60 110
B 15 70 90 175
C 45 60 35 140
D 30 30 15 75
Total 100 200 200 500
OE
10 22 6,55
15 35 11,43
45 28 10,32
30 15 15,00
40 44 0,36
70 70 0
60 56 0,29
30 30 0
60 44 5,82
90 70 5,71
35 56 7,88
15 30 7,50
500 500 70,26
Supera al punto crítico (70,26
> 12,592)
Paso 5. Tomar la decisión.
Como el valor del estadístico es mayor que el valor crítico se rechaza la hipótesis
nula con un 95% de confianza o un 5% de significación.
Ejercicio de Bondad de Ajuste

La distribución del número de entrevistas conseguidas por los 56 alumnos que
participaron en el proyecto fue la siguiente:
No. De Entrevistas No. De Alumnos
06
1 16
2 23
39
42
Compruebe la hipótesis a un nivel de significación del 95%
Solución:
Paso 1. Redactar las hipótesis (Nula y Alternativa)
La hipótesis Nula siempre se redacta como una afirmación del patrón esperado:
H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mismo

número de entrevistas.
H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el mismo
número de entrevistas.
Paso 2. Determinar los grados de libertad
G.L.= Clasificaciones -1
G.L.= No. De entrevistas -1
G.L.= 5-1 = 4
Paso 3. Determinar el punto Crítico
(GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grados de
libertad por el lateral y en la parte superior de la tabla el nivel de significación de
0,05. Encontramos que el valor crítico es 9,49

Paso 4. Calcular las Esperanzas
Como el patrón esperado es que todos los estudiantes realicen el mismo número
de entrevistas se calcula un promedio entre las observaciones y el número de
entrevistas.
No. De Entrevistas O E
La sumatoria hasta aquí ya
demuestra que sobrepasa el
punto crítico lo que indica
que se rechaza la H0
0 6 11,2 2,41
1 16 11,2 2,06
2 23 11,2 12,43
3 9 11,2
4 2 11,2
56 56
Paso 5. Tomar la decisión
Se rechaza la hipótesis nula con un 5% de significación.

Pruebas de Independencia

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pruebas de Independencia

Cargado por

Copyright:

Formatos disponibles

Pruebas de independencia

El objetivo es verificar si existe una dependencia entre las variables cualitativas

P(Ai ∩ Bj) = P(Ai) · P(Bj)

Utilizaremos generalmente la notación más simplificada:

Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla

Hipótesis nula de independencia: para toda combinación de resultados de las

H0: pij = pi· p·j para todo i = 1, ..., k j = 1, .., m

La hipótesis alternativa, que implica dependencia, se puede formular diciendo

eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N

El estadístico de contraste se calcula de la manera habitual:

grados de libertad = número de clases − número de parámetros estimados − 1

grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)

El criterio de decisión es el mismo que en el caso general:

Rechazamos la hipótesis nula si

donde el último término es el valor crítico asociado con una distribución χ2,

La condición de validez es que las frecuencias esperadas eij sean mayores que 5.

4.3.1 Pruebas de independencia

La prueba Ji Cuadrado de contraste de independencia entre

Las pruebas no paramétricas de contraste de hipótesis son una

a) Los datos no siguen la distribución Normal.

b) El nivel de medida es ordinal.

La prueba de los signos o binomial puede ser considerada una

En una investigación piden a una muestra de sujetos que

Desean saber si la Mediana de la población de la que procede la

a) Supuestos: Los datos están medidos a nivel ordinal o

d) Distribución del estadístico de contraste: Bin(7,0.5). (7 es el

e) Significación del estadístico de contraste: La probabilidad de

f) Decisión: Se acepta la Hipótesis Nula.

La prueba de Kolmogorov es una prueba de bondad de ajuste,

a) Supuestos. Los datos están medidos al menos a nivel ordinal.

b) Hipótesis Nula: No hay diferencias entre las distribuciones

c) Estadístico de contraste: D (mayor diferencia entre las

d) Distribución del estadístico de contraste: Específico

Desean saber si una muestra de debe datos pertenece a una

b) Hipótesis Nula: No hay diferencia estadísticamente

Hipótesis Alternativa: Hay diferencia estadísticamente

c) Estadístico de contraste. Obtención del estadístico de

Obtener los valores típicos que corresponden a diez intervalos

-1.28, -0.84, -0.52, -0.25, 0, 0.25, 0.52, 0.84, 1.28

(Valores que corresponden a los puntos cuya función de

Emparejar las distribuciones tipificadas hipotética (Normal en el

* F(X) se refiere al límite superior del intervalo.

* Los valores en la columna F(X)obs son funciones de la

e) Significación del estadístico de contraste: De acuerdo con las

f) Se acepta la Hipótesis Nula por ser mayor la significación del

Es una alternativa a la prueba t para dos muestras

Los siguientes datos son puntuaciones de sensación de

Ordenamos los datos como si fueran una sola muestra y les

Las sumas de los rangos por filas son:

Las sumas dan cantidades muy diferentes.

En cambio, consideremos el siguiente ejemplo, donde no hay

(Nota: Cuando los datos tienen empates se les asigna el rango

Sustituyendo los valores originales por los rangos:

Las sumas de rangos por filas son:

Las sumas dan la misma cantidad porque los rangos asignados a

Los datos deben estar medidos a nivel ordinal, cuando menos.

No hace falta suponer normalidad de las distribuciones ni

El procedimiento se basa en la relación entre las sumas de los

donde R es la Media de los rangos.

Muestras pequeñas (si n<20):

d) Distribución del estadístico de contraste. Con muestras

Ejemplo (con el primer grupo de datos)

d) Distribución del estadístico de contraste: Específica ya que

f) Decisión: Se rechaza la Hipótesis Nula