Está en la página 1de 24

Pruebas de independencia

El objetivo es verificar si existe una dependencia entre las variables cualitativas


que definen filas y columnas, es decir, si para todo i = 1, ..., k  y  j = 1, .., m se
verifica que la probabilidad del resultado correspondiente a la
combinación Ai ∩ Bj  es el producto de las probabilidades marginales
correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila
y P(Bj) la del resultado j para la variable columna.

P(Ai ∩ Bj) = P(Ai) · P(Bj)

Utilizaremos generalmente la notación más simplificada:

P(Ai ∩ Bj) = pij

P(Ai) = pi·

P(Bj) = p·j

Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla


de contingencia, por ni·/N  y n·j/N respectivamente.

Hipótesis nula de independencia: para toda combinación de resultados de las


variables fila y columna (i, j).

H0: pij = pi· p·j                  para todo      i = 1, ..., k    j = 1, .., m

La hipótesis alternativa, que implica dependencia, se puede formular diciendo


que alguna de las igualdades de la hipótesis nula es falsa.

Los valores observados son nij. Los valores esperados bajo la hipótesis nula de
independencia se calculan de la manera siguiente:

eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N

El estadístico de contraste se calcula de la manera habitual:


La distribución asintótica bajo la hipótesis nula es una χ 2 con (k − 1) · (m − 1)
grados de libertad. Los grados de libertad pueden entenderse, de manera intuitiva,
entendiendo que el número de parámetros que se estiman son (k − 1) y (m − 1),
ya que queda fijada la probabilidad de la última clase de cada característica una
vez estimadas las restantes. Por tanto, aplicando la fórmula para los grados de
libertad se obtiene:

grados de libertad = número de clases − número de parámetros estimados − 1

grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)

El criterio de decisión es el mismo que en el caso general:

Rechazamos la hipótesis nula si

donde el último término es el valor crítico asociado con una distribución χ2,


con (k − 1) · (m − 1) grados de libertad, tal que deja a su derecha una
probabilidad igual a α.

La condición de validez es que las frecuencias esperadas eij sean mayores que 5.

4.3.1 Pruebas de independencia

La prueba Ji Cuadrado de contraste de independencia entre


variables cualitativas se basa en el estadístico Ji Cuadrado, que
ha sido introducido en el tema 5 apartado 5, cuya distribución
es Ji Cuadrado con (f-1)(c-1) grados de libertad (f y c: Número
de filas y columnas de la tabla bivariada de contingencia) si la
Hipótesis Nula de independencia es verdadera.
1 Introducción

Las pruebas no paramétricas de contraste de hipótesis son una


alternativa a las pruebas paramétricas cuando los datos no
cumplen los supuestos requeridos para la inferencia
paramétrica, lo que generalmente ocurre cuando:

a) Los datos no siguen la distribución Normal.

b) El nivel de medida es ordinal.

.1 Binomial
 

La prueba de los signos o binomial puede ser considerada una


aplicación de la prueba de contraste de hipótesis sobre
proporciones cuando se desea hacer inferencias sobre
parámetros obtenidos con datos medidos a nivel ordinal como la
Mediana. El estadístico de contraste es el número de datos con
valor superior al definido en la Hipótesis Nula, y la prueba
contrasta el nivel de significación con la probabilidad de
ocurrencia de datos con valor igual o superior al observado.

Ejemplo

En una investigación piden a una muestra de sujetos que


indiquen en una escala de 0 a 10 la preferencia por una bebida.
Los resultados son:

Desean saber si la Mediana de la población de la que procede la


muestra de los datos es igual a 5.

a) Supuestos: Los datos están medidos a nivel ordinal o


superior.
b) Hipótesis:

c) Estadístico de contraste:

d) Distribución del estadístico de contraste: Bin(7,0.5). (7 es el


número de datos. 0.5 es la probabilidad que una observación
tenga valor superior a 5 bajo el supuesto establecido en la
Hipótesis Nula).

e) Significación del estadístico de contraste: La probabilidad de


obtener 3 datos por encima de 5 (n=7, p= 0.5) es 0.5

f) Decisión: Se acepta la Hipótesis Nula.

2.2 Kolmogorov
 

La prueba de Kolmogorov es una prueba de bondad de ajuste,


es decir, del grado en que la distribución observada difiere de
otra distribución. Es una alternativa a la prueba Ji Cuadrado de
bondad de ajuste cuanto el número de datos es pequeño. La
prueba no debe ser aplicada si hay muchos empates.

a) Supuestos. Los datos están medidos al menos a nivel ordinal.

b) Hipótesis Nula: No hay diferencias entre las distribuciones


comparadas.

c) Estadístico de contraste: D (mayor diferencia entre las


frecuencias relativas de las distribuciones).

d) Distribución del estadístico de contraste: Específico


dependiendo de la distribución con que se compare la
distribución observada.
 

Ejemplo

Desean saber si una muestra de debe datos pertenece a una


población normalmente distribuida. Los datos (ordenados de
menor a mayor) son:

b) Hipótesis Nula: No hay diferencia estadísticamente


significativa entre la distribución de la población a que pertenece
la muestra y la distribución Normal.

Hipótesis Alternativa: Hay diferencia estadísticamente


significativa entre la distribución de la población a que pertenece
la muestra y la distribución Normal.

c) Estadístico de contraste. Obtención del estadístico de


contraste:

Tipificar la muestra:

Obtener los valores típicos que corresponden a diez intervalos


de una distribución Normal:
 

-1.28, -0.84, -0.52, -0.25, 0, 0.25, 0.52, 0.84, 1.28

(Valores que corresponden a los puntos cuya función de


distribución Normal estandarizada son 0.1, 0.2, 0.3, 0.4, 0.5,
0.6, 0.7, 0.8 y 0.9)

Emparejar las distribuciones tipificadas hipotética (Normal en el


ejemplo) y observada:
(Notas:

* F(X) se refiere al límite superior del intervalo.

* Los valores en la columna F(X)obs son funciones de la


distribución Normal estandarizada y son los que correspondería
a las puntuaciones observadas si ajustaran a la distribución
Normal, es decir, si la Hipótesis Nula fuera verdadera)

D=0.2

e) Significación del estadístico de contraste: De acuerdo con las


tablas de la prueba es igual a 0.81

f) Se acepta la Hipótesis Nula por ser mayor la significación del


estadístico de contraste que el nivel previamente establecido
(alfa= 0.05)

.1 U de Mann

Es una alternativa a la prueba t para dos muestras


independientes. La prueba se basa en la relación entre las
sumas de rangos y las diferencias entre grupos, como puede
apreciarse en los siguientes ejemplos:

Los siguientes datos son puntuaciones de sensación de


bienestar obtenidas en dos muestras diferentes:

Ordenamos los datos como si fueran una sola muestra y les


asignamos rangos:

Los rangos de los dos grupos están separados, dado que las
puntuaciones de los dos grupos son diferentes.

Las sumas de los rangos por filas son:

Las sumas dan cantidades muy diferentes.


 

En cambio, consideremos el siguiente ejemplo, donde no hay


diferencia entre los grupos comparados:
Ordenación de los datos como si fueran de una sola muestra:

(Nota: Cuando los datos tienen empates se les asigna el rango


promedio del que tendrían si no hubiera empates)
 

Sustituyendo los valores originales por los rangos:

Los rangos de los dos grupos están mezclados, dado que las
puntuaciones son parecidas en ambos grupos.

Las sumas de rangos por filas son:

Las sumas dan la misma cantidad porque los rangos asignados a


las puntuaciones de los dos grupos son idénticos.
 

a) Supuestos:

Los datos deben estar medidos a nivel ordinal, cuando menos.

No hace falta suponer normalidad de las distribuciones ni


homogeneidad de las Varianzas.

El procedimiento se basa en la relación entre las sumas de los


rangos y las diferencias entre grupos.
b) Hipótesis:

donde R es la Media de los rangos.

c) Estadístico de contraste:

Muestras pequeñas (si n<20):

Muestras grandes:

d) Distribución del estadístico de contraste. Con muestras


grandes Z aproxima la distribución Normal. Con muestras
pequeñas, U sigue distribución específica.
 

Ejemplo (con el primer grupo de datos)

b) Hipótesis:

e) Estadístico de contraste:

d) Distribución del estadístico de contraste: Específica ya que


las muestras son pequeñas.
e) Significación del estadístico de contraste. Según las tablas de
la prueba, el estadístico es significativo para alfa=0.05.

f) Decisión: Se rechaza la Hipótesis Nula

3.2 Wilcoxon

Es una alternativa a la prueba t para dos muestras relacionadas.

a) Supuestos:

Los datos deben estar medidos a nivel ordinal, cuando menos.

No se requiere los supuestos de normalidad de las distribuciones


ni homogeneidad de las Varianzas.

b) Hipótesis:

c) Estadístico de contraste:

Muestras pequeñas: S+ (Suma de rangos de las diferencias


positivas entre los datos).

Muestras grandes:

Obtención de S+:

1) Calcular las diferencias en valor absoluto entre las dos


puntuaciones de cada pareja
2) Asignar rangos a las diferencias (no incluir las diferencias
nulas).

3) Sumar los rangos correspondientes a las diferencias positivas


(S+) y los correspondientes a las diferencias negativas (S-).

d) Distribución del estadístico de contraste:

Muestras pequeñas (si n<20): S+ sigue una distribución


específica.

Muestras grandes: Z aproxima la distribución Normal cuanto


más grande sea la muestra.
 

Ejemplo

d) Distribución del estadístico de contraste: Dado que n es


mayor que 20, se asume que Z aproxima la distribución Normal.

e) Significación del estadístico de contraste Z: 0.016

f) Decisión: Se rechaza la Hipótesis Nula por ser la significación


del estadístico de contraste menor que la previamente
establecida (alfa=0.05).
3.3 Kruskal

Es una extensión de la prueba de Mann-Whitney cuando hay


que comparar más de dos grupos independientes.

Alternativa al ANOVA unifactorial entre-sujetos cuando:

* No se dan los supuestos de normalidad y homoscedasticidad.

* Los datos están medidos a nivel ordinal.

b) Hipótesis:

c) Estadístico de contraste :

d) Distribución del estadístico de contraste: Aproxima Ji


Cuadrado con J-1 g.l. para muestras grandes. Con muestras
pequeñas (si el número de datos de algún grupo es menor a 5)
sigue una distribución específica.
 

Ejemplo
 

c) Estadístico de contraste:
Ordenar los datos como si fueran de una sola muestra:

Asignar rangos a los datos:

Sustituir los datos originales por sus rangos:

Sumar los rangos de las filas:

El estadístico H toma el siguiente valor:


d) Distribución del estadístico de contraste: Aproxima Ji
Cuadrado con 2gl.

e) Significación del estadístico de contraste: 0.07

f) Decisión: Se acepta la Hipótesis Nula por ser la significación


del estadístico de contraste superior a la del valor previamente
establecido (alfa= 0.05)

3.4 Friedman

Es una alternativa al análisis intrasujetos cuando:

1) No se dan los supuestos de normalidad y homoscedasticidad.

2) El nivel de medida de las variables es ordinal.


 

b) Hipótesis Nula y Alternativa:

H0: Las distribuciones de las J poblaciones son idénticas.

H1: Las distribuciones de las J poblaciones no son idénticas.

c) Estadístico de contraste:

d) Distribución del estadístico de contraste: Aproxima Ji


Cuadrado con n-1 grados de libertad con muestras grandes
(n>15 o J>4).
 

Ejemplo
Asignamos rangos por filas y sumamos por columnas:

d) Distribución del estadístico de contraste: Específica ya que


las muestras son pequeñas.

e) Significación del estadístico de contraste: De acuerdo a la


tabla de la prueba, el estadístico de contraste es significativo
(alfa=0.05) (el valor crítico para n=3 y J=4 es 7.4),

f) Decisión: Se acepta la Hipótesis Nula.

4 Datos categóricos

El objeto de este apartado es la inferencia con datos


cualitativos, que al ser relativamente fáciles de obtener facilitan
la generación de bases de datos en la práctica profesional. Sin
embargo, la inferencia con estos datos requiere muestras más
grandes que con datos cuantitativos.

Los estadísticos de contraste utilizados en estas pruebas


son z y Ji Cuadrado, que ha sido explicado anteriormente
como estadístico de asociación, y en Estadística Inferencial es
utilizado en pruebas de bondad de ajuste y de contraste de
hipótesis de proporciones. El procedimiento de cálculo del
estadístico Ji Cuadrado es el mismo en todos los casos, salvo
algunas particularidades en la prueba de bondad de ajuste.

https://www.uv.es/webgid/Inferencial/4_datos_categricos.html
Ejercicios de prueba de Independencia. Tabla de Contingencia

En una encuesta pre-electoral realizada a 500 personas se obtuvo la siguiente

Distribución en función de sus edades y de su intención de voto:

18 – 35 35 – 50 50 o más

Edad

Partido

A 10 40 60

B 15 70 90

C 45 60 35

D 30 30 15

Compruebe la hipótesis a un nivel de confianza del 95%

Solución:

Paso 1. Redactar las hipótesis (Nula y Alternativa)


La hipótesis Nula siempre se redacta en términos de independencia:

H0: La intención de voto es Independiente de la edad de las personas.

H1: La intención de voto depende de la edad de las personas.

Paso 2. Determinar los grados de libertad

G.L. = (Filas -1)*(Columnas -1)

G.L.= (4-1)*(3-1) = 6

Paso 3. Determinar el punto Crítico

(GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 6 grados de

libertad por el lateral y en la parte superior de la tabla el nivel de significación de

0,05. (α=1-0,95 = 0,05) encontramos que el valor crítico es.

(6; 0,05) = 12,592


2

Las Filas son horizontales y las

Columnas verticales. Sólo se cuentan las

celdas internas donde están los datos.

(6; 0,05) = 12,592

Prof. Emma C. Argüello D

Paso 4. Calcular las Esperanzas

18 – 35 35 – 50 50 o más Total

Edad

Partido
A 10 40 60 110

B 15 70 90 175

C 45 60 35 140

D 30 30 15 75

Total 100 200 200 500

OE

10 22 6,55

15 35 11,43

45 28 10,32

30 15 15,00

40 44 0,36

70 70 0

60 56 0,29
30 30 0

60 44 5,82

90 70 5,71

35 56 7,88

15 30 7,50

500 500 70,26

Supera al punto crítico (70,26

> 12,592)

Paso 5. Tomar la decisión.

Como el valor del estadístico es mayor que el valor crítico se rechaza la hipótesis

nula con un 95% de confianza o un 5% de significación.

Prof. Emma C. Argüello D

Ejercicio de Bondad de Ajuste


La distribución del número de entrevistas conseguidas por los 56 alumnos que

participaron en el proyecto fue la siguiente:

No. De Entrevistas No. De Alumnos

06

1 16

2 23

39

42

Compruebe la hipótesis a un nivel de significación del 95%

Solución:

Paso 1. Redactar las hipótesis (Nula y Alternativa)

La hipótesis Nula siempre se redacta como una afirmación del patrón esperado:

H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mismo


número de entrevistas.

H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el mismo

número de entrevistas.

Paso 2. Determinar los grados de libertad

G.L.= Clasificaciones -1

G.L.= No. De entrevistas -1

G.L.= 5-1 = 4

Paso 3. Determinar el punto Crítico

(GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grados de

libertad por el lateral y en la parte superior de la tabla el nivel de significación de

0,05. Encontramos que el valor crítico es 9,49


Prof. Emma C. Argüello D

Paso 4. Calcular las Esperanzas

Como el patrón esperado es que todos los estudiantes realicen el mismo número

de entrevistas se calcula un promedio entre las observaciones y el número de

entrevistas.

No. De Entrevistas O E

La sumatoria hasta aquí ya

demuestra que sobrepasa el

punto crítico lo que indica

que se rechaza la H0

0 6 11,2 2,41

1 16 11,2 2,06

2 23 11,2 12,43
3 9 11,2

4 2 11,2

56 56

Paso 5. Tomar la decisión

Se rechaza la hipótesis nula con un 5% de significación.

Prof. Emma C. Argüello D

También podría gustarte