Está en la página 1de 39

Tema 8.

- Introducción a la inferencia no paramétrica

Ø Introducción.

Ø Inferencia no paramétrica para una variable.

Ø Inferencia no paramétrica para dos variables independientes.

Ø Inferencia no paramétrica para dos variables dependientes.

Ø Independencia de dos variables.

Ø Inferencia no paramétrica para varias variables independientes.

Estadística ADE/EE.
En este tema veremos:

Ø Inferencia no paramétrica para una variable.

• Contraste de bondad de ajuste de Kolmogorov-Smirnov.


• Contrastes de posición: Contraste de los rangos signados de Wilcoxon.

Ø Inferencia no paramétrica para dos variables independientes

• Contraste de homogeneidad de Kolmogorov-Smirnov.


• Contraste de la U de Mann-Whitney-Wilcoxon.

Ø Inferencia no paramétrica para dos variables dependientes.

Ø Independencia de dos variables.

• Contraste del coeficiente de la 𝜏 de Kendall.

Ø Inferencia no paramétrica para varias variables independientes.

• Contraste de Kruskal-Wallis.

Estadística ADE/EE.
En inferencia paramétrica se necesita bien suponer que la variable sigue una
distribución normal o bien que los tamaños muestrales sean lo suficientemente
grandes para poder asumir la distribución normal.

En caso de que no se dé ninguna de las dos condiciones anteriores se deben utilizar


procedimientos de inferencia no paramétrica.

En inferencia no paramétrica no es necesario conocer la distribución de la variable.


Los contrastes no son sobre parámetros (son sobre la forma de la distribución, medidas
de posición, aleatoriedad, etc.).

Ventajas de los contrastes no paramétricos:

ü Son simples de resolver, ya que sus expresiones son sencillas.

ü Son rápidos, ya que las operaciones matemáticas necesarias son ordenar, contar,
sumar y restar.

ü Tienen un campo de aplicación muy amplio, ya que las hipótesis necesarias son
muy generales y mucho menos exigentes que las de los contrastes paramétricos.

Su principal desventaja es la pérdida de información (no se trabaja con la magnitud


de la observación, sino con la ordenación de los datos).

Estadística ADE/EE.
Inferencia no paramétrica para una variable

Contraste de bondad de ajuste de Kolmogorov-Smirnov

Este contraste sólo es válido para distribuciones continuas. El contraste es:

𝐻! : Los datos proceden de una distribución 𝐹! 𝐻 : 𝐹 = 𝐹!


"⇔ ! "
𝐻" : Los datos no proceden de 𝐹! 𝐻" : 𝐹 ≠ 𝐹!

Es un contraste alternativo al de la χ2 con la ventaja de que se puede utilizar


cuando el tamaño muestral es pequeño.
Consiste en comparar la distribución empírica obtenida a partir de los datos con
la distribución 𝐹0.
Función de distribución empírica de la muestra
Dada una m.a.s (𝑋1, … 𝑋𝑛) de una v.a. con distribución 𝐹, sea 𝑁(𝑥) el número de
valores muestrales inferiores o iguales a 𝑥. Se define la función de distribución
empírica de la muestra como

𝑁(𝑥)
𝐹# 𝑥 =
𝑛

(proporción de valores muestrales inferiores o iguales a 𝑥)

Estadística ADE/EE.
Ejemplo
Dada la m.a.s. (3, 8, 5, 4, 5), obtener la función de distribución empírica y representarla
gráficamente.

Se ordenan los elementos de la muestra de menor a mayor:

Muestra 𝑁(𝑥) 𝐹5(𝑥) 1


(< 3) 0 0 0.8
3 1 1/5 = 0.2 0.6
4 2 2/5 = 0.4
0.4
5 4 4/5 = 0.8
0.2
8 5 5⁄5 = 1

0 1 2 3 4 5 6 7 8

La función de distribución empírica converge (se aproxima) a la verdadera


distribución de la que procede la muestra (Teorema de Glivenko-Cantelli).

Estadística ADE/EE.
El estadístico del contraste es la mayor de las diferencias en valor absoluto entre la
función de distribución empírica de los datos y la propuesta en la hipótesis nula:

𝐷# = 𝑠𝑢𝑝 𝐹# 𝑥 − 𝐹$ (𝑥) Estadístico de Kolmogorov-Smirnov

Como la función 𝐹𝑛 es escalonada, las diferencias máximas se tienen en los puntos de


salto. Así que 𝐷𝑛 se calcula del siguiente modo:

𝐷# = 𝑚á𝑥 𝐹# 𝑥%&" − 𝐹! (𝑥% ) , 𝐹# 𝑥% − 𝐹! (𝑥% )

Se rechaza la hipótesis nula a nivel 𝛼 para valores grandes del estadístico:

𝐷# > 𝐷#,( , 𝑐𝑜𝑛 𝑃 𝐷# > 𝐷#,( = 𝛼 Los valores 𝐷#,( se


obtienen de tablas

Por tanto la región crítica es

𝑅𝐶 = [𝐷#,( , +∞)

Estadística ADE/EE.
𝐹$ 𝑥
𝐹& 𝑥

𝐹$ 𝑥%

𝐹$ 𝑥% − 𝐹&(𝑥% )
𝐹& 𝑥%
𝐹$ 𝑥%'( − 𝐹&(𝑥% )
𝐹$ 𝑥%'(

𝑥!"# 𝑥!

Estadística ADE/EE.
Ejemplo
Se desea contrastar si la siguiente muestra observaciones se seleccionó o no de una
normal estándar (𝑁(0,1)).
−2.46, −1.23, −0.39, −0.10, −0.02, 0.40, 0.44, 0.82, 1.39, 1.76
Las hipótesis son 𝐻$ : 𝐹 = 𝐹$ = 𝑁(0,1)
3
𝐻# : 𝐹 ≠ 𝐹$ = 𝑁(0,1)
En la siguiente tabla se obtienen los elementos necesarios para resolver el contraste
(hay que ordenar las observaciones de menor a mayor):
𝑖 𝑥% 𝐹(&(𝑥% ) 𝐹(&(𝑥%'() 𝐹&(𝑥% ) 𝐹𝟏𝟎 𝑥% − 𝐹&(𝑥% ) 𝐹𝟏𝟎 𝑥%'𝟏 − 𝐹&(𝑥% )
1 −2.46 0.1 0 0.0069 0.0931 0.0069
2 −1.23 0.2 0.1 0.1093 0.0907 0.0093
3 −0.39 0.3 0.2 0.3483 0.0483 0.1483
4 −0.10 0.4 0.3 0.4602 0.0602 0.1602
5 −0.02 0.5 0.4 0.4920 0.0080 0.0920
6 0.40 0.6 0.5 0.6554 0.0554 0.1554
7 0.44 0.7 0.6 0.6700 0.0300 0.0700
8 0.81 0.8 0.7 0.7910 0.0090 0.0910
9 1.39 0.9 0.8 0.9177 0.0177 0.1177
10 1.76 1.00 0.9 0.9608 0.0392 0.0608

Estadística ADE/EE.
Estadístico del contraste

𝐷"! = 𝑚𝑎𝑥 𝐹"! 𝑥% − 𝐹! (𝑥% ) , 𝐹"! 𝑥%&" − 𝐹! (𝑥% ) = 0.1602

Región crítica

𝑅𝐶 = 𝐷#,( , +∞ = 𝐷"!,!.!* , +∞ = [0.409, +∞)

No se rechaza la hipótesis nula. Podemos concluir que los datos proceden de una
distribución 𝑁(0,1).

Nota:
Para contrastar el ajuste a cualquier otra distribución, se obtendrá el valor de 𝐹! ,
usando la distribución de la variable que corresponda.

Estadística ADE/EE.
Contrastes de posición: Test de los rangos signados de Wilcoxon

Sean

• 𝑋 variable aleatoria continua y simétrica respecto a su mediana M


• (𝑋1, 𝑋2, … , 𝑋𝑛) una muestra aleatoria de tamaño 𝑛 de 𝑋
• 𝑀0 valor hipotético de la mediana.

Los contrastes de hipótesis que vamos a resolver son:

𝐻! : 𝑀 ≤ 𝑀! 𝐻! : 𝑀 ≥ 𝑀! 𝐻! : 𝑀 = 𝑀!
" " "
𝐻" : 𝑀 > 𝑀! 𝐻" : 𝑀 < 𝑀! 𝐻" : 𝑀 ≠ 𝑀!

Calculamos las diferencias

𝑋" − 𝑀! , 𝑋+ −𝑀! , … , 𝑋# −𝑀!

(si 𝑀 = 𝑀0 aproximadamente la mitad de las observaciones estarán a la izquierda del 0)

Estadística ADE/EE.
Para resolver el contraste seguimos los siguientes pasos:

① Ordenamos de menor a mayor el conjunto de las diferencias anteriores en valor


absoluto.

② Asignamos rangos, 𝑅𝑖 , a estas diferencias del 1 al 𝑛 , de forma que a la


diferencia más pequeña le corresponde el rango 1 y a la mayor el rango 𝑛.

Nota: Si hay empates se asigna a todas las coincidencias la media de los


rangos que les corresponderían.
+
③ Se suman por separado los rangos de las diferencias positivas (𝑊 ) y negativas

(𝑊 ). El estadístico de Wilcoxon es

𝑊 = 𝑊,
Si 𝐻0 es cierta (si 𝑀 = 𝑀! ) es lógico que 𝑊 , y 𝑊 & sean iguales (habrá igual
número a un lado que a otro del 0). Si 𝑊 , es grande (𝑊 & pequeño) la mediana
será mayor que 𝑀! y si 𝑊 , es pequeño (𝑊 & grande) la mediana será menor
que 𝑀! .

Estadística ADE/EE.
④ Para el contraste unilateral a la derecha
𝐻! : 𝑀 ≤ 𝑀!
"
𝐻" : 𝑀 > 𝑀!

se rechaza 𝐻! si 𝑊 es grande y la región crítica es

𝑅. 𝐶. = [𝑊#,( , +∞)

siendo 𝛼 el nivel de significación.

Para el contraste unilateral a la izquierda


𝐻! : 𝑀 ≥ 𝑀!
"
𝐻" : 𝑀 < 𝑀!

se rechaza 𝐻! si 𝑊 es pequeño y la región crítica es

𝑅. 𝐶. = (0, 𝑊#,"&( ]

siendo 𝛼 el nivel de significación.

Estadística ADE/EE.
Para el contraste bilateral

𝐻! : 𝑀 = 𝑀!
"
𝐻" : 𝑀 ≠ 𝑀!

se rechaza 𝐻! si 𝑊 es o bien grande o bien pequeño y la región crítica es

𝑅. 𝐶. = [0, 𝑊#,"&(⁄+ ] ∪ [𝑊#,(∕+ , +∞)

siendo 𝛼 el nivel de significación.

Estadística ADE/EE.
Ejemplo
En general, la distancia mediana que alcanzan los lanzadores de peso es de 21
metros. Se está estudiando un nuevo material con el que se cree que puede aumentar
esta distancia. Se anota esta distancia para 10 lanzadores, y los resultados son

24.1 25.8 20.5 20.9 27.3 21.5 20.1 28.9 19.2 26.3

Resolver el problema para un nivel de significación 𝛼 = 0.05

El contraste es 𝐻$ : 𝑀 ≤ 21
3
𝐻# : 𝑀 > 21

𝑥! 24.1 25.8 20.5 20.9 27.3 21.5 20.1 28.9 19.2


𝑥! -21 3.1 4.8 −0.5 −0.1 6.3 0.5 −0.9 7.9 −1.8
𝑥! −21 3.1 4.8 0.5 0.1 6.3 0.5 0.9 7.9 1.8
𝑅! 6 7 2.5 1 9 2.5 4 10 5
Signo + + − − + + − + −

Los valores que corresponderían a los rangos 2 y 3 son los mismos (0.5), deshacemos el
empate asignando a cada uno la media de los rangos, 2.5.

Estadística ADE/EE.
Estadístico del contraste

𝑊 = 𝑊 , = i 𝑅% = 6 + 7 + 9 + 2.5 + 10 + 8 = 42.5
/%0.1!

Región crítica

𝑅. 𝐶. = 𝑊𝑛, 𝛼 , +∞ = 𝑊10,0.05 , +∞ = [44, +∞)

No se rechaza la hipótesis nula.

No hay evidencia suficiente para concluir que el material aumenta la


distancia de los lanzamientos.

Estadística ADE/EE.
Inferencia no paramétrica para dos variables

Contraste de Kolmogorov-Smirnov para dos variables.

Se trata de contrastar mediante dos muestras aleatorias (𝑋1, … , 𝑋𝑚) y (𝑌1, … , 𝑌𝑛) si dos
variables aleatorias siguen la misma distribución; es decir si la variable es homogénea.
Las hipótesis son
𝐻! : 𝐹2 = 𝐹3
"
𝐻" : 𝐹2 ≠ 𝐹3

Se calculan las funciones de distribución empíricas correspondientes a ambas


muestras, 𝐹2,4 (𝑥) y 𝐹3,# (𝑥) y a partir de ellas el estadístico del contraste:

𝐷4,# = 𝑚á𝑥 𝐹2,4 (𝑥) − 𝐹3,# (𝑥)

Se rechazará la hipótesis nula cuando el estadístico tome valores grandes. La región


crítica es

𝑅𝐶 = [𝐷4,#,( , +∞)

Estadística ADE/EE.
Ejemplo
Se observaron 12 niñas y 12 niños de 4 años durante dos sesiones de juegos de 15
minutos. Durante estos dos periodos se cuantificó el juego de cada niñ@ según su
agresividad, dándose los siguientes resultados

Niños: 86 69 72 65 113 65 118 45 141 41 50 104


Niñas: 55 40 22 58 16 7 9 16 26 36 20 15

Contrastar la hipótesis de que hubo diferencias entre los sexos según la cantidad de
agresividad mostrada mediante el test de Kolmogorov-Smirnov.

Se trata de contrastar
𝐻! : 𝐹2 = 𝐹3
"
𝐻" : 𝐹2 ≠ 𝐹3

Estadístico del contraste

𝐷"+,"+ = 𝑚á𝑥 𝐹2,"+ (𝑥) − 𝐹3,"+ (𝑥)

Estadística ADE/EE.
Calculamos el estadístico a partir de la siguiente tabla:
𝐹2,"+ (𝑥) 𝐹3,"+ (𝑥) 𝐹2,"+ 𝑥 𝐹3,"+ (𝑥)
𝑥 𝐹2,"+ (𝑥) − 𝐹3,"+ (𝑥) 𝑥 𝐹2,"+ (𝑥) − 𝐹3,"+ (𝑥)
Niños Niñas Niños Niñas
7 0 1/12 1/12 50 3/12 10/12 7/12
9 0 2/12 2/12 55 3/12 11/12 8/12
15 0 3/12 3/12 58 3/12 1 9/12
16 0 5/12 5/12 65 5/12 1 7/12
20 0 6/12 6/12 69 6/12 1 6/12
22 0 7/12 7/12 72 7/12 1 5/12
26 0 8/12 8/12 86 8/12 1 4/12
36 0 9/12 9/12 104 9/12 1 3/12
40 0 10/12 10/12 113 10/12 1 2/12
41 1/12 10/12 9/12 118 11/12 1 1/12
45 2/12 10/12 8/12 141 1 1 0
#$
Estadístico del contraste 𝐷#%,#% = 𝑚á𝑥 𝐹',#% (𝑥) − 𝐹(,#% (𝑥) =
#%

Estadística ADE/EE.
Región crítica

𝑅𝐶 = 𝐷4,#,( , +∞ = 𝐷"+,"+,!.!* , +∞ = [6 ∕ 12,+∞)

Se rechaza la hipótesis nula. Hay diferencias entre los sexos.

También se puede plantear y resolver los contrastes unilaterales a la izquierda y


a la derecha.

, = 𝑚á𝑥 𝐹
𝐻2 : 𝐹3 ≤ 𝐹4 Estadístico del contraste 𝐷4,# 2,4 (𝑥) − 𝐹3,# (𝑥)
!
𝐻5 : 𝐹3 > 𝐹4 ,
Región crítica 𝑅𝐶 = 𝐷4,#,( , +∞

&
𝐻2 : 𝐹3 ≥ 𝐹4 Estadístico del contraste 𝐷4,# = 𝑚á𝑥 𝐹3,# (𝑥) − 𝐹2,4 (𝑥)
!
𝐻5 : 𝐹3 < 𝐹4 &
Región crítica 𝑅𝐶 = 𝐷4,#,( , +∞

Estadística ADE/EE.
Contraste de U de Mann-Whitney-Wilcoxon – Comparación de medianas
Dadas dos variables aleatorias ordinales o continuas, 𝑋 e 𝑌, y dos m.a.s. (𝑋1, … , 𝑋𝑚) y
(𝑌1, … , 𝑌𝑛) se contrastan las siguientes hipótesis:

𝐻! : 𝑀2 ≤ 𝑀3 𝐻! : 𝑀2 ≥ 𝑀3 𝐻! : 𝑀2 = 𝑀3
" " "
𝐻" : 𝑀2 > 𝑀3 𝐻" : 𝑀2 < 𝑀3 𝐻" : 𝑀2 ≠ 𝑀3
Sean
1 𝑠𝑖 𝑋! < 𝑌)
𝑍!) = D 𝑖 = 1, … 𝑚; 𝑗 = 1, … 𝑛
0 𝑠𝑖 𝑋! > 𝑌)

+
M 𝑍!) = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑌) 𝑞𝑢𝑒 𝑠𝑜𝑛 𝑚𝑎𝑦𝑜𝑟𝑒𝑠 𝑞𝑢𝑒 𝑋!
!*#

Se define el estadístico de Mann-Whitney-Wilcoxon como


4 #

𝑈 = i i 𝑍%6 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑌6 𝑞𝑢𝑒 𝑠𝑜𝑛 𝑚𝑎𝑦𝑜𝑟𝑒𝑠 𝑞𝑢𝑒 𝑐𝑎𝑑𝑎 𝑋%


%5" 65"

𝑈 varía entre 0 (si todos los valores de 𝑋𝑖 son mayores que los 𝑌𝑗) y 𝑚×𝑛 (si todos los
𝑋𝑖 son menores que los 𝑌𝑗).

Estadística ADE/EE.
Ejemplo de cálculo del estadístico

Sean las muestras (𝑋1, … , 𝑋4 ) = (3, 10, 7, 4) y 𝑌1, … , 𝑌# = 8, 6, 5 . (𝑚 = 4, 𝑛 = 3)

Ordenamos de menor a mayor ambas muestras mezcladas:

3 4 5 6 7 8 10
𝑥 𝑥 𝑦 𝑦 𝑥 𝑦 𝑥

Entonces
𝑈 =3+3+1+0=7

𝑈 grande indica que los valores de la segunda muestra tienden a ser más grandes que
los de la primera, rechazamos 𝐻0: 𝑀𝑋 ≥ 𝑀𝑌

Si 𝑈 es pequeño los valores de la primera muestra tienden a ser más grandes que los
de la segunda y se deberá rechazar 𝐻0: 𝑀𝑋 ≤ 𝑀𝑌

Si 𝑈 es grande o pequeño, o los valores de la segunda muestra tienden a ser más


grandes que los de la primera o los valores de la primera muestra tienden a ser más
grandes que los de la segunda se deberá rechazar 𝐻0: 𝑀𝑋 = 𝑀𝑌

Estadística ADE/EE.
Para el contraste unilateral a la derecha:

𝐻! : 𝑀2 ≤ 𝑀3
"
𝐻" : 𝑀2 > 𝑀3

la región crítica es
𝑅𝐶 = (−∞, 𝑈4,#,"&( ]

Para el contraste unilateral a la izquierda

𝐻! : 𝑀2 ≥ 𝑀3
"
𝐻" : 𝑀2 < 𝑀3

la región crítica es

𝑅𝐶 = [𝑈4,#,( , +∞)

Para el contraste bilateral


𝐻! : 𝑀2 = 𝑀3
"
𝐻" : 𝑀2 ≠ 𝑀3

la región crítica es
𝑅𝐶 = (−∞, 𝑈4,#,"&(∕+ ] ∪ [𝑈4,#,(∕+ , +∞)

Estadística ADE/EE.
Ejemplo
Se quiere averiguar si el número de horas que dedican los estudiantes a estudiar las
asignaturas de Economía Española y Estadística son las mismas. Los datos son los
siguientes:
Economía Española (𝑋) Estadística (𝑌)
10 13
6 17
8 14
10 12
12 10
13 9
11 15
9 16
5 11
11

El contraste es
𝐻! : 𝑀2 = 𝑀3
"
𝐻" : 𝑀2 ≠ 𝑀3

Estadística ADE/EE.
Estadístico del contraste

𝑚 = 10, 𝑛 = 9, 𝛼 = 0.1

6 6 8 9 9 10 10 10 11 11 11 12 12 13 13 14 15 16 17
𝑥 𝑥 𝑥 𝑥 𝑦 𝑥 𝑥 𝑦 𝑥 𝑥 𝑦 𝑥 𝑦 𝑥 𝑦 𝑦 𝑦 𝑦 𝑦

𝑈 = 9 + 9 + 9 + 8 + 7 + 7 + 6 + 6 + 5 + 4 = 70

Región crítica

En la tabla correspondiente obtenemos

𝑈"!,7,!.!* = 65
⇒ 𝑅. 𝐶. = 0,25 ∪ [65, +∞)
𝑈"!,7,!.7* = 𝑚 w 𝑛 − 𝑈"!,7,!.!* = 10 w 9 − 65 = 25

Como el valor de U es mayor que 65, se rechaza la hipótesis nula. El número de


horas de estudio dedicadas a Estadística es superior al número de horas de
estudio dedicadas a Economía Española.

Estadística ADE/EE.
Inferencia no paramétrica para dos variables dependientes
El problema del contraste en muestras apareadas se resuelve de forma similar a como
se hizo en el caso paramétrico; es decir trabajando con la muestra obtenida como la
diferencia entre las muestras de ambas poblaciones. Posteriormente utilizaremos el
contraste de los rangos signados de Wilcoxon para resolver el problema.

Ejemplo
Un fabricante de alubias precocinadas está considerando una nueva receta para la
salsa utilizada en su producto. Elige una muestra aleatoria de 8 individuos y a cada uno
de ellos le pide que valore en una escala de 1 a 10 el sabor del producto original y el
del nuevo producto. Los resultados son

Individuo 1 2 3 4 5 6 7 8
Producto Original (𝑋) 6 4 5 8 3 6 7 5
Producto Nuevo (𝑌) 8 9 4 7 9 9 7 9

Queremos determinar si el nuevo producto es preferido al original; es decir

𝐻! : 𝑀8 ≥ 0 (𝑀9 ≥ 𝑀: )
", 𝐷 =𝑋−𝑌
𝐻" : 𝑀8 < 0 (𝑀9 < 𝑀: )

Estadística ADE/EE.
Estadístico del contraste
Individuo 1 2 3 4 5 6 7 8
Producto Original (𝑋) 6 4 5 8 3 6 7 5
Producto Nuevo (𝑌) 8 9 4 7 9 9 7 9
𝑑% −2 −5 1 1 −6 −3 0 −4
𝑑% − 0 2 5 1 1 6 3 0 4
Rango 3 6 1.5 1.5 7 4 5
Signo − − + + − − −

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑟𝑎𝑛𝑔𝑜𝑠 𝑑𝑒
𝑊 = 𝑊, = = 1.5 + 1.5 = 3
𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 > 0
Región crítica
En la tabla obtenemos que para 𝑛 = 7 y 𝛼 = 0.05 es 𝑊;,!.!* = 24. Entonces,

𝑛 w (𝑛 + 1) 7w8
𝑊;,!.7* = − 𝑊;,!.!* = − 24 = 28 − 24 = 4 ⇒ 𝑅. 𝐶. = 0, 𝑊#,"&( = (0,4]
2 2

Como el valor del estadístico es menor que 4, se rechaza la hipótesis nula. Los
consumidores prefieren el nuevo producto.

Estadística ADE/EE.
Independencia entre dos variables
Contraste del coeficiente de correlación τ de Kendall
El coeficiente de la 𝜏 de Kendall mide la asociación entre dos variables ordinales o
continuas.

El interés se centrará en la ordenación de los pares de casos entre las variables, ya


que se pretende saber si el conocimiento de la ordenación de los casos de una
variable es útil para la predicción de la ordenación de los casos de la otra. Si es así
habrá asociación entre las variables.

Sean (𝑥1, … , 𝑥𝑛) e (𝑦1, … , 𝑦𝑛) las observaciones correspondientes a dos variables X e Y.
La asociación es positiva (pares concordantes, 𝑁< ) cuando

𝑥% < 𝑥6 𝑦 𝑦% < 𝑦6
ó
𝑥% > 𝑥6 𝑦 𝑦% > 𝑦6

La asociación es negativa (pares discordantes, 𝑁8 ) cuando

𝑥% < 𝑥6 𝑦 𝑦% > 𝑦6
ó
𝑥% > 𝑥6 𝑦 𝑦% < 𝑦6

Estadística ADE/EE.
El numero total de parejas que se pueden formar con las observaciones es

𝑛 𝑛(𝑛 − 1)
𝑁𝑃 = =
2 2

Vemos como calcular el número de pares concordantes, 𝑁𝐶 , (asociación positiva) y


el número de pares discordantes, 𝑁𝐷 , (asociación negativa) mediante un ejemplo.

Ejemplo
Se tiene una muestra de parejas de jóvenes con la siguiente distribución de alturas

Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Mujer 72 60 76 62 63 46 68 71 61 65

El número total de pares que se pueden formar es

𝑛(𝑛 − 1) 10 w 9
𝑁𝑃 = = = 45
2 2

Estadística ADE/EE.
Obtención del número de pares concordantes, NC:
Se asigna a cada observación de cada muestra (por separado) el rango
correspondiente

Pareja 1 2 3 4 5 6 7 8 9 10
Hombre 80 70 73 72 62 65 74 71 63 64
Rango 10 5 8 7 1 4 9 6 2 3
Mujer 72 60 76 62 63 46 68 71 61 65
Rango 9 2 10 4 5 1 7 8 3 6

Se ordena la muestra por pares según los rangos de la primera muestra

(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)

Y contamos los pares concordantes. Las pares discordantes se calculan de forma


análoga.

Estadística ADE/EE.
(1,5) (2,3) (3,6) (4,1) (5,2) (6,8) (7,4) (8,10) (9,7) (10,9)

Para (1,5) − + − − + − + + += 5 Para (6,8) − + − += 2

Para (2,3) + − − + + + ++= 6 Para (7,4) + ++= 3

Para (3,6) − − + − + ++= 4 Para (8,10) − −= 0

Para 4,1 + + + + + += 6 Para (9,7) += 1

Para (5,2) + + + ++= 5

Luego
𝑁𝐶 = 5 + 6 + 4 + 6 + 5 + 2 + 3 + 0 + 1 = 32

𝑁8 = 4 + 2 + 3 + 2 + 2 = 13

Estadística ADE/EE.
Contraste
𝐻0: 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
"
𝐻1: 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠

El coeficiente de correlación de la 𝜏 de Kendall es


El coeficiente 𝜏 toma valores entre −1 y 1. Valores
𝑁- − 𝑁. 32 − 13 próximos a 0 indican baja dependencia y próximos
𝜏= = = 0.42 a 1 y −1 alta dependencia positiva (1) o negativa
𝑁𝑃 45
(-1).

Estadístico del contraste 𝑆 = 𝑁< − 𝑁8

Región crítica 𝑅𝐶 = −∞, −𝑆#,(⁄+ ∪ [𝑆#,(⁄+ , +∞)

Para el ejemplo:
𝑆 = 𝑁< − 𝑁8 = 32 − 13 = 19

De las tablas correspondientes obtenemos

𝑅𝐶 = −∞, −𝑆"!,!.!+* ∪ 𝑆"!,!.!+* , +∞ = −∞, 21 ∪ [21, +∞)

No se rechaza la hipótesis de independencia. Las alturas entre los hombres y mujeres que
forman cada pareja son independientes.

Estadística ADE/EE.
Inferencia no paramétrica para varias variables: Contraste de Kruskall-Wallis

Es una alternativa al procedimiento ANOVA para el caso en que no se cumpla la


hipótesis de normalidad y los tamaños muestrales sean pequeños para alguna de las
variables. Las hipótesis que se contrastan son

𝐻0: 𝐿𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑛𝑎𝑠 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠


3
𝐻1: 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑝𝑎𝑟 𝑑𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

El procedimiento es el siguiente:

① Ordenar de menor a mayor los datos combinados de todas las variables mezclados.

② Asignar rangos a la muestra combinada. Cuando haya empates se asigna la media


de los rangos que les corresponderían si no hubiese empates.

③ Calcular la suma total de rangos por población, 𝑅𝑖

Estadística ADE/EE.
④ Obtener el número de grupos de datos empatados, 𝑚

⑤ Calcular

𝐿𝑖 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑚𝑝𝑎𝑡𝑎𝑑𝑎𝑠 𝑝𝑎𝑟𝑎 𝑐𝑎𝑑𝑎 𝑔𝑟𝑢𝑝𝑜 𝑑𝑒 𝑒𝑚𝑝𝑎𝑡𝑒𝑠.

⑥ Calcular el estadístico de Kruskall-Wallis, dado por:

>
1 12 𝑅%+
𝐻= i − 3(𝑛 + 1)
𝐿 𝑛(𝑛 + 1) 𝑛%
%5"
donde
𝑘 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑒𝑠
𝑛% = 𝑡𝑎𝑚𝑎ñ𝑜 𝑚𝑢𝑒𝑠𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑖
𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑡𝑜𝑡𝑎𝑙: 𝑛 = 𝑛" + ⋯ + 𝑛>
y
4
1
𝐿 =1− ? i 𝐿?% − 𝐿%
𝑛 −𝑛
%5"

El estadístico H es una medida de la variabilidad de los rangos, 𝑅𝑖 , y sigue una


+
distribución 𝜒>&"

+
La región crítica es 𝑅𝐶 = [𝜒>&",( , +∞)

Estadística ADE/EE.
Comparaciones múltiples

Cuando en el test de Kruskall-Wallis se rechaza la hipótesis nula hay que buscar


dónde se encuentran las diferencias.

Se resolverán los siguientes contrastes:

𝐻! : 𝑀% = 𝑀6
" para todo i ≠ 𝑗; 𝑖, 𝑗 = 1, … 𝑘
𝐻" : 𝑀% ≠ 𝑀6

Estadístico de cada contraste


𝑅% 𝑅6
𝑛% − 𝑛6
𝑇%6 =
𝑛(𝑛 + 1) 1 1
𝐿 12 𝑛% + 𝑛6

Región crítica (común a todos los contrastes)

𝑅𝐶 = [𝑍(∕@ , +∞),

donde 𝑐 es el número de comparaciones (número de contrastes).

Estadística ADE/EE.
Ejemplo
Una compañía quiere comparar cinco estrategias de venta diferentes en sus tiendas.
Aplica a cada tienda una estrategia distinta durante un mes. Los datos corresponden
a las ventas mensuales en cada establecimiento en miles de euros.

Tienda Ventas Mensuales


1 1.53 1.61 3.75 2.89 3.26
2 3.15 3.89 3.59 1.89 1.45 1.56
3 3.89 3.68 5.70 5.62 5.79 5.33
4 8.18 5.64 7.36 5.33 8.82 5.26 7.10
5 5.86 5.46 5.69 6.49 7.81 9.03 7.49

Tienda Rangos 𝑛% 𝑅% 𝑅%+ ∕ 𝑛%


1 2 4 11 6 8 5 31 192.2 𝑚=2
2 7 12.5 9 5 1 3 6 37.5 234.4 𝐿" = 2
𝐿+ = 2
3 12.5 10 21 18 22 15.5 6 99 1633
4 29 19 26 15.5 30 14 25 7 158.5 3566
5 23 17 20 24 28 31 27 7 170 4219
Totales 31 9754

Estadística ADE/EE.
Calculamos el valor de 𝐿: 𝑚 = 2, 𝐿" = 2 , 𝐿+ = 2
4
1 1 12
𝐿 =1− ? i 𝐿?% − 𝐿% = 1 − ? 2? − 2 + 2? − 2 =1− = 0.9996
𝑛 −𝑛 31 − 31 29760
%5"

/
𝑅!%
Estadístico del contraste M = 9754
𝑛!
!*#

>
1 12 𝑅%+ 1 12
𝐻= i − 3(𝑛 + 1) = 9754 − 3 w 32 = 22
𝐿 𝑛(𝑛 + 1) 𝑛% 0.9996 31 w 32
%5"

Región crítica

+ +
𝑅𝐶 = 𝜒>&",( , +∞ = 𝜒A,!.!* , +∞ = 9.487, +∞

Se rechaza la hipótesis nula. Hay diferencias entre las distintas estrategias de


venta. Con las distintas estrategias de venta se producen diferentes resultados.

Estadística ADE/EE.
𝛼
Comparaciones múltiples Nº de comparaciones 𝑐 = 10 ⇒ 𝛼 = 0.05 ⇒ = 0.005
𝑐
𝑅% 𝑅6
𝑛% − 𝑛6 Tienda 𝑛% 1 ∕ 𝑛% 𝑅% 𝑅% ∕ 𝑛%
𝑇%6 =
1 5 0,2 31 6,2
𝑛(𝑛 + 1) 1 1
𝐿 12 𝑛% + 𝑛6 2 6 0,1667 37.5 6,25
57.!7 3 6 0,1667 99 16,5
4 7 0,1429 158.5 22,643
Comparación Estadístico Conclusión 5 7 0,1429 170 24,286
𝐻! : 𝑀" = 𝑀+ 0.0091 No significativo
𝐻! : 𝑀" = 𝑀? 1.8712 No significativo
𝐻! : 𝑀" = 𝑀A 3.0892 Significativo
𝐻! : 𝑀" = 𝑀* 3.3978 Significativo 𝐸# 𝐸% 𝐸0 𝐸1 𝐸2
𝐻! : 𝑀+ = 𝑀? 1.9530 No significativo
𝐻! : 𝑀+ = 𝑀A 3.2414 Significativo
𝐻! : 𝑀+ = 𝑀* 3.5662 Significativo No hay ninguna estrategia
𝐻! : 𝑀? = 𝑀A 1.2146 No significativo de venta que sea mejor ni
𝐻! : 𝑀? = 𝑀* 1.5395 No significativo peor que las demás.
𝐻! : 𝑀A = 𝑀* 0.3381 No significativo

𝑅𝐶 = 𝑧(⁄@ , +∞ = 𝑧!.!!* , +∞ = [2.58, +∞)

Estadística ADE/EE.
Contrastes no paramétricos para una variable

Contraste Hipótesis nula Estadístico del Contraste Región Crítica


Kolmogorov-
Smirnov
H 0 : FX = F0 {
Dn = máx Fn (x(i−1) ) − F0 (x(i) ) , Fn (x(i) ) − F0 (x(i) ) } [Dn,α ,+∞)

Test de los H0 : M = M 0 (0,Wn,1−α /2 ] [Wn,α /2 ,+∞)


rangos W = suma de los rangos correspondientes a las
H0 : M ≤ M 0 [Wn,α ,+∞)
signados de diferencias !! – $" positivas
Wilcoxon H0 : M ≥ M 0 (0,Wn,1−α ]

Contrastes no paramétricos para dos variables

Contraste Hipótesis nula Estadístico del Contraste Región Crítica


Kolmogorov-
Smirnov
H 0 : FX = FY {
Dm,n = máx FX ,m (x) − FY ,n (x) } [Dm,n,α ,+∞)

Test de la !!: #" = ## (0,U m,n,1−α /2 ]  [U m,n,α /2 ,+∞)


! de Mann- ! = Número de valores $! , … , $" que
!!: #" ≥ ## son mayores que cada uno de los [U m,n,α ,+∞)
Whitney-
'! , … , '#
Wilcoxon) !!: #" ≤ ## (0,U m,n,1−α ]
Test de la t de
Kendall !H 0 : !Las!variables!son!independientes ( = )* − ), (−∞,−S n,α /2 ] [S n,α /2 ,+∞)

Estadística ADE/EE.
Contrastes no paramétricos para varias variables

Contraste Hipótesis nula Estadístico del Contraste Región Crítica


1 ⎛ 12 k
R2

H= ⎜ ∑ i
L ⎝ n(n + 1) i=1 ni
− 3(n + 1)⎟

Contraste de [ χ 2 ,+∞)
H 0 : M1 = M 2 = ... = M k 1 m 3
Kruskal-Wallis
∑ (L − Li )
k−1,α
L = 1− 3
n − n i=1 i

Ri R j

Comparaciones ni n j ⎛ ⎞
H 0 : M i = M j ; i, j = 1,…,k T= [Zα /C ,+∞); C = ⎜ k ⎟
Múltiples ⎝ 2 ⎠
n(n + 1) 1 1
L +
12 ni n j

Estadística ADE/EE.

También podría gustarte