Está en la página 1de 19

Métodos No Paramétricos

Introducción a la estadística no paramétrica

La mayoría de las pruebas de hipótesis analizadas hasta ahora hacen


inferencias respecto a los parámetros de la población, como la media y la
proporción.
Estas pruebas paramétricas usan la estadística paramétrica de muestras que
provinieron de la población que se está probando. Para formular estas pruebas,
hicimos suposiciones restrictivas sobre las poblaciones de las que extraíamos
nuestras muestras.

En cada caso visto en los capítulos 8 y 9, por ejemplo, supusimos que nuestras
muestras eran grandes o provenían de poblaciones con distribución normal.
Pero las poblaciones no siempre son normales. Incluso cuando una prueba de
bondad de ajuste (capítulo 11) indica que una población es aproximadamente
normal, no siempre podemos estar seguros de que es correcto, porque la
prueba no es 100% confiable. Claramente, existen ciertas situaciones en las
que el uso de la curva normal no es apropiado. Para estos casos, requerimos
alternativas a la estadística paramétrica y a las pruebas de hipótesis
específicas que hemos estado utilizando hasta ahora.

Por fortuna, recientemente los estadísticos han desarrollado técnicas útiles que
no hacen suposiciones restrictivas respecto a la forma de las distribuciones de
población. Éstas se conocen como pruebas sin distribución o, más
comúnmente, pruebas no paramétricas. Las hipótesis de una prueba
no paramétrica se refieren a algo distinto del valor de un parámetro de
población.

Existe un gran número de pruebas de este tipo, pero este capítulo examinará
sólo algunas de las más conocidas y más utilizadas:

1. La prueba de signos para datos por pares, en la que los signos positivo o
negativo sustituyen a los valores cuantitativos.

2. Una prueba de suma de rangos, a menudo llamada la prueba U de


Mann-Whitney, que puede usarse para determinar si dos muestras
independientes se sacaron de la misma población. Usa más información
que la prueba de signo.

3. Otra prueba de suma de rangos, la prueba Kruskal-Wallis, que generaliza


el análisis de varianza estudiado en el capítulo 11 para poder prescindir de
la suposición de que las poblaciones tienen distribución normal.

4. La prueba de corridas de una sola muestra, un método para determinar


la aleatoriedad con la que se han seleccionado los elementos muestreados.

5. Correlación de rango, un método para hacer el análisis de correlación


cuando no se dispone de los datos para usar la forma numérica, pero
ESTADISTICA II WISA 2024
cuando la información es suficiente para clasificar los datos como primero,
segundo, tercero, etcétera.

6. La prueba de Kolmogorov-Smirnov, otro método para determinar la


bondad de ajuste entre una muestra observada y una distribución de
probabilidad teórica.

Ventajas de los métodos no paramétricos


Los métodos no paramétricos tienen ciertas ventajas claras sobre los métodos
paramétricos:
1. No requieren la suposición de que una población está distribuida
en forma de curva normal u otra forma específica.

2. Generalmente, es más sencillo realizarlas y entenderlas. La mayor


parte de las pruebas no paramétricas no exigen el tipo de cálculos
laboriosos a menudo necesarios, por ejemplo, para calcular una
desviación estándar. Una prueba no paramétrica nos puede pedir
reemplazar valores numéricos con el orden en el que aparecen en una
lista, como se ha hecho en la tabla 14-1. Obviamente, en términos de
cálculos, manejar 1, 2, 3, 4 y 5 requiere menos esfuerzo que trabajar con
13.33, 76.50, 101.79, 113.45 y 189.42.

3. Algunas veces ni siquiera se requiere un ordenamiento o


clasificación formal. Muchas veces, lo único que podemos hacer es
describir un resultado como “mejor” que otro. Cuando ocurre esto, o
cuando nuestras mediciones no son tan exactas como es necesario para
las pruebas paramétricas, podemos usar métodos no paramétricos.

Desventajas de los métodos no paramétricos


Dos desventajas acompañan al uso de pruebas no paramétricas:
1. Ignoran cierta cantidad de información. Hemos mostrado cómo los
valores 1, 2, 3, 4 y 5 pueden reemplazar a los números 13.33, 76.50,
101.79, 113.45 y 189.42. Sin embargo, si representamos “189.42” por “5”
perdemos información contenida en el valor 189.42. Observe que en
nuestro ordenamiento de los números 13.33, 76.50, 101.79, 113.45 y
189.42, el valor 189.42 puede convertirse en 1,189.42 y seguir siendo el
quinto de la lista o el de mayor valor. Pero si esta lista es un conjunto de
datos, tendremos un conocimiento mayor si sabemos que el valor más alto
es 1,189.42, en vez de 189.42, de lo que sabríamos al representar ambos
números con 5.

2. A menudo no son tan eficientes o “claras” como las pruebas


paramétricas. La estimación de un intervalo a un nivel de confianza del

ESTADISTICA II WISA 2024


95% usando una prueba no paramétrica puede tener el doble de tamaño
que la estimación con una prueba paramétrica como las de los capítulos 8
y 9. Cuando usamos pruebas no paramétricas hacemos un trueque:
perdemos agudeza en la estimación de intervalos, pero ganamos la
posibilidad de usar menos información y calcular con mayor rapidez.

Prueba de signo para datos por pares

Una prueba no paramétrica utilizada comúnmente para tomar decisiones


en relación a diferencias entre poblaciones como contraparte de la
distribución t, la cual requiere el supuesto de normalidad de ambas
poblaciones. La prueba de signos es útil cuando no se cumple este
supuesto.

Se supone que se tienen datos antes y después para una muestra y se


desean comparar estos conjuntos de datos correspondientes. Se hace
restando las observaciones por pares, y se anota el signo algebraico
resultante. No es importante la magnitud de la diferencia, sino solo si
resulta un signo más o un signo menos.

La hipótesis nula establece que no existe diferencia en los conjuntos de


datos. Si esto es cierto, entonces un signo más y un signo menos son
igualmente probables. La probabilidad de que ocurra cualquiera es de
0.50.

Una prueba de dos extremos es:


H0: m = p
H 1: m  p
en donde m y p son los números de signos menos y de signos más,
respectivamente.

Una prueba de un solo extremo es:


H0: m = p
H 1: m > p
o

H0: m = p
H 1: m < p

Una de las pruebas no paramétricas más fáciles es la prueba de signo. Su


nombre se debe a que está basada en la dirección (o signo de más o
menos) de un par de observaciones y no en su magnitud numérica.

EJERCICIO:
Considere el resultado de un panel de prueba de 40 estudiantes de
penúltimo año de universidad que evalúa la efectividad de dos tipos de
ESTADISTICA II WISA 2024
clases: conferencias grandes de profesores de tiempo completo o
secciones pequeñas con ayudantes de posgrado. La tabla 14-2 enumera
las respuestas a esta petición: “Califique la efectividad de transmisión de
conocimientos de estos dos tipos de clases, asignando un número de 4 a
1.

La calificación de 4 es excelente y el 1 es mala.” En este caso, la


prueba
de signo nos puede ayudar a determinar si los estudiantes sienten que hay
una diferencia entre la efectividad de los dos tipos de clases.

1. Clasificación de signos:
+= Los que tienen preferencia por las conferencias grandes
˗ = Los que prefieren las secciones pequeñas

Tipo de 1 2 3 4 5 6 7 8 9 10 11 12 13
clase/Panel
Conferencias 2 1 4 4 3 3 4 2 4 1 3 3 4
grandes
Secciones 3 2 2 3 4 2 2 1 3 1 2 3 4
pequeñas
Signo de ˗ ˗ + + ˗ + + + + 0 + 0 0
calificación

Tipo de 14 15 16 17 18 19 20 21 22 23 24 25 26
clase/Panel
Conferencias 4 4 1 1 2 2 4 4 4 4 3 3 2
grandes
Secciones 4 3 2 3 2 3 3 1 4 3 3 2 2
ESTADISTICA II WISA 2024
pequeñas
Signo de 0 + ˗ ˗ 0 ˗ + + 0 + 0 + 0
calificación

Tipo de 27 28 29 30 31 32 33 34 35 36 37 38 39 40
clase/Panel
Conferencias 3 4 3 4 3 1 4 3 2 2 2 1 3 3
grandes
Secciones 1 1 1 3 2 2 4 4 3 3 1 1 4 2
pequeñas
Signo de + + + + + ˗ 0 ˗ ˗ ˗ + 0 ˗ +
calificación

Conteo de signos:

Signo Conteo n
+ 19
˗ 11 30
0 10
Totale 40
s

+= Representa la preferencia para las conferencias grandes


˗= Representar la preferencia para pequeñas secciones de clases

2. Establecimiento de hipótesis:

Valor hipotetizado o probabilidad de ocurrencia:


PHo= 0.5
QHo= 0.50
a= 0.05

Planteamiento de hipótesis:

Ho= 0.50
H1≠ 0.50
a= 0.05

3. Determinar el tipo de distribución a utilizar:


Proporciones= Distribución binomial
Aproximación de Distribución binomial a distribución Normal:

ESTADISTICA II WISA 2024


(n)(p)≥5 (30)(0.50)= 15
(n)(q)>5 (30)(0.50)= 15
Distribución a utilizar es la distribución normal
4. Determinar la proporción:

P= 19 = 0.63
30

Q= 11 = 0.37
30

5. Calcular el error estándar de la proporción:

Error= √ (0.5)(0.5)/30=0.0912

6. Determinar el nivel de confianza:

NC= 100%˗a
NC= 100%˗5%= 95% Z=1.96
7. Calcular los intervalos de confianza:

LIC= 0.50˗(1.96)(0.0912)=0.322
Lsc=0.50+(1.96)(0.0912)=0.678

8. Graficar:

Áreas
2.5% 2.5%

95%

0.5 P=0.63
0.322
0.678

9. Interpretación:
La proporción de la muestra P=0.63 cae dentro del área de aceptación,
por lo que se acepta la hipótesis nula de que los estudiantes no
perciben diferencias significativa alguna entre los dos tipos de clase.

ESTADISTICA II WISA 2024


Pruebas de suma de rangos: prueba U de Mann-
Whitney y prueba de Kruskal-Wallis
Las pruebas de suma de rangos son una familia completa de pruebas; nos
concentraremos en sólo dos miembros de ella: la prueba U de Mann-Whitney y
la prueba de Kruskal-Wallis.

Usaremos la prueba de Mann-Whitney cuando tengamos sólo dos poblaciones


y la prueba de Kruskal-Wallis cuando se trate de más de dos.

El uso de estas pruebas nos permitirá determinar si las muestras


independientes
se obtuvieron de la misma población (o de distintas poblaciones con la misma
distribución).

El uso de la clasificación de la información en lugar de los signos más y menos


desperdicia menos datos que la prueba de los signos.

Solución de un problema usando la prueba U de Mann-Whitney

Suponga que la junta directiva de una gran universidad estatal del este de
Estados Unidos desea probar la hipótesis de que las calificaciones promedio en
la prueba SAT en dos planteles de la universidad son iguales. La junta
mantiene estadísticas de todos los estudiantes en todos los planteles del
sistema.

Una muestra aleatoria de 15 estudiantes de cada plantel produjo los datos que
se muestran en la tabla 14-3.

Para aplicar la prueba U de Mann-Whitney a este problema, comenzamos por


clasificar las calificaciones en orden ascendente, indicando junto a cada una el
símbolo del plantel:

ESTADISTICA II WISA 2024


1. Clasificar los datos orden ascendente:
2. Asignación de rangos

Dato Rango Plantel Dato Rango Plantel


500 1 S 1,100 18 A
550 2 S 1,120 19 S
600 3 A 1,140 20 S
650 4 S 1,150 21 A
725 5 S 1,200 22 A
750 6 A 1,240 23 S
775 7 A 1,250 24 A
800 8 A 1,300 25 A
830 9 S 1,360 26 S
850 10 A 1,400 27 A
890 11 S 1,500 28 A
900 12 S 1,550 29 S
920 13 S 1,600 30 S
925 14 S
950 15 A
1000 16 A
1,050 17 A

3. Determinar el número de elementos por plantel:

Plantel A n1= 15 R1=247


Plantel S n2= 15 R2= 218

4. Calcular el estadístico U:

ESTADISTICA II WISA 2024


Estadístico U: es la medida de la diferencia entre las observaciones
clasificadas de las dos muestras.

Cálculo del estadístico U

Usando los valores de n1 y n2 y las sumas de rangos R1 y R2, podemos


determinar el estadístico u, una medida de la diferencia entre las observaciones
clasificadas de las dos muestras de calificaciones:

U= (15)(15)+ (15(15+1) ˗247


2
U= 225+120˗247

U= 98 ( Estadístico U)

5. Calcular la media de la distribución muestral de U

µU=(15)(15) = 112.5
2

6. Planteamiento de las hipótesis:

Ho:U1=U2
H1: U1≠U2
a= 0.15

7. Determinar la distribución de muestreo de la estadística U:

Estadístico U puede aproximarse a la distribución normal, si n1 y n2


son mayores que 10.

N1>10 n1= 15>10


N2>10 n2=15>10

ESTADISTICA II WISA 2024


8. Determinar el nivel confianza y calcular el valor critico de Z:

NC= 100%˗a
NC= 100%˗15%
NC= 85%

85% = 42.5% ………….. Z= 1.44


2 colas
9. Calcular el error estándar.

=
√( 15 )( 15 )( 15+15+1 ) = 24.11
12

10. Determinar los intervalos de confianza:

IC= µU+/˗(Error Estandar)(Z)

LIC=112.5˗ (24.11)(1.44)=77.78
LSC= 112.5+(24.11)(1.44)= 147.22

11. Graficar:

Áreas
7.5% 7.5%

85%

98 112.5
77.78
147.22

12. Interpretación:

Vemos que el valor del Estadístico U= 98, cae dentro del área de
aceptación, por tanto, aceptamos la hipótesis nula de que no existe
diferencias entre los planteles muestreados o investigados.

Prueba de Kruskal-Wallis
ESTADISTICA II WISA 2024
La prueba de Kruskal-Wallis es una extensión de la prueba de Mann-Whitney
para casos en que están involucradas más de dos poblaciones. Esta prueba,
también, depende de los rangos de las observaciones de la muestra.

A continuación, definimos los símbolos usados en una prueba de Kruskal-


Wallis:

Nj = número de elementos en la muestra j


Rj = suma de los rangos de todos los elementos en la muestra j
k =número de muestras
n = n1 +n2 + . . . +nk, el número total de observaciones en todas las muestras

Prueba de las hipótesis

La distribución muestral del estadístico K puede aproximarse por una


distribución ji-cuadrada cuando los tamaños de todas las muestras son al
menos 5.

Como nuestro problema satisface esta condición, podemos usar la distribución


ji-cuadrada y la tabla 5 del apéndice para esta prueba.

Ejercicio:

La tabla 14-6 presenta las calificaciones de una muestra de 20 pilotos


estudiantes en su examen escrito de la Agencia Federal de Aviación (AFA),
dispuestas según el método que se empleó en su capacitación: videocasete,
audiocasete o salón de clase.

ESTADISTICA II WISA 2024


La AFA está interesada en evaluar la efectividad de estos tres métodos de
capacitación. Específicamente, desea probar, al nivel de significancia de
0.10, la hipótesis de que las calificaciones medias en el examen escrito de los
pilotos estudiantes capacitados por estos tres métodos son iguales.

Puesto que tenemos más de dos poblaciones involucradas, es pertinente


aplicar la prueba de Kruskal-Wallis en este caso.

1. Ordenar los datos en forma ascendente: y asignar los Rangos

Audio Rango Video Rango Salón Rango


57 3 55 2 50 1
65 4 70 6 68 5
78 9 74 7 77 8
80 10 82 12 81 11
89 16 88 15 83 13
93 19 84 14
R1= 42 R2= 61 91 17
92 18
94 20
R3=107

2. Determinar las muestras y rangos utilizados:

Método Muestras Tamaño Rango Valor


Audio n1 5 R1 42
Video n2 6 R2 61
Salón n3 9 R3 107
n 20

3. Calcular el estadístico K:

ESTADISTICA II WISA 2024


K= 12 . (42)2 +(61)2 + (107)2 ˗ 3(20+1)
20(20+1) 5 6 9

K= 1.143

4. Establecer las hipótesis

Ho:µ1=µ2=µ3(Las poblaciones no presentan diferencias)


H1:µ1≠µ2≠µ3(existen diferencias entre las poblaciones)
a= 0.10

5. Determinar el tipo de distribución a utilizar:

Regla: La distribución de muestreo de la estadística K puede


aproximarse a una distribución Ji cuadrado, cuando el tamaño de
muestra sea al menos 5 (n≥5)

20≥5 (utilizar la distribución Ji Cuadrado)

6. Calcular los grados de libertad y valor critico de tabla:

Kn= Las muestras observadas en la prueba K

df= Kn˗1
df= 3˗1
df= 2 a= 0.10 Valor de tabla: 4.605

7. Graficar:

1.143 4.605

ESTADISTICA II WISA 2024


8. Interpretación:

Aceptamos la hipótesis nula, de que no hay diferencias


significativas en los métodos de capacitación utilizados en
aplicación de exámenes a los pilotos estudiantes.

Prueba de corridas de una sola muestra

Hasta ahora, hemos supuesto que las muestras en los problemas se


seleccionaron aleatoriamente, esto es, se eligieron sin preferencia o sesgo.
¿Qué pasaría si llegara a observar patrones recurrentes en una muestra
elegida por otra persona?
Para permitirnos probar la aleatoriedad del orden de las muestras, los
estadísticos han desarrollado la teoría de corridas.

Una corrida es una secuencia de ocurrencias idénticas precedidas y


seguidas de ocurrencias diferentes o del todo por ninguna.

Una prueba de corridas usaría los siguientes símbolos si tuviera sólo dos tipos
de ocurrencias:

n1= número de ocurrencias del tipo 1


n2 = número de ocurrencias del tipo 2
r = número de corridas

La distribución de muestreo del estadístico r

El número de corridas, r, es un estadístico con su propia distribución de


muestreo especial y su propia prueba. Es obvio que las corridas pueden ser de
diferente longitud y en una muestra pueden ocurrir diversos números de
corridas.

Los estadísticos pueden probar que demasiadas corridas o muy pocas en una
muestra indican que intervino algo más que el azar cuando se seleccionaron
los elementos.

Una prueba de corridas de una sola muestra, entonces, está basada en la


idea de que muy pocas o demasiadas corridas muestran que los elementos no
fueron elegidos aleatoriamente.

Para derivar la media de la distribución de muestreo del estadístico r utilice la


siguiente fórmula:

ESTADISTICA II WISA 2024


El error estándar del estadístico r puede calcularse con esta fórmula de aspecto
formidable:

Prueba de las hipótesis

En la prueba de corridas de una sola muestra, la distribución muestral de r


puede aproximarse de cerca por la distribución normal si n1 o bien n2 es
mayor que 20.

A continuación, se usa la ecuación para estandarizar el estadístico de la


muestra

Una prueba de corridas de una sola muestra

Ejercicio:

Pruebe la aleatoriedad de la siguiente muestra usando un nivel de significancia


de 0.05:

A, B, A, A, A, B, B, A, B, B, A, A, B, A, B, A, A, B, B, B, B, A, B, B,
A, A, A, B, A, B, A, A, B, B, A, B, B, A, A, A, B, B, A, A, B, A, A, A.

1. Identificar cada muestra y numero de corridas:

Ítems Muestras Valor/cada muestra


A N1 26
B N2 22
N 48

ESTADISTICA II WISA 2024


Numero de corridas (r)= 27

2. Calcular la media del estadístico r:

µr= 2(26)(22) + 1
26+22

µr= 24.83

3. Plantear las hipótesis:

Nota: en una prueba de corridas de una sola muestra, no es


conveniente una formulación simbólica de las hipótesis.

Ho= Las ventas están mezcladas aleatoriamente


H1= Las ventas no están mezcladas aleatoriamente
a=0.05

4. Determinar el tipo de distribución a utilizar:

La distribución de muestreo r, se puede aproximar mediante la


distribución normal, si n1 o n2>20

N1= 26 n2= 22>20 distribución normal


5. Determinar el nivel de confianza y valor critico de Z

NC= 100%˗a
NC= 100%˗ 5%
NC= 95% Z= 1.96

6. Calcular el error estándar del estadístico r:

ESTADISTICA II WISA 2024


7. Determinar los intervalos de confianza:

LIC= 24.83˗(3.40)(1.96)=18.17
LSC= 24.83+(3.40)(1.96)=31.49

8. Graficar:

Áreas
2.5% 2.5%

95%

24.83 r=27
18.17 31.49

9. Interpretación:

Aceptamos la hipótesis nula y concluimos que si existe


aleatoriedad en la elección de la muestra.

Correlación de rango

Un coeficiente de correlación de rango. Éste es una medida de la


correlación que existe entre los dos conjuntos de rangos, una medida del grado
de asociación entre las variables que no podríamos calcular de otra manera.

Una segunda razón para aprender el método de correlación de rango es la


posibilidad de simplificar el proceso de cálculo de un coeficiente de correlación

ESTADISTICA II WISA 2024


a partir de un conjunto de datos muy grande para cada una de las dos
variables.

Podemos calcular una medida de asociación basada en los rangos de las


observaciones, no en los valores numéricos de los datos. Esta medición se
conoce como coeficiente de correlación de rango de Spearman, en honor al
estadístico que lo desarrolló a principios del siglo XX.

El coeficiente de correlación de rangos

donde,
• rs = coeficiente de correlación de rangos (observe que el subíndice s, de
Spearman
• n= número de observaciones apareadas
• Ʃ= notación que significa “la suma de”
• d = diferencia entre los rangos para cada pareja de observaciones

Ejercicio:

Calcular un coeficiente de correlación de rangos entre el éxito en la universidad


y el nivel logrado en la compañía 10 años después.

Estudiantes Rango universidad Rango en el (d)2


trabajo
J 4 4 (4˗4)2=0
M 3 3 (3˗3)2= 0
D 1 1 (1˗1)2= 0
S 2 2 (2˗2)2= 0
L 5 5 (5˗5)2= 0

ESTADISTICA II WISA 2024


Ʃd2=0

Rs= 1˗ 6(0)
5((5)2˗1)
Rs= 1˗0

Rs= 1(Correlación perfectamente positiva)


Coeficiente de correlación se puede evaluar de tres formas:

1. Rs= ˗1 (Correlación perfectamente negativa)


2. Rs= 0 (Correlación perfecta)
3. Rs= 1(Correlación perfectamente positiva)

ESTADISTICA II WISA 2024

También podría gustarte